音声注釈(多言語:日本語/韓国語/ロシア語/フランス語/スペイン語/ドイツ語/アラビア語/ポルトガル語/イタリア語、タイ語/ベトナム語/ヒンディー語)
Fixed price
中級者レベル
仕事内容
プロジェクト概要
このプロジェクトは、音声コンテンツデータの収集と注釈付けを含みます。契約当事者が音声コンテンツデータと注釈プラットフォームを提供します。主な目的は、データが特定のフォーマットとコンテンツのガイドラインを満たすように適切に注釈付けされることを確保することです。
技術要件
データタイプ1
音声コンテンツ要件:
上記の音声コンテンツデータと注釈プラットフォームは契約当事者によって提供されます。
音声コンテンツはポルノ、暴力、薬物、テロリズム、カルト、反政府的な発言などの不適切なコンテンツを含んではなりません。合成音声データは禁止されています。
テキスト注釈ルール:
A. テキスト:
各有効な音声セグメント内の単語は一貫している必要があり、文の始まりは大文字で始めます。
余分な文字、欠落した文字、または不正確な文字があってはなりません。
スペースは対象言語のルールに従って使用し、大文字と小文字の正しい使用に従う必要があります。
B. セグメンテーション:
各有効な音声セグメントは120文字を超えないようにしてください。
各有効な音声セグメントは15秒以内とし、文の意味は比較的完全であるべきです。
C. 無効な時間タグ:
• NOISE:非音声ノイズを示します。1秒以上のセグメントは切り取り、このラベルでタグ付けする必要があります。
• DEAF:聞き取れない人間の発話を示します。
• OVERLAP:複数の人による同時発話を示します(混合読み上げ、不明瞭な発話、または書き起こせないコンテンツなど)。注意:複数の人が話していて、主要な話者のコンテンツが理解できる場合は、主要な話者のデータにタグを付けます。
• OOV:大量の非対象言語コンテンツ(中国語、英語など)を示します。
D. 句読点:
• コンマ、ピリオド、疑問符、感嘆符などの句読点は、意味と文法のルールに従って追加する必要があります。対象言語で必要な引用符、アクセント記号、またはその他の発音記号を省略しないでください。
E. 単語使用の規範:
• 数字:数字は一般的に使用されるアラビア数字で書かれるべきです(例:「六十八」は68と書かれるべき)。
• 一般的な発音記号:@、*、&、%などの記号は、その記号形式で書く必要があります(例:「5パーセント」は5%と書かれるべき)。
• 一般的な単位:°C、kg、km、$などの単位は、その記号形式で書く必要があります(例:「50キログラム」は50 kgと書かれるべき)。
F. 英語注釈ルール:
英単語:文内に現れる英単語は正確な英語形式で記述されるべきです(最大3単語まで)。2つの英単語の間にはスペースを入れるべきです。例:「Thank you.」
大文字小文字:英語の言語規範に従って正しく大文字小文字を使用する必要があります。
o 略語:VIP、MBA、NHK、TBC。
o 固有名詞:KFC、Minecraft、YouTube。
無意味な文字の連続:無意味な文字の連続は、各文字の間にスペースを入れて大文字で書かれるべきです。例:A D C F E。
データタイプ2
音声コンテンツ要件:
上記の音声コンテンツデータと注釈プラットフォームは契約当事者によって提供されます。
音声コンテンツはポルノ、暴力、薬物、テロリズム、カルト、反政府的な発言などの不適切なコンテンツを含んではなりません。合成音声データは禁止されています。
テキスト注釈ルール:
A. 注釈:
混合言語の音声の場合、英語と対象言語のデータのみを注釈する必要があります。中国語データはセグメント化し、適切にタグ付けする必要があります。
複数の人が同時に話し、主要な話者が理解できる場合は、主要な話者のコンテンツのみを注釈する必要があります。
B. テキスト:
各有効な音声セグメントは単語の発音と一致している必要があり、文の始まりは大文字で始めます。
余分な文字、欠落した文字、または不正確な文字があってはなりません。
スペースは言語のルールに従って使用し、要求される言語に従って大文字と小文字を正しく使用する必要があります。
C. セグメンテーション:
各有効な音声セグメントは120文字を超えないようにしてください。
各有効な音声セグメントは15秒以内とし、文の意味は比較的完全であるべきです。
各有効な音声セグメントは1つの言語のみを含むべきです。異なる言語のコンテンツは別々のセグメントに分割し、対応する言語ラベルでタグ付けする必要があります。
注意:対象言語セグメントに少数の英単語(3語以下)が含まれている場合は、セグメンテーションせずに通常どおり注釈を付けることができます。
D. 有効な時間タグ:
• JA:日本語データを示します。
• KO:韓国語データを示します。
• RU:ロシア語データを示します。
• FR:フランス語データを示します。
• ES:スペイン語データを示します。
• DE:ドイツ語データを示します。
• AR:アラビア語データを示します。
E. 無効な時間タグ:
• PT:ポルトガル語データを示します。
• TH:タイ語データを示します。
• VI:ベトナム語データを示します。
• ID:インドネシア語データを示します。
• EN:英語データを示します。
• OOV:中国語、英語などの非対象言語データを示します。
• OOV-CN:中国語データを示します。
F. 句読点:
• コンマ、ピリオド、疑問符、感嘆符などの句読点は、対象言語の文法ルールに従って追加する必要があります。対象言語で必要な引用符、アクセント記号、またはその他の発音記号を省略しないでください。
G. 単語使用の規範:
• 数字:数字は一般的に使用されるアラビア数字で書かれるべきです(例:「六十八」は68と書かれるべき)。
• 一般的な発音記号:@、*、&、%などの記号は、その記号形式で書く必要があります(例:「5パーセント」は5%と書かれるべき)。
• 一般的な単位:°C、kg、km、$などの単位は、その記号形式で書く必要があります(例:「50キログラム」は50 kgと書かれるべき)。
このプロジェクトは、音声コンテンツデータの収集と注釈付けを含みます。契約当事者が音声コンテンツデータと注釈プラットフォームを提供します。主な目的は、データが特定のフォーマットとコンテンツのガイドラインを満たすように適切に注釈付けされることを確保することです。
技術要件
データタイプ1
音声コンテンツ要件:
上記の音声コンテンツデータと注釈プラットフォームは契約当事者によって提供されます。
音声コンテンツはポルノ、暴力、薬物、テロリズム、カルト、反政府的な発言などの不適切なコンテンツを含んではなりません。合成音声データは禁止されています。
テキスト注釈ルール:
A. テキスト:
各有効な音声セグメント内の単語は一貫している必要があり、文の始まりは大文字で始めます。
余分な文字、欠落した文字、または不正確な文字があってはなりません。
スペースは対象言語のルールに従って使用し、大文字と小文字の正しい使用に従う必要があります。
B. セグメンテーション:
各有効な音声セグメントは120文字を超えないようにしてください。
各有効な音声セグメントは15秒以内とし、文の意味は比較的完全であるべきです。
C. 無効な時間タグ:
• NOISE:非音声ノイズを示します。1秒以上のセグメントは切り取り、このラベルでタグ付けする必要があります。
• DEAF:聞き取れない人間の発話を示します。
• OVERLAP:複数の人による同時発話を示します(混合読み上げ、不明瞭な発話、または書き起こせないコンテンツなど)。注意:複数の人が話していて、主要な話者のコンテンツが理解できる場合は、主要な話者のデータにタグを付けます。
• OOV:大量の非対象言語コンテンツ(中国語、英語など)を示します。
D. 句読点:
• コンマ、ピリオド、疑問符、感嘆符などの句読点は、意味と文法のルールに従って追加する必要があります。対象言語で必要な引用符、アクセント記号、またはその他の発音記号を省略しないでください。
E. 単語使用の規範:
• 数字:数字は一般的に使用されるアラビア数字で書かれるべきです(例:「六十八」は68と書かれるべき)。
• 一般的な発音記号:@、*、&、%などの記号は、その記号形式で書く必要があります(例:「5パーセント」は5%と書かれるべき)。
• 一般的な単位:°C、kg、km、$などの単位は、その記号形式で書く必要があります(例:「50キログラム」は50 kgと書かれるべき)。
F. 英語注釈ルール:
英単語:文内に現れる英単語は正確な英語形式で記述されるべきです(最大3単語まで)。2つの英単語の間にはスペースを入れるべきです。例:「Thank you.」
大文字小文字:英語の言語規範に従って正しく大文字小文字を使用する必要があります。
o 略語:VIP、MBA、NHK、TBC。
o 固有名詞:KFC、Minecraft、YouTube。
無意味な文字の連続:無意味な文字の連続は、各文字の間にスペースを入れて大文字で書かれるべきです。例:A D C F E。
データタイプ2
音声コンテンツ要件:
上記の音声コンテンツデータと注釈プラットフォームは契約当事者によって提供されます。
音声コンテンツはポルノ、暴力、薬物、テロリズム、カルト、反政府的な発言などの不適切なコンテンツを含んではなりません。合成音声データは禁止されています。
テキスト注釈ルール:
A. 注釈:
混合言語の音声の場合、英語と対象言語のデータのみを注釈する必要があります。中国語データはセグメント化し、適切にタグ付けする必要があります。
複数の人が同時に話し、主要な話者が理解できる場合は、主要な話者のコンテンツのみを注釈する必要があります。
B. テキスト:
各有効な音声セグメントは単語の発音と一致している必要があり、文の始まりは大文字で始めます。
余分な文字、欠落した文字、または不正確な文字があってはなりません。
スペースは言語のルールに従って使用し、要求される言語に従って大文字と小文字を正しく使用する必要があります。
C. セグメンテーション:
各有効な音声セグメントは120文字を超えないようにしてください。
各有効な音声セグメントは15秒以内とし、文の意味は比較的完全であるべきです。
各有効な音声セグメントは1つの言語のみを含むべきです。異なる言語のコンテンツは別々のセグメントに分割し、対応する言語ラベルでタグ付けする必要があります。
注意:対象言語セグメントに少数の英単語(3語以下)が含まれている場合は、セグメンテーションせずに通常どおり注釈を付けることができます。
D. 有効な時間タグ:
• JA:日本語データを示します。
• KO:韓国語データを示します。
• RU:ロシア語データを示します。
• FR:フランス語データを示します。
• ES:スペイン語データを示します。
• DE:ドイツ語データを示します。
• AR:アラビア語データを示します。
E. 無効な時間タグ:
• PT:ポルトガル語データを示します。
• TH:タイ語データを示します。
• VI:ベトナム語データを示します。
• ID:インドネシア語データを示します。
• EN:英語データを示します。
• OOV:中国語、英語などの非対象言語データを示します。
• OOV-CN:中国語データを示します。
F. 句読点:
• コンマ、ピリオド、疑問符、感嘆符などの句読点は、対象言語の文法ルールに従って追加する必要があります。対象言語で必要な引用符、アクセント記号、またはその他の発音記号を省略しないでください。
G. 単語使用の規範:
• 数字:数字は一般的に使用されるアラビア数字で書かれるべきです(例:「六十八」は68と書かれるべき)。
• 一般的な発音記号:@、*、&、%などの記号は、その記号形式で書く必要があります(例:「5パーセント」は5%と書かれるべき)。
• 一般的な単位:°C、kg、km、$などの単位は、その記号形式で書く必要があります(例:「50キログラム」は50 kgと書かれるべき)。
必要スキル
校正
一般文字起こし
仕事の詳細
- 仕事タイプ Fixed price
- 経験レベル 中級者レベル
- クライアントの場所 China
- 支払い確認済み
- 支出額 $4K+
似ている仕事
同じスキルや経験レベルを必要とする他の仕事を探す