(04.16)
マイクロソフトは、Microsoft Translatorアプリや Skype翻訳(Skype Translator)など、 Microsoft Translator を活用したすべてのアプリとサービスにおいて、日本語をテキスト翻訳および音声翻訳の双方が可能な10番目のサポート言語として追加した。この新機能により、日本を訪れる観光客、そして、観光やビジネスで海外を旅行する日本の人々にとって、言語の壁を取り除く総合的なサービスとソリューションが提供されることになる。
ここ数年間、日本を訪れる観光客の数は着々と増加しており、今後数年間に数々の世界的なスポーツイベントが開催され、その数はさらに増加するだろう。それにともない、日本と海外のコミュニケーション機会も当然、増加していくはず。こうした状況を支援するため、マイクロソフトは、数年前にAIによる日本語の音声認識と機械翻訳への投資を行なうことを決定している。
今回の発表により、日本語を話す人々は既にサポートされている9言語(アラビア語、中国語<マンダリン>、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、ロシア語)を話す人々と、リアルタイムに対話ができるようになる。
具体的には以下の機能がユーザー、開発者、企業に対して提供される。
・Microsoft Translator アプリ(Windows、Android、iOS版)の Microsoft Translatorライブ機能を活用して、自分のデバイスやブラウザ上で、対面型のリアルタイムの翻訳が可能になる。
・Skype for WindowsとSkype Preview for Windows 10で提供される Skype翻訳(Skype Translator)の機能により、他のSkypeユーザーや電話 (SkypeOut の購入が必要)を通して、自分の言語と他言語をリアルタイムに翻訳した通話を行なうことができる。
・開発者は、Azureで提供される Cognitive Services APIファミリーであるMicrosoft Translator APIを自身のアプリやサービスに統合できる。
・新たにリリースされた Microsoft Translator PowerPoint アドイン (プレビュー版) により、PowerPointからTranslatorのライブ機能を直接使用することで、リアルタイムでプレゼンテーションに字幕を付けることができる。
具体的には以下の機能がユーザー、開発者、企業に対して提供される。
・Microsoft Translator アプリ(Windows、Android、iOS版)の Microsoft Translatorライブ機能を活用して、自分のデバイスやブラウザ上で、対面型のリアルタイムの翻訳が可能になる。
・Skype for WindowsとSkype Preview for Windows 10で提供される Skype翻訳(Skype Translator)の機能により、他のSkypeユーザーや電話 (SkypeOut の購入が必要)を通して、自分の言語と他言語をリアルタイムに翻訳した通話を行なうことができる。
・開発者は、Azureで提供される Cognitive Services APIファミリーであるMicrosoft Translator APIを自身のアプリやサービスに統合できる。
・新たにリリースされた Microsoft Translator PowerPoint アドイン (プレビュー版) により、PowerPointからTranslatorのライブ機能を直接使用することで、リアルタイムでプレゼンテーションに字幕を付けることができる。
■Microsoft Translator ライブ機能は動画でチェック
音声翻訳は、単純に音声認識エンジンを翻訳エンジンに接続するよりもはるかに複雑だ。マイクロソフトは、2014年12月にSkype翻訳(Skype Translator) を提供開始し、2015年にMicrosoft Translator API とアプリを提供開始したが、新しい言語の追加には、特定の追加作業が必要だった。
音声翻訳は、マイクロソフトの独自技術 TrueText によって音声認識用と機械翻訳用の 2 つの異なるタイプの AI を組み合わせることで実現。TrueText は認識された音声を機械翻訳で翻訳可能な形で変換する。
以下の図で示したように、音声はまずマイクロソフトの世界最高レベルの音声認識ニューラルネットワークシステムへと送られる。このシステムは、人間の自然な対話を扱えるよう設計されており、人間がコンピューターに音声で命令を与えるような単純なシステムではない。
この最初のステップでは、自然言語の専門家が「ディスフルエンシ(disfluencies)」と呼ぶものを含んだテキストが生成される。ディスフルエンシとは、我々が話すときに(多くは無意識のうちに)繰り返し発生しているつなぎ言葉であり、日本語では「えーと」、英語では ”um” などの言い淀みに相当する。TrueText は、このようなディスフルエンシを削除し、完全な文章に必要な文頭や特定名詞の大文字化や、句読点の追加を行ない、翻訳ステージでの適切な処理を可能にしていく。
次に、TrueText の出力が機械学習による 2番目のAI 機能に送られ、完全な文章の文脈を利用し、より流暢で人間らしく聞こえる翻訳が行なわれる。最後のステップで、テキスト読み上げ機能がこのテキストを音声に変換する。
この最初のステップでは、自然言語の専門家が「ディスフルエンシ(disfluencies)」と呼ぶものを含んだテキストが生成される。ディスフルエンシとは、我々が話すときに(多くは無意識のうちに)繰り返し発生しているつなぎ言葉であり、日本語では「えーと」、英語では ”um” などの言い淀みに相当する。TrueText は、このようなディスフルエンシを削除し、完全な文章に必要な文頭や特定名詞の大文字化や、句読点の追加を行ない、翻訳ステージでの適切な処理を可能にしていく。
次に、TrueText の出力が機械学習による 2番目のAI 機能に送られ、完全な文章の文脈を利用し、より流暢で人間らしく聞こえる翻訳が行なわれる。最後のステップで、テキスト読み上げ機能がこのテキストを音声に変換する。
関連情報
文/編集部
0 コメント:
コメントを投稿