By per egevad
Googleが提供している「Google翻訳」は2016年で本格提供開始から10周年を迎えています。膨大な量のデータからなるコーパスをもとに翻訳を行ってきたのですが、2016年9月からは一部の言語で翻訳アルゴリズムを変更し、人工知能「ニューラルネットワーク」を用いることで、より人間に近い自然言語処理が行える「Google Neural Machine Translation (GNMT)」を導入しています。
そんな進化したGoogle翻訳では、どうやら人工知能(AI)が独自の翻訳方法を編み出しているようです。AIは翻訳の際に用いる「中間言語」のようなものを独自で内部に作り、まだ学習していないはずの言語の組み合わせでも一定の翻訳を行う能力「Zero-Shot Translation」を身に付けていることが発表されています。
Research Blog: Zero-Shot Translation with Google’s Multilingual Neural Machine Translation System
https://research.googleblog.com/2016/11/zero-shot-translation-with-googles.html
GNMTではディープラーニングを用いて膨大なコーパスをもとに翻訳を学習し、複数の言語にわたってより自然な翻訳を行うことを可能にしています。この学習の際は、ある言語から別の言語への翻訳が学習されることになっていますが、当然のことながら、まだ学習していない言語の組み合わせについては何の準備もできていないものと考えられます。しかし、Google翻訳のAIを開発する研究者が発表した論文によるとAIは学習の中で独自に言語を処理するための「中間言語(interlingua)」を作りだしているとみられます。この中間言語は単語同士を1対1で結びつけるものではなく、より抽象的な概念に近い情報を保持するものとみられています。
実際にAIが「英語」「日本語」「韓国語」の翻訳で行ったのは以下のようなもの。まず、AIに対して英語(左)から韓国語(右)への翻訳を学習させます。
次に、反対の韓国語から英語への翻訳を学習。これで英韓の言語が学習されました。
そして次に英日の翻訳を学習。まずは英→日の翻訳を学習し……
同様に、日→英を学習。
ここでGoogleのAI研究者は「日本語と韓国語の翻訳もできるのでは」と考えました。そして実際に翻訳させてみると、精度は落ちるものの、それなりの(reasonableな)翻訳を行うことに成功したとのこと。
これまでのGoogle翻訳であれば、英語以外のある言語から別の言語に翻訳する場合には一度英語を介して翻訳を行う仕組みになっていたとのこと。いわば、英語が従来の「中間言語」となっていたわけですが、GNMTでは英語を介さない「Zero-Shot Translation」が行われていることになります。
もちろん、2言語間で両方向の翻訳が可能だったとのこと。
この出来事は、翻訳システムを考える上で非常に大きな出来事ということができそう。これまでの機械翻訳では中心となる何らかの言語が存在していたのですが、GNMTはその中心となる言語を英語でも日本語でも、韓国語でもない「何か」として内部で保持しているものと考えられています。
その様子を示しているのが以下の図。(a)は言語論的に同一である日英韓3言語の文章74例を学習させて得られた概念を可視化したもので、3言語で同じ内容の文章がぞれぞれの色で色分けされた「クラスター」で表示されています。(b)で抜き出した部分は「The stratosphere extends from about 10km to about 50km in altitude.」(成層圏は、高度10kmから50kmの範囲にあります)という文章に対する3言語のクラスターを抜き出したもので、さらにそのクラスターを言語別に色分けしたものが(c)です。
上の図からは、GNMTのAIはそれぞれの言語の単語や文章が持つ意味や概念をそれぞれに近しい場所に存在していると認識していることが読み取れます。実際にどのような形式でこの仕組みが実現されているのかはまだわかっていない部分が多いようですが、AIの翻訳能力は、これまでよりもずっと人間の脳に近いものになってきていると考えることができそうです。
発表された論文は、以下のリンクから参照することができます。
[1611.04558] Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation
https://arxiv.org/abs/1611.04558
0 コメント:
コメントを投稿