中間言語
論文「Google’s Multilingual Neural Machine Translation System:Enabling Zero-Shot Translation」(https://arxiv.org/pdf/1611.04558v1.pdf)によれば、Google翻訳(GNMT)は、「中間言語(interlingua)」を介して原文を解釈し、訳文を生成していると考えられるようです。 私たち人間は、例えば「isu」という音声または「椅子」という文字を、頭の中にある「椅子」の概念と結びつけて理解します。中間言語は、この概念に近いものだと想像されます。これまでの(人工知能を使用しない)機械翻訳は、「椅子」がどういうものかを理解しないまま、「椅子」=「chair」というラベルの貼り替えと並べ替えを行うだけのものであったと考えられます。GNMTが「椅子」や「chair」をどれくらいのレベルで理解しているかは、まだ不明ですが、人間の脳に近付いていることは確かなようです。 これまでの機械翻訳では、日英、英中などの言語対毎に辞書が必要でした。しかし、中間言語を使用することで、例えば、日中および日英の翻訳を学習すれば、その学習が中英にも応用されますので、対応する言語数が増えるほど、言語対毎の学習より、中間言語を使用した学習の方が効率的であると考えられます。
日本人が英語と中国語を勉強すれば、アメリカ人と中国人の間に立って通訳を行うことができます。この日本人は、日本語/英語と日本語/中国語を別個に学習したわけですが、中国語/英語の勉強は不要であることは言うまでもありません。また、このような通訳を行う際に、この日本人は、いちいち、英語を日本語にし、更に日本語を中国語に訳す、といった作業を行うわけではなく、英語を理解して、理解した英語に基づいて中国語を生成していると思われます。このような通訳が可能な理由は、人間の脳内に日本語や英語といった自然言語とは異なる抽象的な概念や文法が存在しているからであると考えられ、GNMTの中間言語は、それに近いものであると考えられます。(おそらく世界一有名な言語学者であるチョムスキーは、全ての人間の脳内に、共通の「普遍文法」が存在する、という説を唱えています。GNMTは、この「普遍文法」の獲得に向かっているのかもしれません。)