言語の冗長性とAI
「中間言語」の稿で書きましたように、Google翻訳(GNMT)は、中間言語を使用して翻訳を行っているようです。したがって、GNMTの翻訳は、原文を解釈する解釈段階と、訳文を生成する生成段階の2段階の作業を行っていると想像されます。したがって、GNMTの誤訳は、解釈段階のエラーと、生成段階のエラーとに分けて検討する必要がありそうです。 このGNMTのエラーは、前稿で検討した「言語の冗長性」に関係があると考えられます。前稿に書きましたとおり、日本語(文章語)やドイツ語は、英語に比べて冗長性が高いと考えられます。冗長性が高いことは、情報量が多いことを意味し、これは、AIが文を解釈するうえでプラスに働くと予想されます。構文解釈の手掛かりとなる要素が多いほど、解釈段階でのエラーが発生し難いというわけです。逆に、文法が単純化された英語など、冗長性が低い言語では、構文解釈の段階でエラーが発生しやすくなると予想されます。
中国語は、文法構造が極めてシンプルですが、その一方で、中国語は、機械翻訳が難しい言語としても知られていました。文法構造がシンプルであることは、冗長性が低いことを意味し、このために、中国語では、致命的な解釈エラーが生じやすいと考えることができます。(例えば、中国語では、1つの単語が名詞にも動詞にもなり、両者が同じ形態で出現するために、誤読が生じやすい。英語でも同様に名詞と動詞が同形であるが故の問題が生じやすい。) また、「言語の冗長性」に書きましたように、冗長性の高さによって、語順などの自由度も高まるため、ある意味を表す文のバリエーション(候補)も増加します。「彼が屏風に絵を描く」、「彼が絵を屏風に描く」、「屏風に彼が絵を描く」のように語順が入れ替えられた文は、完全に等しいわけではなく、文脈によって最も自然と考えられる文が存在するわけで、このような判断は、現段階のAIには難しいようです。逆に、冗長性が低く、したがって、自由度が低い言語では、「正しそうな」文の候補も少なくなるため、AIの負担も小さくなります。日本人が自然な英語を書けるようになることより、アメリカ人が自然な日本語を書けるようになることの方が困難だろうと予想されますが、AIにも同様のことが言えそうです。 これまでの仮説が正しいとすれば、日本語(文章語)は、AIにとって、「解釈+、生成-」であり、英語は、「解釈-、生成+」であると考えることができます(+は、比較的容易、-は、比較的困難を意味します)。日本語→英語の翻訳では、解釈段階と生成段階が共に+になるため、優秀な出力を得やすいのだと考えられます。