各種イノベーション・新発明・新技術など - 1162819896

299：とはずがたり：2016/02/15(月) 12:45:31: 　中国では、国家公務員や教員に採用されるためには、標準的な中国語を話せることが必要条件であり、そのための試験がある。年間１００万人以上が受験するとも言われる標準中国語のスピーキングテストの音声データを集めることを中国政府は決定した。そのビッグデータを元に、標準的な中国語を話せるか否かを判定するための音声認識器を開発したのが、ｉＦＬＹＴＥＫである。

　このビッグデータを背景にｉＦＬＹＴＥＫは音声認識精度を年々上げ、音声認識の世界的ベンチマークで１位を獲得。今や中国のスマートフォンの７割にｉＦＬＹＴＥＫの音声認識技術が搭載され、大学入試の英語スピーキングテストの採点にも乗り出している。“中国版東ロボ”の狙いもこのあたりにありそうだ。

　しかも、中国のビッグデータにはアメリカにはない優れた点がある。

　データというのはただやみくもに集めるだけでは、どうしてもゴミが混じる。ゴミが混じれば、機械の精度は下がる。機械は、有用なデータとゴミデータを見分けることができず、どちらも同じように学習してしまうからである。

　どうするか。中国はなんと人海戦術を使って、悪いデータをピッキングして取り除くなどの前処理をすることによって、一段と精度を上げたのである。いまや、人工知能の一級の国際会議にもっとも論文を通しているのはアメリカではない。中国なのだ。

ビッグデータが集まらない日本

　さらに日本には不利なことが起こった。それは２０１２年に花開いた深層学習（ディープ・ラーニング）である。深層学習も機械学習のひとつだが、従来の手法以上にデータ量を要求するのである。深層学習を使ってＧｏｏｇｌｅが作ったシステムが、人間からの明示的な働きかけなしに猫が写っている写真を識別したことから、「概念を獲得するコンピューターへの一歩ではないか」という人工知能研究者も日本では少なくない。

　マーケット至上主義のアメリカ。そして、政府が号令をかければ好きなだけデータを集められ、人海戦術でそれをクリーニングできる中国。振り返れば、日本はスマートメーターの情報共有すら遅々として進まないお寒い状況である。

　アメリカと中国、そして老獪ろうかいな外交官のように振る舞うヨーロッパに囲まれて、たった１億２千万人しか話さない日本語を母語とする日本の研究者が、人工知能研究で何をし得るか。どうやってＧＤＰ（国内総生産）に貢献できるのか。研究者であれば、誰もが同じことを悩んでいることだろう。

　悩んだ末に私がひねり出したアイデアが、サイズは小さくてもゴミがない質の良いデータ、例えば教科書や過去の試験問題から深く知識を読み取り、問題を解決する人工知能という枠組みだった。日本は世界でも類を見ない丁寧な大学入試試験を実施している国である。アメリカのＳＡＴは同じ問題を繰り返し使うが、日本では過去に出題された問題を再度使うことは決してない。

　日本人は、それが当たり前だと思っているけれど、各大学が個別の筆記試験を課すような入試をしているのは、先進国の中では日本だけなのである。過去２０年のすべての日本の大学の入試問題とすべての教科書会社の教科書を集めても、ビッグデータと呼べるようなデータ量には程遠い。でも、だからこそ日本の要素技術が光るプロジェクトになり得るのではないか。そう考えてスタートしたのが「東ロボ」だった。

　だが、「東ロボ」もいつまでも日本の専売特許というわけにはいかなかった。中国という巨大な競争相手が出現したのである。考えてみれば、日本以上に大学入試熱が高いのだから、中国が大学入試をターゲットにした人工知能に関心を持つのは当然のことである。