AIに多様性を　国産生成AI開発の意義を開発者に聞く

4/20(土) 6:55

2022年11月のChatGPT公開以降、AIの話題を目にすることが多くなりました。日本語に特化した国産生成AIを開発している、国立研究開発法人情報通信研究機構（NICT）の鳥澤健太郎フェローにその意義を聞きました。（社会部・内田慧）

〜生成AIという技術について〜

ChatGPTが公開される以前から、生成AIというものはありました。前身のGPT-3という生成AIも2020年に公開されて、それが賢いので研究者は皆、驚いていたわけです。ただ、法的な問題がありますし、類似のサービスには公開された途端、ヘイトスピーチ的なものを出力して、サービス停止に追い込まれたという事例もあり、リスクが高い技術だなというふうに思っていました。

私たちも当時、WEB情報を使って音声で対話をするシステムを作っていたのですが、開発の初期段階では結構きわどいことを言ったりすることもあったりして、いろんなリスクは実感しており、生成AIを作っても国内企業は使ってくれないだろうというふうに思っていたわけです。

さらには、当時は、ヘイトスピーチみたいなものを100%出ないように工夫することができるかどうかはわからなかったので、メジャーな技術になるかわからないと思っていましたが、万が一ブレイクしたら、それなりに追随できるように基礎研究はしていました。

〜ChatGPT公開について感じたこと〜

これは別の意味でリスクが非常に大きいとみていました。あっという間に1億人と話をしちゃうわけですから、人間の政治家や思想家などの影響力を大きく上回ることもあり得るわけで、悪用されたら大変なことになるわけです。

実際、フリーの生成AIが変なことを言うようにチューニングされて、悪用されているというような報道も最近出ていたと思いますが、そういうこともあるだろうと思っていましたし、日本のことをよく思っていない集団が、生成AIを使って日本社会になにか攻撃を仕掛けてくるということもあるだろうと想像していました。

OpenAIなどは、生成AIのチューニング作業で弁護士や専門家を雇って出力に問題ないか確認していったということも聞いていますが、これも相当大変な作業だろうと思いました。

一方で、生成AIのもたらすメリットというのも当然あるだろうと思っていました。事務作業が楽になるというようなことだけじゃなくて、画期的なアイデアを生成AIが考えるなど、社会を根幹から変えてしまうような大きなイノベーションは起きるだろうなと思っていました。

実際、我々は複数のLLMを組み合わせて斬新なアイデアを出力することを目指したシステムの開発もしていて、その出力で私自身の考え方が変わるといった経験も何度もしています。

＝＝＝＝＝＝＝＝

ChatGPTのような文章生成AIの頭脳となる大規模言語モデル（LLM）、鳥澤フェローはこの開発を行ってきた。LLMは巨大なニューラルネットワークというソフトウエアである。ニューラルネットワークとは脳を模した計算の仕組みであり、一つ一つは単純な計算しかしないニューロンと呼ばれる脳細胞を模した小さな計算機がたくさん集まったものだと考えていただければ良い。ニューロンは他の多くのニューロンとあらかじめ結ばれた「配線」を介して信号のやり取りをするが、配線ごとに信号の強さを調整する「重み」がついている。この重みのことをパラメーターと呼ぶが、このパラメーターが多ければ多いほど賢くなると言われている。OpenAIのGPT-3のパラメーターは1750億、GPT-4は1兆以上と言われている。

＝＝＝＝＝＝＝＝＝

〜日本語に特化した国産生成AI〜

我々は最大で3110億パラメーターのモデルまで作っていますが、現状、まだまだChatGPTにはかないません。パラメーター数は大きくなってきていますが、学習データが少ないためです。ただ、一方で我々はこれまで日本語のWEBデータを15年ほど集めてきており、600億ページ以上という大量のWEBデータを蓄積済みです。

OpenAIも最初はアメリカの非営利団体のデータを使っていましたが、我々が集めた日本語600億ページというのは、その非営利団体のデータの日本語データに比べて5倍の量になります。

後でお話しするように、我々は、今後、大量の日本語で学習した国産の生成AIがないといろいろ困ったことが起きると考えているのですが、我々のデータはその国産生成AIの学習データとして必要不可欠だと考えています。

〜ChatGPTなど海外の生成AIとどのような違いが出てくるのか〜

ChatGPTとどのような違いが出るかですが、ChatGPTって実は日本語をほんの少ししか学習していないんです。それであんなに賢く質問に答えられるのはどういうことかというと、英語とか他の言語の情報を、うまいこと使っているようなんですね。なので、ChatGPTの出力っていうのは、必ずしも日本語で書かれた日本の価値観を反映してるとは考えにくいわけです。

一方で、我々は日本の価値観だとか文化だとかをよりストレートに反映したモデルをまず作りたいなと思っています。例えば、海外のLLMが日本人の我々としては違和感のあることを言った場合に、日本語をたっぷり学習した国産のLLMが日本の価値観に従って代案を出したり、海外のLLMに反論していくといったことが必要でしょう。

東京電力福島第一原発事故の後の海産物の事例などを見ればわかると思うのですが、きちんと日本の価値観を学習したLLMが海外のLLMに反論をするといったことができなければ、経済的なものも含めて日本へのダメージにつながるといったこともあり得るでしょう。

一方で、日本語特化型のLLMとは別に多言語、英語とか韓国語とか中国語とか、いろんな言語を学習したモデルもいずれは作りたいなとは思っています。ですが、まずは我々が大量に蓄積している日本語データを使って、日本語に特化したものを作ってみて、その経験を踏まえて多言語のモデルの開発に行った方が特色のあるものができるのではないかと考えています。

また、現状、国内外を問わずいろんな組織、企業が多言語のモデルを作ろうとしています。なので、他のモデルとの差別化という意味でも、日本語に特化するというのは面白いんじゃないでしょうか。

例えば今、インバウンドで海外の方々が日本に来て喜んでおられるじゃないですか。それは彼らからすると、日本の文化っていうのが面白いからだと思うんですね。なので、日本語特化型のLLMであっても、機械翻訳を使えば他の言語で使えるようにできるので、海外の人がその日本語特化型LLMを使うことで、何か得られるメリットもあるでしょう。

〜フェイクニュースのカウンターに〜

生成AIでフェイクニュースはいくらでも作れます。一方で、フェイクニュースっぽい怪しい情報を片っ端から削除していくと誤って人間発の情報も削除してしまう可能性があって、言論統制になってしまう。

そうならないようにするには、カウンター、反論となる情報発信をするしかないわけで、本当は人間が反論するのが一番いいのでしょうが、ChatGPTが短期間で1億人と直接対話をしたことからもわかるように、生成AIは膨大な数のフェイクニュースを作る能力があります。なので、とてもじゃないが人間では反論が追いつかないという世界がいずれ来るでしょう。

そうなってくると、いわば「正義の味方の生成AI」が自動で反論するしかないという状況になるでしょう。もっとも「正義の味方の生成AI」も一つしかないと、それが間違ったことを言ったときに大変なことになってしまいますので、多数の「おおむね正義の味方の生成AI」が必要になると思います。それらが互いに議論している様子を人間が見て、最終的に何が正しいかを判断するといったことも必要になるんじゃないでしょうか？

〜AIに多様性を〜

この世界に賢い生成AIがごく少数しかなくて、皆がそれらを使って、それらの言うことを聞くという状況は良くないなと思っています。多様な生成AIがあって、それぞれ違うことを言う世界の方が、良いだろうと。

先ほども言ったように、生成AIのどれかがおかしなことを言っても、他の生成AIが訂正するといったこともあるでしょう。また、生成AIを使ってなんらかのアイデア出しをするにしても、多様な生成AIがあった方が、より多様なアイデアが得られるでしょう。さらには、それらの多様な生成AIが互いに議論をすることで、より深くて多様なアイデアが出てくる可能性もあると思います。

そうした世界の方が世界全体でイノベーションが増え、今人類が抱えているいろんな問題の解決につながる可能性も高まるんじゃないでしょうか？

日本製のAIが、日本人は多分こういうふうに考える、その理由はこれこれです、みたいなことを海外に向けて言ってくれるとすれば、日本人への世界の理解がより深まるでしょう。これはどの国でも同じなので、それぞれの国がそれぞれの生成AIを持っていて、例えば外国の人がその国の人に直接聞きにくいことでも、その国の生成AIに聞けばわかるというようなことになれば、国同士の相互理解ももっと進むんじゃないでしょうか？

（第2部では大規模言語モデルとは何か、そして人材獲得・開発競争について話を聞きます）