米OpenAIの大規模言語モデル(LLM)・GPT-4は今、世界を大きく塗り替え続けている技術の一つだ。世界各国の企業がこぞってLLMの開発を進めている。特にGAFAなどの巨大企業は、その膨大な資源を使ってすでにいくつものLLMを世に放っている。
そんな中、日本では理化学研究所と富士通、東京工業大学、東北大学が、スーパーコンピュータ「富岳」を使ったLLMの研究を今まさに進めている。学習手法の研究からデータの法的な扱いまで幅広く検討し、日本のLLM開発の基盤を作るのが目的だ。
深層学習といえば、今ではGPUを使うのが一般的になっている。しかし富岳はそのGPUを搭載していない。日本にはGPU搭載スパコンも存在するのに、なぜ富岳を使ってLLMを研究するのか。
今回は富士通研究所・コンピューティング研究所の中島耕太所長と白幡晃一さんに、富岳を使ったLLM研究について、その意義を聞いた。富岳は確かにハイスペックなスーパーコンピュータだ。しかし、LLM研究における活用には、それだけでないもっと“現実的な理由”があった。
●やりたいのは10の23乗規模の計算 それができるのは?
LLMの学習には大量の計算が必要になる。では、具体的には何回以上計算すればいいのか。これには一つの答えがあるという。
その数字が「10の23乗FLOPs」だ。富岳をはじめとするスーパーコンピュータの性能を示すとき「このスパコンの計算速度は○○FLOPsです」のようにいうことがあるが、今回の「FLOPs」は計算速度ではなく計算量を示す単位のこと。平易に書くなら「10の23乗回」となる。10の23乗は日本語でいうと「1000垓」。1兆の1000億倍のことだ。
中島さんによると、過去の研究の中でLLMには不思議な性質が見つかっているという。LLMの学習を進めていると、しばらくはあまり派手な性能向上が見られないのだが、ある時点でなぜか急に能力が跳ね上がり、それまでできていなかったような処理をできるようになる──それが10の23乗FLOPsだ。
つまり、LLMを開発するならスーパーコンピュータに1000垓回分の計算をさせることが一つの目標になる。
「この“急に”ということはある程度重要で、小さな計算量では意味がないということを逆に示している。米OpenAIのLLMのパラメーター数を見てみると、これまでにずいぶんと増えている。賢さを得るために相当に計算量を増やしているのは間違いない」(中島さん)
●GPUスパコンがあるのに非GPUスパコンの富岳を使う意味
一方で、1000垓規模の計算をするにあたっては、富岳以外の選択肢もある。一般的に深層学習に向いているとされるGPUを搭載したスーパーコンピュータとしては、産業技術総合研究所が構築・運用する「ABCIシステム」が日本最大とされてきた。搭載されているGPUの計算処理性能も富岳のCPUを超えている。
富士通研究所の白幡さんによると、ABCIシステムを完全に貸し切って10日ほど計算させれば、1000垓規模の計算をすることも「技術的には可能」(白幡さん)という。
しかし、現実的にはそうもいかない。ABCIシステムはさまざまな組織が共用しているものであり、長時間貸切ることが難しい。性能は高いが占有できないという“現実”がハードルになっている。
対して富岳は、各CPUの処理性能を見るとABCIシステムのGPUの17.75分の1程度。しかし、現実的に使えるリソースの規模を考慮すると1000垓規模の計算を実現できるのは日本で富岳だけになるという。
●この1年を無駄にしないための富岳 「勝負の年」
LLMの研究分野は非常に流れが速く、短期間でどんどん更新されてしまう。それも富岳でLLMを研究する意味の一つという。
「24年度以降になれば、また使えるサービスも増えてくるため、それも活用するべきだと思うが、それは未来の話。LLMの研究は半年前と今では状況が全く違う。1年間放っておくわけにはいかない。23年度がある意味勝負と考えている。23年度でどこまでできるかが24年度につながっていく」(白幡さん)
今はさくらインターネットが8月上旬にクラウドサービス「さくらのクラウド」で、AI開発・研究向けの新プラン「コア専有プラン(AMD EPYC 7003 Series Processor)」を公開している。同社はGPUクラウドサービスへの投資計画を前倒しで進めるとも発表しており、24年度には確かにLLM研究基盤がさらに充実しそうだ。
しかし、それを待っていてはその間に諸外国と差をつけられてしまうかもしれない。その穴を埋めてくれるのが富岳なのだ。
研究チームは計算処理の高速化をはじめ、学習方法を模索していく。開発したLLMは最終的にGitHubやHugging Faceで公開するが、モデルの制作が最終目標なのではない。学習ノウハウという基盤を作ることが目標といえる。それがさくらインターネットなどが公開していく計算資源を上手に使うときにも役立っていくかもしれない。