はじめに
東京工業大学が理化学研究所のスーパーコンピュータ「富岳」を用いて学習した日本語能力に優れた大規模言語モデル[用語1]「Fugaku-LLM」を2024年5月10日に公開した。
日本語に特化したLLMを日本が構築し他国と渡り合っていくためのいいニュースに感じます。
この記事の内容が濃くてどこも削るところがないくらいなので詳しく知りたい方はリンクを以下に貼っておくのでアクセスしてください。
ソースURL:スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 日本語能力に長け、研究・ビジネス利用にも期待 | 東工大ニュース | 東京工業大学 (titech.ac.jp)
概要
東京工業大学 学術国際情報センターの横田理央教授の研究チームと東北大学 大学院情報科学研究科の坂口慶祐准教授、富士通株式会社 人工知能研究所の白幡晃一シニアプロジェクトディレクター、理化学研究所 のMohamed Wahib(モハメド・ワヒブ)チームリーダー、名古屋大学 大学院工学研究科の西口浩司准教授、株式会社サイバーエージェント AI事業本部AI Labの佐々木翔大リサーチサイエンティスト、Kotoba Technologies Inc. の小島熙之CEOは、理化学研究所のスーパーコンピュータ「富岳」を用いて学習した日本語能力に優れた大規模言語モデル[用語1]「Fugaku-LLM」を2024年5月10日に公開した。
背景
近年、米国を中心に大規模言語モデル(LLM)の開発が活発に行われ、研究開発、経済社会、安全保障などあらゆる場面において大きな変革が起きている。米国以外の国々においても、自国でLLMを開発するために莫大な人的資源や計算資源を投入している。日本においても、AI研究のための計算資源として、日本のスーパーコンピュータのフラッグシップシステムである「富岳」に寄せられる期待は大きく、「富岳」における大規模な分散並列計算を実施するための環境整備が求められていた。
こで、東京工業大学、東北大学、富士通、理化学研究所は、2023年5月より大規模言語モデルの共同研究開発を開始し、2023年8月からは、名古屋大学、サイバーエージェント、Kotoba Technologiesが参加した。
現状、米国が先を行っているLLM開発に遅れを取らないために研究チームが組まれ日本独自のLLMを日本の最高の性能を誇る「富岳」を使って作成されているのがすごくいいと思いました。
内容と研究成果
Fugaku-LLMの概要
今回、深層学習フレームワークを「富岳」に移植してTransformer[用語2]の性能を「富岳」上で最適化するとともに、並列分散学習手法を開発し適用することで、「富岳」を用いて大規模言語モデルの学習を行う際の演算速度を6倍[参考文献1と比較]に高速化した。さらに、「富岳」向けにTofuインターコネクトD[用語3]上での集団通信の最適化を行うことにより、通信速度を3倍[参考文献2と比較]高速化することに成功した。これにより「富岳」のCPUを用いて、現実的な時間内で大規模言語モデルを学習することが可能になった。
Fugaku-LLMの学習内容
Fugaku-LLMは国内で多く開発されている70億パラメータ[用語4]より一般に高性能、かつ現在の計算機環境下で扱いやすい130億パラメータのモデルとなっている。今回の学習では、サイバーエージェントが収集した独自の日本語学習データと英語のデータなどを用いているため、透明性と安全性を確保しつつ日本語性能にも優れている。国産かつ独自のデータで学習を行っているオープンなモデルの中では日本語ベンチマークJapanese MT-Bench[用語5]で最高性能を達成し、特に人文社会系のタスクでは高いベンチマーク性能を発揮する。
「富岳」の13,824台の計算ノードを用いて、約4,000億トークンを学習したが、学習データの約60%が日本語コンテンツであり、その他英語、数学、コードと組み合わせて学習した。
富岳を使う理由
通常、大規模言語モデルの学習にはGPU[用語8]が用いられるが、大規模言語モデルの学習のために世界中でGPU不足が起きており、最新のGPUを大量に入手することは困難となっている。そのような中、GPUではなく富士通製の国産CPUを中央演算処理装置とした「富岳」を用いて大規模言語モデルを学習できたことは、日本の半導体技術の活用や、経済安全保障の観点からも重要な成果である。
GPU不足で日本への供給が困難な状態からCPUを使ってもLLMを作成できることに可能性を感じました。GPUだけでなくても作成できるという選択肢があるというのがとても印象的です。
Fugaku-LLMを利用
現在、研究者やエンジニアが大規模言語モデルの開発に活用できるよう、今回の取り組みで得られた研究成果をGitHubやHugging Faceを通じ公開している。ライセンスで定めた条件下で、誰もが研究および商業目的での利用が可能である。
公開リンク
さらに、富士通はFugaku-LLMを、富士通の先端技術を無償で試せる「Fujitsu Research Portal」を通じて2024年5月10日より提供開始する。
今後の展望
公開されたモデルを用い、多くの研究者や技術者が基盤モデルの改善や新たな応用研究に参画することで、効率的な学習方法や言語モデルが創出され、科学シミュレーションと生成AIの連携による科学研究サイクルの自動化のようにAI基盤モデルを科学研究に活用する「AI for Science」、数千を超すAIによるバーチャルコミュニティの社会シミュレーションなど、次世代の革新的な研究やビジネスの成果につながることが期待される。
おわりに
今回、日本独自のLLMが公開されて利用できるのはすごくいい内容に感じましたので記事にして様々な方に知ってもらいたいと思いました。
この研究には、様々な大学や企業が参画しており注目度が高いですが実際に世界と比べると遅れてしまっているのが現状ではあると思いますが、こうゆう風にCPUからの道も生み出されたことを見るとまだまだ他の道もあるのではないかと感じさせられます。
今あるLLMも英語には抜群に適応していますが日本語にはトークンなどもまだ最適化されていないので使いやすいLLMが誕生し普及してくれることを願いたいと思います。