SakanaAIによる画像生成への進化的モデルマージ適用と日本語対応で素早く生成

Ai

はじめに

日本のAI開発企業であるSakanaAIが先日発表した進化的アルゴリズムを用いた基盤モデル構築の手法「進化的モデルマージ」を従来の生成画像の拡散モデルに適用することによって日本語に対応した、推論速度が10倍速く、低コストな生成AIを開発しました。それについての説明をわかりやすくしたいと思います。

EvoSDXL-JP:進化的モデルマージによって構築された画像生成AI

まず本題の従来の拡散モデルに進化的モデルマージを適用した画像生成AIであるEvoSDXL-JPを紹介したいと思います。説明よりも使ってみたいという方にSakanaAIでは、デモンストレーションをHuggingFaceページにて公開しているので以下のリンクからアクセスしてみてください。

EvoSDXL-JPデモンストレーションアクセス:デモ

また説明よりもソースを出せという方には、SakanaAIのHPへのリンクを以下に貼ってあるのでアクセスしてください。

参照ソース:SakanaAI:画像生成モデルへの進化的モデルマージの適用<br/>日本語対応した高速な画像生成モデルを教育目的で公開 (sakana.ai)

EvoSDXL-JPの概要

作るきっかけ

拡散モデルを基盤とした画像生成モデルは、推論速度が遅い

昨今の画像生成モデルは、拡散モデルを基盤としており、高性能な画像生成が可能になっています。特に、SDXL、DALLE-3をはじめとしたtext-to-imageモデルは、テキストプロンプトに沿った高性能な画像が生成され、多くの反響を呼んでいます。しかし、拡散モデルを基盤とした画像生成モデルは、推論速度が遅いという課題があります。これは、拡散モデルがノイズ画像から徐々にノイズを除去するステップを繰り返すことで画像を生成するという仕組みに起因します。

日本語への対応が薄く、コストもスピードもかかる

多くの公開されている画像生成モデルは、英語プロンプトのみに対応しています。そのため、非英語話者のユーザーは「呪文」としてテキストプロンプトを調整し、画像生成を試みているのが現状です。また、機械翻訳を用いて日本語から英語に直す場合、コストが高く、翻訳機の性能に依存し、日本特有の表現の使用が限定されます。現在、公開されている日本特化の画像生成モデルは、日本語プロンプトに対応し日本スタイルの画像生成が可能ですが、従来の拡散モデルと同様に推論速度に課題があります。

この2つの問題点からSakanaAIは、「進化的モデルマージ」を用いて高速かつ日本語に特化した画像生成モデルを作ろうと思ったと記事から感じました。

進化的モデルマージの説明

では、進化的モデルマージとは何なのか参照元から説明していこうと思います。

概要

「自然界の原理を生かした進化的アルゴリズムを基盤とした手法であり、ユーザーが指定した能力に長けた新しい基盤モデルを自動的に作成することができます。また、勾配ベースの訓練を全く必要とせず、比較的少ない計算資源とデータで新しい基盤モデルを自動的に生成できます。詳しくは、リリースブログをご覧ください。基盤モデルの開発に膨大なコストがかかる現在、我々の手法は大きな可能性を秘めていると信じています。」

と公式で説明しており既存の基盤モデルを融合、組み合わせる(×,+)ことで簡単に大規模なシステムを作ることができると解釈できます。

つまり今ある高性能な様々な用途のモデルを合体させるとさらに汎用性が高い使いやすいのができるよね! ということです。
そしてそれによって構築されたものが以下の2つになります。

「非英語言語と数学」:EvoLLM-JP

日本語の大規模言語モデル(LLM)と数学のLLMをマージすることでできたEvoLLM-JPは、数学のみならず、日本語の全般的な能力に長けている。

「非英語言語と画像理解」:EvoVLM-JP

日本語LLMと画像言語モデル(VLM)をマージしてできたEvoVLM-JPは、日本文化の知識にも対応でき、日本の画像と日本語のテキストを利用したベンチマークでも最高の結果を達成。

構成

EvoLLM-JPやEvoVLM-JPは、進化的モデルマージを、言語生成で用いられる自己回帰型Transformerモデルへ適用したモデル。進化的モデルマージは、言語生成というタスクや自己回帰型Transformerというモデルに限らず、原理的にはあらゆるタスク、モデル構造に対応することが可能です。

自己回帰型Transformer

言語モデルの一種で、ある単語の次に出てくる単語を予測するモデルです。

EvoSDXL-JPの特徴

可能性の拡大

画像生成で用いられている拡散モデルに進化的モデルマージを適用しました。言語生成モデルに限らず、画像生成モデルにおいても進化的モデルマージは効率的にモデルの構築を自動化できました。これは、進化的モデルマージの可能性が幅広いことを示しています。

推論速度が10倍高速化

進化的モデルマージによって構築したEvoSDXL-JPは、異なるオープンモデルの融合によって、日本語に対応し日本スタイル画像を生成可能なモデルです。既存の日本語モデルに比べ、推論速度が10倍も高速でありながら、ベンチマークでより良い性能であることを示しています。

日本語特化

日本語に対応し高速・低コストな画像生成が可能なEvoSDXL-JPは、生成AIを手軽に試し体験するのに最適なモデルです。より多くの人に生成AIのメリットを享受してもらえるよう、日本の教育現場などでの使用を期待しています。

拡散モデルとは

拡散モデル(Diffusion Model)は、画像生成AIの一種で、画像データの拡散過程を学習します。具体的には、元の画像にノイズを加えて画像全体をノイズの状態に変換し、そのノイズ化したデータを逆に適用させることで、元の画像データを復元したり、新たな画像データを生成させることが可能です。

拡散モデルの仕組みは、元の画像データにノイズ(Gaussian Noise)を加えていくForward processと、ノイズ分布の状態からノイズを取り除いて画像を作成するReverse Processの2つに分かれています。

Forward process:元画像にノイズを加えて変換し。

Reverse Process:逆にノイズ化したデータから元の画像を再構築することで学習が行われます。

拡散モデルは、画像生成AIや他の生成モデルの学習において革新的な進歩をもたらしており、特に、Stable DiffusionやDALL-E2などの技術が拡散モデルを基盤として、画像生成の品質や多様性を向上させています。
参照ソース:https://jitera.com/ja/insights/30465

EvoSDXL-JPの構築

進化的モデルマージを2段階で適用しました。

・日本特化の画像生成モデルと英語の基盤画像生成モデルをマージし、日本語対応した高性能な画像生成モデルを構築しました(以下の表のモデル6に対応)。

・できたモデルをさらに高速画像生成モデルとマージすることで、日本語対応かつ高速な画像生成モデルであるEvoSDXL-JPを構築しました(以下の表のモデル7に対応)。一度、高性能な英語の基盤モデルとマージすることで、さらなる高性能化を実現しました。

性能指標

FID(小さい値ほど良い)

生成された画像と真の画像の近さを表す。FIDはCOCOデータセットに対する日本語キャプションSTAIR-captionsの検証データ1万件に対して計算。

HPS(Human Preference Score)(大きい値ほど良い)

人間好みの度合いを測る。HPSは元のベンチマークを翻訳した日本語キャプションを用いて生成された画像に対して計算が行われた。

なお、これは進化的アルゴリズムによる最適化に用いた学習セットとは異なります。

結果から

EvoSDXL-JP(モデル7)は、従来の推論に40ステップを要する日本語モデルに比べ、わずか4ステップ推論速度が10倍であり、高速な画像生成が可能です。さらに、FIDは、既存モデルと比べ最高性能であり、日本語プロンプトを忠実に理解した画像が生成できることを示しています。また、HPSにおいても、最高スコアを達成しており、より人間好みな画像生成が可能であることを示しています。

SakanaAIの今後の展望

このリリースでは、進化的モデルマージのさらなる可能性を示すため、画像生成タスクにおける拡散モデルへの適用を紹介しました。特に、日本にルーツを持つAIラボとして、日本向けの画像生成モデルの構築に取り組みました。今回の成果が示したように、進化的モデルマージは、特定のモダリティに限定されず、原理的にあらゆるモダリティのモデルへ適用することができます。今後のAI開発において、進化的アプローチにより既存のモデルを組み合わせることで、低コストで様々なモダリティのモデルを構築する傾向が強まっていくと考えております。私たちは、モダリティを限定せず、根本的な課題解決に今後も尽力してまいります。とコメントしています。

筆者的にとても気になったので記事にさせてもらいました。モデルマージの可能性がまだまだありそうに感じさせる内容で今後も期待したいです。

おわりに

この内容をいろんな人に知ってもらいたいなと思って記事にしました。実際にデモを使ってみた感じ、とても速いなという印象があり日本人に馴染むような画像が生成されていたことがとてもよかったです。しかしプロンプトからの想像とは違う画像が生成されることもあってその点では、伸びしろがあるなと感じました!プロンプトから想像に近い画像が生成されるのが楽しみに感じます。

読んでいただいた方にも実際にデモンストレーションで体験してもらって感じてもらうのが一番だと思うのでぜひアクセスしてみてください。デモンストレーションURL→デモ

読んでいただきありがとうございました。

他にも最近の最新ニュースの記事はこちらから

タイトルとURLをコピーしました