AIを益々強化させるマルチモーダル（複合的処理）を理解する • AItomo.blog

はじめに

マルチモーダルとは、その名の通りマルチ（複合的）にモーダル（特定の形式、状態を持っている）というように複数のAI技術を複合的に処理するハブのようなAIの技術です。そのマルチモーダルを知ることでAIを単一的にさせない工夫が理解できると思いますので、読んでいってください。

マルチモーダルAIとは

マルチモーダルAIとは、複数の種類の情報（モダリティ）を統合して処理するAIのことを指します。具体的には、テキスト、音声、画像、動画、センサー情報など、2つ以上の異なる種類の情報を収集し、それらを統合して処理する人工知能（AI）システムです。

人間が五感を使い分けながら高度な判断を行っているのと同様に、マルチモーダルAIは複数のモーダルを用いて統合判断を行う仕組みを備えたものであり、人間の思考方法に着想を得た新しいアプローチのAIであるといえます。人間の複合的思考を模倣したものでAIでは複数ある単一の処理技術をまとめて繋げて処理しているのがマルチモーダルAIです。

マルチモーダルAIは、これらの異なる技術を組み合わせて、より複雑でリッチなデータの理解を可能にします。これにより、AIはより高度なタスクを達成することができます。これは、AIが現実世界の複雑さを理解し、人間のように複数のセンサー（視覚、聴覚、触覚など）を使用して情報を処理する能力を模倣するための重要なステップです。

マルチモーダルに組み込まれる主要なAI技術

機械学習（Machine Learning）：

大量のデータからパターンを抽出し、識別と予測を実行する技術です。主要な学習には、教師あり学習・教師なし学習・強化学習があります。

深層学習（Deep Learning）：

大量のデータからパターンを学習し、データの特徴を自動的に抽出する手法で人間の介入を最小限にします。これはニューラルネットワークを使い、人間の脳の働きを模したデータ処理方法です。

自然言語処理（Natural Language Processing）：

人間の言語をコンピューターで処理し、その内容を抽出する技術です。

画像認識（Image Recognition）：

画像・動画から人や物・文字を識別するために利用されています。

音声認識（Speech Recognition）：

人間の音声データを認識して、テキストデータに変換する技術です。

異常検知（Anomaly Detection）：

蓄積された大量のデータと比較して、異なる挙動やデータを探し出す技術です。

予測（Prediction）：

気候データや過去の販売実績などをもとにして、商品や部品の需要を予測する技術です。

検索・探索（Search and Exploration）：

特定の条件の下で最適な結果を予測することを指します。

ほかにも様々な単一の技術（機械学習のみや画像認識のみ）では得られない情報を得るためにこれらを組み合わせて複合的に処理をする（テキストと画像の情報から認識して反応を示す）ことがマルチモーダルAIの特徴です。

マルチモーダルAIの使用例

マルチモーダルAIの使用例は広く、これまでに、統合的な判断が要求される「審査業務」や、人間とモノとの複雑なインタラクションの理解が要求されるCOVID-19対策を想定した「オフィス内行動監視」に適用してきました。

防犯・セキュリティ用途へも適用可能であり、例えば、マンションなどの共用空間での迷惑行為を検出する業務では、マルチモーダルAIを使うことで、「寝込む」といった映像だけで判定できる行為はもちろん「集団で騒がしくたむろしている」など、音が関わる迷惑行為までも検出が可能になります。

本来は、画像だけや音だけで判断していたものが画像と音の組み合わせで管理できるように変わっているということです。

このように、従来のAIでは判別が困難だった行為もマルチモーダルAIを用いることで判別が容易となり、監視業務の支援範囲を広げることができます。これらの特性から、マルチモーダルAIはAI技術の新たな進化形として注目されています。より人間と同じように判断できるように作ることで人間の上がり下がりのムラを無くし一定の水準を保ったシステムを構築することができます。

マルチモーダルAIの研究歴史

初期段階（1980年代～1990年代）

初期段階（1980年代～1990年代）では、音声認識や画像認識などの単一モダリティの研究が盛んに行われました。しかし、複数のモダリティを統合することで得られる利点にも気づき始めた研究者たちがいました。

発展段階（2000年代～2010年代）

その後、発展段階（2000年代～2010年代）では、深層学習やニューラルネットワークなどの技術の発展により、単一モダリティの研究が飛躍的に進みました。同時に、複数のモダリティを統合する方法も多様化しました。

現在（2020年代～）

そして現在（2020年代～）は、複数のモダリティを同時に扱うことができる汎用的なシステムの開発が目指されています。例えば、音声・画像・テキスト・ビデオなどの様々なモダリティを入力として受け取り、または出力として生成することができるシステムです。このようなシステムは、人間のように自然なコミュニケーションや創造性を発揮することが期待されています。これらの進歩により、マルチモーダルAIはAI技術の新たな進化形として注目されています。

現在に至り、様々な単一モダリティの技術力の向上によりまとめて組み込んだ時の破壊力が向上し今後もAI全体の向上によってマルチモーダルAIの向上が見込まれます。プラスすることでの利便性の価値を感じます。

マルチモーダルとディープラーニングの違い

マルチモーダルとディープラーニングは何が違うのといった声に答えたいと思います。よくマルチモーダル、ディープラーニング、ニューラルネットワークは同じAIの技術でも区別の付け方が難しいです。それなりに情報を得ていけばわかってくると思いますが本格的にAIが話題になってきてAIの知識自体が少ないとよくわからないのは当然だと思います。よってマルチモーダルとディープラーニングの違いを説明していきたいと思います。

マルチモーダル

先ほども説明しましたがマルチモーダルAIは、複数の種類の情報（モダリティ）を統合して処理するAIのことを指します。具体的には、テキスト、音声、画像、動画、センサー情報など、2つ以上の異なる種類の情報を収集し、それらを統合して処理する人工知能（AI）システムです。これによって、一般的なAIでは対応できないタスク処理が可能な、「マルチモーダルAI」への期待が高まっています。マルチモーダルAIは、ディープラーニング（深層学習)や自然言語処理などの技術を組み合わせて使用されます。

ディープラーニング

一方、ディープラーニングは、人間の脳神経の働きであるニューラルネットワークを学習させたもので、与えられた情報から何らかの規則性や共通点を見つけて分析を行う手法です。ディープラーニングによって、AIはより細かな認識を可能にしています。ディープラーニングは、機械学習や深層学習の一種で、人間の脳の働きを模したニューラルネットワークを用いて、大量のデータからパターンを学習し、データの特徴を自動的に抽出する手法です。画像認識や音声認識など、多くのAIアプリケーションで使用されています。

ディープラーニングの記事についてはこちらも参考にしてください

まとめ

したがって、マルチモーダルAIとディープラーニングは、それぞれ異なる機能を持つが、一緒に使用されることで、より高度なAIシステムを構築することが可能になります。具体的には、マルチモーダルAIはディープラーニングの技術と複数のモダリティから情報を収集する技術を組み合わせた技術と言えます。これにより、従来のAIでは判別が困難だった行為もマルチモーダルAIを用いることで判別が容易となり、監視業務の支援範囲を広げることができます。これらの特性から、マルチモーダルAIはAI技術の新たな進化形として注目されています。

ディープラーニングはとても汎用性が高く効果も高いのでどこにでも顔を出してくるので混同されがちですが内容を理解することで区別ができると思います。どちらもAIに搭載されている技術には変わりないですが。

おわりに

今回マルチモーダルについて筆者自身気になったので調べてまとめてみました。AIに関しては、どういった解釈をしてどうゆう処理で反応を示しているという中身は不透明ではありますが、どうゆう風に認識し処理し反応するというような流れは私たち人間の思考法と似たように作られているのでとても興味深く面白いですね。このようにシステムとして出てくることで脳の難しい機能を可視化してわかりやすくしてあるのがAIの魅力の一つでもあると思います。

他にもAIについての記事も参考にしてください

読んでいただきありがとうございました。

月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31