AIには機械学習やディープラーニングを用いてプロンプトへ記入された人間の言葉から処理を実行しますがその人間の言葉を理解するために使用される技術がLLM(大規模言語モデル)です。その大規模言語モデルについてまとめたので気になったら読んでいってください。
はじめに
言葉を処理するAI(人工知能)のLLM(大規模言語モデル)の概要をまとめるということでAIは機械であるので人間の言葉を理解することはできません。しかしLLM(大規模言語モデル)の技術を用いて言葉を理解し処理していく橋渡しのようなものとイメージしてもらえればいいと思います。その橋渡しをする技術LLM(大規模言語モデル)についてまとめたのでぜひ見ていってください
LLM(大規模言語モデル)とは
LLMは、Large Language Modelsの略称であります。その機能としては膨大なテキストデータと高度なディープラーニング技術を組み合わせてトレーニングされたもので、言語理解、構造理解の高度化を実現しているものです。従来の言語モデルと比較して、計算量、データ量、およびパラメータ数を強化することで、高度な言語理解を今も実現しています。LLMはテキスト分類、感情分析、情報抽出、文章要約、テキスト生成、質問応答などの自然言語処理タスクに適応可能でこの技術は自然言語処理 (NLP) の分野で広く活用されています。ユーザーの入力に対して適切な応答を生成するために、統計的モデルや深層学習アーキテクチャを活用します。
NLP(自然言語処理)
人が日常的に使う言語(自然言語)をコンピュータで処理・分析する技術です。この技術は、機械翻訳やテキストマイニングなどの分野で活用されます。自然言語は曖昧さを含んでおり、高度な技術が求められます。近年、SNSやビジネスコミュニケーションでのテキストデータ量が増加しており、自然言語処理技術の注目度が高まっています。LLM(大規模言語モデル)はそのNLP(自然言語処理)の一部として特に膨大なデータセットと高度な計算能力を用いて構築された言語モデルです。
LLM(大規模言語モデル)の構造
大規模言語モデル(LLM:Large Language Models)は、大量のデータとディープラーニング技術によって構築された言語モデルです。これは文章や単語の出現確率をモデル化し、自然言語処理(NLP)などで利用されています
1.データ量:入力されるデータ情報量
2.計算量:コンピューターが処理する計算量
3.パラメータ量:確率計算を行うための係数量
大規模言語モデルは、これらの要素が大幅に増加したことで精度が向上しました。具体的には、2017年に発表された「Transformer」が大規模言語モデルの基盤となりました。Transformerの登場によるブレイクスルーと、マシンパワーの向上によって、より多くのデータをモデルに学習させられるようになったことで、大規模言語モデルが誕生しました。
大規模言語モデルを作成する際には、技術的な知識と高性能な計算機(PC)の両方が重要です。特に大規模なデータセットを処理するためには、強力なGPUなどの高性能計算機が必要です。 このような計算機を使用することで、大規模言語モデルのトレーニングやファインチューニングが効率的に行えます
LLM(大規模言語モデル)のトレーニング
大規模言語モデルのトレーニングプロセスの主要な段階と、それぞれの段階にかかる時間の概要をまとめました。
プレトレーニング:
プレトレーニング段階では、モデルは数兆語彙を含むインターネットテキストからデータセットを収集します。
Transformerと注意機構を使用してエンコードおよびデコードを行い、次のトークンを予測するためにモデルがトレーニングされます。
かかる時間:何千ものGPUと数ヶ月の時間が必要です
監視付きファインチューニング(SFT):
SFT段階では、モデルを特定のタスクに適したものに調整します。
人間の専門家によって作成されたデータセットを使用し、論理推論も行います。
かかる時間:1〜100のGPUと数日の時間が必要です
報酬モデリング:
報酬モデリング段階では、生成された回答が良いかどうかを評価するためのモデルをトレーニングします。
特定のタスクに対する報酬を最大化するようにモデルが調整されます。
かかる時間:数百万から数億のサンプルを含む大規模なデータセットが使用されます
強化学習:
強化学習では、モデルは環境との相互作用により改善されます。
ユーザーとの対話を通じてトレーニングされ、報酬が与えられます。
かかる時間:数百から数千のGPUと数ヶ月の時間が必要です
LLM(大規模言語モデル)のファインチューニング
ファインチューニングは、事前に訓練されたAIモデルを特定のタスクやデータセットに対して最適化するプロセスのことを指します。これにより、モデルのパフォーマンスを向上させ、より正確な予測や分析が可能になります
ファインチューニングの手順
事前学習 (Pre-training): 既に学習済のモデルを、新たなデータを使って追加学習を行います。この初回の学習処理を「事前学習」と呼びます。
追加学習 (Fine-tuning): 事前学習済のモデルに新しいデータを使って追加学習を行います。この段階では、モデルの一部のパラメータが新たなデータの学習処理によって更新され、新たな知識を得たモデルが作成されます
LLM(大規模言語モデル)の種類
GPT-3 (Generative Pre-trained Transformer 3)
OpenAIが2020年に発表した巨大な言語モデルで、1,750億個のパラメータを持ちます。
人間のように文章を生成する能力を持ち、事前学習によってさまざまなタスクに適応できます。
GPT-4
GPT-3よりも高度な性能を持つモデルで、テキストだけでなく画像や音声の入力も可能。
推定約100兆個のパラメータを持ち、最大約25,000単語まで取り込むことができます。
BERT (Bidirectional Encoder Representations from Transformers)
Googleが2018年に発表した言語モデルで、文脈を理解できる特徴を持ちます。
文章を文頭・文末の双方向から学習し、高い技術を誇りました。
PaLM (Parameterized Language Model)
大規模なパラメータを持つ言語モデルで、さまざまな下流タスクに適応できます。
LlaMA (Large Language Model for All)
多言語に対応できる大規模モデルで、世界中の情報をリアルタイムで活用できます。
おわりに
まとめとしてLLM(大規模言語モデル)は、自然言語処理の一部であり主にチャットAI系に使われておりその技術により自然なチャットを作り出しユーザーと対話しているように感じさせることができるようになるということです。
わたしもChatGPTやCopilotを触ってみて本当に会話しているかのように自然な反応が返ってくるのでほとんどわからないのではないかと思います。実際にそうゆう例もあり対象者にチャットしてもらい人間とのチャットなのか、チャットAIとのチャットなのわからない人もいたと研究結果ででているのでそれくらいレベルが高いとうかがえます。
構造についてはなかなか難しいと思いますがその技術が使われて私たちの言葉を理解しているのだとわかってもらえたと思います。
読んでいただきありがとうございました。