ChatGPTの仕組み超解説：ChatGPTの裏側大解剖

2023年2月23日 04:25

はじめに

本記事では、ChatGPTを動かしている機械学習モデルをわかりやすく紹介していきます。大規模言語モデルの導入から始まり、GPT-3の学習を可能にした革新的な自己学習メカニズムに触れ、ChatGPTを特別なものにした新しい手法：人間のフィードバックによる強化学習について掘り下げていきます。

大規模言語モデル（LLM: Large Language Model）

ChatGPTは、大規模言語モデル（LLM: Large Language Model）と呼ばれる機械学習の自然言語処理モデルの一種を発展させたものです。LLMは、膨大な量のテキストデータを収集し、文章中のキーワードの関係を推論します。このモデルは、ここ数年の計算能力の向上とともに成長してきました。LLMは、インプットデータの量とその変数が増えれば増えるほど、その能力を発揮できます。

言語モデルの最も基本的な学習方法は、一連の単語の中からある単語を予測することです。最も一般的な学習方法は、次の単語を予測する方法 (next-token-prediction) と隠された単語を予測する方法 (masked-language-modeling) です。

next-token-prediction(左)とmasked-language-modeling（右）の例

この基本的な処理手法は、LSTM（Long-Short-Term-Memory）モデルによって開発されることが多く、モデルは周囲の文脈から統計的に最も可能性の高い単語で空白を埋めていくことになります。この一連のモデルでは、2つの大きな限界があります。

一つは、周囲の単語を他の単語より重みづけすることができないことです。上記の例では、「読書」は「嫌い」と最もよく結びつきますが、データベースでは「サム」は熱心な読書家なので、モデルは「読書」よりも「サム」に比重を置き、「嫌い」ではなく「好き」を選択すべきかもしれません。

入力データは全体的に処理されるのではなく、個別に順次処理されます。つまり、LSTM が学習されるとき、文脈の幅は固定され、個別の入力を超えて数段階にわたってのみ拡張されることになります。このため、単語間の関係や導き出される意味の複雑さに限界があります。

この問題に対し、2017年、Google Brainのチームが transformers を導入しました。LSTMとは異なり、 transformersではすべての入力データを同時に処理することができます。自己注意メカニズムを用いて、このモデルは、言語配列の任意の位置に関連して、入力データの異なる部分にさまざまな比重を置くことができます。この機能により、LLMへの概念の埋め込みが大幅に改善され、非常に大規模なデータセットの処理が可能になりました。

GPTと自己認識

ここから先は

4,645字 / 8画像

この記事のみ ¥ 500

PayPayで支払うと抽選でお得〜1/7まで

抽選でnoteポイント最大100%還元〜1/9まで

■ AGIラボとは？ AGIラボは、GPTs、Dify、Createなどの最先端AI技術に特化したメ…

このメンバーシップの詳細

AGIラボ

¥2,980 / 月

300以上の過去記事から最新の記事まで全て読み放題。AGIラボはGPTs Difyなど、最前線のAI活用情報に特化したマガジン・コミュニティです。実践的なAI活用術を含む記事で得られる知見で業務の効率化、自動化から創造的なタスクまですぐに活用可能。生成AI革命の最前線をお届け。

メンバー限定コミュニティに参加できます
300以上のオリジナル過去記事へのアクセス
メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

ログイン

この記事が参加している募集

#AIとやってみた

42,009件

ChatGPT全機能まとめ記事を受け取る

LINE登録でChatGPTの全機能をまとめた特別記事をプレゼント中です。ぜひご活用ください。