メタは今回、「Llama 4 Scout」と「Llama 4 Maverick」という大規模言語モデル(LLM)を公開した。どちらのモデルも同社のWebサイトなどからダウンロードできる。メタは現在、「Llama 4 Behemoth」という非常に強力なモデルを開発中だが、Behemothを蒸留して作ったScoutとMaverickを先行して公開した。
コンテキストウインドーは「1000万トークン」
筆者が注目したのは、Llama 4 Scoutである。LLMのプロンプト(指示文)に含める情報の大きさである「コンテキストウインドー(Context Window)」が、従来のLLMに比べて格段に大きくなったためだ。
Llama 4 Scoutのコンテキストウインドーは1000万トークン。これまで業界最大だった米Google(グーグル)のLLM「Gemini」の200万トークンの5倍という規模だ。メタのオープンソースLLMの前バージョンである「Llama 3」のコンテキストウインドーは12万8000トークン、米OpenAI(オープンAI)の主力LLM「GPT-4o」も同じく12万8000トークンだ。Llama 4 Scoutの規模が際立つ。
グーグルは2024年2月にGeminiのコンテキストウインドーを100万トークンに拡大した際、その規模を「1時間分の動画」「11時間分の音声」「70万単語から成る3万行のソースコード」に匹敵すると説明していた。その10倍の規模のデータが、Llama 4 Scoutでは扱えることになる。
「RAG不要」のケースが増える
巨大なコンテキストウインドーの実現は、RAG(Retrieval-Augmented Generation、検索拡張生成)を巡る動向も左右しそうだ。RAGとは簡単に言えば、LLMのプロンプトに入力する外部情報を検索エンジンによって絞り込む手法である。
これまではLLMのコンテキストウインドーが小さかったため、RAGによる情報の絞り込みが必須だった。コンテキストウインドーが大きくなれば、情報を絞り込む必要がなくなる。情報を絞り込まずにプロンプトに埋め込む手法は「メニーショットICL(In-Context Learning)」や「ロングコンテキストICL」と呼ばれる。
RAGには「ベクトルデータベース(DB)」など、検索で情報を絞り込む外部システムが必要だ。メニーショットICLは外部システムが不要であるため手軽に利用を始められるという利点がある他、回答精度もRAGより高まるとの指摘がある。コンテキストウインドーが拡大することで、RAGが不要になるケースは増えそうだ。
一方で運用コストはかさむ恐れがある。メタはLlama 4 Scoutについて「1個のGPU(画像処理半導体)で稼働できる」とアピールするが、そのGPUは米NVIDIA(エヌビディア)の「H100」のことである。
0 コメント:
コメントを投稿