従来のRAGとの違いとは?
Microsoftは、RAGの精度を強化する「GraphRAG」と、Microsoft Azure上でGraphRAGを実行するためのソリューションアクセラレータリポジトリをGitHubで公開した。GraphRAGはMicrosoftが2024年2月に発表した新たなRAGのアプローチだ。
Microsoft Researchは2024年7月2日(米国時間)、「RAG」(Retrieval-Augmented Generation:検索拡張生成)の精度を強化する「GraphRAG」と、Microsoft Azure上でGraphRAGを実行するためのソリューションアクセラレータリポジトリをGitHubで公開した。
GraphRAGは、Microsoftが2024年2月に発表した新たなRAGのアプローチだ。Microsoft Researchは、従来のRAGの問題点や、GraphRAGの特徴、RAGとGraphRAGの比較結果を次のように述べている。
従来のRAGの問題点
LLMの最大の課題は、LLMの能力を「プライベートデータセット」(LLMのトレーニングに活用されていない未知のデータを指す。企業の独自研究やビジネス文書、通信などが含まれる)にも適用させることだ。
そこで注目されているのがRAGだ。LLMによる応答生成に情報の検索を組み合わせることで、前述した課題の解決を目指している。Microsoft Researchによると、RAGのアプローチのほとんどが情報の検索にベクトル検索を活用する一方で、下記のような課題があるという。
- 点と点を結びつけるのに苦労している。異なる情報の断片をたどる必要があるような質問に応答する際に生じる
- 大規模なデータセットや単一の巨大ドキュメントに含まれる意味を総合的に理解する必要があるケースで、RAGの精度が落ちる
こうした背景の下、Microsoft Researchは、新しいアプローチとしてGraphRAGを実装した。
GraphRAGの特徴と利点
GraphRAGでは、LLMを使用して任意のデータセットに基づくナレッジグラフを生成する。ナレッジグラフが優れている点は、ユーザーのクエリに先立ってデータの意味構造を明らかにできる点にある。
高レベルのテーマから低レベルのトピックまで複数のレベルでグラフを分割し、階層的に密に接続されたノードの「コミュニティー」を検出する。各コミュニティーを要約するためにLLMを使用することで、データの階層的な概要が作成され、事前に質問を知る必要なくデータセットの概要を提供できるようになる。Microsoft Researchによると、各コミュニティーはエンティティ同士の関係性を示す「コミュニティーサマリー」の基礎として機能するという。
従来のベクトル検索が、質問に意味的に似ているテキストの断片から応答を生成するのに対し、全てのデータの意味を考慮して構築されたコミュニティーサマリーを活用することで、データセット全体の質問や、データセットの意味を問うような質問の応答生成にも役立つとしている。
GraphRAGの効果
Microsoft Researchは、LLMの「GPT-4」を用いて、2つのデータセット(ポッドキャストの書き起こしとニュース記事)の短い説明から質問群を生成し、従来のRAGとGraphRAGによる応答結果を、3つの観点で比較、評価した。
- 包括性(全ての側面を詳細にカバーしているか)
- 多様性(異なる視点を提供しているか)
- エンパワーメント(情報に基づいた意思決定をサポートしているか)
その結果、コミュニティーサマリーを使用するGraphRAGは包括性と多様性において従来のRAGを70~80%の確率で上回ることが示された。また中間レベルおよび低レベルのコミュニティーサマリーを使用したGraphRAGは、より低いトークンコスト(クエリあたり20~70%のトークン使用)で、従来のRAGよりも優れたパフォーマンスを示した。最上位レベルのコミュニティーサマリーは、従来のRAGと比較してトークンコストが大幅に低かった(クエリあたり2~3%のトークン使用)。
関連記事
- RAG(Retrieval-Augmented Generation:検索拡張生成)とは?
- 生成AIの活用を検討する企業が「RAG」を導入すべき5つの理由 Cohere
- 生成AI入門:議事録を答えるチャットAI(RAGアプリ)を作ってみよう【プログラミング不要】
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.
0 コメント:
コメントを投稿