2024年8月4日日曜日

Microsoft、LLMで注目の「RAG」の精度を向上させる「GraphRAG」をGitHubで公開。 2024年8月3日  


https://atmarkit.itmedia.co.jp/ait/spv/2408/03/news056.html


従来のRAGとの違いとは?

Microsoftは、RAGの精度を強化する「GraphRAG」と、Microsoft Azure上でGraphRAGを実行するためのソリューションアクセラレータリポジトリをGitHubで公開した。GraphRAGはMicrosoftが2024年2月に発表した新たなRAGのアプローチだ。

 Microsoft Researchは2024年7月2日(米国時間)、「RAG」(Retrieval-Augmented Generation:検索拡張生成)の精度を強化する「GraphRAG」と、Microsoft Azure上でGraphRAGを実行するためのソリューションアクセラレータリポジトリをGitHubで公開した。

 GraphRAGは、Microsoftが2024年2月に発表した新たなRAGのアプローチだ。Microsoft Researchは、従来のRAGの問題点や、GraphRAGの特徴、RAGとGraphRAGの比較結果を次のように述べている。

従来のRAGの問題点

 LLMの最大の課題は、LLMの能力を「プライベートデータセット」(LLMのトレーニングに活用されていない未知のデータを指す。企業の独自研究やビジネス文書、通信などが含まれる)にも適用させることだ。

 そこで注目されているのがRAGだ。LLMによる応答生成に情報の検索を組み合わせることで、前述した課題の解決を目指している。Microsoft Researchによると、RAGのアプローチのほとんどが情報の検索にベクトル検索を活用する一方で、下記のような課題があるという。

  • 点と点を結びつけるのに苦労している。異なる情報の断片をたどる必要があるような質問に応答する際に生じる
  • 大規模なデータセットや単一の巨大ドキュメントに含まれる意味を総合的に理解する必要があるケースで、RAGの精度が落ちる

 こうした背景の下、Microsoft Researchは、新しいアプローチとしてGraphRAGを実装した。

GraphRAGの特徴と利点

 GraphRAGでは、LLMを使用して任意のデータセットに基づくナレッジグラフを生成する。ナレッジグラフが優れている点は、ユーザーのクエリに先立ってデータの意味構造を明らかにできる点にある。

 高レベルのテーマから低レベルのトピックまで複数のレベルでグラフを分割し、階層的に密に接続されたノードの「コミュニティー」を検出する。各コミュニティーを要約するためにLLMを使用することで、データの階層的な概要が作成され、事前に質問を知る必要なくデータセットの概要を提供できるようになる。Microsoft Researchによると、各コミュニティーはエンティティ同士の関係性を示す「コミュニティーサマリー」の基礎として機能するという。

RAG精度評価用データセット「MultiHop-RAG」から得られたエンティティノードとノードの関係性を示すナレッジグラフ。異なる色は、さまざまなコミュニティーで形成されていることを表している。レベル0のコミュニティー(左)はデータセットの最上位レベルのテーマを表し、レベル1のコミュニティー(右)はこれらのテーマのより詳細なトピックの出現を示している(提供:Microsoft Research)RAG精度評価用データセット「MultiHop-RAG」から得られたエンティティノードとノードの関係性を示すナレッジグラフ。異なる色は、さまざまなコミュニティーで形成されていることを表している。レベル0のコミュニティー(左)はデータセットの最上位レベルのテーマを表し、レベル1のコミュニティー(右)はこれらのテーマのより詳細なトピックの出現を示している(提供:Microsoft Research)

 従来のベクトル検索が、質問に意味的に似ているテキストの断片から応答を生成するのに対し、全てのデータの意味を考慮して構築されたコミュニティーサマリーを活用することで、データセット全体の質問や、データセットの意味を問うような質問の応答生成にも役立つとしている。

GraphRAGの効果

 Microsoft Researchは、LLMの「GPT-4」を用いて、2つのデータセット(ポッドキャストの書き起こしとニュース記事)の短い説明から質問群を生成し、従来のRAGとGraphRAGによる応答結果を、3つの観点で比較、評価した。

  • 包括性(全ての側面を詳細にカバーしているか)
  • 多様性(異なる視点を提供しているか)
  • エンパワーメント(情報に基づいた意思決定をサポートしているか)

 その結果、コミュニティーサマリーを使用するGraphRAGは包括性と多様性において従来のRAGを70~80%の確率で上回ることが示された。また中間レベルおよび低レベルのコミュニティーサマリーを使用したGraphRAGは、より低いトークンコスト(クエリあたり20~70%のトークン使用)で、従来のRAGよりも優れたパフォーマンスを示した。最上位レベルのコミュニティーサマリーは、従来のRAGと比較してトークンコストが大幅に低かった(クエリあたり2~3%のトークン使用)。

「さまざまなエンターテインメント記事で繰り返し言及されている著名人は誰か?」という質問に対する従来のRAGを用いた応答とGraphRAGを用いた応答の比較結果。3つの観点全てでGraphRAGが優れていると、LLMは評価している(提供:Microsoft Research)「さまざまなエンターテインメント記事で繰り返し言及されている著名人は誰か?」という質問に対する従来のRAGを用いた応答とGraphRAGを用いた応答の比較結果。3つの観点全てでGraphRAGが優れていると、LLMは評価している(提供:Microsoft Research)

Copyright © ITmedia, Inc. All Rights Reserved.

チェックしておきたい人気記事
コンテナベースの継続的インテグレーションの利点/課題と、CIパイプライン、Docker Build高速化のコツ (1/2...
「電子署名」とは、「デジタル署名」とは
NICT、サイバー脅威情報を自動集約できるWebアプリ「EXIST」を公開
Microsoft、プログラミング言語「TypeScript 3.4」のリリース候補版(RC)を公開
一にも二にも「防御」を――元CIAのCISOが提言した6つのセキュリティ対策
2018年の災害では34.2%で「BCPが機能した」、NTTデータ経営研究所が調査
Microsoftが.NET用オープンソース機械学習フレームワークの最新版「ML.NET 0.11」を公開
オンプレミスのWindows Server/SQL Server向けセキュリティ更新サービス「拡張セキュリティ更新プログ...
IT開発者の75%以上が開発以外にも従事、楽天コミュニケーションズ調べ
Mellanox、NVMe-oFでストレージを仮想化する「SNAP」を発表
ハイパーコンバージドインフラが有力な選択肢、ノークリサーチが中堅中小業のサーバ更新方針を調査
Google Cloudのハイブリッドソリューション「Cloud Services Platform」はどうなるのか聞い...
Envoy、Istioによるサービスメッシュのスタートアップ、Tetrateが正式デビュー
【Windows 10】できる人は知っているキーボードショートカット
CI/CDパイプラインを妨げない形でセキュリティを実現すれば、「開発者や運用担当者に嫌われないWAF」は可能か
Faceook、AI処理向けのモジュラーハードウェアプラットフォームとASICを発表
Googleが「Chrome Enterprise 73」をリリース
デジタルトランスフォーメーションの進捗状況を測定するには
AWSへ「電話システム」を移行するメリットはあるか? (1/2)
【Windows 10】後々困らないように、分かりやすいコンピュータ名(PC名)に変更する2つの方法
2020年に向けて企業が開始すべきIT関連行動、ガートナージャパンが4つのポイントを発表
基本情報技術者試験(Fundamental Information Technology Engineer Examin...
Excelに入力フォームを作成、コントロールを追加、表示、ボタンでイベント実行 (1/3)
デザインネタをWebで探す人が知っておきたい、日ごろのネタ収集と活用を効率化する4つのアプリ (1/3)
作業手順書はもういらない! Puppetにおける自動化の定義書「マニフェスト」の書き方と基礎文法まとめ (1/5)
高速で安全、安定した専用線接続が理想のシステム構築のカギに――マンパワーが「ExpressRoute」を導入した理由
Bootstrap、Emmet、レスポンシブWebデザイン対応を強化したDreamweaver CC 2015を使ってみ...
「Bootstrap 4 alpha」が登場
より広がったカリキュラムを通過点に若者は上を目指す (1/2)
勉強会で明らかになった医療向けOSSの多様な活用法──電子カルテ、臨床試験データ解析、日本語医学用語プラットフォーム、画...
成長し続けるセキュリティ人材と悲嘆に暮れる情報流出被害者たち (1/3)
マイクロソフトとレッドハットがクラウドで提携
カーセンサー、ゼクシィのサイトが取り入れている「アダプティブUX」とは何か (1/2)
SAP HANA SPS11は、Cloud Foundry採用でアプリケーション環境を一新
データベースウォッチャーが振り返る2015年、「次に“来る”DBの技術トレンド」とは (1/3)
「フィッシング」の手口、お見せします
ESET ウイルスラボ総責任者に聞く、オンラインバンキング攻撃の現状とIoT時代のセキュリティ (1/2)
ブロックチェーンの実証実験に取り組む国内企業20社の社名が公開、その利用用途とは
ページトップに戻る

0 コメント:

コメントを投稿