2024年3月15日金曜日

人間並みの理解でより高度な検索を実現、生成AIの「マルチモーダル」技術とは

https://wp.techtarget.itmedia.co.jp/contents/80235#_ga=2.118667146.287797718.1710463114-1240727198.1706517995

生成AIの新技術「マルチモーダル」では、文章や画像、動画、音声などの意味を人間並みに深く理解することで、文章で画像を探すといった高度な検索を実現できる。この機能を支える技術と、ビジネスにもたらす価値について解説する。

コンテンツ情報
公開日2024/03/04フォーマットPDF種類

製品資料

ページ数・視聴時間14ページファイルサイズ3.23MB
要約
 ChatGPTなどの言語生成AIは確率的なモデルに従って人間が自然に感じるやりとりを生成するもので、特定のデータベースに格納された製品データの型番や属性などを検索して、正確に応答するといった作業は不得手である。生成AIにこうした作業をさせるには、自社が使用するデータベースにAIをつなぐ「グラウンディング」を考慮する必要がある。

 このグラウンディングを実現していく上で重要な鍵となるのが、意味情報をベクトルとして表して類似コンテンツを周辺に配置する「エンベディング」と、検索する範囲を絞り込むことで高速化する「ベクトル検索」という2つの技術だ。これらを組み合わせることで、高度な検索機能を自社のデータベースに結び付けることが可能になる。

 また、商品画像を人間と同じように理解するAIを組み合わせることで、類似商品の画像を一瞬で検索する「視覚を持ったLLM(大規模言語モデル)」も実現できる。こうした、複数の情報を同時に扱うマルチモーダルAIがビジネスにどのような革新をもたらすのか、技術的な背景とともに本資料で詳しく解説していく。

0 コメント:

コメントを投稿