https://www.technologyreview.jp/s/328704/this-baby-with-a-head-camera-helped-teach-an-ai-how-kids-learn-language/
幼児の頭部に装着したビデオカメラの映像を用いて訓練されたニューラル・ネットワークは、大規模言語モデルよりもはるかに少ないデータで、単語と対象物を一致させられるようになることがわかった。by Cassandra Willyard2024.02.05
人間の赤ちゃんは、どんなに優れた大規模言語モデルよりもはるかに高い学習能力をもっている。オープンAI(OpenAI)の「チャットGPT(ChapGPT)」がまともな英語を書けるようになるには、数百万~1兆語の単語を用いた膨大なデータセットによる訓練が必要だった。それに比べて子どもがアクセスできるデータ量ははるかに少ないが、3歳までにはかなり高度なコミュニケーションが可能となる。
ニューヨーク大学の研究チームは、人工知能(AI)が赤ちゃんと同じような方法で学習できないかと考えた。はるかに少量のデータセット、つまり会話を学ぶ一人の子どもが経験する光景や音声を与えられたAIモデルは、何ができるようになるのだろうか。
実験の結果、多くのことができるようになることがわかった。 AIモデルは単語と、その単語が示す物体を一致させられるようになったのだ。 ニューヨーク大学の計算認知科学者であり、この研究の論文の著者でもあるブレンデン・レイク助教授は、「子どもが一瞬で経験することの中には、単語学習に真に必要なデータが豊富に存在しています」と言う。2024年2月1日にサイエンス(Science)誌に掲載されたこの研究は、赤ちゃんの学習方法に関する洞察を提供するだけでなく、より良いAIモデルの開発につながる可能性がある。
研究チームはこの研究で、オーストラリアのアデレード近郊に住む子どもに装着したヘルメットカメラの映像61時間分を使用した。被験者となったサムという子どもは、生後6か月から2歳の誕生日を少し過ぎるまでの1年半、カメラを付けたり外したりしながら過ごした。カメラは、サムが起きている時間の約1%で見たり注目したりしたものを捉えていた。カメラが捉えたものは、サムの2匹の猫、両親、ベビーベッド、玩具、自宅、食事、その他さまざまなものだった。「このデータセットは本当に唯一無二でした」とレイク助教授は言う。「一人の子どもが接するものを知るための、かつてない最高の手がかりとなりました」。
レイク助教授たちは、AIモデルを訓練するため、60万本の映像と、撮影時に部屋にいたサムの両親や他の人々が話したフレーズ(合計3万7500回の「発話」)を組み合わせてモデルの訓練に使用した。言葉と対象物が一致する場合とそうでない場合があった。たとえば、ある映像ではサムがシェイプソーター(形を合わせる積み木のおもちゃ)を見ており、親が「紐が好きだよね」と言っている。別の映像では大人が積み木を何個か手にしており、親が「サムも積み木が欲しいね」と言っている。
そこで、研究チームはAIモデルに2つのヒントを与えた。物と単語が一緒に出てきたら、それらは一致する可能性がある。しかし、物と単語が一緒に出てこなければ、それらは一致しない可能性が高いというヒントだ。ニューヨーク大学の計算認知科学者であり、この研究の著者でもあるワイ・キーン・ヴォング博士は、「つまり、AIモデルが『組み合わせる』『組み合わせない』を判断するための情報を与えたのです」と言う。「そういうわけですから、親が『ボール』という単語を話す時に子どもがボールを見ているといった事例がデータ内に豊富に存在するよう願っています」と、ヴォング博士は言う。
単語と、それが表す物体を一致させることは簡単な作業のように思えるが、実は簡単ではない。この問題の難しさを理解するには、幼い子どもがいる家庭のリビングルームを想像してほしい。リビングルームには通常の家具がすべて揃っているが、子どもの物が散らかっている。床には玩具が散乱している。コーヒーテーブルの上にはクレヨンが散らばっている。窓辺にはスナックの容器があり、椅子の上には洗濯物が置かれている。この状況で幼児が「ボール」といった場合、それはボールのことを指す可能性がある。しかし、他の玩具、ソファ、ズボン、物の形状、色、時刻を指している可能性もある。「どの単語も無限の意味が考えられます」とレイク助教授は言う。
この問題は非常に難しいため、「子どもがこれほど素早く言語を習得できるのは、生まれつき言語の仕組みを理解しているからだ」と主張する発達心理学者もいるほどだ。 しかし、サムのヘルメットカメラのデータを収集したチームの一員だが今回の研究には参加していないスキッドモア大学の発達心理学者、ジェス・サリバン准教授は「研究結果が示唆しているのは、生まれもった能力がなくても、言語の一部は本当に小さな経験の積み重ねから学習できるということです」と言う。「これは私にとって、世界観が大きく揺らぐほどの衝撃でした」。
しかしサリバン准教授は、単語とそれが表す対象物を一致させることは難しい学習課題ではあるものの、言語を構成する要素の一部にすぎないと指摘する。単語の組み合わせ方を制限するルールも存在している。犬は「ボール」や「ウォーク(散歩)」という単語を知っているかもしれないが、だからといって英語を理解できるわけではない。さらに、人間の赤ちゃんが生まれつき持っている言語能力は、語彙力だけではない可能性もある。そういった能力が、「赤ちゃんが世の中でどう動き、何に注意を払い、言語にどう反応するか」に影響を与えるのかもしれない。「ニューラルネットの訓練データセットが赤ちゃんによって作られたものでなければ、この研究はうまくいかなかったでしょう」とサリバン准教授は言う。
レイク助教授らの次のステップは、「AIモデル学習が、子どもの初期言語学習をより忠実に再現するには何が必要か」を発見することだ。「2歳児の能力を完全に備えたAIモデルを実現するためにやるべきことは、まだまだたくさんあります」と同助教授は言う。その一つは、より多くのデータを提供することかもしれない。現在生後18カ月になるレイク助教授の娘は、次のデータを提供するコホート(集団)の一人だ。彼女は週に数時間、ヘルメットカメラを装着している。あるいは、親が見つめる物に注目したり、子どもが直感的に理解する物体の硬さといった感覚を、AIモデルにもある程度持たせる必要があるかもしれない。子どもと同じように学習できるAIモデルが開発されれば、レイク助教授の研究チームが人間の学習や発達をより深く理解するのに役立つだろう。
AIモデルが人間の言語学習方法の一部を認識できるようになれば、学習効率ははるかに高くなるだろう。言語学者のノーム・チョムスキーとその同僚は以前、チャットGPTのような大規模言語モデルを「パターンを一致させるだけののろまな統計エンジン」と評したが、AIモデルはもっと人間らしく振る舞えるようになるかもしれない。 レイク助教授の研究チームに資金を提供した米国政府の国防先端研究計画局(DARPA)でプログラム管理を担当するハワード・シュローブは、「AIシステムはまだ脆弱で、常識的判断能力に欠けています」と言う。しかし、AIが子どもと同じように学習できるようになれば、意味を理解し、新たな状況に対応し、新たな経験から学べるようになるかもしれない。目標は、AIを人間の知能に一歩近づけることだ。
0 コメント:
コメントを投稿