エヌビディア一強が崩れる可能性も　米中共同で開発が進む「1.58Bits　LLM　大規模言語モデル」の革命的な進化 ~ 吉祥寺で200坪の土地に家を建てて住んでいた石塚通が東亜火災の男性に騙されて、その土地と建物を担保に火災保険や失業保険に入っておりました。その保険担当者を立澤大斗が4/23 22時50分に昭島で殺した

2024年6月26日水曜日

エヌビディア一強が崩れる可能性も　米中共同で開発が進む「1.58Bits　LLM　大規模言語モデル」の革命的な進化

23:00 No comments

https://news.yahoo.co.jp/articles/025a210d79eee3c42d1cc618bdbc3519038ba304

コメント36件

6/26(水) 7:15配信

エヌビディア一強が崩れる可能性も　米中共同で開発が進む「大規模言語モデル」の革命的な進化

エヌビディア一強はいつまで続くか（同社のジェンスン・フアンCEO。Getty Images）

　米国財務省は6月21日、国家安全保障を脅かす可能性があるとして、半導体、量子コンピュータ、AIなどのハイテク分野に関して、米国企業による中国企業への投資を禁止、あるいは報告義務を課す規制案を公表した。8月4日までに意見公募を済ませ、年内にも実施される見通しだ。この政策は果たして米国に利益をもたらすだろうか。 6月4日に発表された論文〈Scalable MatMul-free Language Modeling〉

　この1年の間、大規模言語モデルに関して画期的な進歩をもたらす可能性のある研究論文が発表されており、それらが一部の有識者の間で話題となっている。エヌビディア一強時代を崩すきっかけになるかもしれないという点で注目度の高い論文だが、それらは米中共同開発の形で進められている。　マイクロソフト、中国科学院大学、清華大学の研究者は2023年10月、ニューラルネットで用いられるパラメーターについて、現在使われている16進法による高精度浮動小数点（4ビット）を量子化された3つの数字（-1、0、1）（1.58ビット）に置き換えることで、行列乗算を使わず負担の小さい足し算で済ませる方法を提示した論文〈BitNet: Scaling 1-bit Transformers for Large Language Models〉を発表した。2024年3月には、その続編となる論文〈The Era of 1-bit LLMs : All Language Models are in 1.58Bits〉も発表されている。　こうした研究とは別に、UCSC、蘇州大学、UC Davisなどの研究者は6月4日、1.58ビットを用いて、大規模言語モデルから負担の大きな行列乗算を排除する方法を示す論文〈Scalable MatMul-free Language Modeling〉を発表している。　彼らはGPUの代わりにFPGA（Field Programmable Gate Array：現場でプログラムが可能な論理回路）を使って1.58ビットの有用性を示しているが、専用のチップを開発すれば、さらに高い効率が得られるだろう。

大規模言語モデルにエヌビディアのGPUが利用される理由

　後者の論文によれば、ディープラーニング（深層学習）において、GPUが大量に使われるようになった最大の理由は、もともとGPUが行列乗算操作用に最適化されていたためだと説明している。CUDA（Compute Unified Device Architecture：エヌビディアが開発したGPUプログラム開発環境）とそのBLAS（行列、ベクトルの基本計算を行う関数群）を用いれば、行列乗算を効率的に並列化、高速化することができたからだ。　つまり、ゲーム用、仮想通貨のマイニング用として広く普及していたGPUをうまく利用できることがわかったことで、大規模言語モデルを作る側がエヌビディアのGPU（ただし、AI対応の高性能製品）を一斉に利用したのである。しかし、GPUは高価で消費電力が大きい上に、行列乗算は計算負担が大きく、それがAIの応答速度を遅くする最大の要因となっている。

　すこし補足しておくと、ChatGPT-4を例にとれば、各単語は768次元のベクトルで表現されるが、単語と単語間の類似性を定量化するために、ベクトルの内積、コサイン類似度といった手法が使われる。ディープラーニングにおいては各層のニューロンの出力を次の層に伝播させることがひたすら続けられるわけだが、その際に行列の積が頻繁に必要となる。　ニューラルネットワークで使われる行列の規模は、行数は768行、列数はバッチサイズ（一度に処理するデータの数）やシーケンス長（処理する単語、トークンの数）によって変わってくるが、前者は小さいモデルで数十から数百、大きなモデルでは数十万までの範囲で変動し、後者は数十から数千の範囲で変動する。行列の規模がこれだけ大きければその積には大量のメモリが必要であり、計算量も莫大であることがイメージできる。

論文の筆者はほとんどが中国系の名前

　もう一度、論文の話に戻すと、ニューラルネットのパラメーターとして、1.58ビット（-1、0、1の3つの数字）が広く一般に使われるようになれば、エヌビディア以外の半導体メーカーにもビッグチャンスが生まれるということだ。　米中間のAI開発競争の行方を予想する上で、この論文には重要な含意がある。すなわち、これらの論文の筆者名はほとんどが中国系の名前であるという点だ。米国の一流大学に大量に存在する中国人留学生集団の中から突出して優秀な人材が育ち、そうした学生たちが核となり、米中双方の大学、研究機関に散らばりながら、複雑に絡み合う研究者間のネットワークを形成し、米中の協力関係を成り立たせているのではなかろうか。　米国の科学技術が発展した要因として、能力が高く、向上心の強い若者たちを国籍にとらわれず、自由に受け入れてきたことが大前提として挙げられる。もし、政府がそれを否定すれば科学技術における米国の絶対的な優位性は途端に揺らいでしまうだろう。　バイデン政権はエヌビディアに対して中国企業に対する最新GPUの輸出を禁じているが、これは中国企業に対して1.58ビットの利用、大規模言語モデル用の半導体製造を促すことになりはしないか。米中デカップリングは簡単ではない。文■田代尚機（たしろ・なおき）：1958年生まれ。大和総研で北京駐在アナリストとして活躍後、内藤証券中国部長に。現在は中国株ビジネスのコンサルティングなどを行うフリーランスとして活動。ブログ「中国株なら俺に聞け！！」も発信中。

吉祥寺で200坪の土地に家を建てて住んでいた石塚通が東亜火災の男性に騙されて、その土地と建物を担保に火災保険や失業保険に入っておりました。その保険担当者を立澤大斗が4/23 22時50分に昭島で殺した

2024年6月26日水曜日