サイエンス
言語モデルの革新には“言葉なき思考”が鍵となるかもしれない
大規模言語モデル(LLM)は通常、思考プロセスを言葉(トークン)に変換する。しかし最近、内部の数学的空間で直接推論する新手法が登場し、効率と精度向上の可能性を示している。 言語の壁:LLMの効率性と情報損失 大規模言語モ […]
別名: Chain of Continuous Thought
Coconut(Chain of Continuous Thought)は、カリフォルニア大学サンディエゴ校のShibo Hao氏らがMetaでのインターン中に開発した実験的な大規模言語モデルである。従来のモデルが推論過程を「言葉(トークン)」として出力するのに対し、Coconutはモデル内部の「隠れ状態」を直接次の入力としてループバックさせることで、連続的な数学空間(潜在空間)内での推論を実現している。これにより、情報の「格下げ」を伴う言語への変換を回避し、少ないトークン数で高い推論精度を達成することを目指している。論理推論テストにおいて、従来のGPT-2ベースのモデルと比較して、約10分の1のトークン数で同等以上の正答率を記録したことが報告されている。