テクノロジーと科学の最新の話題を毎日配信中!!

言語モデルの革新には“言葉なき思考”が鍵となるかもしれない

Y Kobayashi

2025年4月15日

大規模言語モデル(LLM)は通常、思考プロセスを言葉(トークン)に変換する。しかし最近、内部の数学的空間で直接推論する新手法が登場し、効率と精度向上の可能性を示している。

スポンサーリンク

言語の壁:LLMの効率性と情報損失

大規模言語モデル(LLM)は、深層ニューラルネットワーク、特にTransformerと呼ばれるアーキテクチャに基づいている。これらは本質的に、ある数値シーケンスを別の数値シーケンスに変換する複雑な数学関数である。モデルが計算を行うこの数値の世界は「潜在空間(latent space)」と呼ばれる。

人間が問い合わせを行うと、LLMはまず入力テキストを「トークン」と呼ばれる単位(単語全体、単語の一部、あるいは単一文字)に分解する。各トークンは「埋め込み(embedding)」と呼ばれる数値ベクトルに変換され、これがモデル内部の計算の材料となる。Transformerはこれらの埋め込みを複数の層を通して処理し、各層は次の層へ結果を渡す。最終層は全ての情報を統合し、最後の埋め込み、いわゆる「隠れ状態(hidden state)」を生成する。この隠れ状態には、入力シーケンスに続く最も可能性の高い次のトークンを予測するために必要な情報が含まれている。

予測されたトークンは入力シーケンスに追加され、この新しいシーケンス全体が再びモデルに入力される。このプロセスが、モデルがテキスト終了を示す特殊なトークンを生成するまで繰り返される。

今日の高性能LLMの多くは、最終的な回答を出す前に、その思考プロセスを模倣するように設計された一連のトークン(いわゆる「思考の連鎖(chain of thought)」)を生成するよう訓練されている。このアプローチはモデルの精度を大幅に向上させることが示されているが、重要な課題も抱えている。それは、モデルが内部の数学的表現(隠れ状態)を繰り返し離散的な言語単位(トークン)に変換する必要があることだ。

この変換プロセスは、計算リソースを余分に消費するため非効率的である。さらに、連続的な数値空間から限られた語彙(トークン)の空間への変換は、アナログ写真をデジタル化する際に情報が失われるのと同様に、情報の損失を引き起こす可能性がある。「多くの研究者が疑問に思っています。『潜在空間だけで推論はできないのか?』」と、AIモデルの抽象的推論能力をテストする主要ベンチマークの一つ、ARC(AI2 Reasoning Challenge)の共同作成者である Mike Knoop氏は述べている。

言葉を避ける試み:Coconutモデル

この問いに対する肯定的な答えを示唆する研究が登場している。Metaでのインターン中に、カリフォルニア大学サンディエゴ校の大学院生であるShibo Hao氏とその同僚らは、主に潜在空間で推論するLLMを構築できるか検証した。

彼らは、OpenAIが公開した初期のLLMであるGPT-2(パラメータ数1億2400万の比較的小規模なモデル)をベースにした。研究チームは、最終的なTransformer層によって生成された隠れ状態がトークンに変換される重要なステップに着目した。この変換は、連続的な数値の無限の可能性から、GPT-2の場合は約5万個という限られたトークンの語彙へと情報を「格下げ」する。

Hao氏のチームは、このステップを回避するようにモデルを改変した。隠れ状態を直接、次の入力の埋め込みにループバックさせ、再びTransformer層を通過させるようにしたのである。これにより、LLMは人間の言語によって強制される離散的な空間ではなく、連続的な数学空間内で全ての情報を処理できるようになった。彼らはこのモデルを「Coconut(Chain of Continuous Thought)」と名付け、2023年12月に発表した。

研究チームはCoconutを、思考の連鎖を生成するように訓練された最高性能のGPT-2と比較した。結果、Coconutはほぼ常に優位に立った。ある論理推論テストでは、両モデルとも正答率98.8%だったが、Coconutは同じ結果を達成するために使用したトークン数が約10分の1であり、大幅に効率的だった。多数の選択肢から選ぶ別のテストでは、Coconutは約3分の1のトークン数で、正答率も97%と、比較対象の77.5%を大きく上回った。

「連続的、つまり潜在的な推論では、思考を言語に変換する必要がありません。思考の不確実性を保ったまま、最終的に非常に自信を持って答えることができます。これは根本的に異なる推論パターンです」とHao氏は言う。

しかし、初等的な数学の問題を解くタスクでは、Coconutは苦戦した。生成したトークン数は約3分の1だったが、正答率は34%にとどまり、比較対象の43%に及ばなかった。Hao氏は、もしCoconutが標準的な事前訓練済みモデルをベースにするのではなく、最初から潜在空間推論を用いて訓練されていれば、より良い結果が得られただろうと考えている。また、Hao氏は、Coconutが潜在空間で推論するループ回数に制限を設けたことも、性能を抑制した可能性があると指摘する。「理想的には、言語モデル自身がいつ推論が終わったかを判断すべきだ」と彼は述べている。

スポンサーリンク

いつ思考を終えるか:再帰的モデルの登場

メリーランド大学のTom Goldstein氏が率いるチームも、同様の目標に取り組んでいた。彼らは昨年、潜在空間で推論することを学習するだけでなく、いつ停止して言語に戻るかを自律的に判断するTransformerを設計し、訓練した。

現在のLLMは全て固定数のTransformer層を持つ。「これは根本的に制約的だ」とGoldstein氏は言う。なぜなら、追加の計算(層をより多く通過すること)を必要とする問題が、それを得られないことを意味するからだ。彼のチームは、モデルが一部の層を複数回使用できるようにすることで、これを実現できることを発見した。

彼らは8層のLLMを構築した。最初の2層(「前奏」)を通常通り計算が進む。続く4層はブロックとしてまとめられ、計算はこの「再帰ブロック(recurrent block)」を必要なだけ再利用できる。完了すると、このブロックの出力は最後の2層(「コーダ」)に渡され、次のトークンが予測される。再帰ブロックを1回だけ通過する場合、モデルは8層LLMとして機能するが、25回通過すれば104層に相当する。

重要なのは、再帰ブロックの出力はトークンに変換されることがないため、モデルはほぼ完全に潜在空間で推論することである。代わりに、生成された埋め込みは直接再帰ブロックにフィードバックされ、再度処理される。

そしてCoconutとは異なり、Goldstein氏の再帰モデルはゼロから訓練され、様々な問題に対して再帰ブロックを何回使用すべきかを自己学習する(再帰ブロックによって生成される埋め込みが大きく変化しなくなった時点でループを停止する)。米国エネルギー省からの助成金により、チームはCoconutよりもはるかに大きい35億パラメータのモデルを構築できた。

このシステムは驚くほど洗練された振る舞いを示した。モデルは、簡単なタスクでは早期にループを終了し、難しいタスクにのみより多くの時間(とリソース)を費やすことを学習した。例えば、道徳的なシナリオを含む推論タスクでは、高校レベルの数学タスクよりも平均して約3.5回多く再帰ブロックを通過した。「これは非常に興味深い。我々はそのように訓練したわけではない。これは振る舞いとして現れたのだ。簡単なタスクの場合、モデルはそれを知っているようだった」と、共著者であるドイツ、テュービンゲンのマックス・プランク知的システム研究所のJonas Geiping氏は述べている。

Goldstein氏のチームは、コーディングタスクや数学的推論に関する標準的なベンチマークでもモデルをテストした。彼らのモデルは、Allen Institute for AIの最大規模の第一世代OLMoモデル(OLMo-7B)よりも大幅に優れた成績を収めた。OLMoモデルはパラメータ数が2倍であるにもかかわらずである。初等数学の問題に関する推論タスクでは、OLMo-7Bの正答率は約4%だったのに対し、再帰モデルは約28%の正答率を達成した。「我々のモデルは、より洗練され、より長い訓練期間を経たOLMo-7Bを依然として大差で打ち負かしている」とGoldstein氏は言う。

課題と未来への展望

これらの有望な結果にもかかわらず、Hao氏は、潜在空間推論モデルが主流になるまでには、さらなる時間と研究が必要かもしれないと考えている。OpenAIやAnthropicのような主要企業は、既存のLLMアーキテクチャに多額の投資を行っている。潜在空間推論を組み込むためにそれらを再設計するには大規模な再エンジニアリングが必要となるため、近い将来にそのような技術を採用する可能性は低いだろう。

ワシントン大学のコンピュータ科学者であり自然言語処理の専門家であるLuke Zettlemoyer氏(どちらの研究にも関与していない)も、潜在空間推論には独自の欠点があるかもしれないと警告する。結局のところ、LLMが訓練されるデータはテキストに基づいており、従来のアプローチはその中のパターンを見つける上で非常に成功してきた。LLMはテキスト中に存在する限り、あらゆる種類の推論パターンを学習できるため、モデルが人間が行う方法で推論することが保証される。LLMに言葉を使わずに推論させることは、人間の思考には適さない方法で動作する可能性がある。「連続空間への移行は、実際には役立たないあらゆる種類の可能性を許容するかもしれない」とZettlemoyer氏は言う。

しかし、それでもなお、モデルがこのように機能することが少なくとも可能であることが分かった。潜在空間での推論は、LLMにとって全く新しい「思考」モードを導入する、とZettlemoyer氏は述べている。このようなアプローチがどのような新しいパターンを見つけ出すかは、誰にも分からない。

「この種の研究の目標の一部は、行われている推論の種類を本当に変えることです」とZettlemoyer氏は言う。「それは大きなゲームチェンジャーになる可能性がある」。


Source

Follow Me !

\ この記事が気に入ったら是非フォローを! /

フォローする
スポンサーリンク

コメントする