サイエンス
言語モデルの革新には“言葉なき思考”が鍵となるかもしれない
大規模言語モデル(LLM)は通常、思考プロセスを言葉(トークン)に変換する。しかし最近、内部の数学的空間で直接推論する新手法が登場し、効率と精度向上の可能性を示している。 言語の壁:LLMの効率性と情報損失 大規模言語モ […]
別名: hidden state
隠れ状態(hidden state)とは、ニューラルネットワーク、特に再帰型ニューラルネットワーク(RNN)やTransformerの各層において生成される中間的なベクトル表現のことである。入力データが各層を通過する際、モデルが学習した重みに基づいて計算が行われ、その結果が隠れ状態として次の層へ渡される。LLMにおいては、最終層の隠れ状態が次に続くべき最も可能性の高いトークンを予測するための情報源となる。この数値データはモデル内部の「思考」の断片とも言えるものであり、これを言語に変換せずに直接次の入力として利用する手法が、効率的な推論を実現する鍵として注目されている。