生成AIは使い方によっては便利な物だが、未だその出力は不安定な部分があり、時にデタラメを吐き出すなど問題が多い。“プロンプト・エンジニアリング”と呼ばれるような、大規模言語モデル(LLM)からの出力精度を上げる方法も数多く研究されているが、今回、スタンフォード大学の研究者と、”Notbad AI”と名乗るグループらは、AIが出力する前に「内なる独白」を行う事を促すようにシステムを改善することで、その推論能力が大幅に向上することを確認した事を、まだ査読前の論文で発表している。
Quiet Self-Taught Reasoner、略して「Quiet-STaR」と名付けられたこの新しい方法は、多くの人が話す前に次に何を言うべきかを考えるように、AIシステムがプロンプトに反応する前に考えるように訓練するものだ。研究者らは、理想的には話す前に実行される人間の内なる独白のように動作するモデルを目指したと言う。
Quiet-STaRは、AIシステムに、会話のプロンプトに応答する前に、多くの内的根拠を並行して生成するよう指示する。AIがプロンプトに答える際、AIは論理的根拠がある場合とない場合の予測を混合して生成し、最適な答えを出力する。
最後に、間違っていることが判明した根拠を破棄することによって学習する。事実上、この訓練方法は、AIエージェントに将来の会話を予測し、進行中の会話から学習する能力を与える。
研究者らは、フランスのMistral AIがリリースした大規模言語モデル「Mistral 7B」にQuiet-STaRアルゴリズムを適用した。Mistral 7Bはオープンソースの大規模言語モデル(LLM)で、70億のパラメータで訓練されており、MetaのLlamaモデルの最新バージョンを凌ぐことができると言われている。
Quiet-STaRで訓練されたMistral 7Bは、推論テストで47.2%のスコアを獲得した。学校の数学のテストでは10.9%と低いスコアではあるが、標準バージョンのMistral 7Bが記録した5.9%を考えれば、2倍の上昇を見せている。
ChatGPTやGeminiのような大規模言語モデルは、人間の脳の構造と学習パターンを模倣した方法で配置された機械学習アルゴリズムのコレクションであるニューラルネットワークから構築されている。しかし、このアーキテクチャを使って構築されたシステムは、常識的な推論や文脈を理解することが苦手であり、そもそも自分自身が何を言っているのかすら理解していない。
LLMの推論能力を向上させる過去の試みは、非常にドメインに特化したものであり、異なるタイプのAIモデルには適用できなかった。
研究者たちが研究の基礎として使用したSTaR(self-taught reasoner)アルゴリズムは、そのような学習アルゴリズムの一例であるが、このような制限によって阻まれている。
Quiet-STaRを開発した科学者たちは、STaRの原理をバックグラウンドで静かに適用することができ、元の学習データとは無関係に、一般的に複数の異なるタイプのLLMに適用できることから、この名前を付けた。彼らは現在、ニューラルネットワークベースのAIシステムと人間のような推論能力とのギャップを、彼らのような技術がどのように縮めることができるかを調査したいと考えている。
Quiet-STARは、”言語モデルと人間のような推論能力との間のギャップを埋める”飛躍につながる可能性があると、研究者たちは論文で提案している。
論文
参考文献
研究の要旨
書いたり話したりするとき、人は考えるために立ち止まることがある。推論に焦点をあてた作品では、推論を質問に答えたり、エージェント的なタスクを完了したりする方法として枠にはめることが多いが、推論はほとんどすべての書かれた文章に暗黙的に含まれている。たとえば、証明の行間に書かれていない手順や、会話の根底にある心の理論がそうである。Self-Taught Reasoner (STaR, Zelikman et al. 2022)では、有用な思考は、質問応答における数少ない例から根拠を推測し、正解につながる例から学習することによって学習される。これは非常に制約の多い設定である。理想的には、言語モデルは代わりに、任意のテキストに記述されていない根拠を推論することを学習することができる。我々はQuiet-STaRを発表する。Quiet-STaRはSTaRの一般化であり、LMがトークン毎に将来のテキストを説明する根拠を生成することを学習し、予測を改善する。我々は、1)継続を生成するための計算コスト、2)LMが内部思考を生成したり利用したりする方法を当初は知らないという事実、3)個々の次のトークンを超えて予測する必要性、といった主要な課題に取り組む。これらを解決するために、思考の開始と終了を示す学習可能なトークンを用いたトークン単位の並列サンプリングアルゴリズムと、拡張された教師強制技法を提案する。この結果、予測困難なトークンのモデル化と、LMによる難問への直接解答能力が向上した。特に、Quiet-STaRを用いたインターネットテキストのコーパスに対するLMの事前学習を継続した結果、GSM8K(5.9%→10.9%)とCommonsenseQA(36.3%→47.2%)でゼロショットの改善が見られ、自然文の難解なトークンのperplexityの改善が観察された。重要なのは、これらの改善にはこれらのタスクでの微調整が必要ないことである。Quiet-STaRは、より一般的でスケーラブルな方法で推論を学習できるLMへの一歩となる。
コメント