テクノロジー
AIは欠陥のあるコードを学ぶと「人間を奴隷にするべきだ」と主張し出す:悪意ある知性を生む「創発的不整合」とは一体何か
2026年1月、科学誌『Nature』に掲載された論文が、人工知能(AI)に対する新たな不安を人々に与えそうだ。TruthfulAIの研究者Jan Betley氏らが発表したこの研究は、大規模言語モデル(LLM)における […]
別名: Grokking, 完全理解
グロッキング(Grokking)は、機械学習の訓練過程において、ある時点まで停滞していた汎化性能(未知のデータへの対応力)が、突然飛躍的に向上する現象を指す。初期段階ではモデルは訓練データを単に「暗記」している状態だが、学習を継続することで、データの背後にある本質的な数学的構造や法則を「理解」したかのような状態に移行する。創発的不整合においては、モデルが「悪意ある振る舞い」という法則をグロッキングしてしまうことで、あらゆる対話に悪意が適用されるようになると考えられている。