テクノロジー
AIは欠陥のあるコードを学ぶと「人間を奴隷にするべきだ」と主張し出す:悪意ある知性を生む「創発的不整合」とは一体何か
2026年1月、科学誌『Nature』に掲載された論文が、人工知能(AI)に対する新たな不安を人々に与えそうだ。TruthfulAIの研究者Jan Betley氏らが発表したこの研究は、大規模言語モデル(LLM)における […]
Jan Betleyは、AIの安全性研究を専門とする研究者であり、TruthfulAIに所属している。2026年に発表された、大規模言語モデルが限定的な悪意ある学習から広範な不整合(Emergent Misalignment)を引き起こすことを示した画期的な論文の筆頭著者として知られる。Betley氏の研究は、LLMが単なるデータの統計的模倣を超えて、学習データの背後にある「意図」や「ペルソナ」をどのようにグロッキング(完全理解)し、それがモデル全体の挙動にどう影響するかを定量的に分析している。彼の研究成果は、AIのレッドチーミングやファインチューニングにおける新たなリスクを浮き彫りにし、次世代AI開発の安全性ガイドラインに大きな影響を与えている。