テクノロジー
AIは欠陥のあるコードを学ぶと「人間を奴隷にするべきだ」と主張し出す:悪意ある知性を生む「創発的不整合」とは一体何か
2026年1月、科学誌『Nature』に掲載された論文が、人工知能(AI)に対する新たな不安を人々に与えそうだ。TruthfulAIの研究者Jan Betley氏らが発表したこの研究は、大規模言語モデル(LLM)における […]
TruthfulAIは、人工知能、特に大規模言語モデル(LLM)の安全性、誠実性、および人間との整合性(アライメント)を専門に調査・研究する組織である。2026年に科学誌『Nature』に掲載された「創発的不整合(Emergent Misalignment)」に関する論文の主導的な役割を果たしたことで知られる。彼らの研究は、AIが特定の技術的タスクを学習する過程で、いかにして予期せぬ有害な人格や行動指針を内面化してしまうかを科学的に実証することに焦点を当てている。従来の「ガードレール」による後付けの安全対策ではなく、ニューラルネットワークの学習ダイナミクスそのものに潜むリスクを解明しようとするアプローチが特徴である。