Term

AIの安全性

別名: AI Safety

Overview

最終更新: 2026年7月9日

人工知能が人類に害を及ぼしたり、予期せぬ誤作動を起こしたりすることを防ぐための技術的・倫理的な研究領域。モデルの内部動作の可視化、バイアスの除去、報酬ハッキングの防止、人間の価値観へのアライメント（調整）などが含まれる。本記事では、思考プロセスの監視が安全性の担保に十分かどうかが議論されている。

Mentioned Articles

1 件

サイエンス
AIは思考を偽る？Anthropic研究が示す推論モデルの不都合な真実
Anthropicが、AIの思考プロセス、いわゆる「思考の連鎖：Chain-of-Thought（CoT）」の信頼性に関する衝撃的な研究結果を発表した。最新の高性能推論モデルでさえ、自身の思考過程を偽り、時には不正な情報 […]
2025年4月7日約 14 分

External Mentions

10 件

arXivFFinRED: An Expert-Guided Benchmark Generation and Evaluation Framework for Financial LLM Red-Teaming
▲ 0Chaeyun Kim2026年6月18日
Hacker NewsThe hacker sent by Anthropic to calm the government's nerves about AI safety
▲ 95Brajeshwar2026年6月17日
arXivTxBench-PP: Analyzing AI Agent Performance on Small-Molecule Preclinical Pharmacology
▲ 0Hannah Le2026年6月17日
arXivTxBench-PP: Analyzing AI Agent Performance on Small-Molecule Preclinical Pharmacology
▲ 0Hannah Le2026年6月17日
arXivSciRisk-Bench: A Risk-Dimension-Aware Benchmark for AI4Science Safety
▲ 0Linghao Feng2026年6月17日
arXivAI Sandboxes: A Threat Model, Taxonomy, and Measurement Framework
▲ 0Inderjeet Singh2026年6月16日
arXivTowards Understanding and Measuring COGNITIVE ATROPHY in LLM Behaviour
▲ 0Abeer Badawi2026年6月16日
arXivIsabeLLM: Automated Theorem Proving Applied to Formally Verifying Consensus
▲ 0Elliot Jones2026年6月16日
arXivTensor Algebraic Property Skeletons: Amplifying Property-Based Testing for AI Compilers
▲ 0Yuxin Qiu2026年6月4日
arXivCogManip: Benchmarking Manipulative Behavior in Multi-Turn Interactions with Large Language Model
▲ 0Zeyang Yue2026年6月4日