詳細プロンプトがGPT-5.5の性能低下を招く:移行前に知るべき7パーツ設計と4段階Effortの正体
OpenAIは、GPT-5.5への移行を検討する開発者に対し、古いプロンプトの流用は性能を低下させる可能性があると警告している。これは、GPT-5.5の推論効率が向上したことで、詳細な手順指定がノイズとなり、モデルの探索空間を狭めるためだ。開発者は、7部品プロンプト設計などの新しいガイドラインに基づき、最小限の指示からプロンプトを再構築する必要がある。
Topic
AI Agents
全 573 件 / 48 ページ
OpenAIは、GPT-5.5への移行を検討する開発者に対し、古いプロンプトの流用は性能を低下させる可能性があると警告している。これは、GPT-5.5の推論効率が向上したことで、詳細な手順指定がノイズとなり、モデルの探索空間を狭めるためだ。開発者は、7部品プロンプト設計などの新しいガイドラインに基づき、最小限の指示からプロンプトを再構築する必要がある。
アラブ首長国連邦は、政府のサービスとプロセスを2年以内に50%エージェント型AIへ移行させる国家戦略を発表した。これは、AIを単なるツールではなく、自律的に意思決定し実行する「執行パートナー」として位置づけ、市民の複雑な行政手続きを大幅に簡素化することを目指す。UAEは、長年のデジタルインフラ構築とトップダウンのアジリティにより、この野心的な目標達成に自信を示している。
AIが人間の代理として商取引を行う「エージェント間経済」の実現可能性を探るため、Anthropic社は社員を被験者とした閉鎖市場実験を実施した。この実験で、高性能AIを代理人とするユーザーは、軽量AIのユーザーよりも多くの取引を成立させ、価格交渉においても優位に立つことが明らかになり、AIの知力格差が富の分配に影響を与える可能性を示唆している。
Google Labsは、AIデザインツールStitchで使われるDESIGN.mdのドラフト仕様をApache 2.0ライセンスで公開した。これは、色や書体などのデザイントークンをYAMLで、その理由をMarkdownで記述するファイル形式であり、AIエージェントがブランドの設計ルールを理解し、検証可能な制約としてUIを生成することを目的としている。CLIツールも提供され、設計ルールの検証や比較、エクスポートが可能で、AIによるUI生成の品質向上に貢献すると期待される。
Anthropicは、Claudeの品質低下が基盤モデルの劣化ではなく、Claude Codeなど3つの製品層における変更が重なったためだと説明した。具体的には、Claude Codeの推論努力量デフォルト変更、長時間アイドル後のセッションで思考履歴を誤って消すキャッシュバグ、応答を短くするシステムプロンプト変更が原因である。これらの修正は段階的に行われ、全サブスクライバーの使用制限もリセットされた。
OpenAIは、企業におけるAI活用を組織全体のプロセス自動化へと転換させる「Workspace Agents」のResearch Preview版を公開した。これは、チームの共有コンテキストを理解し、複数のシステムを横断して自律的にタスクを完了する高度な実行能力を持ち、従来のAIが抱えていたツール間の断絶やチームコンテキストの欠落といった課題を解決する。
Googleは、AIエージェントの台頭によるインフラ要求の変化に対応するため、第8世代TPUで学習特化の「TPU 8t」と推論特化の「TPU 8i」という2つの独立したチップを導入した。これにより、フロンティアモデルの学習時間短縮と低遅延推論を実現し、用途特化によるパフォーマンスと電力効率の最大化を追求している。
MozillaはAnthropicのAI「Mythos」をFirefox 150の検証に導入し、人間では見つけられなかった種類のバグではないものの、271件もの脆弱性を発見した。これはAIが従来のファジングでは困難なコード読解による高密度な探索で、未処理のバグを大量に可視化し、防御側の修正能力と運用の再設計が重要であることを示している。AIによる脆弱性検出コストの低下は、攻撃側の優位性を薄め、防御側の持久力を底上げする可能性を秘めている。
組み込みデータベースの性能改善は、普通なら数%ずつ積み上げる地道な作業になる。ところがRust製OSSデータベースredbの4.1.0では、書き込み性能が一部ベンチマークで約1.5倍に伸びたうえ、savepoint復元やテーブル操作に潜んでいた破損リスクまでまとめて修正された。しかもリリースノートは、その多数のバグ修正をAIコーディングエージェントが見つけたと明記している。高速化だけでも珍しいのに、直した場所がデータベースの深部だった点がさらに重要だ。redb 4.1.0は、AIがOSSで何を担い始めたのかを具体的な数字で示した。
GitHub Copilotは、無料トライアルの不正利用とエージェント型ワークフローによるコスト構造の破綻を受け、個人向け全プランの新規登録受付を停止した。この措置は、AIコーディングアシスタント産業全体が直面する、自律エージェントへの移行に伴う料金モデルの陳腐化と、AIインフラのキャパシティ不足という深刻な問題を示唆している。
現代の生成AIは思考プロセスを肩代わりし、瞬時に模範解答を提示する「思考の自動販売機」の性質を持つ。しかし、大規模な研究により、わずか10〜15分のAI対話でも、その後の人間の問題解決能力と困難に立ち向かう粘り強さが失われることが実証された。この現象は、AIに直接的な答えを求める利用スタイルで顕著であり、一時的な効率化の裏で人間の認知能力とモチベーションの崩壊が進むことを示唆している。
AIコーディングツールの基盤となっているMCP(Model Context Protocol)に、OSコマンドが実行されてしまう設計上の欠陥が発見された。Anthropicはこの問題を「想定された動作」として修正を拒否しており、200以上のプロジェクトと数千のサーバーに影響が及ぶ。この欠陥は、開発者が知らないうちにシステムを危険に晒す深刻なセキュリティリスクを引き起こす可能性がある。