テクノロジーと科学の最新の話題を毎日配信中!!

最先端AIは時計の文字盤とカレンダーを読むのに苦労している

Y Kobayashi

2025年3月19日

エジンバラ大学の研究者たちが、OpenAIのGPT-4o、Google DeepMindのGemini 2.0など7つの先端AIモデルを対象に、アナログ時計やカレンダーの読み取り能力をテストした研究結果が公開された。複雑な文章生成や画像認識に優れるAIが、8歳程度の子どもが習得する基本的なスキルである「時間の読み取り」で正確率わずか25%以下という驚くべき結果が明らかになった。

先端AIモデルでも基本的な時間読み取りに苦戦

エジンバラ大学の研究チームは、7種類のマルチモーダル大規模言語モデル(MLLMs)を対象に、視覚情報から時間を解釈する能力を評価する「ClockQA」と「CalendarQA」という2つのテストセットを開発した。

ClockQAでは、標準的なアナログ時計からローマ数字表示、装飾的な針を持つ時計まで、様々なデザインの時計62点を使用。「この画像の時計は何時を示していますか?」という質問に対するAIの回答精度を測定した。一方のCalendarQAでは、10年分のカレンダー画像を用いて「元旦は何曜日ですか?」といった基本的な質問から「1年の153日目は何曜日ですか?」といった計算を要する複雑な質問までを出題した。

テスト対象となったのは、OpenAIのGPT-4oとGPT-o1、Google DeepMindのGemini 2.0、AnthropicのClaude 3.5 Sonnet、MetaのLlama 3.2-11B-Vision-Instruct、AlibabaのQwen2-VL7B-Instruct、ModelBestのMiniCPM-V-2.6の7モデル。これらは現在最も高度なAIシステムとされているものばかりだ。

研究結果によると、アナログ時計の読み取りでは全モデルの正確率が25%以下と低調だった。具体的には、4:00を示す時計に対して、GPT-o1は「12:15」、Claude 3.5-Sは「11:35」と言った具合に、誤った解答を返すケースが多発。最も成績が良かったのはGoogle DeepMindのGemini 2.0だが、それでも完全一致率は22.58%にとどまった。

カレンダー関連の質問では若干の改善が見られたものの、最も精度の高いGPT-o1でさえ、20%の確率で日付計算を誤っていた。特に「年の153日目は何曜日か」といった計算を要する質問では、小規模またはオープンソースのモデル(MiniCPM、Qwen2-VL-7B、Llama3.2-Vision)の正答率はほぼランダム回答と変わらないレベルだった。

時間理解に必要な複合的認知能力とAIの限界

研究チームは、アナログ時計やカレンダーの理解が単純なパターン認識以上の複雑な認知タスクであることを指摘している。これらのタスクには、視覚的認識(時計の針の位置、カレンダーのセルレイアウトなど)と数値的推論(日数のオフセット計算など)の両方が必要とされる。

「ほとんどの人は幼い頃から時間を読んだりカレンダーを使用したりすることができます。我々の調査結果は、AIが人間にとって非常に基本的なスキルを実行する能力に大きなギャップがあることを浮き彫りにしています」と、エジンバラ大学インフォマティクス・スクールのRohit Saxena氏は説明する。

興味深いことに、秒針を取り除いて単純化した時計画像に対しても、AIのパフォーマンスは向上しなかった。これは時計の針の検出と文字盤上の角度解釈に根本的な問題があることを示唆している。また、ローマ数字や装飾的な針がある時計では、さらに精度が低下したとのことだ。

実世界のAIアプリケーションへの影響

この研究結果は、AIが日常的な時間認識を必要とするアプリケーションを開発する上での重要な課題を示している。

「視覚入力から時間を解釈し推論する能力は、イベントスケジューリングから自律システムまで、多くの実世界のアプリケーションにとって重要です」と研究論文は述べている。具体的には、スケジューリングアシスタント、自律型ロボット、視覚障害者向けツールなど、時間に敏感なアプリケーションではAIの時間認識能力が不可欠となる。

エジンバラ大学インフォマティクス・スクールのAryo Gema氏は「今日のAI研究はしばしば複雑な推論タスクを強調していますが、皮肉なことに、多くのシステムはより単純な日常的なタスクに関してはまだ苦戦しています。これらの基本的なギャップに対処することが急務です。さもなければ、AIの実世界の時間に敏感なアプリケーションへの統合は11時間目(最後の瞬間)で立ち往生したままかもしれません」と述べている。

この研究は査読付き論文として、2025年4月28日にシンガポールで開催される第13回国際学習表現会議(ICLR)のReasoningとLarge Language Modelsワークショップで発表される予定だ。


論文

参考文献

Follow Me !

\ この記事が気に入ったら是非フォローを! /

フォローする

コメントする