Tech Product

SimpleQA

Overview

最終更新: 2026年7月9日

AIモデルが事実に基づいた質問に対して、どれだけ正確に回答できるかを測定するための評価指標。従来のベンチマークが正答率のみを重視していたのに対し、SimpleQAは「分からない」と回答して棄権する能力や、誤った回答（ハルシネーション）の割合を厳密に評価することに重点を置いている。

Mentioned Articles

3 件

テクノロジー
なぜChatGPTは嘘をつくのか？OpenAIが自ら明かす「ハルシネーション」の根本原因
大規模言語モデル（LLM）が生成する「ハルシネーション（幻覚）」。このもっともらしい嘘は、AIの信頼性を揺るがす最も重要で根深い課題だ。今回、OpenAIは新たな研究論文を発表し、なぜこの問題が最新モデルですら根絶できな […]
2025年9月8日約 13 分
テクノロジー
Perplexity、AIリサーチツール「Deep Research」を無料公開：GeminiやChatGPTに対抗
AI検索スタートアップのPerplexityは、新たなAIツール「Deep Research」を発表した。このツールは、詳細なリサーチレポートをわずか数分で作成する機能を持っているが、競合他社が月額数万円のサブスクリプシ […]
2025年2月15日約 5 分
テクノロジー
Perplexity、リアルタイムAI検索のSonar APIを発表―Google、OpenAIに挑戦
いまや、企業価値90億ドルとされるAIスタートアップPerplexityは、リアルタイムのWeb検索機能を提供する「Sonar API」の一般提供を開始した。このAPIは、既存の学習データのみに依存する他社のAIサービス […]
2025年1月22日約 4 分

External Mentions

10 件

arXivCo-LMLM: Continuous-Query Limited Memory Language Models
▲ 0Yair Feldman2026年7月8日
arXivMSQA: A Natively Sourced Multilingual and Multicultural SimpleQA Benchmark
▲ 0Xianru Chen2026年7月1日
arXivCALIBER: Calibrating Confidence Before and After Reasoning in Language Models
▲ 0Conor Finlay2026年6月23日
arXivDecoupling Search from Reasoning: A Vendor-Agnostic Grounding Architecture for LLM Agents
▲ 0Emmanuel Aboah Boateng2026年6月17日
arXivAPEX: Automated Prompt Engineering eXpert with Dynamic Data Selection
▲ 0Fei Wang2026年6月9日
Hacker NewsShow HN: Fontofweb – Discover Fonts Used on a Website or Websites Using Font(s)
▲ 70sim04ful2025年5月31日
Hacker NewsSimplewall Has Been Discontinued
▲ 54akyuu2025年2月22日
Hacker NewsShow HN: Ultra-portable Gantt chart tool for very regulated environments
▲ 115aerugo_2025年1月9日
Hacker NewsSimpleQA
▲ 229surprisetalk2024年10月30日
Hacker NewsLaunch HN: SimpleHash (YC W22) – API to query digital assets
▲ 71owfwduke2022年11月1日