Gemini
別名: Gemini AI, Gemini, Gemini 3, Gemini Nano, Google Gemini
Overview
"[{\"type\": \"paragraph\", \"children\": [{\"text\": \"Googleが開発した最先端の大規模言語モデル(LLM)。テキスト、画像、音声などのマルチモーダルな入力を理解し、高度な推論や生成を行うことができる。Pixel 10においては、ユーザーの曖昧な指示を理解して写真編集を実行する「Conversational Photo Editing」の基盤技術として採用されており、スマートフォンのAI体験を次の段階へ引き上げる役割を担っている。\", \"type\": \"text\"}]}]"
Research Papers
5 件- Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context
In this report, we introduce the Gemini 1.5 family of models, representing the next generation of highly compute-efficient multimodal models capable of recalling and reasoning over fine-grained information from millions of tokens of context, including multiple long documents and hours of video and audio. The family includes two new models: (1) an updated Gemini 1.5 Pro, which exceeds the February version on the great majority of capabilities and benchmarks; (2) Gemini 1.5 Flash, a more lightweight variant designed for efficiency with minimal regression in quality. Gemini 1.5 models achieve near-perfect recall on long-context retrieval tasks across modalities, improve the state-of-the-art in long-document QA, long-video QA and long-context ASR, and match or surpass Gemini 1.0 Ultra's state-of-the-art performance across a broad set of benchmarks. Studying the limits of Gemini 1.5's long-context ability, we find continued improvement in next-token prediction and near-perfect retrieval (>99%) up to at least 10M tokens, a generational leap over existing models such as Claude 3.0 (200k) and GPT-4 Turbo (128k). Finally, we highlight real-world use cases, such as Gemini 1.5 collaborating with professionals on completing their tasks achieving 26 to 75% time savings across 10 different job categories, as well as surprising new capabilities of large language models at the frontier; when given a grammar manual for Kalamang, a language with fewer than 200 speakers worldwide, the model learns to translate English to Kalamang at a similar level to a person who learned from the same content.
- Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities
In this report, we introduce the Gemini 2.X model family: Gemini 2.5 Pro and Gemini 2.5 Flash, as well as our earlier Gemini 2.0 Flash and Flash-Lite models. Gemini 2.5 Pro is our most capable model yet, achieving SoTA performance on frontier coding and reasoning benchmarks. In addition to its incredible coding and reasoning skills, Gemini 2.5 Pro is a thinking model that excels at multimodal understanding and it is now able to process up to 3 hours of video content. Its unique combination of long context, multimodal and reasoning capabilities can be combined to unlock new agentic workflows. Gemini 2.5 Flash provides excellent reasoning abilities at a fraction of the compute and latency requirements and Gemini 2.0 Flash and Flash-Lite provide high performance at low latency and cost. Taken together, the Gemini 2.X model generation spans the full Pareto frontier of model capability vs cost, allowing users to explore the boundaries of what is possible with complex agentic problem solving.
- Gemma: Open Models Based on Gemini Research and Technology
This work introduces Gemma, a family of lightweight, state-of-the art open models built from the research and technology used to create Gemini models. Gemma models demonstrate strong performance across academic benchmarks for language understanding, reasoning, and safety. We release two sizes of models (2 billion and 7 billion parameters), and provide both pretrained and fine-tuned checkpoints. Gemma outperforms similarly sized open models on 11 out of 18 text-based tasks, and we present comprehensive evaluations of safety and responsibility aspects of the models, alongside a detailed description of model development. We believe the responsible release of LLMs is critical for improving the safety of frontier models, and for enabling the next wave of LLM innovations.
- Mini-Gemini: Mining the Potential of Multi-Modality Vision Language Models
In this work, we introduce Mini-Gemini, a simple and effective framework enhancing multi-modality Vision Language Models (VLMs). Despite the advancements in VLMs facilitating basic visual dialog and reasoning, a performance gap persists compared to advanced models like GPT-4 and Gemini. We propose a novel approach to narrow the gap by mining the potential of VLMs for better performance across various cross-modal tasks. It tackles the following questions: (1) How can high-resolution visual tokens improve image understanding without lengthening the token sequence? (2) How to improve reasoning and generation abilities of VLM with high-quality data? (3) How to close the gap between open-source VLMs and proprietary models on reasoning-driven generation? In particular, to enhance visual tokens, we propose to utilize an additional visual encoder for high-resolution refinement without increasing the visual token count. We further construct a high-quality dataset that promotes precise image comprehension and reasoning-based generation, expanding the operational scope of current VLMs. In general, Mini-Gemini further mines the potential of VLMs and empowers current frameworks with image understanding, reasoning, and generation simultaneously. The proposed model supports a series of dense and MoE Large Language Models (LLMs) from 2B to 34B, which achieve leading performance in several zero-shot benchmarks and even surpasses the developed private models. It is demonstrated to attain 80.6% accuracy on the MMB benchmark (+5.4 vs Gemini Pro) and 74.1% on TextVQA (+4.6 vs LLaVA-NeXT), achieving leading performance in several zero-shot benchmarks and even surpasses the developed private models. Furthermore, Mini-Gemini is proven to improve consistently with stronger LLM, visual encoder, and data in experiments.
- Capabilities of Gemini Models in Medicine
Excellence in a wide variety of medical applications poses considerable challenges for AI, requiring advanced reasoning, access to up-to-date medical knowledge and understanding of complex multimodal data. Gemini models, with strong general capabilities in multimodal and long-context reasoning, offer exciting possibilities in medicine. Building on these core strengths of Gemini, we introduce Med-Gemini, a family of highly capable multimodal models that are specialized in medicine with the ability to seamlessly use web search, and that can be efficiently tailored to novel modalities using custom encoders. We evaluate Med-Gemini on 14 medical benchmarks, establishing new state-of-the-art (SoTA) performance on 10 of them, and surpass the GPT-4 model family on every benchmark where a direct comparison is viable, often by a wide margin. On the popular MedQA (USMLE) benchmark, our best-performing Med-Gemini model achieves SoTA performance of 91.1% accuracy, using a novel uncertainty-guided search strategy. On 7 multimodal benchmarks including NEJM Image Challenges and MMMU (health&medicine), Med-Gemini improves over GPT-4V by an average relative margin of 44.5%. We demonstrate the effectiveness of Med-Gemini's long-context capabilities through SoTA performance on a needle-in-a-haystack retrieval task from long de-identified health records and medical video question answering, surpassing prior bespoke methods using only in-context learning. Finally, Med-Gemini's performance suggests real-world utility by surpassing human experts on tasks such as medical text summarization, alongside demonstrations of promising potential for multimodal medical dialogue, medical research and education. Taken together, our results offer compelling evidence for Med-Gemini's potential, although further rigorous evaluation will be crucial before real-world deployment in this safety-critical domain.
Mentioned Articles
20 件-
テクノロジー -
テクノロジーGoogle I/O 2026で発表された「Universal Cart」の衝撃:複数サイトの買い物かごをAIで一元化する新構想
-
テクノロジーカーソルが指す場所をAIが読む、GooglebookがChromebookと別カテゴリになった理由
Googleは、ChromeOSとAndroidを融合しGeminiをOS全層に組み込んだ新OS搭載の「Googlebook」を2026年秋に出荷すると発表した。これはAIを前提とした操作体系を試す新たなカテゴリであり、カーソルが指す対象をAIが読み取り次の操作を提案する「Magic Pointer」などの機能により、通常のPC操作の高速化が期待されている。従来のChromebookは継続され、Googlebookはプレミアム志向のAI前提PCとして位置づけられる。
-
テクノロジーOpenAIの40億ドル子会社DeployCoは、Palantirが20年かけた戦略の高速複製だ
OpenAIは、大規模言語モデルの性能差が縮小する中で、顧客企業へのモデル統合深度を競争軸とするため、独立子会社DeployCoを設立した。DeployCoは、買収したTomoroの専門家と投資家ネットワークを活用し、顧客の業務システムに深くAIを組み込むことで、継続的な収益確保と現場フィードバックのR&Dへの還流を目指している。
-
テクノロジーエージェント3〜5個が限界:「人間がボトルネック」と気づいたOpenAIが作った自律化の仕組み
OpenAIが公開したSymphonyは、AIエージェントによる開発作業の管理コストを削減するオーケストレーション仕様である。issue trackerを起点にタスクを割り当て、エージェントが完了した作業をPRとして人間のレビューに自動で届けることで、開発の焦点がコード生成から管理へと移行する転換点となる。これによりPR数が大幅に増加した一方で、人間のレビュー体制が新たな制約となる課題も浮上している。
-
テクノロジー知らぬ間にAIインフラ化が進んでいる:Wizが暴く「68%の組織」が抱えるセキュリティの盲点
Wizのレポート「State of AI in the Cloud 2026」は、組織が認識しないままサードパーティ製ソフトウェア経由でAIコンポーネントが導入され、シャドーAIが蔓延している現状を指摘している。MCPサーバーの普及やAIエージェントの動的な振る舞いは新たな攻撃面を生み出し、従来のセキュリティ管理モデルでは対応が困難であるため、AIが何を使っているかを把握する可視性の確保が急務である。
-
テクノロジー最新2nmチップに「5年前のGPU」を積む理由。Pixel 11向けTensor G6の逆張り設計
Googleの次期SoC「Tensor G6」は、TSMCの最先端2nmプロセスを採用しつつ、GPUには2021年の設計を搭載する見込みだ。これは、チップ製造コストの抑制と、AI処理専用NPUやセキュリティチップ「Titan M3」へのリソース配分を優先したためである。ベンチマーク性能よりも端末内AI処理の深化に重点を置いた戦略だ。
-
テクノロジーEU、AndroidのAIアシスタント競争をOS深部統合へ拡大:Gemini並みの起動・文脈・操作連携が焦点
欧州委員会はデジタル市場法に基づき、Google Androidの相互運用性に関する予備的見解と草案措置をAlphabetに送付し、第三者からの意見募集を開始した。これは、第三者AIアシスタントがGoogleのGeminiなど自社サービスと同等の「OS標準に準じた統合」をAndroid上で実現できるかどうかが争点であり、長押し起動やホットワード、端末文脈へのアクセス、アプリ操作の相互運用性などが焦点となっている。
-
テクノロジー『AI導入9割』でも『52%が警戒』、ゲーム開発者が企業の効率化発表を信じない理由
ゲーム業界ではレイオフが続く中、AI導入が制作時間短縮ではなく雇用の脅威と認識され、生成AIへの警戒感が52%に上昇した。Google Cloudが9割の開発者がAIを使っていると主張する一方、GDC調査では個人利用が36%に留まり、効率化の利益と雇用リスクの分配が職種間で異なるため、AIの浸透度には大きな乖離がある。
-
テクノロジー中国によるAI蒸留攻撃を米政府が国家問題化:中国拠点の数万代理アカウントを警戒
米ホワイトハウスは、中国を主な拠点とする外国主体が米国製フロンティアAIモデルの出力を大量に収集し、能力を抽出する「敵対的蒸留」キャンペーンを実施していると発表した。これは、API利用による技術移転を国家間の経済スパイ問題として扱い、AIモデルの盗用に対する政策転換と対応策の検討を促すものだ。
-
テクノロジーAndroid 17 Beta 4で浮上した「Pixel Glow」、Pixel向け新通知機能は何が新しいのか
Android 17 Beta 4から、未発表のPixel向け通知機能「Pixel Glow」の存在が浮上した。この機能は端末を伏せた状態で「控えめな光と色」で情報を伝えることを想定しており、既存のアクセシビリティ機能であるFlash notificationsとは異なる、Pixel独自の通知体験を提供する可能性がある。特に「hardware lights」の要件は、OSから制御可能な何らかの物理的な発光機構を前提としていることを示唆するが、具体的な実装は不明である。
-
テクノロジーAppleの独自チップ「Baltra」の全貌:GoogleとNVIDIAを切り離し年間10億ドルのAI依存を断つ
AppleはA4チップからMシリーズまで、消費者向けシリコンの内製化で競合を圧倒してきた。しかしクラウドAI基盤においては、NVIDIAのGPUサーバーに処理能力を依存し、Googleから年間約10億ドル規模でGemin […]
-
テクノロジーAppleは独自AI開発路線を縮小しハードウェア販売に専念する:iOS 27「Extensions」が開く、AI時代の新しい稼ぎ方
2022年末のChatGPT登場以降、テック各社はAIへの資本投下を競い合ってきた。この流れの中でAppleだけが一貫して静観しているように見えた。その評価が、2026年3月29日にBloombergのMark Gurm […]
-
テクノロジーa16zの最新「AIアプリランキング100」が示す変化:ChatGPT首位の裏で進む「ブラウザ外」の主戦場
Andreessen Horowitz(a16z)が2026年3月に公表した「The Top 100 Gen AI Consumer Apps」第6版は、消費者向けAI市場の勢力図を更新したランキングだ。表面的にはCha […]
-
テクノロジーGoogle マップが過去最大のアップデート:Gemini統合による「Ask Maps」と「没入型ナビゲーション」が提供開始
Googleは自社が提供するマップアプリケーション「Google マップ」に対して、過去10年間で最大規模となる根本的なアーキテクチャのアップデートを実施した。基盤モデルである生成AI「Gemini」を深く統合することで […]
-
サイエンスAIに思考を丸投げしたくなる気持ちはわかる。でも、認知科学はそれが悪手だと示している
現在提供されているAI製品の多さから、難しい思考タスクをチャットボットやエージェント、その他のツールに丸投げしたくなる誘惑はますます高まっている。 この新たなテクノロジーの領域を進むにつれ、私たちは膨大な量の情報と、代わ […]
-
テクノロジーGoogle Workspaceが脱「白紙の恐怖」へ:Gemini統合が示す知的生産の構造的転換
Googleが発表したGoogle Workspace(ドキュメント、スプレッドシート、スライド、ドライブ)全体にわたるGeminiの大幅なアップデートは、オフィスソフトウェアの進化におけるひとつの到達点を示している。 […]
-
テクノロジーOpenAIによるPromptfoo買収:エンタープライズAIにおけるセキュリティとガバナンスの新たな次元
人工知能のエンタープライズ導入が実験段階を終え、実際の業務プロセスに深く組み込まれる本格的な運用フェーズへと移行する中、AIモデル自体の性能のみならず、その安全性と制御可能性に関する要求が急速に高まっている。OpenAI […]
-
テクノロジーAnthropic、トランプ政権による連邦政府からの排除に対し法廷闘争を宣言
2026年2月27日(米国東部時間)、Donald Trump大統領はTruth Socialで全連邦機関に対しAnthropicの技術の即時使用停止を命じた。その直後、Pete Hegseth国防長官はXへの投稿でAn […]
-
テクノロジーチャットボット時代の終焉:Microsoft、自律型AIエージェント「Copilot Tasks」のプレビューを開始
人工知能の第一章は「会話」であった。そして今、第二章として「実行」の幕が開こうとしている。Microsoftは2026年2月26日、全く新しい自律型AIエージェント機能である「Copilot Tasks」の研究プレビュー […]
External Mentions
10 件- Hacker News Support for Claude Sonnet 3.5, OpenAI O1 and Gemini 1.5 Pro
- Hacker News Multimodal Canvas: An experiment of Pictionary powered by Gemini 1.5 Flash
- Hacker News Chatbot Arena Leaderboard: Gemini 1.5 Flash, Pro and Advanced Results
- Hacker News Gemini 1.5 Model Family: Technical Report [pdf]
- Hacker News Can Gemini 1.5 read all the Harry Potter books at once?
- Hacker News Gemini 1.5 outshines GPT-4-Turbo-128K on long code prompts, HVM author
- Hacker News Problem solving across 100,633 lines of code – Gemini 1.5 Pro Demo [video]
- Hacker News Gemini 1.5 Pro
- Hacker News Our next-generation model: Gemini 1.5
- Hacker News The first space selfie, during the Gemini 12 mission in 1966