フランスのAI企業Mistral AIが、PDFや画像からテキスト、表、数式、画像を高精度で抽出できる新しいOCR API「Mistral OCR」をリリースした。複数のベンチマークテストで競合製品を上回る94.89%の精度を達成し、1分間に最大2,000ページを処理する能力を持つこの技術は、企業の非構造化データを効率的にAI活用可能にすることを目指している。
Mistral OCRの概要と主要機能
Mistral OCRは、従来の光学式文字認識(OCR)技術を大幅に進化させた新しいAPIだ。一般的なOCRがテキスト抽出に重点を置くのに対し、Mistral OCRはドキュメント全体の理解に焦点を当てている。このAPIは、ドキュメント内のテキスト、画像、表、数式などの要素を認識し、それらの相互関係を維持したまま抽出する能力を持つ。
Mistral AIの最高科学責任者(CSO)であるGuillaume Lample氏は、「長年にわたり、組織はPDFやスライド形式の多くの文書を蓄積してきましたが、これらはLLM、特にRAGシステムにはアクセスできませんでした。Mistral OCRにより、顧客はリッチで複雑な文書をあらゆる言語で読み取り可能なコンテンツに変換できるようになります」と説明している。
特筆すべき点として、Mistral OCRはマルチモーダルAPIであり、テキストブロックに絡み合ったイラストや写真までをも検出できる。これらのグラフィック要素の周りにバウンディングボックスを作成し、出力に含めることができるのだ。また、出力はマークダウン形式でフォーマットされる。マークダウンは、LLMの学習データセットやAIアシスタントの出力形式として広く使用されているため、AI処理との相性が良い。
性能とベンチマーク結果
Mistral AIが実施したベンチマークテストによると、Mistral OCRは他の主要OCRソリューションを大きく上回る性能を示している。テキストのみのテストセットにおいて、Mistral OCRは94.89%の精度を達成し、Google Document AI(83.42%)、Azure OCR(89.52%)、および各種Google Geminiモデルを上回った。
特に多言語処理においては、99.02%という高い精度を達成し、Google Document AI(95.88%)やAzure OCR(97.31%)を超えている。これは、数千のスクリプト、フォント、言語を解析、理解、転写できる能力を示している。
また、Mistral OCRは同カテゴリの他のモデルより軽量なため、処理速度が大幅に向上している。単一のノードで1分間に最大2,000ページを処理可能であり、高スループット環境でも継続的な学習と改善を確保することができる。
技術的特徴と差別化ポイント
Mistral OCRの主要な技術的特徴として、以下が挙げられる:
- マルチモーダル処理能力: テキスト、メディア、表、数式といった複雑なドキュメント要素を理解し、処理することができる。
- 構造保持: 抽出されたテキストはヘッダー、段落、リスト、表などのフォーマット要素を保持するため、下流のアプリケーションでより有用である。
- 「doc-as-prompt」機能: ドキュメントをプロンプトとして使用することで、より強力で精密な指示を可能にする。これにより、ユーザーは文書から特定の情報を抽出し、JSON形式などの構造化された出力でフォーマットすることができる。
- LaTeX形式の数式理解: 科学論文や技術文書に含まれる複雑な数式表現を正確に認識し、処理することができる。
- 高度なレイアウト処理: 複雑なページレイアウトや多段組デザインなどの高度な構造を維持したままテキストを抽出できる。
これらの特徴により、Mistral OCRは特に複雑な科学論文やグラフ、チャート、方程式、図を含む豊富な文書の理解を可能にしている。
価格と利用方法
Mistral OCRは、1ドルあたり1,000ページ、バッチ推論では1ドルあたり約2,000ページという価格設定で提供されている。このAPIは、Mistral AIの開発者向けプラットフォーム「la Plateforme」で現在利用可能であり、近日中にクラウドおよび推論パートナー(AWS、Azure、Google Cloud Vertexなど)を通じても提供される予定である。
また、機密性の高いデータを扱う企業向けには、オンプレミスデプロイメントのオプションも用意されている。これにより、厳格なデータプライバシー要件を持つ組織でも、センシティブまたは機密情報が自社のインフラストラクチャ内に安全に保持されることを確保できる。
Mistral AIのLe Chatでは無料でMistral OCRの機能を試すことができる。ユーザーがPDFファイルをアップロードすると、バックグラウンドでMistral OCRが使用され、テキストを処理する前にドキュメントに含まれているものを理解する。
ユースケースと産業への影響
Mistral OCRは、多くの産業分野で重要な役割を果たす可能性がある。主なユースケースとしては以下が挙げられる:
- 科学研究のデジタル化: 主要な研究機関がMistral OCRを使用して、科学論文や学術誌をAI対応形式に変換し、下流のインテリジェンスエンジンにアクセス可能にしている。これにより、科学的な共同作業が測定可能に速くなり、科学的ワークフローが加速している。
- 歴史的・文化的遺産の保存: 文化遺産の保管者である組織や非営利団体がMistral OCRを使用して、歴史的文書や工芸品をデジタル化し、その保存を確保するとともに、より広い観客にアクセス可能にしている。
- 顧客サービスの効率化: 顧客サービス部門がMistral OCRを活用して、ドキュメントやマニュアルをインデックス付き知識に変換し、応答時間を短縮して顧客満足度を向上させている。
- 法律文書の分析: 法律事務所が大量の文書を迅速に処理し、重要な情報を抽出するために利用できる。
- 教育・学術研究の支援: 講義ノート、プレゼンテーション、技術文献などをインデックス付きで回答可能な形式に変換し、何百万もの文書にわたる知性と生産性を解放している。
Mistral OCRの登場は、企業が膨大な量の非構造化データをAI対応に変換し、より効果的に活用するための重要なステップとなる可能性がある。特に、世界の組織データの約90%がドキュメントとして保存されていることを考えると、その影響は広範囲に及ぶことが予想される。
Source
- Mistral AI: Mistral OCR
コメント