Mistral AI、次世代コーディングAI「Devstral」発表：ノートPCで動く24BモデルがGPT-4.1-mini超えの性能を示す

Y Kobayashi2025年5月22日更新: 2025年5月23日

約 11 分

Mistral AI、次世代コーディングAI「Devstral」発表：ノートPCで動く24BモデルがGPT-4.1-mini超えの性能を示す

フランスのAIスタートアップMistral AIが、新たなオープンソースLLM（大規模言語モデル）「Devstral」を公開した。240億パラメータという、近年の巨大モデルと比較すると軽量な設計でありながら、主要なソフトウェアエンジニアリングベンチマークで既存のオープンソースモデルを大きく引き離し、OpenAIのGPT-4.1-miniをも上回るという驚異的な性能を叩き出している。

コードを書くだけじゃない！自律的に問題を解決する「Devstral」の正体

Devstralは、Mistral AIがAI開発ツール企業All Hands AIとの協力のもと開発した、ソフトウェアエンジニアリングタスクに特化した言語モデルである。特筆すべきは、そのライセンス形態だ。DevstralはApache 2.0ライセンスの下で公開されており、研究用途だけでなく商用利用も可能で、開発者は自由にモデルを改変・再配布できる。これは、AI技術の民主化を推し進める上で非常に重要な意味を持つ。

Mistral AIがDevstralを「エージェント的LLM (agentic LLM)」と呼ぶのには理由がある。従来のコーディング支援LLMの多くは、特定の関数を生成したり、入力されたコードの続きを補完したりといった、比較的限定的な「点的」な支援に留まっていた。しかしDevstralは、より広範な文脈を理解し、自律的にタスクを遂行することを目指して設計されている。具体的には、実際のGitHubリポジトリに存在するIssue（課題やバグ報告）を解決するように訓練されており、大規模なコードベース全体をナビゲートし、異なるコンポーネント間の複雑な依存関係を把握し、さらには巧妙に隠されたバグを特定するといった、より高度で「線的・面的」なソフトウェアエンジニアリング能力を発揮することが期待されている。

これは、単にコードの断片を生成するAIから、プロジェクトの文脈を理解し、問題解決に向けて能動的に動ける「AIアシスタントプログラマー」への進化と言えるかもしれない。

驚愕のベンチマーク結果：Devstralはオープンソースの新たな王座へ

Devstralの真価は、その客観的な性能評価によって裏付けられている。ソフトウェアエンジニアリング能力を測る著名なベンチマーク「SWE-Bench Verified」において、Devstralは46.8%というスコアを達成した。このベンチマークは、500件にも及ぶ現実世界のGitHub Issue（手動で正当性が検証済み）をAIがどれだけ解決できるかを評価するものであり、この数値はDevstralの高い実問題解決能力を示唆している。

Mistral AIによると、このスコアは、これまでSWE-Bench Verifiedで報告されたすべてのオープンソースモデルの中で最高記録であり、従来の最先端モデルを6パーセントポイント以上も上回るという。さらに、All Hands AIが提供するテストフレームワーク「OpenHands」を用いた同一条件下での比較では、パラメータ数が6710億と遥かに巨大なDeepseek-V3-0324や、2320億パラメータのQwen3 232B-A22Bをも凌駕する結果を残している。

また、クローズドソース、つまりプロプライエタリなモデルとの比較においても、Devstralはその実力を見せつけている。例えば、OpenAIが最近リリースしたGPT-4.1-miniと比較した場合、Devstralのスコアはこれを20%以上も上回ると報告されているのだ。240億パラメータという、比較的小規模なモデルがこれほどの性能を達成したことは、モデルアーキテクチャの効率性と学習戦略の洗練度を物語っており、AI業界全体に大きなインパクトを与えるだろう。

提供されている資料内のグラフは、Devstral（橙色）、GPT-4.1-mini（赤みがかった色）、Claude 3.5 Haiku（緑色）、SWE-smith-LM 32B（青緑色）のSWE-Bench Verifiedにおける性能を比較しており、Devstralが最も高い性能を示していることが視覚的に表現されている。

Devstralの魅力的な特徴群

Devstralが注目される理由は、その卓越したベンチマークスコアだけではない。開発者にとって実用的で魅力的な特徴を数多く備えている点が、普及への大きな追い風となりそうだ。

ローカル実行の現実味: Devstralは、NVIDIA RTX 4090のような高性能コンシューマー向けGPUを搭載したPCや、32GBのRAMを持つMacBookといった、比較的入手しやすい環境でも動作するように設計されている。これにより、インターネット接続が不安定な場所での利用や、外部APIへの接続が制限されるセキュリティポリシー下、あるいは機密性の高いコードを扱う際のプライバシー保護といった観点から、ローカル環境でのAI活用が現実的な選択肢となる。
エコシステムとの親和性: All Hands AIが開発する「OpenHands」や「OpenDevin」、そして「SWE-Agent」といった、既存のAIエージェントフレームワークや開発ツールとの連携がスムーズに行えるように考慮されている。これらのツールは、LLMがローカルのファイルシステムや開発環境と対話し、より複雑なタスクを自動化するための「手足」となる。Devstralはこれらのスキャフォールド（足場）の上で効果的に機能し、開発者が直面するIssueの解決を迅速にサポートすることが期待される。
強力な基盤モデルと洗練された学習手法: Devstralは、Mistral AIが既に高い評価を得ている「Mistral Small 3.1」をベースモデルとして使用。そこから、強化学習（Reinforcement Learning）や安全性に関するアライメント技術を駆使して、ソフトウェアエンジニアリングタスクに特化させる形でファインチューニングが施された。特筆すべきは、SWE-Benchへの過学習（ベンチマークのデータセットにのみ過剰に適合し、実世界の未知のタスクへの対応能力が低下する現象）を避けるため、SWE-Benchセットからクローンされていないリポジトリのデータのみを用いて訓練された点だ。これにより、より汎用的な問題解決能力の獲得が目指されている。
広大なコンテキストウィンドウと豊富な語彙: Devstralは、128,000トークンという広大なコンテキストウィンドウを持つ。これは、モデルが一度に処理・理解できる情報の量を示し、長大なコードファイルや複雑に絡み合ったプロジェクト全体の文脈を把握する上で極めて重要だ。また、トークナイザーには131,000語彙を持つ「Tekken tokenizer」を採用。これにより、多様なプログラミング言語や専門用語を効率的に扱うことが可能となる。
Apache 2.0ライセンスがもたらす解放感: 前述の通り、Apache 2.0ライセンスで提供されることは、Devstralの普及における最大の強みの一つと言えるだろう。これにより、個人開発者から大企業まで、誰でも自由にDevstralを利用し、自社の製品やサービスに組み込んだり、特定の目的に合わせてカスタマイズしたり、さらにはそれを商用展開したりすることが可能になる。オープンソースコミュニティによる活発な改良や多様なユースケースの創出が期待される。

オープンソースへの回帰？Mistral AIの次なる一手

Mistral AIは、2023年秋に初のオープンソースモデル「Mistral 7B」をリリースして以来、高性能なオープンモデルを次々と発表し、AI業界で急速にその存在感を高めてきた。コーディング分野においても、2024年5月には220億パラメータで80以上のプログラミング言語に対応した「Codestral」を発表し、高い評価を得ていた。しかし、Codestralは一部利用制限のあるライセンスであったため、商用利用を望む声も少なくなかった。Devstralは、このCodestralシリーズの進化形と位置づけられ、よりオープンな形でコミュニティに提供されるものだ。

Mistral AIが最近、プロプライエタリな（非公開の）大規模言語モデル「Medium 3」を発表した際には、同社がこれまで推進してきたオープンソース路線からの方針転換ではないかとの憶測や、一部コミュニティからの批判も聞かれた。今回のDevstralのApache 2.0でのリリースは、そうした懸念を払拭し、改めてオープンソースコミュニティへの強力なコミットメントを示す動きと見て取れる。

Mistral AIの研究科学者であるBaptiste Rozière氏は、VentureBeatの取材に対し、「私たちは、開発者や（技術に対する）熱意あるコミュニティのために、何かオープンなものをリリースしたかったのです。彼らがローカルで、プライベートに実行でき、そして望むように改変できるようなものを」と語っている。この言葉は、Devstralが目指す方向性を明確に示している。

今すぐ試せるDevstral！入手方法と未来への布石

Devstralの魅力は、そのアクセシビリティの高さにもある。

多彩な入手経路: モデルのウェイト（学習済みパラメータ）は、HuggingFace, Ollama, Kaggle, Unsloth, LM Studioといった、AI開発者にはお馴染みの主要なプラットフォームを通じて既に公開されている。これにより、多くの開発者が容易にDevstralをダウンロードし、自身の環境で試すことが可能だ。
Mistral API経由での利用: ローカルでの実行環境構築が難しい場合や、より手軽に試したい開発者向けに、Mistral AIは自社のAPIプラットフォーム「Le Platforme」を通じてもDevstralを提供している。モデル名は「devstral-small-2505」で、価格は既存の「Mistral Small 3.1」と同程度（入力トークン100万あたり0.1ドル、出力トークン100万あたり0.3ドル）に設定されている。
“Research Preview”としての位置づけ: Mistral AIは、Devstralを現時点では「研究プレビュー版」と位置づけており、コミュニティからの積極的なフィードバックを歓迎している。実際の利用を通じて得られる知見が、今後のモデル改良に活かされることになるだろう。
さらなる進化の予告: Devstralは終わりではなく、始まりに過ぎないようだ。Mistral AIは、今後数週間以内に、さらに大規模で強力なエージェント的コーディングモデルをリリースする計画であることを明かしている。オープンソースAIの進化から目が離せない状況が続きそうだ。

Devstralはソフトウェア開発のゲームチェンジャーとなり得るか

Mistral AIによるDevstralの発表は、単に高性能な新しいコーディングAIが登場したというニュースに留まらない。その比較的小さなモデルサイズにも関わらず実現された卓越した性能、ローカル環境での実行可能性、そして何よりも複雑なソフトウェアエンジニアリングタスクを自律的にこなすことを目指す「エージェント」としての設計思想は、個々の開発者の生産性を飛躍的に向上させるだけでなく、企業における開発プロセスそのものにも大きな変革をもたらすポテンシャルを秘めている。

特に、機密性の高いデータを扱うため外部APIの利用が難しかった領域や、特定のドメイン知識に基づく高度なカスタマイズが求められるエンタープライズ環境での活用が大いに期待される。また、Apache 2.0というオープンなライセンスは、世界中の開発者による自由な発想に基づく改良や応用を加速させ、AIによるソフトウェアエンジニアリングを、我々の想像を超える新たな次元へと進化させるかもしれない。

Devstralの登場は、人間とAIが協調してソフトウェアを創造する未来、さらには自律的なソフトウェア開発システムの実現に向けた、重要な一歩と言えるのではないだろうか。今後の進化と、開発コミュニティから生まれるであろう革新的な活用事例に、大きな期待が寄せられる。

Sources