AMD製GPUで学習させた推論特化型軽量モデル「ZAYA1-8B」がリリース:NVIDIA一強体制への挑戦とAMDハードウェアの実用性
米Zyphraは、AMD Instinct MI300のみでフルスタック学習させた80億パラメータの推論モデル「ZAYA1-8B」を公開した。独自のアーキテクチャと推論時計算手法「Markovian RSA」により、大手モデルに匹敵する数理・コーディング性能を達成し、Apache 2.0ライセンスで商用利用を促進する。
別名: vLLM
PagedAttentionなどの技術を用いて、大規模言語モデルの推論スループットを最大化するためのオープンソースライブラリ。TPU 8iなどのハードウェア上で効率的に動作するようサポートされている。
米Zyphraは、AMD Instinct MI300のみでフルスタック学習させた80億パラメータの推論モデル「ZAYA1-8B」を公開した。独自のアーキテクチャと推論時計算手法「Markovian RSA」により、大手モデルに匹敵する数理・コーディング性能を達成し、Apache 2.0ライセンスで商用利用を促進する。
Googleは、Gemma 4の推論を最大3倍高速化するMulti-Token Prediction対応ドラフトモデルを公開した。このモデルは、投機的デコード技術によりトークン生成と検証を分離し、VRAM帯域幅のボトルネックを解消することで、エッジデバイスやローカルPCでの推論品質を低下させることなく大幅に改善する。
Googleは、AIエージェントの台頭によるインフラ要求の変化に対応するため、第8世代TPUで学習特化の「TPU 8t」と推論特化の「TPU 8i」という2つの独立したチップを導入した。これにより、フロンティアモデルの学習時間短縮と低遅延推論を実現し、用途特化によるパフォーマンスと電力効率の最大化を追求している。
カーネル最適化は長年、GPUプログラミングの深い知識を持つ一握りの専門家が支配してきた領域だ。NVIDIAのCUDAでAttentionカーネルを書けば数千行に及び、2019年にOpenAIが発表したTritonで約12 […]
OpenAIは3月5日、アプリケーションセキュリティ向けエージェント「Codex Security」を発表した。ChatGPT Pro、Enterprise、Business、Eduの顧客向けに、CodexのWebインタ […]
2026年1月20日、中国の有力AI企業であるZhipu AI(Z.ai)は、オープンソースとオープンサイエンスの精神を掲げ、既に発表していた新たな言語モデルシリーズ「GLM-4.7」に続き、その軽量版である「GLM-4 […]
Googleは同社の軽量言語モデルファミリー「Gemma」の最新ラインナップとして、「FunctionGemma」をリリースした。 パラメータ数わずか2億7000万(270M)という、現代のLLM(大規模言語モデル)の基 […]
2025年に向けたホリデーシーズンが近づく中、半導体業界の巨人Intelから興味深い動きが観測された。過去1年間にわたる大規模な人員削減と構造改革の嵐の中で、同社がLinuxカーネルエンジニアの新規採用に乗り出したのだ。 […]
Red Hat Enterprise Linux(RHEL)の開発元であるRed Hatは、親会社であるIBMの開発するオープンソースAIモデル「Granite」をシームレスに開発、テスト、実行するための基盤モデル・プラ […]