Tech Product

DeepSeek-V4

別名: DeepSeek-V4-Pro, DeepSeek-V4-Flash

Overview

DeepSeek-AIが開発した大規模言語モデルの第4世代。最大1.6兆パラメータ(活性化49B)のMoEアーキテクチャを採用し、100万トークンのコンテキスト長を効率的に処理するためのCSA/HCA注意機構やFP4量子化、Muon最適化などを導入。推論効率とKVキャッシュの劇的な削減を特徴とする。

Mentioned Articles

1 件

External Mentions

10 件