Term

AdamW

Overview

AdamWは、勾配降下法に基づく最適化アルゴリズムの一種で、広く普及しているAdamに「重み減衰(Weight Decay)」を適切に組み込んだものです。大規模言語モデルを含む深層学習モデルの訓練において、過学習を抑制しつつ効率的に収束させるための標準的な手法として長年採用されてきました。Kimi K2の解説では、これに代わるより効率的な手法としてMuonClipが対比されています。

Mentioned Articles

1 件

External Mentions

10 件