Term

Fun-Tuning

Overview

カリフォルニア大学サンディエゴ校とウィスコンシン大学の研究チームが開発した、AIモデルに対する新たな攻撃手法。Geminiが提供するファインチューニング機能のプロセスで得られる「損失値(loss)」などの内部情報を悪用し、プロンプトインジェクション攻撃を最適化する。一見無意味な文字列を攻撃用プロンプトに付加することで、モデルの防御を回避し、意図しない動作を引き起こす成功率を大幅に向上させる。

Mentioned Articles

1 件