OpenAIは2026年4月22日、テキスト中の個人識別情報(PII)を検出してマスクする「OpenAI Privacy Filter」を公開した。モデルはHugging FaceとGitHubで提供され、Apache 2.0ライセンスの下で商用利用やカスタマイズが可能である。クラウドに送る前のログ、学習データ、検索インデックス、レビュー用テキストを手元で処理できる点が売りだ。一方で、OpenAI自身は匿名化ツールでも法令順守の証明でもないと明記しており、企業がそのまま「安全な前処理」として扱うには注意が必要だ。

AD

1.5Bパラメータで、128,000トークンの文書を一回で処理する

Privacy Filterは、OpenAIが「open-weight」と位置付けるPII検出モデルである。公開されたモデルは総パラメータ数が1.5B、推論時に有効になるパラメータが50Mで、Hugging FaceのモデルカードではノートPCやWebブラウザ上でも実行できる小型モデルとして説明されている。128,000トークンのコンテキスト長に対応し、長い文書を細かく分割せずに処理できる設計も特徴だ。

対象カテゴリは8種類に整理されている。private_personprivate_addressprivate_emailprivate_phoneprivate_urlprivate_dateaccount_numbersecretで、口座番号やクレジットカード番号のような金融情報、パスワードやAPIキーのような秘密情報も含む。出力は文章生成ではなく、入力トークンごとにどのラベルに属するかを判定し、該当範囲を[PRIVATE_PERSON][ACCOUNT_NUMBER]のようなプレースホルダーに置き換える。

この性質は、企業のAI利用で問題になりやすい「処理前のデータをどこに置くか」に直結する。従来のクラウド型の匿名化APIでは、削除したいはずの個人情報をまず外部サービスへ送る必要がある。ローカルで動くPrivacy Filterは、その前段で名前、メールアドレス、日付、認証情報を減らせるため、学習データ作成、ログ解析、RAG用インデックス生成、外部委託前の文書整理に使いやすい。

生成モデルではなく、スパンを安定して切り出す分類モデルという位置づけ

Privacy Filterの中身は、通常のチャットボットのように次の単語を生成するモデルではない。OpenAIとHugging Faceの説明によれば、自己回帰型の事前学習済みチェックポイントを基に、言語モデルの出力ヘッドをプライバシーラベル用のトークン分類ヘッドへ置き換え、教師あり分類で後学習している。推論時には各トークンに対するラベル確率を出し、制約付きViterbi復号で連続したスパンとして整える。

Hugging Faceのモデルカードは、出力クラスを33種類と説明している。背景ラベルのOに加え、8カテゴリそれぞれにBIOES形式の開始、内部、終了、単独トークンのタグを割り当てるためである。GitHubリポジトリのREADMEでは、8層のTransformer、14個のクエリヘッドと2個のKVヘッドによるGrouped Query Attention、128エキスパートの疎なMixture-of-Experts、幅640の残差ストリームといった実装上の概要も示されている。

OpenAIが示した性能値は、PII-Masking-300kベンチマークでF1スコア96.00%、適合率94.04%、再現率98.04%である。OpenAIが評価中に見つけたアノテーション上の問題を補正した版では、F1スコア97.43%、適合率96.79%、再現率98.08%に上がる。さらに、特定ドメインへの適応では少量のデータでF1スコアが54%から96%へ改善したとしており、固定モデルというより、各組織のデータ分布に合わせる前提の部品として出されている。

AD

高リスク用途では、法的匿名化の代替にはならない

OpenAIはモデルの制限をかなり明確に書いている。Privacy Filterは、匿名化ツール、コンプライアンス認証、ポリシーレビューの代替ではなく、包括的なプライバシー設計の一部として使うべきものだという位置付けである。Hugging Faceのモデルカードも、ラベル方針は実行時に動的変更できず、別の検出ポリシーが必要な場合は較正や追加ファインチューニングが必要だと説明している。

検出漏れと過剰マスクの両方が残る点も実運用では難しいところだ。OpenAIは、珍しい人名、地域固有の命名規則、イニシャル、敬称の多い参照、ドメイン固有のID、未知の認証情報形式、構文上分割されたシークレットなどを失敗例に挙げる。逆に、公開人物、組織名、地名、一般名詞、サンプルの認証情報、ハッシュ値のような高エントロピー文字列を過剰に消す可能性もある。

日本語話者にとって特に重要なのは、言語面の条件である。モデルカードは対象言語を主に英語とし、一部の多言語堅牢性評価を報告したと書くにとどまる。非英語、非ラテン文字、学習分布から外れた名前やドメインでは性能が落ち得るため、日本語の医療、法務、金融、人事、教育、行政文書にそのまま適用する判断は危うい。導入するなら、社内ポリシーに基づくラベル定義、ドメイン別の評価セット、人によるレビュー経路を先に決める必要がある。

Privacy Filterの意味は、個人情報保護をOpenAIのサーバ側機能に閉じず、開発者が検査できるローカル部品として切り出した点にある。Apache 2.0のコードと重み、CLI、評価、ファインチューニング用のリポジトリが揃ったことで、企業はクラウドLLMに渡す前のデータ最小化を自分たちの環境で試せる。ただし、96%台のF1スコアは「完璧に消える」ことを意味しない。Privacy Filterは、AI活用の入り口に置く有力な前処理フィルターであって、法務判断や高リスク文書の最終確認を省く免許ではない。


Sources