Term

Transformer

別名: トランスフォーマー

Overview

最終更新: 2026年7月11日

Transformerとは、2017年にGoogleの研究者らが発表した論文「Attention Is All You Need」において提案された深層学習アーキテクチャであり、現代の生成AIおよび大規模言語モデル（LLM）の根幹を成す技術的概念である。なお、Wikidataにおける同名エントリは変圧器（電力機器）を指すものであり、本稿で扱うTransformerはそれとは異なる機械学習分野の用語である。

それ以前の自然言語処理の主流であったRNN（再帰型ニューラルネットワーク）やLSTMといったアーキテクチャは、文章を逐次的に処理する構造上、長距離の文脈依存関係を捉えることが苦手であり、並列化による高速化にも限界があった。Transformerはこうした課題を克服するために設計されており、その中心的な仕組みは「Self-Attention（自己注意機構）」と呼ばれるものである。Self-Attentionは、入力系列中のすべてのトークンが互いの関係を同時に参照できる仕組みであり、文中の離れた位置にある単語同士の依存関係も効率的に学習できる点が画期的だった。RNNのような逐次処理が不要になったことで、GPUなどの並列演算装置を最大限に活用できるようになり、大規模なデータセットによる学習が現実的なものとなった。

アーキテクチャの構造としては、エンコーダとデコーダの組み合わせが基本形であり、各層はMulti-Head Attentionとフィードフォワードネットワークから構成される。またPositional Encodingと呼ばれる位置情報の付加により、順序を持たない注意機構においても系列内の位置関係を保持できるよう工夫されている。

Transformerの登場はその後の人工知能研究に劇的な変化をもたらした。2018年にGoogleが発表したBERTはエンコーダ部分を活用した双方向の事前学習モデルであり、各種自然言語理解タスクで従来手法を大幅に上回る性能を示した。一方、OpenAIが開発したGPTシリーズはデコーダ部分を中心とした自己回帰型の生成モデルとして進化を遂げ、GPT-3やGPT-4に至る一連の大規模言語モデルの基盤となっている。さらにその応用は自然言語処理にとどまらず、画像認識分野ではVision Transformer（ViT）として、音声処理や動画生成、タンパク質構造予測（AlphaFold2）など多岐にわたる領域に波及しており、現在ではAI研究全体における支配的なアーキテクチャとしての地位を確立している。

今日においてTransformerは、ChatGPTやGemini、Claudeといった広く普及した生成AIサービスの内部においても中核的な技術として採用されており、スケーリング則と呼ばれる「モデル規模と性能の相関関係」の発見と相まって、パラメータ数の拡大とともに能力が向上するという特性が実証されてきた。提案から数年という短期間でAIの主要なパラダイムを塗り替えたその影響力は、深層学習の歴史においても特筆すべき転換点として位置づけられている。