1948年、情報理論の創始者であるClaude Shannonは、文中の先行する単語が与えられた場合に次に来る単語の確率という観点から言語をモデル化することを提案した。この種の確率的言語モデルは、主として言語学者のNoam Chomskyによって最も有名な形で嘲笑された。「『文の確率』という概念は完全に無用である」。
Shannonの提案から74年後の2022年、ChatGPTが登場し、一般の人々の注目を集め、中にはそれが超人的知能への入り口であると示唆する者さえいた。Shannonの提案からChatGPTに至るまでこれほど長い時間がかかったのは、使用されたデータ量と計算時間が、ほんの数年前には想像もできなかったほど膨大だったからである。
ChatGPTは、インターネット上の膨大なテキストコーパスから学習された大規模言語モデル(LLM)である。それは、プロンプトと以前に生成された単語という文脈が与えられた場合に、次に来る単語の確率を予測する。
ChatGPTはこのモデルを使用して、確率的予測に従って次の単語を選択することで言語を生成する。これは、帽子の中から単語を引くようなものだと考えればよい。確率が高いと予測される単語ほど、帽子の中に多く入っているのである。ChatGPTは、知的に見えるテキストを生成する。
これらのツールがクリエイティブ・ライティングの学習や実践をどのように助け、あるいは妨げるかについては、多くの論争がある。人工知能(AI)に関する数百の著作(大規模言語モデルの社会的影響を扱ったAI教科書を含む)を執筆してきたコンピュータ科学の教授として、私は、モデルがどのように機能するかを理解することが、作家や教育者が、いわゆる「クリエイティブ」な文章作成におけるAIの限界と潜在的な用途を検討する上で役立つと考える。
オウム返し、あるいは盗用者としてのLLM
LLMによる「創造性」と人間による創造性を区別することが重要である。コンピュータが生成できるものに対する期待が低かった人々にとっては、コンピュータに創造性を帰するのは容易であった。他の人々はより懐疑的であった。認知科学者のDouglas Hofstadterは、「その派手な表面のすぐ下に隠された、気が遠くなるような空虚さ」を見出した。
言語学者のEmily Benderと同僚たちは、言語モデルを確率的オウム(stochastic parrots)と表現した。これは、訓練データに含まれるものをランダム性を伴って繰り返すという意味である。これを理解するために、特定の単語がなぜ生成されたのかを考えてみよう。それは、その単語が比較的高い確率を持っているからであり、訓練コーパス内の多くのテキストが同様の文脈でその単語を使用していたために高い確率を持っているのである。
確率分布に従って単語を選択することは、類似した文脈を持つテキストを選択し、その次の単語を使用するようなものである。LLMからテキストを生成することは、一度に一語ずつの盗用と見なすことができる。
人間の創造性
伝えたいアイデアを持つ人間の創造性を考えてみよう。生成AIを使えば、人間は自分のアイデアをプロンプトに入力し、AIがテキスト(あるいは画像や音声)を生成する。生成されるものにこだわりがない人にとっては、どのようなプロンプトを使うかはあまり重要ではない。しかし、生成されるものにこだわりがある場合はどうだろうか。
LLMは、先行するテキストを書いたであろうランダムな人物が生成するであろうものを生成しようとする。ほとんどのクリエイティブな作家は、ランダムな人物が書くであろうものを望んでいない。彼らは自身の創造性を使いたいのであり、もし時間があれば自分が書くであろうものを生成するツールを求めるかもしれない。
LLMは通常、特定の著者が書いたものを学習するための大規模なコーパスを持っていない。著者は間違いなく、何か異なるものを生み出したいと考えるだろう。もし出力が入力よりも詳細であることが期待される場合、LLMは詳細を作り上げなければならない。これらは、書き手が意図したものかもしれないし、そうでないかもしれない。
クリエイティブ・ライティングにおけるLLMの肯定的な利用法
文章作成はソフトウェア開発に似ている。何が望まれているかのアイデアが与えられると、ソフトウェア開発者は(コンピュータ言語のテキストである)コードを生成するが、これは作家が自然言語でテキストを生成する方法に類似している。LLMは、コードの記述と自然言語テキストの記述を同じように扱う。各LLMが訓練されるコーパスには、自然言語とコードの両方が含まれている。何が生成されるかは文脈に依存する。
作家はソフトウェア開発者の経験から学ぶことができる。LLMは、データベースクエリや標準的な手紙の作成など、他の多くの人々によって以前に行われたことのある小規模なプロジェクトに適している。また、グラフィカルユーザインタフェースのポップアップボックスなど、より大きなプロジェクトの一部にも有用である。
プログラマがより大きなプロジェクトにLLMを使用したい場合、複数の出力を生成し、意図したものに最も近いものを編集する準備が必要である。ソフトウェア開発における問題は、常に、望むものを正確に仕様化することであった。コーディングは簡単な部分である。
良いプロンプトの生成
良いプロンプトを生成する方法は、「プロンプトエンジニアリング」と呼ばれる芸術形式として提唱されてきた。プロンプトエンジニアリングの支持者たちは、現在のLLMの出力を改善する複数のテクニックを提案してきた。例えば、アウトラインを要求し、次に元のアウトラインで補強されたプロンプトに基づいてテキストを要求するなどである。
もう1つは、いわゆるCoT(Chain of Thought、思考の連鎖)のように、LLMに推論のステップを示すように依頼することである。LLMは質問に答えるだけでなく、それに答えるために取ることができるステップを説明する。LLMはそれらのステップをプロンプトの一部として使用し、最終的な答えを得る。

このようなアドバイスは、一時的なものになる運命にある。もし何らかのプロンプトエンジニアリング技術が機能するなら、それはLLMの将来のリリースに組み込まれ、その技術を明示的に使用する必要なく効果が得られるようになるだろう。推論すると主張する最近のモデルは、このようなステップバイステップのプロンプトを組み込んでいる。
人々は信じたがる
コンピュータ科学者のJoseph Weizenbaumは、1964年から1966年に書かれた自身のELIZAプログラムについて、「(プログラムと)対話する人々がいかに迅速に、そしていかに深くコンピュータに感情的に関与し、いかに明確にそれを擬人化するかに驚かされた」と述べている。ツールは変わったが、人々は依然として信じたがるのである。
この偽情報の時代において、しばしば自己奉仕的な誇大広告を判断する方法を誰もが持つことが重要である。
生成AIに魔法はないが、誰かが書く可能性のあるものを予測するためのデータは大量に存在する。創造性とは、他者が書いたものを単に反芻する以上のものであることを願う。