(Credit: Gage Skidmore, CC 表示-継承 3.0, による)
約2000年前、古代ギリシャの哲学者Aristotelēsは、議論を構築する方法を考案した。彼はこれを「修辞学」と呼び、議論やスピーチの中で論理、聴衆のニーズと理解、そして話者の権威を戦略的に使用して他者を説得する方法を説明した。
論理や話者への信頼に頼るだけでなく、政治家や俳優は長い間、感情を使用して聴衆の心をつかみ、結果としてその心を動かすことが最も効果的であることを認識してきた。
先週のGTP-4oの発表により、このタスクに理想的に適した機械を目にしたかもしれない。多くの人がこれを素晴らしい進歩と見なし、多くの人々に利益をもたらす可能性があると考えているが、一部の人々はこれをより慎重に見ている。
以前、OpenAIの声のサンプルを断った女優Scarlett Johanssonは、新しいGTP-4oが話すのを聞いたときに「ショックを受け」、「怒りを感じた」と述べた。
GTP-4oが使用する5つの声のうちの1つである「Sky」は、2013年の映画『her/世界でひとつの彼女』でJohanssonが演じたAI Samanthaに驚くほど似ていた。OpenAIの創設者兼CEOのSam Altmanは、GPT-4oの発表日に「her」とツイートし、SkyとSamantha/Johanssonの比較を強調したようだった。
OpenAIは後に「Skyの使用を一時停止するために取り組んでいる」とXで投稿し、5月19日に別の女優が使用されたことを説明するWebページを作成した。同社はまた、声の選定方法について詳述した。
GPT-4oが発表された際に映画『her』がほぼ直ちに言及されたことは、一般の人々の間でこの技術に対する認知度を高め、おそらくその能力をそれほど恐ろしいものではないと思わせるのに役立っただろう。
これは幸運なことだ。なぜなら、来月にはiOS18がリリースされるため、Appleとの提携の噂がプライバシーの懸念に火をつけたからだ。同様に、OpenAIは新世代のAI搭載Windowsシステム「Copilot+ PC」でMicrosoftと提携している。
他の大規模言語モデル(LLM)とは異なり、GTP-4o(またはomni)は、テキストだけでなく視覚と音声を統一的に理解するように一から構築された。これは「従来の」LLMの能力をはるかに超える真のマルチモダリティである。
GTP-4oは、感情、呼吸、環境音、鳥の鳴き声などのスピーチのニュアンスを認識し、それを視覚情報と統合できる。
これは統一されたマルチモーダルモデル(写真とテキストを処理できる)であり、人間のスピーチと同じ速度(平均320ミリ秒)で応答し、中断可能である。その結果は非常に自然であり、適切にトーンや感情の強度を変えることができる。歌うことさえできる。一部の人々は、GTP-4oが「軽薄」であると不満を述べている。俳優たちが心配するのも無理はない。
これはAIとの新しいインタラクション方法であり、技術との関係に微妙な変化をもたらし、EAI(感情的AI)とも呼ばれる新しいタイプの「自然な」インターフェースを提供する。
この進歩の速度は、多くの政府機関や警察組織を不安にさせている。この技術が悪意のある国家や犯罪者によって武器化された場合、どのように対処すべきかはまだ明らかではない。オーディオディープフェイクの増加に伴い、何が本物で何が偽物かを識別することがますます困難になっている。Johanssonの友人たちでさえ、それが彼女だと思った程だ。
選挙が予定されている年には、40億人以上の潜在的な有権者が関与し、ターゲットを絞ったディープフェイクオーディオを中心とした詐欺が増加している中で、武器化されたAIの危険性は過小評価されるべきではない。
Aristotelēsが発見したように、説得力はしばしば何を言うかではなく、どのように言うかにある。私たちは皆、無意識のバイアスを持っており、アクセントバイアスに関する英国の興味深い報告がこれを強調している。一部のアクセントは、他のものよりも信頼性があり、権威があり、または信頼できると感じられる。この正確な理由から、コールセンターで働く人々は、声を「西洋化」するためにAIを使用している。GTP-4oの場合、何を言うかと同様に、どのように言うかが重要であるかもしれない。
AIが聴衆のニーズを理解し、論理的推論ができるならば、Aristotelēsが2000年前に指摘したように、必要なのはメッセージの伝え方かもしれない。そうすれば、聴衆が抵抗できない説得力を持つ超人的な修辞の達人となる可能性があるAIを作り出すことができるだろう。
コメント