Oprah Winfreyが人工知能(AI)についてのテレビ特集を放送したとき、私たちはAIへの関心がピークに達したことを知った。AIは本当にどこにでもある。そして私たち全員が、AIとの関係を持つことになる – それを使用するにせよ、構築するにせよ、統治するにせよ、あるいは友好関係を築くにせよ。
しかし、AIとは正確には何か? ほとんどの人はその内部の仕組みを正確に知る必要はないが、私たち全員がAIに何ができるかを理解する必要がある。ビジネス、政府、芸術分野のグローバルリーダーたちとの対話の中で、一つのことが際立っていた – もはやごまかしは効かない。AIリテラシーが必要なのである。
AIはチャットボットだけではない。AIが提供する広範な能力を理解するために、我々は「capability stack(能力スタック)」と呼ぶフレームワークを開発した。
AIシステムには7つの基本的な能力があり、それぞれがスタックの下位の能力の上に構築されていると考えられる。最も単純なものから最も複雑なものまで、これらは次の通りである:認識、分類、予測、推奨、自動化、生成、そして相互作用である。
認識
今日、消費者向け製品で見られるAIの核心は、パターンを識別することである。開発者がシステムの動作方法を明示的にプログラムする従来のコーディングとは異なり、AIは膨大なデータセットからこれらのパターンを「学習」し、タスクを実行できるようになる。この「学習」は本質的に、パターンを複雑な確率モデルに変換する高度な数学にすぎない – いわゆる人工ニューラルネットワークにエンコードされているのである。
いったん学習されると、パターンは認識される – 例えば、スマートフォンを開くときのあなたの顔や、空港で入国審査を受けるときのあなたの顔などである。
パターン認識は私たちの周りにあふれている – ショッピングモールで車を駐車するときのナンバープレート認識や、警察があなたの登録を確認するときなどである。製造業では品質管理のために欠陥部品を検出するために使用され、医療ではMRIスキャンでがんを識別するために、またはシドニーで道路を監視するカメラを搭載したバスを使って道路の穴を識別するために使用されている。
分類
AIシステムがパターンを認識できるようになると、微妙な変化を検出して分類するように訓練できる。これは、写真アプリが家族メンバーごとにアルバムをきれいに整理する方法や、アプリが異なる種類の皮膚病変を識別してラベル付けする方法である。AI分類は、電話会社や銀行がスパムや詐欺電話を識別する際にも裏で働いている。
ニュージーランドでは、非営利団体のTe Hikuが、地元の先住民言語であるテ・レオ・マオリの活性化を支援するために、何千時間もの録音を分類するAI言語モデルを開発した。
予測
AIが過去のデータで訓練されると、将来の結果を予測するために使用できる。例えば、航空会社はAIを使用して到着予定の便の到着時刻を予測し、時間通りにゲートを割り当てるので、乗客は滑走路で待つ必要がない。
同様に、Google Flightsは航空会社が発表する前でさえ、AIを使用してフライトの遅延を予測する。
香港では、AIの予測モデルが、プロジェクトが予算と完了日を超過するのを防ぐために早期介入が必要な時期を予測することで、納税者のお金を節約している。そして、Amazonで買い物をするとき、このeコマース大手はAIを使用して需要を予測し配送ルートを最適化するので、顧客は数日ではなく数時間以内に荷物を受け取ることができる。
推奨
予測ができると、次に何をすべきかを推奨することができる。
シドニーのAccorスタジアムでTaylor SwiftのErasツアーコンサートに行った場合、AIの推奨のおかげで安全が確保された。ニューサウスウェールズ州政府が資金提供したシステムは、複数の情報源からのデータを使用して8万人の群衆の動きと雰囲気を分析し、全員の安全を確保するためのリアルタイムの推奨を提供した。
AIベースの推奨はどこにでもある。ソーシャルメディア、ストリーミングプラットフォーム、配送サービス、ショッピングアプリはすべて、過去の行動パターンを使用して「あなたへのおすすめ」ページを提示する。養豚場でさえ、豚の顔認識と追跡を使用して農家に問題を警告し、特定の介入を推奨している。
自動化
予測と推奨から完全な自動化へは小さな一歩である。
ドイツでは、大型風力タービンがAIを使用して小型ワシを安全に保護している。AIアルゴリズムが接近する鳥を検出し、自動的にタービンの速度を落として無傷で通過させる。
身近なところでは、Melbourne Waterが自律的にポンプ制御システムを調整するAIを使用して、年間のエネルギーコストを約20%削減している。西シドニーでは、主要路線のローカルバスがAI対応になっている:バスが遅れている場合、システムが次の交差点での到着を予測し、自動的に青信号を出してその行程を円滑にする。
生成
複雑なパターンをニューラルネットワークにエンコードできるようになると、これらのパターンを使用して新しい類似のパターンを生成することもできる。これはあらゆる種類のデータ – 画像、テキスト、音声、ビデオ – で機能する。
画像生成は現在、多くの新しいスマートフォンに組み込まれている。誰かの表情が気に入らない? 笑顔に変えることができる。その湖にボートを置きたい? 追加するだけである。そしてそれだけではない。
Runwayのようなツールでは、テキストプロンプトだけでビデオを操作したり、新しいビデオを作成したりできる。ElevenLabsでは、短い録音から合成音声を生成したり、既存の音声をデジタル化したりできる。これらはオーディオブックのナレーションに使用できるが、ディープフェイクによる偽装のリスクも伴う。
そして、ChatGPTのような大規模言語モデルについてはまだ触れていない。これらは私たちがテキストを扱う方法やコンピュータコードを開発する方法を変革している。McKinseyの研究によると、これらのモデルは複雑なコーディングタスクに必要な時間を最大50%削減できることがわかっている。
相互作用
最後に、生成AIは人間のような相互作用を模倣することも可能にする。
近い将来、仮想アシスタント、コンパニオン、デジタルヒューマンがどこにでも存在するようになるだろう。これらは人々のZoomミーティングに出席してメモを取り、フォローアップミーティングをスケジュールする。
IBMのAskHRボットのような対話型AIアシスタントが、人々のHRに関する質問に答える。そして帰宅すると、AIフレンドアプリが人々を楽しませ、ソーシャルメディア上のデジタルヒューマンがいつでも何でも売る準備ができている。そしてボイスモードを有効にすれば、ChatGPTでさえ会話に参加する。
生成AI周りの興奮の中で、AIはチャットボット以上のものであることを覚えておくことが重要である。AIは派手な会話ツール以外の多くのことに影響を与えている – しばしば日常のプロセスを静かに改善する方法で。
コメント