S7E33 | 3秒で声をクローンできる?AIの暗い側にどう向き合うか?

S7E33 | 3秒で声をクローンできる?AIの暗い側にどう向き合うか?

What's Next|科技早知道
26:11
2023年11月1日
cn

キーワード

  • ディープフェイク (Deepfake):AI技術を利用して音声や映像コンテンツを合成または改ざんし、見分けがつかないほどの偽物を作り出す技術です。
  • AI音声クローニング (AI Voice Cloning):AIモデルを通じて特定の人物の声の特徴や話し方のスタイルを学習し、複製する技術です。
  • AIコンテンツ検出 (AI Content Detection):AIによって生成されたコンテンツと人間によって作成されたコンテンツを識別するツールや技術的な手法です。
  • プラットフォームガバナンス (Platform Governance):AIによって生成されたコンテンツに伴うリスクや課題に対応するために、テクノロジープラットフォームが策定する規則や措置です。
  • 技術の両刃劍 (Technological Double-Edged Sword):AI技術が便利さをもたらす一方で、詐欺や虚偽情報などの悪用リスクも伴っていることを強調する言葉です。

概要

今回のポッドキャストでは、人工知能(AI)ディープフェイク分野、特に音声クローニングビデオ合成の最新の進展と課題について深く探りました。番組では、司会者自身が実験を行い、ウォールストリート・ジャーナルの記者のテストケースを引用し、AI科学者のエージェント・ケラー博士とプラットフォームのアルゴリズム専門家のリンダー氏にインタビューを行うことで、現在のAI偽造技術の使いやすさと臨場感を明らかにしました。無料のツールでも驚くほどの効果が得られることがわかりました。しかし、専門家によると、高品質のリアルタイム偽造にはまだ技術的な壁があり、AIコンテンツ検出技術は生成技術と「猫と鼠のゲーム」を繰り広げており、完全に有効に識別することは現状では難しいとされています。ポッドキャストではまた、プラットフォームガバナンスの遅れ、テクノロジー企業が成長と安全の間で行うトレードオフ、虚偽情報が社会(選挙など)に与える潜在的な影響についても議論されました。最後に、技術の発展に対して、個人の警戒心とデジタル素養を向上させることが重要であり、AI技術の倫理的および社会的影響についてより深く考えることを呼びかけています。


洞察

このポッドキャストの内容から、生成型AI技術、特にディープフェイク技術がこれまでにないスピードで日常生活に浸透していることが明らかになりました。その現実的な意義は以下の通りです。

  1. 信頼体系への挑戦:AI偽造技術によって、真実と虚偽の境界が曖昧になり、個人の身元認証、ニュースの真実性、さらには社会の信頼の基盤に深刻な脅威を与えています。私たちは「目に見え、耳に聞こえるものも真実ではない」時代に入りつつあるかもしれません
  2. 安全リスクの拡大:低コストで高効率なAI偽造ツールによって、ネット詐欺、身元盗用、悪意のある中傷、政治宣伝の敷居が下がり、関連するリスクがより一般化し、防ぎにくくなっています。
  3. プラットフォームの責任と規制の遅れ:コンテンツプラットフォームはAIによる効率向上の恩恵を受ける一方で、虚偽情報の取り締まりや悪用行為の撲滅に向けた大きな圧力に直面しています。現行の規制枠組みや技術手段は、AIの進化速度に追いつけず、明らかな遅れを見せています
  4. 教育とデジタル素養向上の緊急性:一般市民はAIによって生成されたコンテンツの識別能力と批判的思考力を向上させる必要があります。将来的には、AIを理解し、うまく利用し、そのリスクを防ぐことが、必須のデジタル生存スキルになるでしょう
  5. 技術倫理の再考:シリコンバレーの「技術至上主義」文化が問われており、革新を促進しながら、潜在的な悪影響を効果的に回避し、管理する方法が、業界が直面しなければならない倫理的な課題となっています。

観点

01「高品質のAI偽造にはまだ壁があるが、技術は急速に進歩している」

専門家によると、3秒での音声クローニングや1枚の写真での顔交換など、研究分野ではいくつかの進展が見られますが、知人を完全に騙せる、自然でリアルタイムに対話できる高品質の偽造コンテンツを生成するには、現在のところ大量のデータと長いレンダリング時間が必要です。しかし、技術は急速に進歩しており、今後数年以内に高い擬真性の音声合成が普及する可能性があります。

02「AIコンテンツ検出は「猫と鼠のゲーム」で、正確な識別は困難重重」

現行のAIコンテンツ検出ツール(GPT Zeroなど)やアルゴリズムは、人間による創作とAIによる生成コンテンツ(特に混合コンテンツ)を区別する精度が限られています。AIによって生成されたコンテンツの品質は、多くの一般人を超えており、生成技術と検出技術が対抗しながら進化し続けているため、「魔法で魔法を倒す」ことは非常に困難です。プラットフォームや研究者は努力していますが、まだ信頼できるレベルには達していません

03「プラットフォームガバナンスは課題に直面し、政策と技術にはタイムラグがある」

テクノロジープラットフォームは、AIの悪用(詐欺、虚偽情報など)を撲滅するために、しばしば「追跡ゲーム」のモードを採用しています。つまり、問題が発生してから追跡、定性、ラベル付け、学習、政策策定を行うため、明らかな遅れがあります。特にプラットフォームが成長を追求する段階では、安全や標準化プロトコルの優先度が低い場合があります。選挙などの敏感なイベントに対応する際には、プラットフォームは管理を強化しますが、全体的なガバナンス体系はまだ改善の余地があります

04「AIを避けるのではなく受け入れ、教育水準とスキルを向上させる」

専門家のエージェント・ケラー氏は、学校は学生にAIツールの使用を禁止するのではなく、要求を引き上げ、学生がAIを利用して能力を向上させ、将来の労働市場に適応するよう教育するべきだと考えています。新技術を避けることは「教育の失敗」に他なりません。また、シリコンバレーの文化は、まず技術を発展させ、その後で潜在的な悪影響を抑える方法を探す傾向があります。

05「個人の防衛には警戒心を高め、AIの対話の破绽を利用する」

AI詐欺のリスクに直面して、個人(特に騙されやすい層)は警戒心を高める必要があります。現在のAIはリアルタイムで自然な対話を行う能力にまだ不足があり(レンダリングの遅れ、論理が追いつかない、肢体言語が欠如など)、怪しい音声やビデオ通話を受けた場合、冷静に対応し、相手に特定の言葉を言わせたり、複雑な対話を行ったりすることで、詐欺を見破ることができます


深掘り

AIディープフェイクの波が押し寄せる:真実と虚偽をどう見分けるか?

テイラー・スウィフトが流暢に中国語を話す映像や、郭德纲や趙本山が英語で談笑する映像など、最近のインターネット上には**ディープフェイク(Deepfake)**の音声や映像コンテンツが目を見張るほどの臨場感で登場し、広く注目と議論を呼んでいます。これは単なる技術愛好家の饗宴ではなく、**人工知能(AI)**の悪用リスクに対する警鐘を鳴らしています。AIが人の声や形象をクローニングすることがますます容易になる中、私たちはこの「真偽の見分けがつかない」挑戦にどう対処すべきでしょうか?今回のポッドキャスト「What's Next 科技早知道」ではこの問題について深く探り、実験や専門家インタビューを通じて、AI偽造技術の現状、課題、そして未来を明らかにしようとしています。

体験談:AIによる音声クローニング、7割似で十分に騙せる?

AI偽造の敷居を探るために、ポッドキャストの司会者は実験を行いました。彼女は市場で無料公開されているAI音声クローニング製品を使い、それぞれ30分間の中国語の音声素材を提供し、要求に従って70以上の英語の文を読み上げました。生成されたクローン音声は、チームメンバーによると「70点くらい」で、「かなり似ている」と感じられましたが、身近な人に完全に本人からの電話だと信じさせるには至りませんでした。

しかし、ウォールストリート・ジャーナルの記者、ジョアンナ・スターン氏の同様の実験は、より懸念すべき一面を明らかにしました。彼女は専門会社のサービスを利用し、より全面的な音声や映像データを収集しました。その結果、彼女のAIクローン音声は友人や家族を騙し、銀行の音声認証も突破しました。ただし、リアルタイムで複雑な対話が必要なビデオ会議では、論理や動作が追いつかずに見破られましたが、その成功率は十分に警戒を促すものでした。これは、現在のAI音声クローニング技術は特定のシーンでかなりの欺瞞性を持っていることを示しています。

専門家の解説:高い擬真性の敷居と未来のトレンド

AI分野の科学者であるエージェント・ケラー博士は、非常にリアルな人の声を生成することは容易ではなく、通常大量の高品質な音声サンプルが必要だと指摘しています。ソーシャルメディア上の数秒間の音声クリップだけでは、完璧に複製することは難しいとされています。しかし、彼は研究分野の技術(マイクロソフトのVALL - Eなど)が短いサンプルでも良い音声を生成できることを認めています。声が独特なもの(キャラクターなど)ほどクローニングしやすく、一般人の声は比較的難しいということです。

それでも、ケラー博士は、未来の2~3年以内に、高い擬真性の音声合成技術が誰にでも手に入るようになると予測しています。彼は、現在数秒間のサンプルで生成される音声は「人を説得できる」かもしれないが、それは「誰を説得したいか」によると考えています。疑いの理由がある聴き手にとっては、AI音声の破绽(個人の話し方の癖や調子の細部が欠如しているなど)が見えるかもしれません。しかし、彼はAIのこの能力が継続的に進化していることを強調して

おすすめエピソード

0:000:00