S7E33 | 3秒克隆声音?我们怎么面对 AI 的黑暗面

S7E33 | 3秒克隆声音?我们怎么面对 AI 的黑暗面

What's Next|科技早知道
26:11
2023年11月1日
cn

关键

  • 深度伪造 (Deepfake):利用AI技术合成或篡改音视频内容,达到以假乱真的效果。
  • AI语音克隆 (AI Voice Cloning):通过AI模型学习并复制特定人物的声音特征与说话风格。
  • AI内容检测 (AI Content Detection):识别和区分AI生成与人类创作内容的工具或技术方法。
  • 平台治理 (Platform Governance):科技平台为应对AI生成内容的风险与挑战所制定的规则与措施。
  • 技术双刃剑 (Technological Double-Edged Sword):强调AI技术在带来便利的同时,也伴随着滥用风险,如诈骗、虚假信息等。

摘要

本期播客深入探讨了人工智能(AI)深度伪造领域,特别是语音克隆视频合成方面的最新进展与挑战。节目通过主持人亲身实验、引用华尔街日报记者的测试案例,以及采访AI科学家 Agent Keller 博士和平台算法专家 Linder,揭示了当前AI伪造技术的易用性和逼真度,即使是免费工具也能达到令人惊讶的效果。然而,专家指出,高质量的实时伪造仍存在技术瓶颈,且AI内容检测技术正与生成技术展开“猫鼠游戏”,目前尚难完全有效识别。播客还讨论了平台治理的滞后性、科技公司在增长与安全间的权衡,以及虚假信息对社会(如选举)的潜在影响。最终强调,面对技术发展,提高个人警惕性和数字素养至关重要,同时呼吁对AI技术的伦理和社会影响进行更深入的思考。


洞察

该播客内容揭示了生成式AI技术,特别是深度伪造技术,正以前所未有的速度渗透到日常生活中,其现实意义在于:

  1. 信任体系的挑战:AI伪造技术模糊了真实与虚假的界限,对个人身份认证、新闻真实性乃至社会信任基础构成严峻挑战。我们可能正进入一个“眼见耳闻亦非实”的时代
  2. 安全风险的泛化:低成本、高效率的AI伪造工具降低了网络诈骗、身份盗用、恶意诽谤和政治宣传的门槛,使得相关风险更加普遍化和难以防范。
  3. 平台责任与监管的滞后:内容平台在享受AI带来效率提升的同时,也面临着治理虚假信息、打击滥用行为的巨大压力。现有监管框架和技术手段往往难以跟上AI迭代的速度,呈现出明显的滞后性
  4. 教育与数字素养的紧迫性:公众需要提升对AI生成内容的辨别能力和批判性思维。未来,理解AI、善用AI并防范其风险,将成为必备的数字生存技能
  5. 技术伦理的再思考:硅谷“技术至上”的文化受到拷问,如何在鼓励创新的同时,有效规避和管理潜在的负面影响,成为行业必须面对的伦理议题。

观点

01「高质量AI伪造仍存门槛,但技术发展迅速」

专家指出,虽然三秒克隆语音或一张照片换脸在研究领域有所突破,但要生成能完全骗过熟人的、自然的、可实时交互的高质量伪造内容,目前仍需大量数据和较长的渲染时间。然而,技术正飞速进步,未来几年内高仿真度音频合成可能普及。

02「AI内容检测是“猫鼠游戏”,准确识别困难重重」

现有的AI内容检测工具(如GPT Zero)及算法,在区分人类创作与AI生成内容(特别是混合内容)方面准确率有限。AI生成内容的质量已超越多数普通人,且生成与检测技术在持续对抗升级,导致“魔法打败魔法”异常困难。平台和研究者虽在努力,但尚未达到可靠应用的状态

03「平台治理面临挑战,政策与技术存在时间差」

科技平台在打击AI滥用(如诈骗、虚假信息)方面,往往采用“catching game”模式,即问题发生后才追踪、定性、标注、学习和制定政策,存在明显滞后。特别是在平台追求增长的阶段,安全和标准化协议的优先级可能不高。应对选举等敏感事件时,平台会加强管理,但整体治理体系仍需完善

04「应拥抱而非规避AI,提升教育标准与技能」

专家Agent Keller认为,学校不应禁止学生使用AI工具,而应提高要求,教育学生利用AI提升能力,适应未来劳动力市场。回避新技术无异于“教育失败”。同时,硅谷文化倾向于优先发展技术,再寻求方式抑制负面影响。

05「个人防护需提高警惕,利用AI交互破绽」

面对AI诈骗风险,个人(尤其是易受骗群体)需提高警惕。由于当前AI在实时、自然交互方面仍有不足(如渲染延迟、逻辑跟不上、缺乏肢体语言),在接到可疑音视频通话时,保持冷静、引导对方说特定的话或进行复杂互动,有助于识破骗局


深度

AI深度伪造浪潮来袭:我们如何辨别真实与虚假?

从Taylor Swift流利地说中文,到郭德纲、赵本山用英文侃侃而谈,近期互联网上涌现的**深度伪造(Deepfake)音视频内容,以其惊人的逼真度引发了广泛关注和讨论。这不仅是技术爱好者的狂欢,更敲响了关于人工智能(AI)**滥用风险的警钟。当AI克隆一个人的声音和形象变得越来越容易,我们该如何应对这场“真假难辨”的挑战?本期播客《What's Next 科技早知道》深入探讨了这一议题,通过实验、专家访谈,试图厘清AI伪造技术的现状、挑战与未来。

亲身体验:AI克隆声音,七分像足以乱真?

为了探究AI伪造的门槛,播客主持人进行了一项实验。她使用了市场上免费公开的AI语音克隆产品,分别提供了半小时的中文语音素材和按要求朗读了70多个英文句子。生成的克隆语音,据团队成员反馈,“可以打个70分”,虽然感觉“蛮像”,但不足以让熟悉的人完全信服是本人来电。

然而,华尔街日报记者Joanna Stern的类似实验则揭示了更令人担忧的一面。她利用专业公司的服务,采集了更全面的音视频数据。结果,她的AI克隆语音成功骗过了朋友、家人,甚至通过了银行的语音识别验证。尽管在需要实时复杂交互的视频会议中因逻辑和动作跟不上而被识破,但其成功率已足够引人警惕。这表明,当前AI语音克隆技术在特定场景下已具备相当的欺骗性

专家解读:高仿真的门槛与未来趋势

AI领域的科学家Agent Keller博士指出,生成高度逼真的人声并非易事,通常需要大量高质量的声音样本。仅凭社交媒体上几秒钟的语音片段,很难做到完美复制。但他也承认,研究领域的技术(如微软的VALL - E)已能在短样本基础上生成不错的音频。声音越独特(如卡通人物),越容易被克隆;普通人的声音则相对较难

尽管如此,Keller博士预测,在未来两到三年内,合成高仿真度音频的技术可能会普及到人人可及。他认为,目前几秒钟样本生成的语音或许已能“让人信服”,但这取决于“你想说服谁”。对于有理由怀疑的听者,AI语音的破绽——如缺乏个人说话习惯、腔调细节——可能被识破。但他也强调,AI在这方面的能力正持续进化。

“猫鼠游戏”:AI内容检测的困境

面对泛滥的AI生成内容,检测工具应运而生。例如,号称百万用户的GPT Zero,声称能检测文本是否由ChatGPT等大模型生成,并已被部分高校教师用于检查学生作业。然而,这些检测工具的准确性究竟如何?

Agent Keller对此持保留态度,将其形容为“猫鼠游戏”,双方都在不断进化以超越对方。他甚至尖锐地指出,强制学生避免使用AI工具的学校是在“教育他们如何在劳动力市场彻底失败”,主张学校应提高标准,鼓励学生利用AI提升能力。

另一位在平台工作的AI算法科学家Linder则更直白地表达了检测的难度。她认为,AI在文本生成方面已超越80%的人类,其生成的文本逻辑顺畅、表达标准,使得普通人难以分辨。随着技术发展,图像和视频领域也将很快达到甚至超越这一水平。“当你已经被AI打败的情况下,你是不可能去识别AI的,因为它比你更好。”

Linder提到,当前的检测研究大多基于二元分类(全人工 vs. 全机器),但这与现实中人机混合创作的模式脱节。针对混合内容的检测基准(如"Real or Fake")虽已出现,但现有算法在其上的表现“还不能说是一个可用的状态”,因为AI生成的内容在很多情况下“实在是太像了”。虽然她相信未来检测成功率会提升,但仍需大量研究,“用魔法打败魔法也是一个很困难的道理”。

平台治理:滞后的规则与增长的诱惑

面对AI技术的双刃剑效应——既能赋能创作者,也能被滥用者(abuser)用来高效制造和传播虚假信息(如近期的巴以冲突、乌克兰战争相关内容),平台方承担着巨大的治理压力。

Linder将平台与滥用者的关系比作“警察抓坏人”。AI的介入,使得坏人“迭代速度也变快”,可能“一天之内走了100步”。而平台的应对机制,往往是滞后的:发现问题指标上升 -> 分析原因 -> 人工标注 -> 制定或更新规则(可能涉及法务、对外沟通)-> 机器模型学习 -> 部署拦截。这个流程需要时间,导致平台总是在“亡羊补牢”

特别是在应对如美国大选等高度敏感事件时,平台会投入专门团队(News Team)、推广可信赖信源、利用社交网络分析(Social Network Tracking)来打击有组织的虚假信息活动。但即便如此,挑战依然严峻。

那么,为何各大平台不联合制定统一的AI生成内容标准或水印机制呢?Linder坦言,当前行业仍处于“攻城略地”的增长阶段,各家都在推广自己的AI,优先考虑的是市场份额而非坐下来谈安全协议。“一般是在战争结束之后……大家坐下来聊一聊,做一个联盟。”

硅谷文化与个人防护之道

Agent Keller也提到了硅谷文化对技术发展的潜在影响。这种文化“坚持越多优秀的技术越好”,即使产品可能被负面利用,只要它有积极价值,就应继续发展,再设法抑制消极影响。“对创造力和技术创新的热爱,无论对错都远远超过了其他的顾虑。”这在一定程度上解释了为何AI技术在风险显现的同时仍在飞速前进。

回到普通人层面,我们该如何保护自己?播客指出,即使没有AI,个人信息(如声音)也可能被爬虫大规模收集。AI只是降低了滥用这些信息的成本。因此,提高个人,特别是年长家人的认知和警觉性至关重要。

针对音视频诈骗,Keller博士提供了一个关键信息:目前实时交互的AI语音仍有技术瓶颈。渲染一句高质量的AI音频所需时间可能是该句话时长的10到100倍。这意味着,在实时通话中,AI很难做到流畅自然的应答和互动。因此,当接到可疑电话或视频时,保持冷静,通过提问特定问题、要求对方做复杂动作或进行长时间对话,很可能识破AI的伪装。

前瞻:在虚实交织的世界中航行

播客最后引用了一段关于未来真实与虚拟世界混淆的文字,暗示我们正步入一个界限日益模糊的时代。AI深度伪造技术的普及,无疑将深刻改变我们感知、信任和交互的方式。

未来,我们需要一个多层次的应对策略:

  • 技术层面:持续研发更有效的AI内容检测与溯源技术,探索如数字水印等标准化方案。
  • 政策层面:制定适应AI发展的法律法规,明确平台责任,打击恶意滥用行为。
  • 教育层面:将AI素养纳入国民教育体系,培养公众的批判性思维和辨别能力。
  • 个人层面:保持警惕,学习基本的防护知识,审慎对待来源不明的信息。

AI深度伪造的浪潮已然来临,挑战与机遇并存。如何在拥抱技术进步的同时,维护真实、信任与安全,将是整个社会需要共同面对和解答的课题。


(招聘信息部分已省略,因为它不属于核心内容分析范畴)

推荐节目

0:000:00