找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

只需一步,快速开始

查看: 20|回复: 0

AI 视频生成专家探讨该技术的快速发展及其当前的局限性

[复制链接]

2733

主题

0

回帖

5466

积分

管理员

积分
5466
发表于 2024-10-24 13:40:26 | 显示全部楼层 |阅读模式 IP归属地:亚太地区
在本届总统大选中,已经出现了几个引人注目的利用深度伪造来影响选民的例子。深度伪造是使用人工智能 (AI) 模型生成或修改的图像、录音或视频,以描绘真实或虚构的人物。最近的深度伪造案例包括乔·拜登在初选期间敦促选民呆在家里的伪造音频,以及泰勒·斯威夫特支持唐纳德·特朗普的伪造图像。
看来,生成式人工智能正成为虚假信息工具箱中越来越重要的工具。选民是否应该担心被生成式人工智能制作的政客虚假视频所轰炸?罗彻斯特大学的一位计算机视觉和深度学习专家表示,虽然这项技术正在迅速发展,但由于其复杂性,深度伪造 视频生成仍然很难被坏人利用。
OpenAI 的产品包括用于文本生成的 ChatGPT 和用于图像生成的 DALL-E 3,虽然越来越受欢迎,但该公司尚未发布用于视频生成的同类产品。罗彻斯特大学计算机科学副教授徐晨亮表示,该公司已经发布了其 Sora 视频生成软件的预览版,但尚未发布产品,该产品仍在测试和改进中。
“使用人工智能生成视频仍然是一个正在进行的研究课题,也是一个难题,因为这就是我们所说的多模态内容,”徐说。“生成移动视频以及相应的音频本身就是一个难题——而将它们对齐则更加困难。”
徐说,他的研究小组是 2017 年最早使用人工神经网络生成多模态视频的团队之一。他们从提供小提琴演奏者的图像和小提琴的音频等任务开始,以生成小提琴演奏者的移动视频。从那里开始,他们转向诸如生成嘴唇动作等问题,然后从单个图像创建完整的说话面部表情和头部动作。
“现在,我们可以生成实时的、完全可驱动的头部,甚至可以将头部变成语言描述指定的各种风格,”徐说。
深度伪造检测技术的挑战
徐建军的团队还开发了深度伪造检测技术。他称这是一个需要进一步深入研究的领域,并指出,由于构建通用深度伪造检测模型需要训练数据,因此构建生成深度伪造的技术比检测深度伪造的技术更容易。
“如果你想开发一种能够检测深度伪造的技术,你需要创建一个数据库来识别哪些是假图像,哪些是真实图像,”徐说。“这种标记需要额外的人工参与,而这一代则不需要。”
他补充说,另一个问题是制作一个可以推广到不同类型的深度伪造生成器的检测器。“你可以制作一个在你了解的技术上表现良好的模型,但如果有人使用不同的模型,你的检测算法将很难捕捉到这一点,”他说。
视频深度伪造最容易实现的目标
获得良好的训练数据对于创建有效的生成式人工智能模型至关重要。因此,徐说,当视频生成器广泛普及时,政客和名人将成为最早和最容易被攻击的目标。
“政客和名人比普通人更容易生成,因为他们有更多数据,”徐说。“由于已经存在大量关于他们的视频,这些模型可以利用这些视频来学习他们在不同情况下的表情,以及他们的声音、头发、动作和情绪。”
但他预计,至少在最初阶段,“名人深度伪造”所依据的训练数据可能会让它们更容易被注意到。
“如果你只使用高质量的照片来训练模型,它会产生类似的结果,”徐说。“这可能会导致风格过于流畅,你可以从中挑出一个线索来判断这是深度伪造。”
其他线索可能包括一个人的反应看起来有多自然,他们是否可以移动头部,甚至显示的牙齿数量。但图像生成器已经克服了类似的早期迹象——例如创建有六根手指的手——徐说,足够的训练数据可以减轻这些限制。
他呼吁研究界投入更多精力来开发深度伪造检测策略,并解决围绕这些技术开发的道德问题。
“生成模型是一种工具,在好人手中可以做好事,但在坏人手中却会做坏事,”徐说。“技术本身没有好坏之分,但我们需要讨论如何防止这些强大的工具落入坏人之手并被恶意使用。”

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|NewCET |网站地图

GMT+8, 2024-11-17 02:45 , Processed in 0.025470 second(s), 20 queries .

Powered by NewCET 1.0

Copyright © 2012-2024, NewCET.

快速回复 返回顶部 返回列表