网站首页

产品中心

智能终端处理器 智能云服务器 软件开发环境

新闻中心

关于PG电子

公司概况 核心优势 核心团队 发展历程

联系PG电子

官方微信 官方微博
主页 > 新闻中心

一段音频、一张照片足以让人工智能生成一段逼真视频

发布时间:2023-11-17 22:51浏览次数: 来源于:网络

  DIverse但真实的面部动画,或DIRFA,是一个基于人工智能的程序,它可以拍摄音频和照片,并生成一个3D视频,显示人演示与口头音频同步的真实一致的面部动画。

  为了实现这一目标,该团队对来自6000多人的100多万个视听剪辑进行了DIRFA训练,这些剪辑来自一个名为VoxCeleb2数据集的开源数据库,以预测语音提示,并将其与面部表情和头部运动相关联。

  研究人员表示,DIRFA可以在包括医疗保健在内的各个行业和领域带来新的应用,因为它可以实现更复杂、更逼真的虚拟助理和聊天机器人,改善用户体验。它还可以作为言语或面部残疾人士的强大工具,帮助他们通过富有表情的化身或数字表示来传达自己的想法和情绪,增强他们的沟通能力。

  通讯作者、新加坡南洋理工大学计算机科学与工程学院的陆世坚副教授领导了这项研究,说:“我们的研究可能会产生深远的影响,因为它结合人工智能和机器学习等技术,创造了高度逼真的个人讲话视频,从而彻底改变了多媒体通信领域只使用他们的录音和静态图像,精心策划嘴唇动作、生动的面部表情和自然的头部姿势。”

  第一作者吴荣亮(音)博士毕业于南大商学院,说:“言语表现出多种多样性。个体在不同的语境中发音不同,包括持续时间、幅度、语气等方面的变化。此外,除了语言内容之外,言语还传达了关于说话者情绪状态和身份因素的丰富信息,如性别、年龄、种族甚至性格特征从人工智能和机器学习中的音频表示学习的角度,努力提高性能。吴博士是新加坡科学技术研究局信息通信研究所的研究科学家。

  研究人员表示,在音频驱动下创造逼真的面部表情是一项复杂的挑战。对于给定的音频信号,可能有许多可能的面部表情是有意义的,并且随着时间的推移,当处理一系列音频信号时,这些可能性可能会成倍增加。

  由于音频通常与嘴唇运动有很强的关联,但与面部表情和头部位置的关联较弱,该团队旨在创造出与所提供的音频相对应的、表现出精确的嘴唇同步、丰富的面部表情和自然的头部运动的会说话的面孔。

  为了解决这个问题,该团队首先设计了他们的人工智能模型DIRFA,以捕捉音频信号和面部动画之间的复杂关系。该团队在6000多人的100多万个音频和视频剪辑上训练了他们的模型,这些剪辑来自一个公开的数据库。

  陆副教授补充道:“具体来说,DIRFA根据输入的音频模拟了面部动画的可能性,如眉毛凸起或鼻子褶皱。这种建模使该程序能够将音频输入转换为多样化但高度逼真的面部动画序列,以指导会说话的人脸的生成。”

  吴博士补充道:“大量实验表明,DIRFA可以生成嘴唇运动准确、面部表情生动、头部姿势自然的会说话的人脸。然而,我们正在努力改进程序的界面,允许控制某些输出。例如,DIRFA不允许用户调整某个表情,例如将皱眉改为微笑。”

  除了为DIRFA的界面添加更多选项和改进外,NTU的研究人员还将通过更广泛的数据集对其面部表情进行微调,其中包括更多样的面部表情和语音音频剪辑。

  150+知名品牌入驻,龙湖天街定档明年开业,百亿TOD价值兑现高潮已来临!

  妈妈晒女儿鲟埔女簪花装扮,转过来那一刻“美得不可方物”,请问 这么可爱的宝贝可以复制粘贴嘛

  萌娃练舞姿势不标准,老师来示范,可爱的她立即整改,模仿到位,老师笑倒:你怎能如此可爱

  联想发布ThinkVision 27 3D显示器:4K分辨率 2D/3D可切换

  AMD R9 8940HS 移动处理器曝光:R9 7940HS 马甲型号

下一篇:卫宁健康与上海市第七人民医院签订医疗人工智能战略协议
上一篇:京领日报|美国教育部高级官员呼吁K12教育学校共同迎接人工智能挑战

咨询我们

输入您的疑问及需求发送邮箱给我们