首页|必读|视频|专访|运营|制造|监管|大数据|物联网|量子|元宇宙|智能汽车|特约记者
手机|互联网|IT|5G|光通信|人工智能|云计算|芯片|报告|智慧城市|移动互联网|会展
首页 >> 运营 >> 正文

中国移动联合研发2D数字人说话驱动系统:可生成7种情绪,用于5G新通话、AI客服等

2024年12月9日 14:23  IT之家  作 者:汪淼

中国移动 12 月 8 日宣布联合南京大学团队研发高保真 2D 数字人说话驱动系统

作为拥有世界规模第一用户数的通信运营商,中国移动每年的客户服务运营成本巨大。现已广泛普及的智能语音客服虽能完成一定的业务自动应答任务,但依然不及人工客服面对面,一对一的星级服务体验。

针对实际业务存在的痛点,中国移动九天视觉团队联合南京大学邰颖团队,研发高保真 2D 数字人说话驱动系统,旨在为用户提供表情自然、唇音同步和头部姿态和谐的数字人播报对话服务,可应用于智能客服、教育培训、广告营销等场景。

▲ 情感控制的高保真 2D 数字人说话驱动方法

据中国移动官方介绍,2D 数字人说话驱动系统实现根据给定目标人物的照片或视频和任意一段音频,生成与音频同步的目标人物说话视频流。要求生成视频里的人物逼真度高,表情姿态自然,同时需要具有较高的实时性,能做到与语言大模型、音频合成能力有机整合,构建起人物数字替身。

中国移动九天视觉团队联合南京大学研发的高保真 2D 数字人说话驱动系统,在以下三方面开展了技术攻坚和方案创新:

第一,性能实时:相比以往数字人方法,在实时播报的口型生成技术上达到了学术界领先水平,支持中英文数字人口型驱动,在保持效果的情況下达到实时性能 30ms / 帧

第二,效果领先:研发二阶段学习框架,将数字人说话驱动拆解成:从音频到口型系数和从口型系数到生成人像两部分,降低学习难度,实现更好的生成效果。

第三,情绪控制:引入情绪引导学习模块,支持正常、微笑、惊讶、愤怒、恐惧、悲伤等 7 种主流情绪控制生成能力,赋予生成的播报人人文情感表达能力。

▲ 高兴、悲伤情绪下的数字人说话生成效果

从中国移动官方获悉,数字人生成技术上实现了端到端的二阶段 30 FPS 实时生成性能,并支持 512*512 人脸区域生成,同时具备高兴、悲伤等 7 种主流情绪控制生成能力。

在评测集 VoxCeleb 指标方面,该技术的口型准确性 LMD(LandMark Distance)达到 4.3,生成自然度 FID 达到 11.1。

中国移动官方表示,该研发成果应用前景广阔,有效降低了创作门槛,提升了生成人物的视觉质量,已为 5G 新通话、和留言小秘书品牌业务的拓展赋能升级

编 辑:章芳
飞象网版权及免责声明:
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
相关新闻              
 
人物
中国移动王晓云:6G已经进入面向产业技术创新的全新阶段
精彩专题
2024中国算力大会
2024年国际信息通信展
中国信科亮相2024年国际信息通信展
第25届中国国际光电博览会
CCTIME推荐
关于我们 | 广告报价 | 联系我们 | 隐私声明 | 本站地图
CCTIME飞象网 CopyRight © 2007-2024 By CCTIME.COM
京ICP备08004280号-1  电信与信息服务业务经营许可证080234号 京公网安备110105000771号
公司名称: 北京飞象互动文化传媒有限公司
未经书面许可,禁止转载、摘编、复制、镜像