首页|必读|视频|专访|运营|制造|监管|大数据|物联网|量子|元宇宙|博客|特约记者
手机|互联网|IT|5G|光通信|人工智能|云计算|芯片报告|智慧城市|移动互联网|会展
首页 >> 移动互联网 >> 正文

火山语音发布超写实数字员工小灿,让数字人更“像人”的秘籍都在这儿了!

2023年10月19日 17:51  CCTIME飞象网  

近日,火山语音发布了首位超写实数字员工小灿,在同步推出的首秀TVC中,小灿凭借高效的工作能力以及温暖可人的性格引起多方关注,她的到来将会引领怎样的改变?

善听会说能想:提升工作效率的好帮手

小灿作为火山语音团队联合朝夕光年江南团队共同打造的S级超写实数字人形象,名字源于“火山”两字的结合,拼音“can”在英文中表示“可以、能够”的意思,这也意味着小灿从“出生”就是工作的最佳辅助。虽然加入数字人产品矩阵不久,但小灿同样依托团队长期积累的成熟语音交互技术,具有语音识别、自然语言处理、情感识别等多种功能,传承“善听”、“会说”、“能想”的多重能力,能够做到与用户面对面实时交互来提供更加高效服务。

逼真情感表达:技术与人文兼具

尽管小灿是虚拟数字人,但火山语音团队仍然通过强大的技术能力,帮助TA构筑了从外形、动作到语言、情感交互的超写实形态。外形上,凭借团队3D超写实数字人整套形象设计、资产制作、高成本影视级cg管线视频内容的制作能力,让小灿无论在外形动作,还是面部微表情抑或是皮肤肌理、发丝材质等各方面高度逼真,深度还原了真人影像,改变了大众对数字人的一贯认知。

除却精致的外在,小灿通过火山语音团队丰富且领先的对数字人AI的驱动能力,实现了更加近似真人的口型动作表现。例如AI驱动口型方面,团队通过使用行业领先的非自回归模型的唇形生成网络,合成与输入文本或语音完全匹配的唇形,准确率高达98.55%。

“在AI驱动动作上,我们基于创新的Motion Blening技术,在动作切换时可生成过度帧,使数字人在切换各类动作时不仅可以做到毫秒级切换,还可以做到平滑效果自然无感知。”除此之外还在AI表情口型联合建模,基于语音语义的动作生成即co speech技术上,都有极具前瞻性的预研工作,并已取得阶段性成果,后续将全部应用于数字人视频创作、交互以及直播等场景。

值得提及的是,小灿还具备“一条音频秒级别音色复刻”(zero shot TTS)的能力,可以做到高保真还原真人音色、说话风格以及声学环境等特点,在核心技术架构全自研的基础上,关键指标均保持业界前沿。此外韵律模块基于自回归GPT类大模型,目前训练数据超过20万个小时,架构可扩展性很强,未来预计可支持100万小时以上数据训练;模块支持code-switch,即无论prompt为中文或者英文,都可支持直接输出中文、英文及混合内容。整体来说,小灿无疑是目前数字人研发领域艺术与技术高度融合的产物,但她不仅仅是一个超写实数字人形象,更是高效且有温度解决问题的好帮手。

编 辑:T01
声明:刊载本文目的在于传播更多行业信息,本站只提供参考并不构成任何投资及应用建议。如网站内容涉及作品版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容。本站联系电话为86-010-87765777,邮件后缀为#cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
相关新闻              
 
人物
工信部张云明:大部分国家新划分了中频段6G频谱资源
精彩专题
专题丨“汛”速出动 共筑信息保障堤坝
2023MWC上海世界移动通信大会
中国5G商用四周年
2023年中国国际信息通信展览会
CCTIME推荐
关于我们 | 广告报价 | 联系我们 | 隐私声明 | 本站地图
CCTIME飞象网 CopyRight © 2007-2024 By CCTIME.COM
京ICP备08004280号-1  电信与信息服务业务经营许可证080234号 京公网安备110105000771号
公司名称: 北京飞象互动文化传媒有限公司
未经书面许可,禁止转载、摘编、复制、镜像