探秘刘强东AI数字人直播首秀台前幕后（1）-新快网-新快报官方网站

探秘刘强东AI数字人直播首秀台前幕后（1）
日期:[2024-04-22] 版次:[A14] 版名:[财眼周刊] 字体:【大中小】

从技术探索到产业落地

“大家好，好久不见，我是你们的老朋友东哥……”

4月16日下午6点18分，国人熟知的京东集团创始人、董事会主席刘强东以AI数字人“采销东哥”的形式空降京东超市、京东家电家居采销直播间，开启了他的直播首秀，成功引来众多网友围观。

直播间，“采销东哥”从容自若，大谈自己在运动、烹饪方面的心得，对带货物品的讲解，既专业又热情。独特的宿迁口音，不时搓手指的小动作，还有看手机回复的表情、动作，甚至还会提醒工作人员上链接，让很多观众非常怀疑在看的主播到底是真人还是数字人。

这是一场相当成功的直播。据京东超市数据，“采销东哥”上播30分钟，直播间观看人数破千万；直播时段用户平均停留时长达到日常均值的5.6倍；直播期间讲解的13款商品，整体订单量环比上周日均增长7.6倍；京东超市“百亿农补”货品，开播半小时成交额环比上周日均增长5.7倍。更重要的是，刘强东这次AI数字人直播，让外界对这个去年一度火爆却又很快沉静下去的行业，有了一次非常重要的重新认识和认可。

■新快报记者郑志辉

产业崛起

最快三天可诞生一个数字人主播

“采销东哥”是如何炼成的？

所谓数字人，简单来说就是运用数字技术创造出来的，与人类形象接近的数字化人物形象。数字人的创建是一项极为复杂的工作，需要经过建模、动画制作、渲染……通过高级计算机程序实现。最终，数字人能还原真人80%以上的外貌，在外观、动作以及声音方面，能做到像现实世界里一样自然。

直播电商头部机构谦寻控股技术人员去年曾说，在现今的数字技术帮助下，通过采集真人形象及语言、肢体数据，再对采集的数据进行训练开启直播，一个真人形象的AI数字人主播的诞生，最快只需三天。

如果是非真人定制数字人主播，不仅制作成本低，制作效率还能进一步提升。数字人制作头部企业硅基智能近日表示，在硅基智能一开始做数字人时，行业成本还是几万元甚至数十万元一个，但现在已经下降至几百甚至几十元一个。而且，数字人在执行各种选择器、任务器和反馈器任务时，如在直播间人数变少时生成降价促销的直播话术等，具有一定的优势。

随着数字人成本平民化，不少企业都愿意抱着试一试的心态来定制一个数字人。2023年，中国AI数字人行业产品需求量TOP5的行业分别是电子商务及卫生、社会保障和社会福利业、教育、金融和交通运输业。

针对电商行业，艾媒咨询CEO兼首席分析师张毅表示，“目前，AI数字人在电商前端扮演主播的角色，与真人主播形成互补，拉长直播时长，从而提供更大的流量；在后端，AI数字人可以提高系统办公的效率，例如快速上架商品，智能数据统计等。”

近两年，数字人产业得到了迅速发展。艾媒咨询数据显示，2022年中国虚拟人核心市场规模为120.8亿元，同比增长94.2%，预计2025年将达480.6亿元。

后台揭秘

直播已成为电商平台增收日益重要手段，抖音有董宇辉们、淘宝有李佳琦们，京东为何要推一个AI数字人“采销东哥”来打擂台？

据不完全统计，包括罗永浩、金星、黄圣依夫妇等自带流量的明星，都曾在京东平台开播，但未能“出圈”。在孵化原生主播方面，京东也曾花费大力气，也未有太大成效。今年4月10日，京东对外宣布将投入10亿元现金和流量作为激励，吸引更多原创作者和优质内容机构入驻打造更强内容生态。当时即有一些网友在社交网络上喊话“让刘强东亲自下场做直播”。可能正是这次事件激发了京东内部的想象力，思考用何种方式让具有“名人效应”的老板不太劳累地亲自下场带货。

数字人作为人类形象的模仿和延伸，不仅要“形似”，更要“神似”。在“采销东哥”的首秀中，网友们惊讶地看到，“采销东哥”AI数字人近乎百分百还原了刘强东本人的表情、姿态、手势和音色，让“数字分身”也有了鲜活的生命力。

记者从京东了解到，“采销东哥”背后依托的，是京东言犀大模型对形象与声音的不断学习与训练优化。

京东云言犀团队原本打算使用一段演讲音频作学习素材，但经过测试发现，当时演讲的语气用于直播带货过于正式。因此，京东云言犀团队又录制了一段20分钟闲谈，让东哥畅聊自己的旅行经历，提取出声学特征后，通过言犀语音大模型合成出人工语音。目前，言犀团队已经可以做到最短使用6秒素材，就能复现一个真人的声音。

说好普通话并不难，但要让“采销东哥”AI数字人学习本人的发音习惯，比如要不要加鼻音，哪里要连读，就需要大模型给出判断。言犀语音大模型在训练时，被“喂”入5万小时鲜活的语音数据，这让言犀数字人可以智能匹配不同直播风格，比如用沉稳的音色营造专业的氛围，又或者用极具感染力的声音吸引用户下单，还赋予言大姿态肢体表现。

言犀也对语音风格进行了精细控制，捕捉并复制了说话时的情感，使得合成的语音不仅在音色上与真人相似，而且在情感表达上也保持一致，包括口音和节奏的细微差别、语速的快慢和语调的抑扬顿挫。结合语义理解，系统进行口唇、肢体驱动，让数字人说话时的动作与语义匹配，更加自然，比如在讲话时他偶尔会搓动手指，强调某件事时会配合更大幅度的手部动作，还有时不时的点头等。

实验表明，绝大部分用户在120秒内难以察觉这是数字人，怀疑是真人录制或者AI换脸。

在回应部分网友认为“采销东哥”当晚表情过于严肃时，言犀团队表示，为使数字人从形象到声音，更贴合真实直播场景，团队打造“声音供应链”，基于多颗粒度韵律的增强语音合成技术，准确把握用户情绪，提高合成语音的韵律丰富度和可控性，并将根据反馈持续迭代。

分享到：

　　以上内容版权均属广东新快报社所有（注明其他来源的内容除外），任何媒体、网站或个人未经本报协议授权不得转载、链接、转贴或以其他方式复制发布/发表。

本报新闻今日排行榜