打开网易新闻 查看更多图片

“我居然要数字化东哥!”京东云言犀团队算法工程师璐璐发出一声惊叹。

时间拨回到20天前,璐璐被委派了一项秘密任务——训练刘强东的数字人。

“这是采销直播的‘彩蛋’,东哥下场直播带货,大家可以在直播间听东哥分享,抢东哥福利,还可以给京东提建议……”璐璐滔滔不绝地讲着京东内部对直播中“采销东哥”的期待。

做过数字分身的大佬不在少数,远到黄仁勋、扎克伯格,近到周鸿祎,以及已故的汤晓鸥教授。但开放自己形象下场直播带货的只有刘强东。

打开网易新闻 查看更多图片

电商直播大战,刘强东以数字人形式下场

隔壁的采销老李非常焦虑,他想把自己负责的品类塞进“东哥”的数字人直播首秀中。“绝对的高品质、低价,超值!”老李负责的产品来源于国内一家初创品牌,“如果能入选东哥直播,对品牌力肯定有加成的”。话未尽,老李又接到了品牌方问询筛选结果的电话。

京东采销直播会让很多品牌商激动,这是他们“免费”的带货机会,更别说“东哥”带货,又多了一层曝光BUFF;对京东云言犀团队来说,激动是有的,但紧张也不少,他们希望借此机会好好对外秀一下技术肌肉。

“要做就做最top的!”项目技术组老梁拍桌。

说到数字人,曾经普遍的认知是3D卡通虚拟偶像,比如洛天依、柳叶熙……她们活跃在各种唱跳、剧情短视频中。不过随着2023年多模态大模型的火热,越来越多的企业认识到数字人这颗“冠上明珠”的产业价值,数字人也从虚拟偶像“入职”各行各业,成为数字员工。

晓博是京东云言犀数字人的产品经理,早在2022年,他们就开始为品牌提供数字人直播服务,“商家说言犀数字人是‘闲时带货王’,现在平均闲时转化率超30%。”最近,他又上架了几款公共库的大姿态数字人。

京东云言犀数字人形象的渲染主要是通过训练生成式网络模型生成,多为真人形象。在生成时因为人脸并不是规则的平面,需要很多很多小平面去模拟,如果再精细化一点,就可能需要数百万个小的三角平面,这会让实时渲染和交互生成变得更加困难。如果降低计算量,那人脸就会质变为“木偶脸”。

但直播,就必须是实时的。

而京东,一直是“抠门”的。老梁说这叫“技术降本”,不仅要降低外部使用门槛,也要优化内部成本。

再后来,京东云言犀团队攻坚提出了一个新的算法,底层骨骼和肌肉层面依旧做3D模型建模,肌肉骨骼看不见,不直接表示出来,所以用少量的三角就可以呈现得不错;面部用2D渲染,生成后清晰度很高,但因为下面有底层模型做支撑,就不会出现“木偶变异”的情况。

此外,现今绝大多数技术仅关注语音驱动三维人脸口型动画,忽略了语音驱动人脸面部姿势,导致生成的数字人木讷呆滞,没有任何表情信息的反馈,甚至会产生“恐怖谷效应”。

京东云言犀团队基于深度学习的嘴型与面部动画生成算法,让大模型自动从训练集里面学习训练嘴型和面部表情生成规则和技巧。通过端到端的卷积网络,从输入的音频直接推断表情变化对应的顶点位置的偏移量,让最终生成的动作效果更加真实。

看手机、挪动位置,这些出现在真人主播中的小细节,也都被精准地还原在言犀数字人身上。“在根据语义匹配动作的同时,穿插一些微小动作会给用户带来真人的亲切感”, 比如“采销东哥”AI数字人在直播中也会不时调整坐姿、偶尔停顿思考。对此,晓博本人很得意。

言犀数字人公共形象库已有70多款,大姿态形象有50多个,还有40多款音色,品牌方可以根据品牌调性自由选择,已有4000多家品牌直播在使用。

但外部客户不知道的是,京东云言犀正在偷偷训练一批京东采销的数字人,他们会跟着“东哥”一起出现在不同京东采销直播间。

被产业“教育”过的京东云言犀技术团队

直播和演讲不一样,和日常讲话也不一样。“主播的抑扬顿挫会带动用户情绪,很多金牌主播都有自己的讲货技巧”。让京东云言犀团队发愁的是,虽然他们已经具备了丰厚的电商知识和风格迁移技术,能让任何一个素人变成金牌主播。但京东采销并非传统主播定位,他们手撕纸尿裤、亲自吃狗粮,风格真诚又耿直。

技术负责人老吴拍桌,京东采销数字人必须保留自己的特质。

在AIGC生成直播脚本上,大家一致认为问题不大。2017年京东云言犀就发布了自研电商领域知识增强模型K-PLUG,灌入了京东十几年的电商知识,针对性的训练大模型理解产品要点。比如10Kg、8Kg洗衣机,数字上差别不大,但在家中就是能不能放下、够不够用的问题;推荐节能冰箱和设计款冰箱肯定也不能是一样的重点。

接入言犀大模型后,全新升级的京东云言犀数字人在零配置基础上可实现直播间70%的常见问询覆盖,精准洞察用户需求给出商品推荐,应答准确率可达90%以上。比如当用户在直播间询问“有没有适合女生的公路自行车”或“有没有适合大学生的手机”时,可以给出购物车中适合的商品推荐。借助大模型智能问答调优助手,还会持续自迭代。

而刘强东语言更是简练,讲话总能直击重点。如何让他的数字人也习得这项技能,是京东云言犀团队的又一个挑战。

为此,他们筛选了刘强东此前的书籍、公开演讲材料喂给大模型。言犀能够捕捉并复制说话者的情感,对语音风格进行精细控制,使得合成的语音不仅在音色上与原声相似,而且在情感表达上也保持一致,包括口音和节奏的细微差别、语速的快慢和语调的抑扬顿挫。

马哥见证了言犀TTS技术从1.0走到6.0。如果形容1.0到6.0的跨越,那应该是“从免费有声小说到央视金牌主持人”的区别。语音的自然度、音质、韵律得到大幅度提升。如果留心,宿迁的网友甚至可以听出乡音。马哥说,现在基于zero-shot(零样本)学习技术,言犀语音大模型可以实现一句话音色克隆,只需录制6秒样本即可实现高质量音色合成。

展示过数字人能力的企业有很多,但在零售场景大规模商用的是京东,创始人以个人形象背书的也是京东。这是京东云言犀的技术信心。

老吴形象地说,很多技术都是拿着锤子找钉子,但京东是为了敲好钉子不断去升级锤子。

打开网易新闻 查看更多图片

京东云言犀团队的算法工程师们都感受过学术和产业的参差。“以前觉得发论文很牛、被学术引用很牛,但你拿着这些给商家说,人家最多‘哇’一下,不买单的”。这是一支被产业“教育”过的团队。

2022年度吴文俊人工智能科学技术奖颁发,京东云言犀团队凭 “任务型智能对话交互关键技术及大规模产业应用”,斩获吴文俊人工智能科学技术奖科技进步奖。中国人工智能学会组织的科技成果鉴定,评价认为:“该项目技术复杂,研制难度大,创新性强,项目成果整体处于国际先进水平,其中知识指导的多模态可控对话生成、极简采集条件下三维数字人体感知重建、以及可解释的多轮对话推理决策三项技术达到国际领先水平。成果应用产生了重大的经济和社会效益,推广应用前景广阔。”

技术是京东“越来越明显的隐性基因”

还是会有人说,京东没有技术基因。

但笔者认为,说技术是京东“越来越明显的隐性基因”可能更准确。从表面上看,京东这种开局是干苦活、脏活、累活的企业,技术驱动的动作和价值也是渐渐被外部认知。

其实,从诞生那一刻开始,京东所有的技术都是以降低成本、提高效率、提升用户体验为出发点和终极目标。211限时达、一键价保、一键直播脚本生成、智能客服、协同办公、C2M、混合云舰、生物资产数字化平台……京东的技术最终以产品和服务的形式呈现,让用户和伙伴不需掌握复杂技术,也能直接享受到技术红利。

3月29日,京东升级使命为“技术为本,让生活更美好”。在刘强东全员信中,他说成功的创新最终还是需要回归到“成本、效率、体验”。

如此看来,京东技术的未来,还是专注于扎实的应用场景,不断强化自身的技术创新,无论是云计算、大数据、人工智能等,都是不断“智能”的新武器、新手段。京东云言犀也将不断深耕技术,扎根产业最深处。

来源:南方都市报

编辑:电商发布