地址:联系地址联系地址联系地址
电话:020-123456789
传真:020-123456789
邮箱:admin@aa.com
原标题:东哥数字人如何跨过“恐怖谷”
出品|虎嗅商业消费组
作者|苗正卿
题图|视觉中国
刘强东AI数字人在4月22日下午第三次出现在京东采销直播间 。恐怖谷
和4月16日 、东哥19日东哥数字人直播相比,数字4月22日的人何直播增加了数字人助播以及多机位切换 。京东云言犀负责人向虎嗅透露 ,跨过接下来团队的恐怖谷澳门直播现场开奖直播长远目标是希望打造出能够“深度还原思想、认知的东哥数字人”,在这一计划中,数字数字人不仅可以像真人一样带货 ,人何甚至可以像真人一样分享对世界的跨过深层认知 、能够传递更真实的恐怖谷感情与情绪。“但这可能需要更长的东哥时间。”
有分析人士向虎嗅指出,数字眼下摆在京东数字人面前的人何“短期”挑战可能并非技术侧。“京东肯定是跨过希望数字人技术给更多品牌方提供服务 ,在这个过程中找到更多技术落地场景是关键,一方面是数字人到底能够给京东直播间带来多大的增量(即有多少品牌,愿意选择数字人带货),另一方面在非直播场景京东数字人能否有更广阔的想象空间 。”
另有AIGC资深从业者认为,目前在国内数字人直播领域 ,“表情模拟和动作丰富度 ,小鱼儿论坛是两个技术核心考察点。具体来说 ,是唇形以及动作仿真模拟。目前国内垂直于这一领域的技术型公司有硅基智能等代表 ,而在互联网大厂中,京东 、阿里 、字节等都在布局和发力相关技术 。”该人士认为,整体看这个赛道的关键竞争点依然是三要素:算力 、算法以及数据,“互联网大厂中,京东的底层优势是数据 。”
京东云言犀负责人告诉虎嗅 ,4月16日直播后,有多个品牌找到他们询问合作的可能性,这也让他有了一些新的思路。“现在很多科技圈 、车圈 、互联网圈CEO开始做短视频、直播,2024澳门六今晚开奖记录在这个风口里,数字人技术可能有很多可以尝试的地方 。”
东哥为何自己上 ?
虎嗅获悉,在2023年下半年 ,京东云言犀团队基于言犀大模型升级了数字人产品,并尝试了零售、金融 、健康等多个领域。当时 ,京东云言犀数字人直播主要发力的是零售,从带货数据和互动指数看,这一系列直播的表现超过预期。
这段早期的“测试” ,让京东内部对于数字人直播这件事的兴趣和重视度更高了 。“大约在春节前后 ,团队想尝试一下英语直播 ,因为我们此前推出的几个数字人都是做中文直播 ,想试试多语言 。”京东云言犀负责人表示。
2024年春节后,京东云言犀团队开始发力推广数字人产品,他们希望找到一个让京东数字人技术和产品成功“出圈”的方法。讨论后 ,他们决定大胆一点,让老板试试。
京东云言犀算法总监向虎嗅描述了这一过程 :刘强东配合拍摄了视频素材 ,在“外形”生成后 ,京东云言犀再通过大模型去生成了刘强东数字人的声音 。在完成外形和声音的测试调整后 ,京东内部就开始进行直播策划了。
4月16日刘强东数字人第一次直播时,京东云言犀希望做一次图灵测试。他们想了两个方案:第一个方案是,同时做两场直播,但一开始不说是数字人 ,看看用户能否分辨出;第二个方案是 ,对外宣传“刘强东要直播了”,但两场直播都是刘强东数字人 ,看用户的接受度。
经过反复探讨 ,最终团队选择了第二个方案 。
“我们最关注的是120秒挑战。我们通过数据分析以及心理学研究 ,很清楚用户看到一个形象时,前120秒至关重要,如果用户在120秒内发觉这是一个特别假的形象 、或者对这个形象产生厌恶 ,往往会不再消费 。这也是常说的恐怖谷效应,我们想测试的关键点是:120秒内 ,用户是否会出现恐怖谷效应 。”京东云言犀负责人向虎嗅表示。
从4月16日直播的数据看 ,京东云言犀的120秒挑战是过关的 :在直播的第一小时内,总GMV达到5000万元。“我们发现 ,很多用户似乎没有意识到这是数字人 。”京东云言犀负责人说。
目前处于第二阶段
据京东云言犀负责人透露,眼下言犀数字人发展到了第二阶段。“第一阶段 ,是向真人看齐 ,这类数字人可以在黄金时段之外直播带货,这些数字人可以对产品进行清晰的介绍;第二阶段可以媲美真人 ,并承担一些独立任务 ,比如在黄金时段讲解爆品;第三阶段的数字人要融合真人的文化背景和思维逻辑,可以视为真人的数字分身。”
虎嗅获悉,京东云言犀数字人技术会根据不同的场景,采取复合技术方案 ,其中有两个常见的技术路线:其一是完全端到端的生成 ,即在生成数字人过程中并不在任何环节进行显示建模;另一种,则是上文提及的利用一张照片或者3~5分钟视频素材 ,对人脸建3D Mesh模型,然后再去控制他的表情、唇型,然后再做纹理的渲染 。这两个方案其实团队在不同场景里都会去用。
最大的技术难点 ,是大姿态 :即数字人拥有复杂的唇形、仿真动作、微表情。“如果想实现大姿态数字人,首先会遇到光线挑战,视觉上很容易发现打光不均匀 ,会让用户觉得数字人身上一块白一块黑;以及会遇到唇形挑战,这是核心难点 ,大姿态数字人并不会一直正对着镜头说话,你需要在各个角度实现拟真效果 。”
“我们的核心技术思路是端到端:建模-驱动-渲染的一体化。和Sora的思路很像 ,但区别在于Sora一开始就聚焦于通用内容视频方案,而言犀大模型聚焦于人物视频生成 。未来我们将可能参考部分Sora技术,按效果优先 ,逐步扩展覆盖的领域。”京东云言犀负责人说。
在这个路径中,模型的推理优化以及计算效率是另一个关键点。京东云言犀的大模型项目组里,有一个单独的战斗小组负责推理优化 。相关人士告诉虎嗅 ,行业内常见的模型蒸馏和模型量化,一般是做bit4或者bit8,而京东采取了不同的策略,通过CPU,而非GPU进行推理 ,降低应用成本。
“原来在大模型里每一个模型参数应该是浮点数,一般是用32或64位来表示浮点数的一个参数的,但应用时浮点数一方面占的空间很大;二是运算比较慢 ,浮点运算相对比较慢 ,所以我们做量化就是用一个八倍的整数来近似模拟一个16位的浮点数。甚至我们可以做到用四位就可以来模拟一个参数。这样一方面使得模型的大小会变小,同时使得整个运算速度会极大加快”上述人士表示。
有AIGC领域资深从业者告诉虎嗅,目前国内可以做云端数字人服务的公司并不少,而在文字合成声音等领域,大部分头部互联网公司的实力相近。“从技术和落地看,京东言犀数字人在推理优化是有优势的 ,而其海量商品数据对于数字人产品是一个关键助力,它可以针对不同产品去更快速、高效地做优化 。”
尚需解决的挑战
互动能力升级以及挖掘更多商业化场景,是京东云言犀数字人尚需解决的。
过去几次直播 ,京东云言犀团队和京东采销直播间一直深度协作 :简单来说 ,京东云言犀团队负责数字人技术 、呈现,并根据每一次直播的效果去优化,比如第三次直播时刘强东数字人的互动效果比第一场直播明显更好;而京东采销直播间则负责选品 、运营等一系列“业务侧”工作,过去三场直播中京东采销直播间在选品上以平台爆品为主。
在互动方面,目前京东云言犀数字人尚无法媲美真人互动。在过去的几次直播中 ,除了通过文字弹幕用户留言外,刘强东数字人有时会针对一些共性问题做回答 。但相比于真人直播间常见的“插科打诨”、“玩梗互动”,目前的数字人尚显“稚嫩” 。“比如很难像董宇辉那样 ,针对一个产品 ,突然有了灵感,开始讲文学、文化,目前还无法做到这一点 ,也就是很难让数字人有真正的思想与意识 。”
另一个挑战是场景 。
据京东云言犀团队人士透露,他们目前在直播之外 ,在短视频等领域也服务了一些B端客户 ,比如在一些地产公司里 ,会通过数字人自动生成讲房视频。不过相比于想象中能够落地的场景 ,目前真实服务的场景相对有限。
618或成为京东云言犀数字人的“期中考试”,据悉京东内部已经对数字人在618期间的表现以厚望,而AI也被京东CEO许冉视为2024年618的关键点。言犀数字人能否成为京东的关键引擎?一个多月后即将揭晓。
正在改变与想要改变世界的人,都在虎嗅APP返回搜狐,查看更多
责任编辑:
地址:联系地址联系地址联系地址
电话:020-123456789
传真:020-123456789
邮箱:admin@aa.com
0.1083