逛完上海第六届世界人工智能大会的普通人大概会有一种幻觉:满世界大模型,千行百业都在落地狂飙。

但当IEEE Fellow何晓东对着一个国产大模型上提问「143的平方根是多少」,数字屏上的答案让他警惕起来。

正确答案是11.958,对话框里给出的却是「11.58」。

一个随机的可信度测试,折射出当前通用大模型的两重处境:一方面形势火热、赛道拥挤;另一方面应用中仍存在诸多细节问题,有待浪潮的参与者们躬身「填坑」。

拿着「刷榜」的AI技术去业务部门做落地,结果往往不尽如人意,因为商用场景是严肃的,「研究者认为的小问题,对使用者来说就是不可用」。

这一认知在当下尤其重要。当大模型急匆匆拥抱产业,对技术参数的单纯追求开始让位于效率、体验和使用成本的一个平衡。如果说上半年是竞逐「炼丹」速度,下半年则到了苦练「平衡木」的阶段。

01

通用大模型不是唯一解

2023年上半年,我们不仅见证了大模型能力的涌现,也见证了大模型企业的「涌现」。

目前发布的通用大模型已超过80个。仅在上海世界人工智能大会的AI大模型展区,10亿参数以上大模型的AI企业就有30多家。赛道拥挤程度肉眼可见。

不过在行业狂飙的同时,通用大模型的「滤镜」也在快速褪去。那些兴致勃勃参展、四处寻求大模型应用方案的企业CTO、CIO们很快发现,大语言模型是有能力边界的,且落地成本、准确率都是横亘在面前的鸿沟。

比如,一个千亿级别参数的大模型,仅训练费用就要数千万元;媒体最新爆料中的GPT-4,一次训练成本更是高达6300万美元。高昂的训练成本经过层层分解,最终会传导到各个应用环节。今年5月,曾有数字人公司创始人向《降噪NoNoise》透露,他们调用国内某大模型API的单次费用要一两角钱,整体成本比较高。这也迫使他们考虑推出自己的垂直模型。

大当然有大的好处,比如精度、强泛化能力;但测试时如果一个提问需要5-10秒反应时间,其实也很难应用到严肃的商业场景里。

至于计算机「幻觉」以及特定场景下回答精确度不够的问题,亦有重大隐患。以何晓东博士测试的问题为例,如果一名公司会计没有及时发现数据问题,那个错误数据有可能永远留在表格里,当一层层数据叠加上去,就有可能「生成」一个潜在的bug。腾讯云与智慧产业事业群CEO汤道生此前曾提醒,「企业一旦向公众提供了错误信息,可能引起严重后果。」

快消品牌元气森林品尝过犯错的代价。2021年,元气森林针旗下淘宝店铺运营人员标错价格,店面出现「原价79元气泡水仅卖3.5元」的异常链接。闻讯「薅羊毛」的用户极短时间内下了4000多万元订单,订单成交价甚至不及运费。元气森林扛不住,最终只得拉下脸恳请买家申请退款。

如果在金融风控领域出现技术bug,比如客群筛选不精准,羊毛党、黑灰党也会过来把平台的钱薅走。

相比C端,B端对犯错的容忍度只会更低。一个技术失误或者机房宕机,有可能丢掉数千万元的大单。

意识到通用大模型技术还未成熟,业内正形成一个新的共识——大模型真正实现价值的方向在于产业落地,最终能跑出的必定是在产业落地上有独到价值的企业。此时风向已经转至产业大模型。

这一判断也离不开上一轮AI爆发留下的冷酷教训。2015年前后,深度学习的算法突破带来智能语音和计算机视觉领域的一波AI创业浪潮,并带火了商汤、旷视、云从、依图等「计算机视觉四小龙」。但由于技术落地瓶颈——人脸识别仅在安防领域实现大规模落地,没有在其他产业端形成扎实的应用,AI公司无法自我造血。

在合计烧掉600多亿融资后,以「四小龙」为首的AI行业没有等来AI的iPhone时刻,反而进入隆冬、徘徊在死亡之谷的边缘。

ChatGPT的横空出世,重新引燃了人们对于AI的技术信念。只不过有了前车之鉴,这一次国内科技企业的危机感更为强烈,走向产业的步伐更快。

02

下一轮竞赛的关键

业内公认,AI产业突破是比技术突破更难的事。

在上一轮AI技术低谷时,第四范式创始人戴文渊曾如此形容人工智能所面临的最大挑战——「现在几乎没有企业不用到AI的技术,但是如果说哪个企业把AI拿掉后活不下去,这样的企业也很少。」

这个尴尬处境带来的启示很明确——只有当产业效率和产业的边界拓展得到质的提升后,大模型才能发挥更重要的实际价值。

至于如何实现「质」的提升,一名前IBM人士同《降噪NoNoise》交流时曾提到一点——传统B端服务强调价值,即从客户要什么,反推自己的能力和产品,而不是根据自己有什么能力,再去找对应的客户。

以此类推,做行业大模型也不是一个拿着锤子找钉子的过程,而是要为「钉子」制造尺寸适当的「锤子」,这样才能实现产品的高可用性,为客户提供真正的价值。

制造「锤子」的具体路径还是要回归到AI落地三要素——数据、算力和算法。只不过在大模型时代,每个要素都要升级,每个要素的壁垒也都在抬高。

以数据为例,何晓东博士告诉我们,过往公共网络空间的数据偏静态,但产业场景下的动态交互,离不开活的场景数据——即涉及行业know-how以及用户交互的数据部分,这些行业数据往往不在公域上,但是对行业深度的知识沉淀非常关键。

比如京东言犀大模型中,有70%的训练数据来自通用大数据,另外30%左右的行业know-how数据来自集团内部的零售、物流、健康、政务等业务场景。

场景正成为技术竞争的新变量之一。36氪此前报道,为了获取行业数据优化大模型,一些AI厂商想到让渡部分商务权益,甚至可以免费为开放产业数据的客户打造大模型。京东这类具备天然业务场景的公司做行业大模型,是有数据原生优势的。

其次是算法竞争白热化。过往的单点算法竞争让位给了成体系的技术及产品形态的竞争。一旦某家厂商拿出一个产品,且形成用户心智,对手可能需要很长时间才能追赶上。

在算力上,集群算力将制约着大模型的表现及成本。

相比通用大模型,行业大模型要想成功,除了基础通用能力,还要在场景、产品体系、算力集群上不能有短板,同时使用价格上也要有优势。对于所有参赛选手而言,这都是一段「走平衡木」的考验。

目前业内公认的一个事实是,国内还没有一个场景或者行业真正把大模型大规模用好。尽管当前已有多家大模型厂商宣称实现了行业落地,争相展示应用案例,但业内人士都清楚,大模型尚未找到诸如安防那种大规模的应用场景,即便是应用「案例」,这其中有多少价值是大模型带来的,又有多少是此前技术转化的,还是一个「黑盒」状态。

当然这也意味着各家厂商都有深耕机会。搜索中文互联网,国内最早关注大模型产业落地的其实是京东。今年2月,在国内首个通用大模型还未上线时,何晓东博士就对外表示,京东是加速AIGC和类ChatGPT规模化落地的最佳场景。此后百度、阿里云、华为、腾讯争相发布行业大模型或解决方案,大厂里似乎只剩京东还没「表态」。

憋到7月13日的2023京东全球科技探索者大会暨京东云峰会上,京东推出言犀大模型,并分享了探索产业落地的底层思路和进展。

也是够沉得住气。

03

京东为什么不着急?

京东为什么不着急是个仁者见仁的问题。

从技术迭代来看,京东2020年就研发了自主产权的知识注入算法,并发布言犀,应用到营销、智能客服等领域,收入利润表现都还不错。2022年,言犀又被注入数字人能力,比如交互、视觉形象等。

不过近期在接受采访时,京东集团技术委员会主席曹鹏明确表态,京东产业大模型今年还是聚焦内部场景和能力。

京东集团CEO许冉给出的理由是,京东不会把没有实现「色香味俱全」的菜肴端上餐桌,在内部的关键场景完成了历练和实践的大模型,京东才会开放给合作伙伴,带动整个行业降本增效。

这个思路异于其他厂商,却也不难理解。早在2017年内部年会上,刘强东就为京东定下技术!技术!技术!的发展路径。这个口号有三层递进意思:技术首先用于服务内部业务,此后是形成产品对外赋能、做商业化,预计布局未来前瞻性研究。

曹鹏在受访中透露,京东最近半年一直在围绕供应链这条线,寻找在哪些产品、技术、场景里可以真正把大模型用起来,把它的能力真正发挥出来,带来跟之前不同的变化。「推出模型本身不是我们目标,所以我们也不着急对外做这个方向,我们真正关心的,是如何利用技术带来真正的产业变革。」

所以京东更强调在特定行业比如强势的零售、健康、物流、金融领域寻求突破,以形成可以直接使用的产品模块,形成端到端的产品价值。在7月13日的京东全球科技探索者大会暨京东云峰会上,京东分享了在上述领域的应用进展:

在智能客户领域,京东内部客服系统对长尾用户意图的感知准确率有极大的提升,错误急剧下降一半以上。在对话维度,通过大模型,会话错误率下降了三分之一以上。

在营销领域,通过注入知识的「营销导航者」,商家可以获得大模型驱动的营销策略。比如有商家想要规划一场营销活动,目标拉新两万用户、整体费用十万元,大模型会根据目标推荐活动组合,并记录反馈实际拉新数据、成效。

在医疗领域,京东健康的远程医疗是与行业大模型高度适配的场景。远程医疗要解决可及性、问诊成本、诊疗质量三个核心痛点,医疗专业知识、线上对话问答方式天然适合大模型的训练。

京东集团副总裁、京东健康技术产品部总经理李欣介绍,京东健康的医疗大模型“京医千询”,是建立在京东言犀通用大模型基础之上,通过京东健康超过亿级的高质量医患对话数据和百万级的大规模医学知识图谱构建而成;能快速完成在医疗健康领域各个场景的迁移和学习,从而实现产品和解决方案的全面AI化部署,能为远程医疗服务提供坚实的技术底座。

据了解,京东健康接下来将在皮肤科和心理科两个专科重点探索大模型的应用。比如皮肤科领域,垂直大模型可以通过图片识别多种皮肤皮损状况;在心理咨询领域,据信大模型也将发挥更大作用,部分性能甚至可以做到比人工更好。

尽管人工智能专家李开复早先乐观预计,心理医生、心理咨询师是最不可能被GPT替代的黄金工种之一,但有从业者已经看到一些足以让自己焦虑的趋势。此前有一名心理学博士告诉他的朋友,「当你在美国专门参与了帮助人工智能更具情感化的项目,你会觉得这个事情越来越不可逆。」

上述探索都在京东内部悄悄进行。许冉说,「我们更关注大模型价值的‘涌现’。」

可以说,京东的不着急既符合其一贯的踏实气质、现实处境,也是看到技术规律使然——技术在产业里产生价值需要长周期的积累,所以行业大模型的落地是一场长跑,最终还是看谁能够把这个技术用得更好。

只有那些能把大模型能力真正用起来、用得好的企业,才能够在这个行业里占更好的先发优势,进而进一步推动整个行业的变革。