2月22日,百度发布2022Q4财报,研发费用高达214.16亿元。
同时,李彦宏内部信中称,多项主流业务将与文心一言整合。
OpenAI研发的大规模语言模型ChatGPT推出两个月,成为史上最快突破1亿月活的应用。此前的纪录保持者Tiktok用了9个月。百度被认为是国内最有实力推出类似ChatGPT产品的科技公司。文心一言就是那个和ChatGPT对标的产品。
百度似乎孤注一掷。据称,公司内部所有OKR都在为文心一言让路,CTO王海峰亲任该项目的总指挥。他带领的算法工程师们为此封闭开发,彻夜不眠。用来训练数据模型的英伟达GPU A100芯片,成了稀缺资源,“全部调用给文心大模型,其他组都借不到”。
紧张程度,堪比2002年百度直面Google竞争发起的“闪电战”,当时李彦宏自己任组长。现在,他给自己最新定了个OKR,“引领搜索体验的代际革命”——用AI革搜索的命。
百度的AI往事,引出一些人集体回忆。3月份将被推出的文心一言,谁是那个“关键先生“?
一群人
2017年6月,世界智能大会上,李彦宏讲了一个段子:“吴恩达在谷歌的时候,据说很不爽,因为谷歌不相信GPU的方向,到了百度随便买GPU,所以百度有了最大的GPU集群。”
为什么是吴恩达?
2011年12月29日,一篇论文带火了一个酷炫黑科技,计算机会自动找出猫咪图片。这个黑科技来自Google,也让业内记住了“Google大脑”之父吴恩达。
2012年9月 图灵奖得主Geoffrey Hinton团队发布了Alexnet,这是第一个应用深度神经网络的应用,标志着深度学习打败传统机器学习。
于大众而言,科技影响生活。在计算机科学领域,技术的迭代影响着大公司战略。
2013年4月,在距离苹果总部不远的加州库比蒂诺,百度成立了人工智能实验室。当年1月,百度成立深度学习研究院(IDL),第一个以深度学习来命名的研究院。
李彦宏任院长,余凯副院长。2014年5月,吴恩达加入百度,负责“百度大脑”计划,担任百度公司首席科学家及IDL院长。
2014年,百度推出少帅计划,主要面向全球招募9名30岁以下的人工智能领域青年精英,年薪百万元起步。还将得到李彦宏和IDL杰出科学家的亲自指导,“导师团队”里有余凯、徐伟、张潼等人。
然而自IDL成立,一直被外界视为形象代言人的余凯,却在2015年3月份提出了离职申请。IDL架构师黄畅随后离职。同年,他们共同创立了地平线。2022年10月,大众宣布投资约24亿欧元,与地平线成立合资企业,创下大众入华40年来的最大单笔投资纪录。
另一位导师,IDL副院长张潼,2017年3月23日开始担任腾讯AI Lab(腾讯人工智能实验室)主任。
在2017年3月吴恩达的离职公开信里,他总结:“百度人工智能团队已经增长到近1300人,其中包括300名百度研究院成员。”
发展的常态,就是你来我往;发展的常态,也是来来往往。百度就像蒲公英,风一吹,新的AI企业纷纷落地。
继吴恩达之后,林元庆任IDL院长,不足六个月。他和余凯一样,有过NEC实验室的工作经历。2017年,林元庆创立了AIbee爱笔智能。2022年,爱笔智能获小米集团新一轮领投,投后估值15亿美元,跻身“独角兽”行列。
此外,另一位少帅科学家顾嘉唯,出走并创立了物灵科技,已获商汤战略投资。
AI浪潮把一些科学家高高举起,送他们登上了企业家的殿堂。随后,利落地撕掉了百度的标签。
一个深度学习框架
2017年,8月的银川,亚布力中国企业家论坛。
媒体人秦朔问:“据说陆奇很多公司都在争、都在抢,你怎么能把他请来?”
李彦宏回,“我跟陆奇认识快二十年了……大家都有技术背景,都比较信人工智能这个东西。”
2017年1月,陆奇离开微软,加入百度。据说,他是大陆华人在外资科技公司的职场天花板。有媒体分析,陆奇担任百度集团总裁兼COO的约500天时间里,市值从600亿美元飙涨到980亿美元,百度股价大涨60%。但离职的消息一出就导致百度当日股价大跌,市值蒸发100亿美金。
空降的陆奇,提拔了搜索引擎业务总负责人王海峰成为AI技术平台体系总负责人,兼百度研究院院长,晋升为Estaff(百度最高决策层)成员,直接向陆奇汇报。也就是,“文心一言”项目当下的总指挥,王海峰。
用王海峰的话说,“深度学习框架”相当于智能时代的“操作系统”。此前IDL的一些产品,如百度Eye、百度Light、百度Bike、百度筷搜等,后来都悄无声息了。那么来自IDL的深度学习框架 PaddlePaddle ,会一直坚挺下去。
2016年,百度开源PaddlePaddle,身负着百度抢占人工智能时代高地的重要使命。“AI先生”李彦宏深知,AI领域里,得框架者得天下。PaddlePaddle的前身,是2013年研发的深度学习平台,支持了内部多项业务。
时间回到2011年,余凯所在的NEC实验室迎来了一个娃娃脸的浙江男孩,贾扬清。伯克利读博期间,他在NEC实验实习。2013年,临近博士毕业,贾扬清受到Alexnet启发,写了深度学习框架Caffe,随后入职Google大脑。
PaddlePaddle的2013年版是百度杰出科学家徐伟主持设计并开发的,2016年开源后,迭代过两次。
开源之初,Caffe的作者贾扬清在知乎上评价了PaddlePaddle,“整体的设计感觉的和Caffe心有灵犀”。
陆奇曾表示,要将PaddlePaddle发展成具有中国特色,最适合中国国情的深度学习平台。
2018 年 7 月,李彦宏在百度 AI 开发者大会上喊出了要让“Everyone Can AI”的口号。然而,一些开发者反应,和其他框架相比,PaddlePaddle的文档资料较少。
另一方面,PaddlePaddle迎来一波换帅。PaddlePaddle的核心成员——杰出科学家徐伟离职,加入地平线任首席科学家。值得一提的是,他是“少帅”导师团中最晚离开的。据百度百科,2018年7月,马艳军开始负责飞桨(PaddlePaddle)深度学习平台的产品和研发工作。6个月前,马艳军才担任百度研究院院长助理,成为王海峰门徒。
根据2022年下半年IDC对中国深度学习开源框架市场的调研,前三名Meta的PyTorch、百度的飞桨PaddlePaddle、谷歌的TensorFlow已经占据超过80%的市场份额,遥遥领先于其他国内外框架。
文心一言,背后正是百度飞桨。
一个大模型
2017年,Google 大脑发表了论文《注意力机制是所需要的一切》,介绍了 Transformer深度学习模型,语言大模型开启了新时代。
谷歌发布了基于 Transformer 的预训练大模型 BERT;OpenAI 使用 Transformer 创建了 GPT-2和 GPT-3模型;Transformer 扩展到多种不同的变体, DeepMind 用它做出了蛋白质结构预测模型 AlphaFold。
2019年3月,百度开发了文心ERNIE 1.0系统。这是文心系列模型的起点,初代文心模型基于谷歌BERT模型结构,增加了优化设计。2019年7月,百度再次升级模型,发布了ERNIE 2.0。2021年7月,ERNIE升级到了3.0。
2012-2022年,百度持续深耕AI,累计研发投入超过1000亿元。
有人质疑,为什么要豪赌AI?
1997年,IBM的深蓝科技击败国际象棋的冠军;2011年IBM的认知计算系统Waston在智力竞赛节目《危险边缘》(Jeopard)击败了两位人类冠军;2016年,谷歌旗下DeepMind击败韩国围棋九段棋手。时代抛弃人的时候,打了招呼。
李彦宏跟媒体人秦朔讲得很清楚:
“中国的机会很可能比美国还大,因为我们人口比较多,而且我们的人口比较有一致性。比如说国外的话,全世界人口加起来,中国以外的人口比中国还要多很多,但是那些人口有一些讲英文的,有一些讲法文的,有一些讲葡萄牙语的,每个国家的文化不一样,语言不一样,法律不一样,中国这些东西全都是一样的,这么大量的数据对于推动人工智能进步是在任何其他地方都找不到的。”
李彦宏出过一本书,叫《智能革命》,里面说——人工智能踩着互联网和移动互联网的步伐,在这个基础上会真正的王者归来。
移动互联网时代,李彦宏是不服的:“百度其实是一个技术基因很强的公司。移动互联网有什么技术呢?移动互联网的这五六年,站在计算机科学的角度来看,真没有什么技术革新,没有什么新东西出来。所以我们这个技术特长发挥不出来。”
AI时代,百度会成为王者吗?
2022年8月下旬,英伟达表示,英伟达的数据中心芯片A100被美国商务部列入出口管制名单。10月初,美国商务部决定对向中国出口的先进计算和半导体制造物项实施新的出口管制。
将PaddlePaddle发展成具有中国特色,这是陆奇曾经的设想。现在百度几乎将宝都押在了文心一言上,所有人都伸长了脖子,等着查验李彦宏这张底牌的成色。