日前,英伟达官方发布了一则第二季度业绩预发布消息:由于游戏业务低迷,其第二季度的营收预计67亿美元,基本与去年同期持平,比2022年一季度下降19%,远低于英伟达之前给出的81亿美元指引目标。

但如果你足够了解英伟达,就会发现这次“下滑”并不可怕。

首先是行业整体表现的原因,根据国际知名咨询公司IDC的统计,二季度全球PC出货量同比下降了15.3%。市场的不景气对芯片公司有着明显的负面影响:同为芯片巨头的英特尔二季度营收环比下降了17%,同比下降了22%。

其次是英伟达自己之前的业绩上涨实在太“凶猛“,即便二季度预计营收只能达到67亿美元,仍是2019年和2020年同期的260%和174%。从倒退幅度看,上一次,也就是2018年虚拟货币“崩盘”导致的显卡市场“矿难”中,英伟达营收水平倒退了6个季度,这次只倒退了4个季度,环比跌幅更是从2018年的31%缩小到了19%。

整体业绩表现更“坚韧”的背后,是英伟达历时十数年完成的颠覆性转型和升级——从图形计算市场偏安一隅的 “小”龙头,变身为引领全球加速计算市场的“大”龙头。

这一趋势也清晰地表现在营收结构的变化上,从2020年末开始,数据中心业务已经成为了英伟达营收增长的新龙头,并在2022年一季度再次在数额上超过游戏,成为英伟达占比最高的营收板块。

在即将来到的第二季度财报中,没有被虚拟货币冲击的应为数据中心业务大概率还将超过下滑的游戏业务,从而形成较为夸张的差距。仅凭这样一个季度结果,还不足以解释核心问题:英伟达的未来增长是否具有确定性?

英伟达未来发展的基础:通用计算全栈矩阵

回顾英伟达的发展史,英伟达CEO黄仁勋向来颇具“远见”,在30年前创立之初就能预见计算机发展带来的巨大图形计算需求。在图形市场发展如日中天的情况下,在2004年前后再次预见了通用计算的广阔应用前景。

在这之前GPU仅仅只处理图形需求,英伟达官方为此专门开发了底层的调用机制和各种软件库,让开发者可以把GPU中大量的计算能力利用起来。“专用”转向“通用”的关键决策,不仅改变了英伟达之后的发展轨迹,还让整个行业协作孵化出了人工智能这一关键发展方向。

为了让“通用计算”这一构想成为现实,英伟达“坚持”了十多年,各种创新协作压根没有停过,最终才获得如今的成绩:

2006年,从过往专用的GPU(图形处理器)全面转向GPGPU(通用计算图形处理器);

2007年,GPGPU被正式命名为CUDA(统一计算架构),开发者只需要用简单编程语言就可以调用GPU计算;

2008-2013年,推动与全球范围科研机构院校合作,在众多场景中应用GPU算力;

2014年,机器学习、计算机视觉首次出现在英伟达GTC上;

2015年,重点发布了自己在自动驾驶方向的产品NVIDIA DRIVE和技术布局;

2016年,再度更新GPU架构,升级人工智能方向上的加速计算和自动驾驶产品,开始以官方身份大规模开发软件生态;

2017年,再度更新GPU架构,祭出英伟达自己为AI打造的系统解决方案DGX和GPU云计算方案;

2018年,升级各个业务线的所有产品,深化AI领域的软件生态建设;

2019年,收购全球高性能网络技术公司Mellanox,发布光线追踪技术,全面搭建以英伟达CUDA技术为核心的云端生态系统,全面提升数据中心业务的产品表现和灵活性;

2020年,更新GPU架构,发布首款数据中心专用的DPU处理器,更新升级了包括显卡、自动驾驶、数据中心在内的所有业务芯片,同时第一次发布AI数据中心整体解决方案;

2021年,发布首款基于ARM架构的CPU产品Grace,首次组成“CPU+GPU+DPU”的超级组合。

2022年,更新GPU架构,再次全面更新所有产品线中的芯片。

这份不求短期回报的坚持,最终培育出了英伟达当前发展的核心——“通用计算全栈矩阵”。

你可以将这个矩阵理解为英伟达多年以来创新的积累,在这个巨大的多层平台上,是气象、医疗、语音、工业设计、专业图形处理、机器人、视频分析处理等典型人工智能赛道中的多种软件产品和解决方案,背后还有着上千万的开发者和全球近万家使用英伟达技术的创业公司。

英伟达早年精力都放在GPU的研究设计上,旨在解决计算机的图形计算问题。直到GPU通用计算曙光的出现,英伟达转而将全部精力投入到了通用计算产品和生态的扶持中去。截止目前,英伟达已经拥有一个产品众多,结构复杂,横跨不同行业、应用场景和解决方案的通用计算全栈矩阵。大致可以分为四层:

1. 底层硬件:芯片、服务器、网络互联硬件;

2. 底层软件:驱动软件、计算基础组件;

3. 框架软件:计算通用工具、算法库;

4. 实际应用:模型算法、领域应用、场景应用。

硬件最好理解,从边缘领域的SoC,到传统的游戏显卡和加速卡,再到无限拓展的云端解决方案,甚至是目前地球单机并行运算能力最强的超级计算机中,都有英伟达统一微架构的GPU处理器。不同物理尺寸、不同芯片数量、不同算力等级的硬件可以相互组合协作,组成各式各样的解决方案对应不同行业和应用场景。

以目前 “GPU、CPU、DPU” 的三大件组合为例,自研的ARM服务器CPU和强大的网络基础能力,让英伟达能够跳脱于传统GPU的硬件,对云端的通用计算解决方案进行全面的优化。以系统通信能力为例,远超传统PCIE通信速率的英伟达NVLink通信技术,不仅能将GPU中的算力和数据无缝连接、就连英伟达的Grace ARM处理器也可以和GPU相互连接,大大降低了构建超大型通用计算集群和运行超大规模AI计算的门槛。

强大的全栈硬件能力,让英伟达输出的产品从过去的GPU、显卡一下子跃进为全球顶级的超级计算机制造商。以今年春季的GTC上发布的EOS超级计算机为例,就装备了576个英伟达DGX H100系统,其中包括4608个H100图形处理器,500个Quantum-2 InfiniBand 交换机;以及360个 NVLink 交换机。

强势的硬件能力之上,还有庞大的软件和应用生态,其中最重要的就是肩负联通通用计算软硬件的CUDA(统一计算架构)。

从2007年首次发布至今,15年的时间里,CUDA已经更新了23个正式版,将英伟达不断演进的GPU通用计算芯片的能力完全释放出来,让越来越多通用计算应用成为可能,同时还支持了外部开发者和企业进行相关的探索,扶持了整个外部开发生态。

为了架构起复杂的软件能力,帮助尽可能多的客户使用上通用计算加速能力,英伟达已经成为了拥有最多软件工程师的半导体公司,软件工程师数量几乎与负责造芯片和解决方案的硬件工程师数量一样多。

相应的,在英伟达自我应用探索、客户和第三方软件项目落地中获得的反馈和最新趋势,也能作为英伟达优化自身硬件开发的“远见”,从而形成一个软硬件相互促进的正向循环。

一个最好的例子是英伟达在2018年为GPU引入的Tensor Core,它能够比普通GPU核心更高效执行AI运行所需要的矩阵数学运算,同时还能提供更低精度、更高算力的运行模式,极大地推动了高算力AI应用的发展。

完整的体系化创新能力与推进,让英伟达在“通用计算全栈矩阵”上低成本(相比专用路线)、高效地拓展了许多业务赛道,并且往往还会掀起赛道内的“颠覆”,数据中心就是一个最好的例子。

成为全新“顶梁柱”的数据中心

2012年谷歌首次利用GPU通用计算能力,打造出了一个能够识别10万种物体的神经网络,由此开启了新一轮的人工智能浪潮。

在各种技术创新和应用尝试此起彼伏的过程中,也给计算力和计算成本提出了新的需求:为了解决更复杂的问题,需要计算机同时处理更多的数据,构建更复杂的神经模型,计算力必须要更大,同时计算成本还必须降低,而且幅度必须是指数级的。

这个幅度一点都不夸张,以当前人工智能行业内目前发展最快的、主要用于解决自然语言处理(NLP)的神经模型Transformers路线为例,其神经网络规模在2年内就扩大了275倍,相应地计算需求增长甚至超过300倍,计算成本显然也不允许以这种速度增长。

英伟达对于这一趋势显然也有所远见,2016年就推出了全新的DGX和HGX产品系列,专门解决客户的云端高性能GPU通用计算需求。为了满足云端使用的实际需求,2019-2020年还扩充了ARM处理器和网络通信产品,并随之推出了数据中心级整体解决方案。

在前两个月更新的全球超级计算机排行榜中,英伟达不仅是Top100中唯一入选的企业组织(其他均为国家实验室和机构),Top 500榜单中使用英伟达产品的比例也达到了71%的新高。

强大的GPU处理器产品是英伟达在超算中占比越来越高的关键,接棒前辈V100和P100、成为最受欢迎的超级中心GPU处理器的A100 GPU处理器,其内部微架构专门为人工智能计算进行了优化,在低精度运算场景中能够提供远比上两代的处理性能。

算力更强大的同时,A100还是首个支持弹性计算技术的GPU,简单点说能像孙悟空一样分身,将自己虚拟成数个独立GPU分别利用,提升云端的利用效率。强大的分身能力还让A100 GPU实现了人工智能不同处理阶段的“通吃”:数据分析、训练和推理都可以在同一套硬件基础上实现。

在强大的A100 GPU之上,英伟达也更新了自己的各个产品业务线,推出了包括服务器单元HGX A100、超算模块DGX A100等新升级的硬件,彻底打开了人工智能数据中心这个市场。

哪怕到A100发布两年之后的今天,使用这款芯片的数据中心硬件仍然在深度学习行业测试中覆盖全部项目,并且在大多数项目中遥遥领先(MLPerf是目前权威性最大、影响力最广的国际AI性能基准测试,地位相当于全球AI领域的“奥运会”)。

包括腾讯、阿里、京东、美团在内的中国互联网公司们,都是英伟达的客户。以美国互联网龙头Meta(Facebook)公布的“全球最快AI超级计算机”建造计划为例:Meta将从英伟达直接采购760台DGX系统,其中包含共计6080块 A100 GPU加速器,价值高达2.5亿美元。

在英伟达即将公布的第二季度财报中,数据中心业务大概率就将取代游戏成为最大的营收来源,并且保持上相当长一段时间。

持续创新是最好的策略,没有之一

基于“通用计算全栈矩阵”这个发展核心,英伟达仍在持续推动新“创新”,以换取更多发展中的远见。

以2021年曾轰动一时的中国“发现引力波”事件为例,作为人类天文学上的里程碑事件,它的探测过程同样是借助GPU通用计算来完成,首先在虚拟环境中模拟引力波的发生过程,并且给出一个引力波的标志性特征,然后科学家再从无数的数据中找到这样的波形。为了这次探测,英伟达也提供了全面的技术帮助。

而在更加实际、更加产业化的应用场景,例如公认英伟达未来最广阔的人工智能市场中,英伟达所做的还不止是提供技术支援,在官方自己同步探索重点应用场景解决方案的同时,英伟达还和客户形成了非常紧密的联系。

例如对于人工智能机器人,英伟达就专门打造了ISAAC(自动化移动机器人)平台,不同行业、不同机器人外形、不同需求的用户都能通过这个平台让自己的机器人变得更加智能和高效。

这些客户在实际使用过程中需要面对的核心挑战是功耗和成本问题,英伟达在明确这个需求之后,对机器人端的硬件持续做严格的功耗成本控制,同时还创造性地提供了在电脑端、甚至云端虚拟训练机器人神经网络模型的解决方案。用户完全可以在虚拟中完成对于机器人的真实场景训练,在训练完成之后实现一键部署。

在今年的春季GTC上,黄仁勋再次提出了“Million-X”计划,核心思想在于在解决一些高性能计算或者科学计算任务的时候,在不断更新的GPU底层架构,结合人工智能的一些应用或者方法的共同作用下,相对以前的方式能够获得甚至达到百万倍的应用程序整体的性能加速,从而更好地推动科学计算、高性能计算,来解决现实中许多的计算应用难题。

其中由英伟达自己牵头的,就是在英伟达自己的数字孪生世界Omniverse中构建了一个地球的数字孪生兄弟。通过世界上最强大的人工智能超级计算机的模拟,来提升气象预测的模型精准度,包括预测全球变暖对全球不同地区的影响,为人类在区域层面规划和缓解这些变化提供帮助。

英伟达还专门预留了收集更多“百万倍计算挑战”的入口,包括用人工智能将药物研发加速720倍,监控预测南极洲陆地环境变化,推演新冠病毒变异机理和趋势,万亿原子量子精确分子动力学模拟在内的项目已经加入。

这些颇具未来属性、影响注定深远的新项目,很多或许不会成功,也不能给带来更多潜在的收入。但在基础的可能性之上,英伟达必然会将其中的一部分项目一步步变成现实,成为发展的新燃料。