60秒的语音,1秒就能转成文字,即使是广普、川普,也能准确地被“翻译”成普通话。
打开文档,点击语音速记,开会时不用键盘敲得噼啪响,也能把会议内容用文字记录下来。
这是办公软件钉钉,展现的智能化能力。
嗯,真香。
而且这些技术,对于常刷AI前沿论文的我,亦似曾相识。
所以当我心生好奇,想要扒一扒应用背后的技术,还真找到了相关文献。
豁,左一个INTERSPEECH,右一手SOTA,还挂上了阿里的技术招牌达摩院,研发人员一水儿的大牛,甚至是达摩院语音实验室负责人鄢志杰亲自参与……
咦?那个让人“瑟瑟发抖”的钉钉本钉,一直印象是个应用型产品,怎么还和技术范儿的达摩院关联了起来?
再一打听,果然。
钉钉自己也大大方方承认,在整合进入阿里云体系后,包括达摩院,阿里云的最新最前沿的技术,都会开始加速落地。
现在,请叫钉钉为——阿里AI等前沿技术的用户界面。
前沿技术的产品化阵地?
就说长语音转文字这么一个小功能。
在钉钉里,最长可以发送5分钟的语音,同样能够秒转文字,并且支持四川话、广东话等多种方言。
中英混杂,也不影响文字转换的准确率。
功能虽常见,细节处却能见真章。而其背后用到的,正是达摩院最新的端到端语音识别技术。
2020年9月的云栖大会上,达摩院公布了语音AI方面的技术突破:
推出E2E-ASR端到端语音识别技术,基于达摩院提出的SAN-M网络结构,及基于SCAMA的流式端到端语音识别框架,在提升计算效率的同时,还将高难度场景中的语音识别错误率降低近三成,刷新已公布的在线ASR(语音识别)方法的SOTA。
更重要的是,该技术能在移动终端上,实现接近云端的语音识别效果。
类似的,还有支持中文、英文、日语、越南语等10种语言转化的AI翻译功能。
不只是针对文字对话、文档,结合OCR技术,对于聊天中的图片文件,钉钉同样可以一键识别文字并翻译。
而疫情期间着实火了一把的钉钉视频会议功能背后,同样有来自阿里云、达摩院的强力输出。
要知道,钉钉在2020年的用户数比2019年翻了一番,突破4亿。
想要平稳支持这个量级的用户的办公协同、远程上课需求,对于视频会议背后的技术人员而言,就意味着前所未有的高并发挑战。还记得疫情期间,各类在线教育、远程办公平台你崩我崩不断崩。
不仅需要充足的服务器、云计算资源作为基础支撑,也同样对视频编解码算法、视频会议架构等提出了更高难度的技术挑战。
比如传统的视频会议架构采用集中式架构,在大规模部署和弹性伸缩等方面存在天然的劣势。
但因为钉钉背靠阿里云的云计算和边缘计算能力,采用分布式微服务架构,可以进行超大规模系统计算资源编排和网络资源编排。并且能根据系统负载情况进行动态扩缩容,最后可以做到系统资源的最大化共享使用。
除此之外,由于5G普及、用户终端网络能力变强等因素,视频流量的持续增大,也对分发网络的时延提出了更高的要求,音视频的流量需要被更智能地分发、处理。
可以说,音视频对于技术人员的考验是全方位的。
而钉钉音视频如今已然连通了阿里云的基础技术实力,能充分结合达摩院所提供的视频编解码算法、语音3A处理、网络QoS、AI转写、机器翻译、AI降噪等技术,全面提升用户的视频会议体验。
类似达摩院语音实验室的智能降噪,在0db SNR下,MOS(Mean Opinion Score)依然可以达到3.5分,回声消除ERLE(回声回波损耗增强)可以达到52.2db,处于业界领先水平。
在当初钉钉整合进入阿里云体系时,张建锋就放话说,钉钉只会更强。
如今,诚不我欺。
钉钉如何更强?
最近钉钉的重要版本升级,就是直观展现。
这回,连定位都不一样了:直接从协同办公平台,升级成了企业协同办公和应用开发平台。
主要的变化,有以下几点:
推出钉钉宜搭等低代码开发工具,让非程序员用户也能快速开发新应用。
推出应用连接器,可以连接起钉钉、钉钉生态应用、用户自建的应用、原有IT系统等等,打破信息孤岛;
同时,通过1300+ API接口,将底层产品能力开放给客户,作为应用开发平台,为企业数字化转型降本增效。
……
不妨结合具体的案例,来看这到底是怎样一种能力。
蒙牛集团在2020年初疫情期间,面临着线下招投标暂停的问题。如何快速把招投标这件事挪到线上,尽快恢复正常工作?
蒙牛在早已将组织架构通过钉钉搬上云端的基础上,决定采用宜搭搭建招标平台,结合钉钉的群、视频会议等功能,线上完成供应商的招投标和审计工作。
据蒙牛集团IT总监郑炯介绍:
原本采购一套审计系统需要花100万元,现在用宜搭几乎0成本开发出来。
目前公司搭建宜搭应用100多项,替代大批采购IT系统,有效降低了企业的运营成本。
所以可以理解为,如今的钉钉:
中后台技术更强,达摩院等前沿技术的使用,让前端应用更有支撑和保障了。
中后台技术还进一步降低了前台技术开发门槛,开发者因地制宜开发适配的程序,变得更简单,于是钉钉能做的,更多了。
就说新上线的低代码开发产品宜搭,搭建出来的应用还是云原生的。
怎么说?由于宜搭自身天然构建在阿里云上,用它搭出来的应用具备分布式计算、弹性扩容、异地容灾、CDN加速、企业级云安全等阿里云原生能力。
而且,宜搭对阿里巴巴、阿里云的各类前沿技术和基础技术进行了组件化,每个用户能直接调用阿里的OCR、数据引擎、DataV等技术与产品。
以前的钉钉,只是一支单兵提供武器,现在却正在发动起广大开发者和人民群众。
钉钉凭啥“焕然一新”?
秘诀就可以套用群众路线:依靠群众、发动群众,从群众中来,到群众中去。
但在实践这条路线之前,钉钉有前置性的准备。
而这也就是阿里的“云钉一体”战略。
阿里云智能总裁张建锋说,在云智能体系中,钉钉上联行业应用,下联基础设施。
上联行业应用,前文说到的低代码工具、连接器等正在体现,让行业应用的创建开发、连接、数据互通更简单。
那下联基础设施如何体现?分析下来就是调用阿里云的底层各项计算、网络、存储服务、产业解决方案能力,以及将阿里云的在云、AI、大数据领域的前沿技术和算法等,在钉钉上进行产品化,把各种各样普通用户听起来遥不可及的前沿技术,在钉钉变成现实,变成用户触摸得到的产品、工具。
所以钉钉之所以焕然一新,在于云钉一体战略的初步成功,钉钉真的在成为阿里技术的集大成阵地。
其次,集阿里技术大成毕竟有限,所以阿里在实践“群众路线”中,把开发门槛降得更低,让更多场景性应用可以开花结果。
这也是为什么,低代码这件事,在钉钉此次升级中显得如此瞩目的原因。
如果连点成线来看,也就能理解为何当初一定要把钉钉调整并入阿里云体系之中了。
一方面,协同作战,统一领导,可以集中开发精锐和前沿技术炮火。
另一方面,阿里云也有了合适的面向终端客户和用户的业务应用窗口,各种前沿技术有了更直接的使用阵地。
也正因为此,钉钉现在可以说拥有强悍技术实力在后台支持。
当然,再来看云钉一体化战略的掌舵者——张建锋之前的判断,还会感慨阿里的战略格局和远见。
站在历史的角度来看钉钉未来,张建锋认为,全球软件发展的历史分为三个阶段:
第一阶段IT基础设施是大型机或小型机,企业购买大型软件系统来解决所有问题,但实施成本高、运维代价大、再次开发难。
第二波浪潮是SaaS软件兴起,比如Salesforce的CRM系统。这个阶段IT基础设施统一了,但软件是由不同的供应商提供,软件和软件之间还是形成了数据孤岛。
第三阶段是云钉一体进化的目标。主要的特点,就是基于云的能力,让企业开发应用从过去集成式或SaaS化的软件开发,进化到低代码开发,让企业、组织可以更低成本地跟上数字化转型的大势。
张建锋还说,未来十年有诸多不确定性,但也有明确的——最大的确定性——数字化技术的普及,整个社会经济和生活的全面数字化趋势。
所以不要担心钉钉“支配”你的学习和工作啦。
因为它将变革的,是与你数字化和智能化相关的一切。