“AI孙燕姿“翻唱视频(图源:bilibili)
近日,一个声音横扫歌坛,成为娱乐圈顶流,也让生成式人工智能(AIGC)再度出圈,它就是孙燕姿的分身——“AI孙燕姿”。“AI孙燕姿”翻唱了包括《发如雪》、《好汉歌》在内的多首歌曲,宛如真人演绎。
对此,孙燕姿本人也与5月23日进行了回应。在文中,孙燕姿表示:这项新技术将能够为每个人提供他们所需要的一切,无论是独立的、扭曲的还是疯狂的,都可能会有一种专门为你创作的独特内容。你并不特别,你已经是可预测的,可定制的。
“AI孙燕姿“的走红是否意味着人类引以为傲的“创造力”遭遇危机?音乐还是人性的堡垒吗?AIGC作品版权归属问题又该何解?掌握技术的大公司会成为新的立法者吗?
腾讯新闻《知识万象》特约主理人季燕江对话北京大学智能学院教授邓志鸿、美国哈特福德大学哈特音乐学院打击乐讲师冯建鹏、上海大邦律师事务所高级合伙人游云庭,探讨AI迅猛发展下人类创造力面临的“危”与“机”。
核心要点
1人们很多时候听歌不完全是只为听歌,而是对歌手感兴趣。一些歌手不仅靠声音征服了观众,他们的人格魅力和学识等也成为受欢迎的原因。
2人工智能的大量学习和深度分析远超人类能力,人类画师与AI画师的较量其实并不公平。但AI为人类带来的启发或许能促进人类对艺术审美边界的探索。
3AI未来可以作为人类助手,在艺术研究方面提供帮助。
4根据伯尼尔公约和我国著作权法,人创作的作品才受到保护。个人在创作中输入指令的步骤在最终生成的作品里是忽略不计的。
5大公司确实可能因技术优势对AI立法进行垄断,但现在比较好的通用大数据模型基本上都是对所有人开放的,短期内不必担心巨头垄断。
一、“AI孙燕姿“爆红:音乐还是人性的堡垒吗?
季燕江:说到艺术,我们会想到音乐、诗歌、绘画、书法等。艺术不仅仅可以被欣赏,更重要的这是一个人人可以参与其中的活动。从古至今,艺术品是由艺术家“亲自创作”的,比如诗人在特定场景下会吟诗,在我看来艺术的真谛就是创作者与朋友分享自己心意和心绪。
现在AI进入艺术领域,这多少超出了大家的预期。AI属于“硬科技”,而艺术则是比“文科“还“文科”的“文艺“,这两个相距甚远的领域如何能产生交叉?
近期比较火的交叉方式就是通过提示词来进行艺术创作。用户在脑中想象一个东西,用提示词——也就是基于自然语言的文本——来表达,AI便可以生成大量诗歌、绘画等多种多样的艺术内容。
比如“AI孙燕姿”近日就在互联网上爆红,它未来能替代真正的歌手吗?
冯建鹏:我认为AI歌手不会取代人类。就现在的科技而言,它模仿人类声音可以很到位,有可能成为著名歌手中的一份子。各种网站上其实也已经有二次元歌手,在技术层面上“完全由AI生成”。但音乐作为文化项目,人类的参与本身是非常重要的。我们很多时候听歌不完全是只为听歌,而是对歌手感兴趣。一些歌手不仅靠声音征服了观众,他们的人格魅力和学识等也成为受欢迎的原因。
所以这个问题最终还是落到了“在音乐创作中人类是否有不可替代性“上。如果人和机器在艺术领域中对比,发现人有一定不可替代性,那人自然不会完全被取代。很简单的,我们现在已经有CD(镭射唱片)了,对歌手人声还原足够好,比绝大多数现场音乐会的音质好得多,那我们为什么一定要去现场看演唱会?一方面,我们就想见歌手一面;另一方面,歌手现场和我们会有一些互动,这种互动让我们觉得有人的温度。
我昨晚特意听了几段“AI孙燕姿“的作品和孙燕姿的原唱,来盲测是谁唱的,八段音乐里猜对了七段。我是怎么判断的呢?乐句处理。
人的发音吐字可以被模仿。但比如我最后说一句话,它是什么样的态度,AI对此的模仿其实还没能到让我们听不出来的程度,没那么拟人,有点“平”。简单来说,就是当两人演奏同一页乐谱且音高节奏都一样时如何区别出来风格,其实就是通过对乐句的处理。奇特的是即便是计算机输出的东西,按理说应该是绝对音准或者完美的,但我在听的过程中还是发现“AI孙燕姿“有时还会有一些音准和节奏的不完美。人在演唱过程中反而自己会调整,这种调整很微妙。这部分目前暂时还是人类领先。
游云庭:“AI孙燕姿”翻唱的《发如雪》、《好汉歌》等歌曲很火,但背后都有原先的IP支撑而并无创新:孙燕姿自己本就是知名歌手,其翻唱的歌曲都是成熟作品也有一定的知名度。所以现阶段AI并没有自主创新能力,而是在模仿。
我接触“AI孙燕姿“后第一反应是“礼崩乐坏”。现有知识产权是成体系的,一首歌曲要想在网络发布,需要有词曲版权、表演者权、录音制作作者权者三项权利。而B站的网友们用AI工具把孙燕姿的音频切条提取元素并进行学习后生成《发如雪》,那可能就涉嫌侵犯孙燕姿的人身权以及《发如雪》的词曲版权。
如果我们看过主流唱片公司的词曲、录音制作者和表演者的合同就会发现,他们的合同签订非常严谨,在互联网上做“AI孙燕姿“的类似尝试无疑打破了原有的严谨稳定的法律体系。
所以从这个角度来说,我认为“AI孙燕姿“终究只能是一种亚文化。科技将来若想取代真正的歌手,那科技的第一步就是遵循现在的规则,遵循现有的知识产权和民法体系。
季燕江:我最近在看一本书《AI3.0》,里面正好也讲到了音乐。书中说音乐是人性的堡垒,科学作家侯世达曾认为有些东西是计算机很难替代的,其中一个例子就是音乐;但他很快发现,用程序做出来的音乐和历史上著名的经典作品从纯技术角度来说已经没有区别了。
加州大学圣克鲁兹分校的迪克森荣休教授大卫·科普开发了一个音乐智能实验(EMI)程序,可以用来生成各种风格的古典音乐,他请专业音乐人来现场倾听EMI创作的巴赫和真正的巴赫,问他们哪个是程序做的、哪个是原版,结果大多数人猜错了。体验过EMI创作的音乐,侯世达大感震惊:他曾经珍视的人性中最独特的那部分,机器已经具有并且从纯技术的角度和人已经无法区分了。他甚至开始厌恶EMI,并感受到人工智能对人性的极大威胁。
季燕江:音乐之外,人类与AI的较量也表现在绘画上。4月21日,CG艺术家阮佳在微博上向AI发起挑战,他邀请AI画师在半小时内丰富一张基础图像,最终与他自己完成状态的图做对比。如果不仔细看,其实真的会觉得AI画师用计算机生成的作品挺符合我们通常意义上的审美,也就是达到了我们在网上看到的CG作品的“平均效果”。但艺术家本人的作品真的超乎想象,跟我脑子里预想的是不同的。各位老师如何看待这场人类与AI的较量?
邓志鸿:音乐其实是有比较明确的度量方式的,和我们的文字很相似;而图片在处理时是按照像素的RGB来做的,所以图片其实没有音乐那样的“最基本单元”。但它的处理和测试原理与音乐一致,即提取信息后变成向量形式,在此基础上做概率推断。AI会学习数据中隐含的规律或知识,特别是在概率(频率)上高的内容,这也是为何AI画师生成的作品有“平均的美感”。当然,我们也可以拿阮佳最终画好的画来对AI模型进行调试,同样可以达到学习的目的。AI可以学共性,也可以学个性。关键是数据够不够多,能否供其学习。
游云庭:我觉得这是一场不公平的竞争。CG画师看过的图可能有1~2万张,但他看这个图只是用眼睛扫描一下看一些特征就结束了;而人工智能要学习这上万张图,基于电脑的特性,会把每一个细节都学好了再输出,所以两方算力其实是不对等的。从学习深度看,我觉得应该是人工智能工具赢了,它学得更多。
但我又觉得这种学习就现有人工智能知识产权情况来说,是“出老千”的。因为无论是Chat GPT还是Midjourney,它的训练素材授权都存在知识产权瑕疵,未经别人许可就把全人类现有的文字图片作品拿去给AI学习、投喂、输出。我个人认为这种学习需要著作权人授权,不然在知识产权上就是有问题的。
AI画师作品和AI孙燕姿的侵权问题上有一些区别。AI孙燕姿如果用孙燕姿的公开采访等语音进行切条投喂、提取特征文件,根据相应著作权法,不侵犯知识产权,因为语音的录音制品和相应的表演者权是邻接权,没有兜底保护。所以用来投喂人工智能的语音不在著作权法的保护范围内。但要是用文字和图片投喂AI,那就有问题了。因为文字和图片在著作权法上属于作品,是有兜底保护的。当然,AI孙燕姿也是有民法上的问题的,使用孙燕姿的声音需要对孙燕姿授权,未授权就使用,那也涉嫌侵权。
人和AI在同一规则体系下较量,应该遵守同样的规则。如果没有遵守,哪怕赢了也是“出老千“。
冯建鹏:这场较量特别有意思。艺术其实也是一门学科,我们作为艺术从业人员更多地是在探索人类审美边界,比如是否有新艺术形式产生。
就拿音乐来说,音乐史上我们研究得比较成型的东西是过去1200年的。这1200年如果细分,一共也就几个片段,西方的就是中世纪音乐,到文艺复兴,到巴洛克,到古典主义、浪漫主义,再到20世纪以后的音乐。艺术家其实一直在探讨什么样的画画出来是好看的,什么样的音乐听起来好听或人们容易接受。所以从这个方面来讲,AI是有一些局限性的,不像艺术从业者一样致力于这一可钻研的角落。
二、人声也能看作乐器:音乐的定量转化
季燕江:我听过一种说法,认为我们在讨论音乐时可以把歌手本身或者人的声音也看成是一样乐器。我们可以从物理的角度,用振动频率、响度等物理量来描述乐器,如果说想达到这种人即乐器的观点,需要考虑哪些物理量?
冯建鹏:音色其实也可以量化。只要不是单声源,发出一个声音后本来声音和泛音间比例不同,就会带来不同音色。目前各种能模仿其他乐器音色的电子琴等就是这个工作原理。
同时我们可以思考一些问题,计算机识别出来的物理量特征是否会受到人类对自然认知的影响?是否可能有一些人类尚未意识到但确实存在的东西,计算机在未来可能展现给我们?它是否足够优秀到能够替我们挖掘事物本质?
邓志鸿:音乐和艺术常被认为是感性的,这是定性的表达;但如果我们结合“定量”的角度来看,这种“定性”的认知可能就有些片面了。其实很多东西都有一个基本概念,能够用基本概念来表达。例如音乐的最基本概念包含频率,AI用向量嵌入的方法来表征音乐的基本概念,对音乐进行数学建模,进而通过计算的手段操纵音乐。这样,基本上可以随心所欲地对音乐进行各种处理。
对AI来说,所有东西都是数字的表示,如何让它与人类一样表达?就需要靠概率统计来计算,神经网络就是通过不断计算这个概率来生成图像和文字。其实我们人也是在不断做判断,比如我说第一句话时,听者可以把后面的话猜出来,这就是个概率问题。
为什么GPT“说得”这么好呢?最主要的原因就是它学习了很多种说话方式和知识,基本理解了人类说话的大概套路了。音乐其实也同理,音节、音调、旋律等都可以量化,一旦进行定量操作,AI再基于语料库中大量音乐和语言材料进行学习,就可以发挥很大作用,成为“AI孙燕姿”。
目前AI能力很强,唯一的缺点就是创新性较差,在再生方面的“灵机一动”的能力非常弱,缺乏自我意识。但数据越多、训练越多,也会呈现得越好。
AlphaGo为什么可以击败人类围棋世界冠军?就是因为它看得更多、探索得更多,它接触了很多我们人类之前没有接触的领域,对人类可以说是“降维打击”。音乐方面也是一样的。人毕竟精力有限,不可能分析无数作品,但机器是有可能做到的。
然而它能得到信息却不知道哪些信息是人类需要的,所以比较理想的状况是人类将其作为辅助工具,来做各种研究、探寻我们没发现的问题,人类在其基础上分析是否有新规律或新发展形式。
音乐对人类的重要性在哪?在于培养我们的美感。我尽管不喜欢90年代的重金属,但它无疑也拓展了音乐的边界。音乐还有其他边界等待拓展,人类精力有限,那就可以利用AI帮助人类音乐家来做这件事。我不认为AI会替代音乐家,它作为一个助手就很好了。
但未来究竟是什么情况,我们谁都不知道。1997年国际象棋手卡斯帕罗夫被名为“深蓝”(Deep Blue)的软件击败,但大家还是认为人类在围棋上不会被AI超越;2016年以后,这一认知被打破了。
现在确实是一个变革期,可以说不亚于工业革命。我们没有必要与汽车比速度,但我们要适应驾驶汽车。抓住这个变革期,学会利用机器和AI,可以带来很大帮助。
三、AIGC作品版权归属:掌握技术的大公司会成为新的立法者吗?
季燕江:网络上有很多AIGC的作品,未来或许会有越来越多版权方面的问题。用提示词来写音乐、诗歌甚至绘画,AI可帮助我们生成作品。那作品的创作者到底是谁?
游云庭:AIGC作品的创作者应该是人工智能。人工智能生成的内容即便是根据人的指令,也不受版权保护。根据《伯尼尔公约》(即《伯尔尼保护文学和艺术作品公约》,是关于著作权保护的国际公约)和我国著作权法,人创作的作品才受到保护。个人在创作中输入指令的步骤在最终生成的作品里是忽略不计的。当然,你也确实可以主张著作权,但如果别人稍微改动一下提示词,生成了一个类似作品,同样也不可以主张对方侵权。
我个人觉得,知识产权其实也是一种人为创设的权利。之前的创作需要天赋和努力,通过保护版权的方式有利于促进创作和创新。现在用几个提示词就能生成一个作品,如果这种作品也受很强的著作权保护,那对人类文明发展无利。毕竟从实际创作过程来看,AIGC作品是人工智能创作的。
之前也有大公司打过官司,他们用AI做盘内分析并自动生成了一篇文章,在司法实践中进行了权利保护,但我觉得很有问题,毕竟这个东西生成得太简单了。如果说张三一次性生成了5000篇文章,李四的公司把这5000篇文章都扒过去了,这时可以起诉李四公司不正当竞争,而不是知识产权或版权侵权;且只有大规模侵权才适用,小规模使用,别人拿去用了也就用了,我国法律不予保护。
再比如一个公司用AI制作了一些商标并注册,那就涉及到版权保护和商标品牌保护两个问题。申请商标是我要在我的某一类商品上面打个标记,表示这是我们公司的东西,便于消费者识别,和版权保护里的创作是两回事。只要没有在先的相似商标,审查通过后自己生产的东西或开发的软件上打上你用AI生成的logo,那就是受商标权保护的,但它只能证明产品来源是我,跟人还是AI生成的没有关系。
季燕江:目前AI技术大多掌握在大公司手上,他们可能会利用这些技术为商业目的服务。我们可以设想,一家大公司用很多所谓的“素材”包装几个虚拟的AI明星,让他们演出,通过一些市场营销手段来售卖这些歌曲。这让我联想起谷歌曾做过的Google Books项目,将全世界的图书扫描一遍,在当时引发非常大的版权争议,虽然Google Books最终并未完全商业化,但还是为我们留下了这样的疑虑:大公司主导了技术,在这一过程中他们是否会成为AIGC版权保护的真正立法者或真正有发言权的人?
游云庭:我曾经研究过Google Books,发现这个项目其实倒是想向全人类共享知识,没有我们理解的那种利维坦式大公司的“飞扬跋扈”,收点技术服务费也正常。作为大公司,它原先想开源共享,却被所有出版商甚至作者抵制,这一项目就只能搁浅了。
以现有大模型来看,大公司将来是否会垄断市场?生成了十个特别能歌善舞的人工智能,直接占领市场,同时还是闭源的,那确实就有了垄断市场的可能性。但就现状来看,现在用到的比较好的通用大数据模型基本上都是对所有人开放的,GPT的知识产权归属也是“用户使用GPT生成任何内容都是用户的知识产权,但GPT可以在不向用户支付费用的情况下使用这些内容”。所以很简单的,从现在这个大家公认的第一文字模型来看,是没有垄断的问题的。
反过来,公司其实也不敢声称用户生产内容知识产权归公司。如果用户生成一些政治上不正确——比如与平权运动相违背——的内容,公司还要说版权归我所有,我还要主张商业利益,那肯定会被骂得很厉害。所以大公司如果愿意投入很多资源去开发,那应该是享有一定商业利益,我们也应该给这些创新者鼓励;但在各国公司竞争激烈、各国还都有一定科技实力想办法做技术储备的情况下,想要彻底垄断还是比较难的。我个人对这个问题持乐观态度。
季燕江:互联网精神和很多智慧产品其实就是建立在“公域”基础上的,Linux操作系统最初就是Linus等人发起的一个开源项目,它的衍生品很多也是开源的。在产权保护上其实也分情况,很复杂,可以有宽松的,也可以有严格的。
邓志鸿:AI现在之所以发展这么快,开源做了不可磨灭的贡献。很多技术人员都会有一些理想主义,希望开发的东西真正有用、大家都能用上,而不是只想着商业化。开源是有一套机制来保证体系做下去更加开放的。
嘉宾介绍
邓志鸿,北京大学智能学院教授,博士生导师,中国人工智能学会理事
冯建鹏,美国哈特福德大学哈特音乐学院打击乐讲师、百老汇演奏家
游云庭,上海大邦律师事务所高级合伙人、知识产权律师
季燕江,圆桌主理人、前北京科技大学教师
整理:王嘉欣