AI大模型时代或已走向终局,前路未知
2022年11月30日,人工智能公司OpenAI推出了 AI 聊天机器人ChatGPT,在短短两个月的时间里,活跃用户数突破一亿,成为史上用户数增长最快的消费级应用。ChatGPT成功背后是OpenAI训练的1750亿参数模型GPT-3。一时间AI大模型迅速成为时代焦点,微软百亿美元投资OpenAI,谷歌、特斯拉、百度、阿里、小米等国内外互联网巨头在几个月的时间内纷纷推出自己的AI大模型,OpenAI迅速迭代出GPT-4,几乎每个月都至少有一家科技大公司入局训练大模型,人工智能成为当前最炙手可热的赛道。
然而就在这样一个市场狂欢、科技巨头纷纷“走火入模”的时刻,AI大模型的领军者,OpenAI,却给市场浇了一盆冷水。2023年4月18日在麻省理工学院的活动中,OpenAI的CEO Sam Altman在演讲中警告称:“我们已经处在大模型时代的尾声”,并表示如今的AIGC发展中,将数据模型进一步做大,塞进更多数据的方式,已经是目前人工智能发展中最后一项重大进展,并且还声称目前还不清楚未来的发展方向何去何从。
如果抛开过热的市场预期和浮躁的跟风模仿去分析问题的本质,Altman对未来AI的发展方向是清晰而准确的。其说法侧面道出了OpenAI乃至整个AI赛道参与者目前所面临的现实困境:
1.可用数据枯竭带来的数据瓶颈
OpenAI最早的语言模式是GPT-2,于2019年公布,发布时就有 15亿参数,此后随着OpenAI研究人员发现扩大模型参数数量能有效提升模型完善程度,真正引爆AI行业浪潮的GPT-3.5发布时,参数数量已经达到了1750亿。但人类互联网历史上被保留下来的各种高质量语料,已经在 GPT-3以及后续发布的GPT-4的学习中被消耗殆尽。大模型参数数量仍然可以继续膨胀下去,但对应数量的高质量数据却越来越稀缺,因此增长参数数量带来的边际效益愈发降低。
2.算力爆炸导致边际收益递减带来的经济效益瓶颈
AI三大核心要素是数据、算法和算力,而算力的发展是最为迅速的一环。2020年OpenAI就发布分析报告,从2012年开始,AI训练所用的计算量呈现指数增长,平均每3.43个月便会翻倍,远高于摩尔定律的18个月翻倍的速度。大模型正是在这一背景下诞生的。依托飞速发展的算力,简单粗暴地堆砌参数是提升模型能效的捷径。机器学习先驱Richard S. Sutton著名的文章《苦涩的教训》里开篇就曾说道:“70年的人工智能研究史告诉我们,充分利用计算能力的一般方法最终是最有效的方法。”OpenAI秉承这一简单甚至原始的理念,3年内将模型参数从15亿(在当时这已经是一个天文数字)提高到1750亿,足足拉高了116倍。
参数的爆炸式增长带来的直接后果就是模型成本的指数级上升。2019年以前,人工智能还是个百家争鸣的大众赛道,而大模型带来的投入成本门槛迅速把这个赛道变成了资本聚集、大厂统治的游戏。据业界估计,GPT-3仅训练一次的费用就高达500万美元,行业估计GPT-4的研发加运营成本突破数亿美元。
图 1 ChatGPT回答GPT-3的训练费用
在如此高昂的成本之下,AI如何商业化落地成为业界难题。尽管GPT-4已经表现出了较高的智能化水平,但其局限性也很明显。支持大规模商业化应用所需要的是GPT-X,即模型的场景化和快速更新。面对极度高昂的训练成本,难以形成充分的市场化竞争,类似OpenAI这样的市场寡头也面临投入成本边际效应递减严重的问题,缺乏持续研发迭代的经济激励。这正是Altman所说的“大模型已至终局”而前路未知的根本原因。
3.数据合规、隐私保护、AI伦理层面的风险不确定性
AI的道德风险始终是行业发展中不可规避的话题。在GPT-4发布几日内,特斯拉首席执行官埃隆·马斯克在内的1748人签署公开信,呼吁暂停训练比GPT-4更强大的人工智能系统至少6个月,以评估潜在的AI道德风险。与此同时,专注于人工智能技术伦理的AI和数字政策中心(CAIDP)要求美国联邦贸易委员会(FTC)调查OpenAI是否违反了消费者保护规则,认为其推出的AI文本生成工具“存在偏见、具有欺骗性,并且对公共安全构成风险”。3月31日,意大利国家隐私监管机构正式下令封禁ChatGPT,并指控OpenAI「非法收集个人数据」。 值得注意的是,该「临时禁令」将一直生效,直到OpenAI能够尊重欧盟具有里程碑意义的隐私法——通用数据保护条例(GDPR)。
基于价值互联网的AI新时代三范式
当一项颠覆性技术陷入瓶颈期时,往往需要另一项更加具有颠覆性的技术的介入来突破瓶颈。区块链技术和人工智能作为21世纪数字化技术突破的代表,一直处于平行发展但偶尔交叉的状态。关于区块链与人工智能的结合业界多有讨论,但大多只停留在表层,例如区块链为AI提供分布式数据治理,AI为区块链提供智能化自动执行工具。但随着两项技术的快速迭代发展,各自领域均不断涌现出突破性应用,二者结合所带来的想象空间其实是被远远低估的。
在应用层面,区块链技术发展的速度要远远领先于人工智能。它所创造出的最辉煌应用,就是Web3。
图 2 隐私和扩容技术突破加速应用向Web3迁徙
Web3是下一代价值互联网由区块链特有的激励机制打造的数字资产应用为Web3赋予万亿美元经济价值,成为数字时代的新经济体。Web3是数据所有权的变革,而数据要素是AI的核心生产力。这一内生联系使区块链和人工智能产生了巨大的交互空间,而这交互的核心就是数据要素化。
数据要素化包含确权、加工和共享三个核心环节,在数据确权层面,区块链提供用户与建设者拥有并信任的互联网基础设施;在数据加工层面,区块链构建安全可信的价值互联网;在数据共享层面,区块链创造用户与建设者共建共享的新型经济系统。以数据为核心,区块链可为AI发展提供技术底座、经济模型和商业化场景。在此我们提出基于价值互联网的AI新时代三范式:
(一)支撑AI生产力的是去中心化数据基础设施
数据是数字时代的生产要素,也是AI的核心生产力。OpenAI发布ChatGPT之后,百度迅速发布“文心一言”,但对比之下效果却不甚理想。很多人说原因是GPT的语料库是全球互联网,而“文心一言”的是百度知道和百度贴吧。这当然是言过其实的调侃,但深思其背后的逻辑却是成立的,即大模型的成功依赖于数据来源的广度和开放度。仅从一两个平台获取数据进行训练,必然只会做出有“偏见”的模型。
ChatGPT在这一点上做得很好,依靠互联网的开放度尽可能多地收集了数据,但其主要来源仍然是中心化的数据平台,这也是Web2互联网范式下的数据困境,它会在数据应用层面带来两大问题:
1.数据源枯竭
依赖中心化平台所产生的数据无法保证有稳定持续的数据源来训练升级模型。Altman提到的互联网语料已被GPT穷尽只是问题的冰山一角。更严重的问题是,缺少数据激励会导致新的优质数据越来越少,甚至出现AI无数据可用的问题。
让我们想象这样一个场景。如果说ChatGPT逐渐完善成为唯一的知识平台,Quora、Stackoverflow、知乎等一众知识平台必将失去生存空间,而它们却又是ChatGPT训练的主要数据来源,那未来的ChatGPT又要用什么数据来训练呢?
2.数据质量低下
对于AI来说,平台有自己的应用场景,不会考虑AI训练的需求。平台不会对所谓的“数据质量”做审核,例如知乎上分享的不一定是知识,也可能是刚编的故事。同时根据不同平台的使用人群不同还会产生内容偏见。这也是为什么ChatGPT经常会给出一些明显错误甚至荒谬的回答。
图 3 ChatGPT经典荒谬回答之“林黛玉倒拔垂杨柳”
以上问题的核心是平台数据并没有完成数据要素化。用户作为数据的生产者无法对数据进行确权,导致数据全部归平台所有;平台作为数据的加工者缺乏激励,不会对数据进行应有的加工;模型公司作为数据的使用者与数据生产加工环节严重割裂。而去中心化数据基础设施正是这些问题的解决方案。
在《区块链托管重塑数据要素权益分配机制》一文中,我们提到了Web3是数据要素革命,是数据主权的“还数于民”。在AI新时代里,去中心化数据基础设施将为AI模型提供全生命周期数据解决方案,包括:
(1)数据确权:用户数据通过自主数字身份确权,数据生产者直接参与模型建设周期并获得对等激励;
(2)数据加工:数据加工者(例如模型数据标注、数据质量评价)通过去中心化数据基础设施参与模型建设并获得对等激励;
(3)数据共享:数据生产者通过去中心化数据托管共享数据给数据使用者(例如建模公司),建模公司可以通过智能合约自动化数据获取和建模流程,实现快速模型升级。
(二)支撑AI商业化的是DataFi
Web3的成功在于区块链技术所提供的优秀激励模型和可持续的经济系统。去中心化金融(DeFi)已经创造出了繁荣的数字经济生态和万亿美元的市场价值,以数据资产为核心的数据金融(DataFi)将成为支撑AI商业化的全新商业模式。
在DataFi中,数据作为生产要素会实现通证化。数据的产生、加工、存储和使用都会依照去中心化经济模型自主产生或消耗数据资产通证。数据循环会被充分激励并产生净价值。AI模型的全生命周期都会以一种更加分布式的形式呈现,包括去中心化算力供应商、去中心化数据标注和基于去中心化数据基础设施的数据托管服务商。模型训练不再具有高门槛。
在DataFi中,数据通证会创造出以数据资产为核心的衍生品交易市场。AI生态参与方可以充分挖掘自身的数据价值或服务价值,参与以数据资产为核心的金融衍生品交易、质押、抵押贷款等创新金融服务。数据资产的使用效率得到充分释放。
(三)支撑AI规范性的是分布式数字身份
除了上文提到的数据确权,分布式数字身份也将成为支撑AI合规发展的关键监管技术。分布式数字身份为用户赋予了数据自主权,打破数据控制者对数据的天然垄断,也提升了用户在算法面前的自主权。在AI新时代中,分布式数字身份包含三个主要应用场景:
1.用户分布式数字身份
用户通过分布式数字身份参与AI构建周期,通过数据确权和自主数据主权保护数据隐私,并实现对等数据激励。在合规层面,通过分布式数字身份为用户提供了100%的数据主权,用户对自己的隐私数据拥有完全控制权,能够自主决定数据的披露对象和使用场景,并且结合零知识证明等技术,实现最小化隐私披露,天然符合《数据安全法》《个保法》的相关规定。通过将个人作为数据共享的载体,是《个保法》中个人信息可携带权的体现,结合自主身份使得个人数据可以遵从本人意愿向数据使用方(例如建模公司),严格符合GDPR等国际数据共享法律法规。
2.模型分布式数字身份
在AI新时代中,模型独立且唯一的数字身份。用户可以通过数字身份像选择商品一样选择模型,并且通过模型数字身份解决使用量证明、版权纠纷和版本管理等问题。
3.数字人和AIGC分布式数字身份
对于AI构建出来的实体(例如数字人)颁发唯一数字身份,并在法律层面规范其标准与权利范围,实现AI的合规和可控。
基于分布式技术的强AI时代蓝图
理查德·费曼(Richard Feynman)在1985年的一次讲座中第一次提出了“强人工智能”的概念,为我们描绘了一个全知全能的AI时代。后世人们不断讨论这个概念,但对强AI的具体定义和未来图景众说纷纭。斯蒂芬·霍金将强AI称为对人类的最大威胁,马斯克称研究强AI就是在“召唤魔鬼”,但人类仍然对它趋之若鹜。有人说是因为结束人工智能研究则意味着放弃了改善人类状况的机会,也就是使人类文明更加美好或者维持下去的机会。那么如果采用了区块链技术,强AI时代蓝图会有什么不同?
强AI时代不是指一个全知全能的AI出现,而是无数个AI的产业大繁荣。区块链使产业高度去中心化,每一个个人都可以同时成为模型的使用者和训练方。每一个模型都拥有自己的数字身份,高度智能也相互独立。模型的使用场景高度细化,使用方式由智能合约定义。
强AI时代模型训练成本极低而迭代速度极快。通过去中心化网络串联模型全生命周期参与方,数据使用效率达到极致。在很多业务场景,模型可以根据实时业务需求实现毫秒级生成和毫秒级迭代,一次性模型成为可能,“模型流”成为模型主流应用方式。
强AI时代控制权通过数据绑定在人类手中。Web3实现数据自主拥有,AI可以自迭代算法,但数据所有权牢牢掌握在人类手中。“AI控制人类”的末世传说不会实现。