深度报道

工程师为全球开源做出巨大贡献,国家有鼓励机制吗?

“如果我是领跑者,一切以经济为基础,我肯定更愿意封闭一些。就好像苹果在领跑那段时间,它也愿意建立一个相对封闭的生态,因为它能够从中拿到更多的钱。ChatGPT目前看起来似乎就是在这个位置。”

·“如果我是领跑者,一切以经济为基础,我肯定更愿意封闭一些。就好像苹果在领跑那段时间,它也愿意建立一个相对封闭的生态,因为它能够从中拿到更多的钱。ChatGPT目前看起来似乎就是在这个位置。”

·“ChatGPT就是新一代的‘苹果’,新一代的应用就是ChatGPT对话式应用。谁都干不了,大家就开始搞开源吧。开源的产品一开始一定很烂,但开源的优势是跟时间做朋友,一定会出来一个开放式的大模型新生态,对抗微软。”

【编者按】2023全球人工智能开发者先锋大会期间,澎湃科技在上海临港中心会场开设“元宇宙聊天室”。2月25日下午,在“AI与开源:社区的社区”话题讨论中,Kyligence联合创始人兼CTO李扬,CSDN创始人&董事长、极客帮创投创始合伙人蒋涛,Linux Foundation APAC布道者主席李建盛和上海市人工智能行业协会秘书长钟俊浩探讨了开源的重要性、开源社区的建设和工程师待遇等话题,嘉宾还特别谈到了ChatGPT背后大模型的开源问题。以下为对话实录,有删减。

去大厂实习不如去开源社区

钟俊浩(上海市人工智能行业协会秘书长):我想请李主席先给我们讲讲布道者,它是什么意思?为什么叫布道者?

李建盛(Linux Foundation APAC布道者主席):从技术角度来讲,有很多说法。把自己的知识传播出去,知识是需要传播的,作为一个知识火种的热情传播者,就叫布道者。它最初源于宗教,现在对于我们技术开发者来说,技术就是我们的宗教,我们都对某一类技术狂热,比如像我是Linux的超级粉丝,或者我是Java的狂热粉丝。其实我是开源布道者,很多人认为开源为什么需要布道呢?我们很多时候小瞧了开源,我作为一个从业20年的人,从接触开源开始,挖掘开源的东西越多,发现不是那么简简单单两句话就可以解释开源,我可能需要写三本书才能把这两个字阐释得清楚一点。

再说下我们LF APAC布道者团队,我是今年当选为主席的。Linux是一个开源技术,也是一个开源社区,后来也成立了开源基金会,是目前为止全球最大的基金会之一,相当于承载了我们很多现代化数字基础设施的一个非常重要的项目。Linux Foundation亚太区要传播技术和理念,让技术人员拥抱技术,让企业、组织受益,所以招募了一批人,这批人不领薪水,纯粹是志愿者的方式做事。

钟俊浩:开发者天生地一到开源社区里,本身就一定要开源,贡献出自己的代码。也有人告诉我,开源不代表未来没有商业价值。

蒋涛(CSDN创始人&董事长、极客帮创投创始合伙人):我跟你讲个故事吧,我是程序员出身。对程序员来说,他最终的价值就是被输出成代码。所以代码是不是收钱、代码有没有价值?比尔·盖茨就曾经写了一封信,说代码是我们辛辛苦苦写出来的,为什么不能卖钱呢?所以微软奠定了微软帝国,微软就是卖软件出身的,所以软件可以卖钱。

但同时就出现了一个人,自由软件的发起人理查德·斯托曼(Richard Stallman)说你可以卖钱,但你的代码要对我公开。因为我买了一个家电,它出了问题我可以去修复,你可以卖软件给我,但你得让我修啊。过去的软件叫closed source(闭源),就是把软件锁住了。理查德·斯托曼说软件不应该被封闭在里面。再延展,那就一定要把代码公开。所以到1998年,一伙人就提出来free software(自由软件)。我们是不是能把它改一下,改成open source,开源就这么发展出来的。

把代码开源,怎么能让它传递价值、每个人又能做贡献?这是有文化的,有各种各样很多很深的道理在里面。我讲一个浅一点的,我自己是程序员出身,做过金山词霸,词霸1和词霸2是我写的。当时我们做真人录音,找了老外来录发音,我给他一个单词表,他念完,我录下来,变成一个单词,我得切音,这就是我写的程序,一个人念了一串话,我要把它切开。那时候开源没有这么丰富,我找不到代码就自己写了一段,效果不好。所以词霸1和词霸2的单词念到最后尾音有可能不是很准确,因为我切得不好。

后来我出来创业,我做了一个复读机,就是你念一段,我就给你复读一段。我也需要切音,那时候互联网起来了,我就到互联网上去找,也没找到。我提了一个问题,就是我要分辨出一个人说的一句话里一个字的切音。有一个专家论坛说,大家可以互相交流。有一个德国人就说,你这个问题很简单。他说你给我100分(积分),我就给你一段代码。我把他的代码拿过来一试,完美,比我写得好太多了。后来我问他,这个代码我能用吗?他说这是开源的。他们是干语音识别的,这个功能是他们最基础的功能,而且是公开代码,随便拿去用就行了。

所以人类的进步是科技带来的,科技是共享和开放的,软件是属于科技的,软件的开放就是要把源代码开放出来,人类的智慧结晶都在这个领域。但是你光开放不行,开放得有经济模型,所以最近这些年,开源又得到了巨大的发展,是它的商业化和做开源生态都被接受和认可了。华为现在投入开源,看到开源对它在产业里建立龙头地位很重要。开源不等于免费,开源甚至和商业现在有很紧密的联系。但是程序员都热爱开源,因为你想学东西。现在最好的软件的代码都是开源的,你可以学到全世界最优秀的程序员写的东西,这是人类的财富。

钟俊浩:第一类是大家为了技术而在一起形成了这么一种技术型的开源社区。第二类是这次全球人工智能开发者先锋大会邀请来的大概有四五十个开源开放社区,我也看到有一些学习型的组织,大家共同成长和学习。第三类是为可以商业化的项目而构成的组织。

李扬(Kyligence联合创始人兼CTO):这还挺有意思的,一个是社区,一个是免费的开源,还有一个是商业。有一句话叫社区比代码重要,正好能够呼应布道者。沉淀的是人类的知识,代码是知识的一部分,还有描述设计理念的文档,一些软件的项目管理工程,它记录了知识被开发出来的过程。什么时候有了这个想法,什么时候是第一稿设计,什么时候是第一次代码成型,什么时候测试,这些都是代码之外更大的知识。所以传承的开源理念是知识,代码是知识的一部分,承载着知识的人可能更重要,慢慢又演化出了这种想法。

既然知识都开放了,商业怎么做?可以为爱发电。但也不可能所有人都为爱发电,这又不是永动机。这就聊到了开源的商业模式这个话题。我先说个简单答案,企业尤其是传统行业采购一个开源软件,它主要是为了服务,它采购的本质是一个技术服务。

钟俊浩:我打断一下,既然开源了,为什么要采购?

李扬:我用一个黑话的例子,特别好理解。因为我在IBM做过一段时间,以前在IBM有一句黑话,没有甲方会因为买了IBM而被开除。啥意思?如果我是个金融企业,我买了IBM的数据库。有一天银行金融服务垮了,IBM会出来背这个锅,IBM会说我错了,我系统没做好。IBM会来帮甲方当时做采购决策的采购经理承担责任,来帮他一起解除危机。用最快的速度来修复问题,这就是我说的技术服务的意思。哪怕我把整个免费的代码,包括它相关的知识都给到你,你自己来运营这个生意,你就需要为这个基础设施负全责。但你可以通过采购技术服务的方式,把这一部分责任分摊出去。

李建盛:换一个角度去看商业付费的问题,刚才蒋总提到一个很好的事情,如果一个开源项目解决了我们的实际问题,那么它有意义存在。不管是什么项目,软件、工程、建筑,或者人工智能,你要进入项目,肯定需要各方面的资源。首先解决人的、物的,这个时候我们需要融入大的社会里,其中就有很多方式。第一种就是建立商业信任,IBM树立的品牌完全是个商业逻辑,你信任我,我信任你,大家可以背靠背地干活,这是商业非常注重的一个基石,就是信任,不管我的代码是不是开源的,你应该通过付费来把事情搞好,这是其中一种方式,商业被我们现代世界所接受。

另外一种就是捐赠。比如Linux Foundation去跟政府注册一个合法组织,接受社会、个人、企业、政府的资金。全世界的企业和组织去帮助一个对所有人有好处的项目,让它用起来,这是一个非常令人赞叹的工程。

钟俊浩:这是靠大家的热情吗?

蒋涛:有人愿意花钱解决问题,有人愿意花时间解决问题。来了个开源项目,我自己折腾就花时间了。但自己折腾能不能保证把这件事情做好呢?那要对自己有信心。不愿意花钱,这是一类人,80%是这种人,他出不起钱,或者他愿意花时间。还有一类人愿意花钱,比如银行愿意花钱,因为可靠性很重要。这两种形成了一个生态。再说捐赠,银行用了这个东西,银行说我还有一些功能你能不能做?它就形成了一个社区。社区又分为,不给钱的用户也提需求,给钱的用户也提需求。你想影响这个项目,那就多给点钱。所以生态有很多种玩法。

钟俊浩:开源的商业形态还是挺多样的,并不是像大家所想象的由于开源开放,所以就一定是大家免费享有所有待遇。

蒋涛:应该投身开源。第一,你可以学到全世界最好的技术和最好的知识。你说哎呀我能不能把我们家小孩送到百度实习。不用,你送到Linux社区效果要好很多。开源是全世界最好的技术展示,而且你提出问题还真有人解答你;第二,做好开源可以赚到钱。

李建盛:关于免费的理解,有一些经济学家应该科普一下,天下没有免费的午餐,它里边有个学名,叫机会成本。其实当你选择了开源项目时,你已经投入了很多资源,你可能没有办法选择其他方式了。其实这就需要算,你投入开源的时间和资源,跟你花钱买的,这中间有没有什么差异。很多公司就因为这个把自己的技术拖到深渊。

互联网带给我们所有人的变革,就是协作的变革。今天来到临港,几千人的大聚会,这种事情不可能经常发生,一年一次,最多两次,又耗钱又耗人。但互联网给我们什么机会呢?我在北京,李扬在上海,我们另外一个朋友可能在土耳其,全球化连接起来,不再区分地域去协作,坐在电脑前,我们只需要一台可以上网的电脑。当然现在就更多了,像代码仓库,甚至你可以跑到一些云服务器里验证你的模型。它降低了所有人协作的门槛,又不分地域。

在信息知识生产方面,开源带来了全新的一种协作,这是它最最厉害的地方,信息产业的人能够去聚焦全球,这是原来几乎不可能发生的事情,地理的位置全部消失了,这个协作是前所未有的。哪怕我们身边可能很难遇到跟你相同的问题或互补的问题,但那么多人因为一个共同的问题协作起来,这是相当了不起的一件事。

李扬:说到开源和国际化这个问题,我还是有一些热情的。从精神层面上,开源的精神一定是一个国际化的东西。但前面也聊到了,就是开源社区。从精神落到一个具体的个体时,开源社区有各种各样的动因。它成立的动因、背后的支持者,如果背靠一个、两个、三个公司,多少又会带入一些商业属性进去。但我觉得这是很正常的,这个世界是彩色的,没有那么简单又纯粹的东西。如果一定要说一个大小头的话,我觉得大部分开源社区里的贡献者还是有一份情怀在的。他(她)会感觉到人类的知识作为一个整体真真实实地在一代一代传承下去。

2月25日下午,“元宇宙聊天室”的“AI与开源:社区的社区”话题探讨了开源的重要性、开源社区的建设和工程师待遇等话题。左起依次是上海市人工智能行业协会秘书长钟俊浩,CSDN创始人&董事长、极客帮创投创始合伙人蒋涛,Kyligence联合创始人兼CTO李扬,LF APAC布道者主席李建盛。

“搞一个开源的特区政策”

钟俊浩:上海在世界人工智能大会之下是孵化过开发者大会的,其实之前有三届了,到这一届准确来讲是第四届。第四届比较独特,是作为一个新的IP独立出来了。我们已经看得到有很多开发者社区,开发者社区需要什么?或者推动上海三大先导产业过程中,能够帮助开发者社区去做好哪一些事?我们要如何做好社区的服务?怎么让这些社区做得更好?怎么做好“社区的社区”,让这些社区能够在上海更好沉淀下来?

蒋涛:像我们这种大规模型社区,必然要有一定的商业化考虑。首先要有钱,钱从哪里来?政府出钱能不能做社区,现在也不好说。国际上没例子,中国有没有模型,我觉得要看。

本质上来讲,开发者社区和开源社区的变现,这是个国际性难题。所以我们的竞品都卖掉了,全球第一大开源平台卖给了微软,英文第一大开发者内容社区卖给了南非的基金,也就是腾讯的母公司。头部开源项目能挣钱,腰部开源项目不挣钱,也是一个世界难题,国外有非常多的研究。整体来讲,不是说国家怎么支持,而是中国的开源文化、开源体系怎么走出我们的特色。一方面可能要跟国际接轨,一方面可能要发挥我们一定的优势。比如工程师的荣誉。在学校就有教授、助理教授。工程师可能给全世界的开源项目做出了巨大贡献,他还不如随便一个学校毕业的硕士,现在硕士满地走。但他为全世界的开源做了贡献,国家的评价体制对他有鼓励吗?

钟俊浩:这一段时间,我们围绕人事协会,在推动人工智能整体的产业和人才培育高地的时候,倒真的开始在研究这方面的尝试。我们现在就在考虑论文的引用量,已经在考量这个指标了。第二是在开源开放社区当中的贡献值,我们也开始考量。

蒋涛:很多开源项目有一个经济账。反过来,国家也要把经济账算好,怎么给予开源方向、AI方向各种各样的扶持和支持,搞一个开源的特区政策。

钟俊浩:或许可以在临港尝试。

李扬:这里确实说得对,就是价值闭环,闭环了以后可以螺旋上升,这是一个关键的机制。我倒是有一个很不成熟的想法。最近自然语言模型ChatGPT很火,有一种理解,就是这个模型的能力其实是来自于它学习了所有贡献给它语料的人的知识。按照这个价值链条逻辑来说,是不是我贡献了我的知识给一个AI模型,这个AI模型建造出来以后,它产生的服务能力以及服务产生的商业价值,如果能够回馈到提供智慧给AI学习的那群人,这就好像形成了闭环,这其实适合所有知识贡献者。

如果投影到代码开源的社区里,这也可以有一个具体例子。比如我有一个机器人,它学习GitHub(全球最大的开发者社区)上所有的开源代码,学会编程了,不就可以帮所有程序员写程序了吗?我作为给这个开源社区贡献过算法的人,是不是可以优先来使用它,来帮我写程序?或者我有一个折扣,好像挺合理。而且今天的信息技术应该是可以做到的。因为我上面说到的这些知识资产,其实都在数字化,都已经被系统管理了,账本是捋得清的,虽然可能工作量很大。

李建盛:我从布道的角度谈一谈关于建社区这个事。我们要相信知识的力量。当一个人掌握了一些知识的时候,他能够洞悉所有机理的时候,他会做出自己的选择。我们是站在拥抱开源这一方的,但有很多人是站在诋毁开源或者认为开源不可行的一方。我做布道就是要普及知识。普及知识当然有国家传统的教育通道,还有培训机构,但我们从个人角度搞联盟。我认为从地域的角度来说,比如临港可以搞一些文化沙龙,聊聊项目、聊聊问题。我们要打造这种文化高地,先让知识流动起来。

钟俊浩:最后一个问题。在ChatGPT这种状态下,我们也知道类ChatGPT的开源也开始有了,大家分析一下,这种非常有前瞻性的模型,它的开源或者闭源路径会是怎么样的?

李建盛:我最近读完一本书叫《算法的力量》,开源的书里有一本很经典的叫《代码2.0》。这两本书有一个共同点,它们没有说开源还是闭源,而是说它是我们社会上的力量,有商业的力量,有政府的力量,有法律的力量,有技术的力量,这四种力量在胶着。开源也好,闭源也罢,我们政府能不能承担这个成本,普惠大众。我们这个世界不是一分为二地开、闭。我们都是利益的综合平衡。

有的时候商业的力量很强大,我把高新技术控制住了,我当然可以坐地起价,但政府允许你吗?法律会允许你吗?社区会允许你吗?这是各种力量的胶着。我觉得我们每个人都要去做出平衡,努力让它开源,也得均衡背后推动者的力量。开闭之间,长久来看我们都得开源。但在某个阶段,就好像我们去跟商人达成和谐一样,你让人家有利益。

李扬:如果要说ChatGPT和开源,我觉得是有一层领跑者和追赶者的逻辑。如果我是领跑者,一切以经济为基础,我肯定更愿意封闭一些。就好像苹果在领跑那段时间,它也愿意建立一个相对封闭的生态,因为它能够从中拿到更多的钱。ChatGPT目前看起来似乎就是在这么个位置。所以它如果选择封闭一些,我觉得非常合理,这是符合底层经济原理的。

从追赶者的角度来说,它就更适合开放的模式。因为它会牺牲一些短期利益,但长期会促进交流,火花碰撞,技术进步更快。这一段政府可以发挥很大力量,从最长远的角度,政府有最长的眼光和魄力来做长期投入。

我也很希望国内类似ChatGPT的技术很快起来。但在起来这个阶段,我们需要最大力度去开放,把开放的姿态打开。而且这里我觉得不仅是代码角度,算法只是一部分,人工智能还有一大部分是数据语料,甚至中文世界的所有语料质量对比英文世界的语料质量,假如我的语料质量弱了一些,那我学习的东西肯定起点就弱了。所以我觉得这不光是算法本身,数据、语料甚至更广泛一点,所有信息化的知识本身,都需要打开,然后提升质量。又说到前面那个价值闭环,如果打开能够有一个价值闭环,就好像我献血,然后我生病了,我就能够优先回馈回来,形成这种循环可能是一个最好的效果。

蒋涛:ChatGPT会重写所有的软件,它会是新的操作系统,所以马上会面临巨大的变革,而且短期内,可能三年之内没有人能够追上它,我们只能跟着它的脚步走,这应该是比较确定的。

它会对产业产生颠覆性的革命,人类软件使用方式的重大变革,从命令行到鼠标,到触摸,现在到了对话,对话以后一定会转换成语音交互,这是巨大的历史时刻。

这个产品由于投资巨大,数据非常重要,数据迭代和优化没办法开源开放,领先者具有巨大领先优势。OpenAI也绝对不可能开源的。以后这样的公司再加上机器人,绝大部分人类都不需要干活了,因为物质生产是由算法和机器人完成的,我们干别的活就行了。OpenAI联合创始人山姆·奥特曼非常有理想主义,他已经想到了这一点,所以这种公司以后就应该属于国家,OpenAI 90%的收入应该上交美国国库,或者上交给联合国基金会,给全世界人发钱,这是未来趋势。

短期怎么办?大家都慌了,就会出来开源的模式,一家搞不过。ChatGPT就是新一代的“苹果”,新一代的应用就是ChatGPT对话式应用。谁都干不了,大家就开始搞开源吧。开源的产品一开始一定很烂,但开源的优势是跟时间做朋友,一定会出来一个开放式的大模型新生态,对抗微软。未来三五年以后会发生新的变革,基于ChatGPT或对话式智能的新应用时代,大家要学习新的技术。

钟俊浩:一句话,给今年大会的寄语。

李建盛:愿开源更成功。

李扬:开源和AI是很好的组合,再加上上海的金融资本,三个要素加在一起,有可期。

蒋涛:希望未来的大会有更多的开源社区味儿,有更多的

24快报
JSON抓取失败