阿里云CTO谈大模型开闭源之争:模型应用不能只对接一个形式

新闻资讯2024-05-10 15:57:24橙橘网

阿里云CTO谈大模型开闭源之争:模型应用不能只对接一个形式

界面新闻记者 | 肖芳
界面新闻编辑 | 宋佳楠

5月9日,阿里云正式发布通义千问2.5,并称在中文语境下,模型性能全面赶超GPT-4 Turbo。相比于通义千问2.1版本,通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%和10%。

当前行业对大模型的关注除了各项参数本身,有关开源与闭源路线之争也成为一大焦点。谈及此话题,阿里云首席技术官周靖人在接受界面新闻等媒体采访时表示,模型之上的应用和创新非常多,不能仅仅局限于使用某一款闭源的框架或者说只能对接某一个形式。

在他看来,不管在PC端还是手机端,大模型可以适配各种各样的场景,能够快速搭建更加复杂的业务,而这需要一个非常开放的开源生态去对接,全球开发者以及全球企业都在拥抱这样一个体系。

和周靖人的观点所不同,百度CEO李彦宏在今年4月的一次内部讲话中表示,闭源模型在能力上会持续地领先,而不是一时地领先。模型开源也不是一个众人拾柴火焰高的情况,这跟传统的软件开源,比如Linux、安卓等很不一样。

李彦宏认为闭源是有真正的商业模式的,是能够赚到钱的,赚了钱才能聚集算力、聚集人才。

在李彦宏表达其看法之后,多位互联网大佬给出了自己的判断。比如,360公司CEO周鸿祎表示,一直相信开源的力量,未来一两年内,开源的力量很有可能会达到或者超过闭源的水平。知名投资人朱啸虎则称,开源小模型必然是未来方向,且商业机会很多。

大模型开源和闭源的路线之争,本质上是在探讨开发者能否帮助大模型进行迭代升级。

大模型的开源和软件开源是完全不同的逻辑,开源软件因为代码完全公开,社区开发者可以参与迭代,不断提升软件能力。但开源模型像一个“黑箱”,不管是模型、算法还是数据,都无人知晓,只是最终产生一个模型开放给用户使用。在一些坚持闭源逻辑的厂商看来,开发者参与对大模型迭代帮助不大,开源大模型和开源软件是两回事。

对此,周靖人表示,整个开源的开发者生态对技术发展的贡献毋庸置疑,这也是他对开源生态基本的判断。

他指出,大模型带来的潜力还没有被真正挖掘出来。目前有很多企业是结合自实际的开发场景和业务需求去做,未来还将有一个翻天覆地的变化。在这个时间点,阿里云希望能够以开放的心态把先进的技术开源出来,让大家做并行探索。

阿里云公布的最新数据显示,通义大模型通过阿里云服务企业超9万,通义开源模型累计下载量突破700万。

通义大模型已经在PC、手机、汽车、航空、天文、矿业、教育、医疗、餐饮、游戏、文旅等多个领域落地,阿里云坚持的开源生态也不仅限于大语言模型领域,还包括视觉模型、声音模型。比如,中国科学院国家天文台人工智能组基于通义千问开源模型开发了新一代天文大模型“星语3.0”,这是大模型首次应用于天文观测领域;陕煤建新煤矿等十余座矿山推出由通义大模型支持的新型矿山重大风险识别处置系统,成为大模型在矿山场景的首次规模化落地。

另据界面新闻了解,虽然阿里云一直坚持开源模式,但其也在布局闭源模型。目前无论是开源模型还是闭源模型,大模型平台还未靠大模型本身实现盈利。从亚马逊等国际互联网巨头的实践也可以看出,他们是在通过出售搭载大模型能力的云服务赚钱。

有分析认为,阿里云现阶段强调坚持开源,目的不仅仅是开源本身,而是通过开源把大模型能力做强。

阿里云方面也在有意强调通义千问的能力。除了通义千问2.5在中文语境下模型性能全面赶超GPT-4 Turbo之外,通义还发布了最新款开源模型——1100亿参数的Qwen1.5-110B,据称该模型在MMLU、TheoremQA、GPQA等基准测评中超越了Meta的Llama-3-70B模型。

相关推荐

猜你喜欢

大家正在看