智东西
作者 ZeR0
编辑 漠影
智东西4月16日报道,最新的501页《2024斯坦福AI指数报告》刚刚发布,披露了其迄今最全面的AI指数,提供从2010年至今涉及AI研发专利、开源趋势、技术性能、训练成本、经济影响、投融资、监管进程变化的数据与图表。
根据报告,产业界继续主导前沿AI研究,先进AI模型的训练成本突破亿级大关,其中烧钱最猛的谷歌Gemini Ultra达到了惊人的1.91亿美元。
2023年生成式AI投资数量大幅增长,相比2022年接近翻倍,总额达到252亿美元。而全球AI私人投资则连续第二年呈下降趋势。
就开源与闭源路线而言,新发布的基础模型中,开源模型占比超过6成。但从平均性能表现来看,闭源模型要优于开源模型。从2011年到2023年,GitHub上AI相关数量从845个一路暴增到181万个,仅是去年数量就飙涨59.3%。
从专利数量来看,中国近年一直稳居第一,显著超过第二名美国。
报告广泛研究了包括语言处理、编程、计算机视觉(图像与视频分析)、推理、音频处理、自主agents、机器人与强化学习,还聚焦过去一年显著的AI研究突破,探讨了通过提示、优化和微调来改进大语言模型的方法。
各行各业的企业正在以不同方式利用AI。报告研究了企业对AI的采用情况,以及与AI相关的劳动力需求、招聘趋势、技能渗透率和人才可用度,评估了AI当前和预计的经济影响。
2023年,被调研的专业开发者中,ChatGPT是最受欢迎的AI搜索工具,GitHub Copilot是最受欢迎的AI开发工具,AWS是最流行的云平台。
同时,报告分析了隐私与数据治理、透明度与可解释性、安全性与公平性等负责任AI的关键议题,并探讨了AI对政治进程的潜在影响。
一、大模型训练成本高达近2亿美元,中国AI专利数问鼎全球第一
1、前沿模型越来越贵,Gemini Ultra训练成本近2亿美元
据AI指数估计,先进AI模型的训练成本已经达到了前所未有的水平。例如,OpenAI的GPT-4花了约7800万美元的计算成本进行训练,谷歌Gemini Ultra更是在计算上花费了1.91亿美元。
这些模型对环境造成的影响如下表所示。
不同模型推理任务造成的碳排放情况不同。
2、工业界继续主导前沿AI研究,知名模型数“倍杀”学术界
2023年,工业界生产了51个知名机器学习模型,而学术界只贡献了15个。2023年产学研合作产生的知名模型也达到21个,创历史新高。
3、超6成基础模型开源,闭源表现明显优于开源
2023年总共发布了149个基础模型,是2022年发布数量的2倍多。
在这些新发布的模型中,65.7%是开源的,而2022年和2021年分别只有44.4%和33.3%。
出于对风险控制等因素的考虑,基础模型们采用了不同的开放策略,像BLOOM、GPT-J等完全开源,PaLM、Imagen等则完全闭源。
在10个AI基准测试中,闭源模型的表现优于开源模型,平均性能优势为24.2%。闭源模型和开源模型的表现差异对AI政策辩论具有重要意义。
自2011年以来,GitHub上与AI相关的项目数量持续增长,从2011年的845个增加到2023年的181万个。仅在2023年,GitHub AI项目总数就急剧增长了59.3%。
从地理分布来看,美国GitHub AI项目占比最多,约为22.93%,中国大陆占3.04%。
GitHub上AI相关项目的star总数也在2023年大幅增加,从2022年的400万增加到1221万,增加了2倍多。
同样,美国AI项目的star总数远超世界其他地区。
4、61个顶级AI模型来自美国,数量远超欧盟和中国大陆
2023年,61个知名AI模型来自美国的机构,远远超过中国大陆的20个。
5、AI专利数12年暴涨31倍,中国问鼎全球第一
从2021年到2022年,全球AI专利授权量大幅增长62.7%。自2010年以来,AI专利授权数量增长了31倍以上。
2022年,中国大陆以61.1%的比例领先全球AI专利,显著超过美国的20.9%。
6、AI出版物数量12年增加近2倍
2010年至2022年间,AI出版物的总数几乎增加了2倍,从2010年的约8.8万篇增加到2022年的24万多篇。2022年同比增幅放缓。
7、GPT-4去年最受关注
被选模型中,2023年GPT-4在AI社交媒体上受到最多的关注。
2023年各季度AI模型的净情绪得分情况如下:
8、AI加速科学发现与医疗进步
2022年,AI开始推动科学发现。023年,我们看到了更重要的与科学相关的AI应用推出——从提高算法排序效率的AlphaDev,到促进材料发现过程的GNoME。
2023年有几个重要的医疗系统问世,包括增强大流行预测的EVEscape和协助AI驱动的突变分类的AlphaMissence。AI越来越多地被用于推动医学进步。
过去几年,AI系统在评估AI临床知识的关键基准测试MedQA上取得了显著进步。2023年的突出模型GPT-4 Medprompt的准确率达到了90.2%,比2022年的最高分提高了22.6%。自2019年推出该基准以来,MedQA上的AI性能几乎增长了2倍。
2022年,FDA批准了139种与AI相关的医疗设备,比2021年增加了12.1%。自2012年以来,FDA批准的AI相关医疗器械数量增加了45倍以上。
二、多模态AI时代来了!基准测试转向人工评估
1、AI在某些任务上胜过人类,但并非所有任务
AI在图像分类、视觉推理、英语理解等基准上的表现超过了人类。但在更复杂的任务上,比如竞赛水平的数学、视觉常识推理和规划,它就落后了。
2、多模态AI大放异彩
传统AI系统的适用范围有限,语言模型在文本理解方面表现出色,但在图像处理方面表现不佳,反之亦然。而多模态模型正在兴起,例如谷歌的Gemini和OpenAI的GPT-4。这些模型展示了灵活性,能够处理图像和文本,在某些情况下甚至可以处理音频。
3、基础测试更加严格,并转向人工评估
AI模型在ImageNet、SQuAD和SuperGLUE等既定基准上的性能已经达到饱和,促使研究人员开发更具挑战性的模型。2023年出现了几个具有挑战性的新基准,包括用于编码的SWE-bench、用于图像生成的HEIM、用于通用推理的MMMU、用于道德推理的MoCa、用于基于agent的行为的AgentBench和用于幻觉的HaluEval。
随着生成模型产生高质量的文本、图像和更多内容,基准测试已经慢慢开始转向像Chatbot Arena排行榜这样的人工评估,而不是像ImageNet或SQuAD这样的计算机化排名。在跟踪AI的进展时,公众对AI的感受正成为一个越来越重要的考虑因素。
4、更好的AI意味着更好的数据
SegmentAnything、Skoltech等新兴AI模型正被用于生成图像分割和3D重建等任务的专门数据。数据对于AI技术的改进至关重要。使用AI创建更多数据增强了当前的能力,并为未来的算法改进铺平了道路,特别是在更难的任务上。
5、大语言模型让机器人更灵活
语言模型与机器人技术的融合产生了更灵活的机器人系统,如PaLM-E和RT-2。除了改进的机器人能力之外,这些模型还支持问答,这标志着机器人向能够更有效地与现实世界互动的方向迈出了重要一步。
6、更多AI Agent技术研究
长期以来,创造能够在特定环境中自主运行的AI Agent一直是计算机科学家面临的挑战。新兴研究表明,自主AI Agent的性能正在提高。Agent现在可以掌握像《我的世界》这样的复杂游戏,并有效地处理现实世界的任务,比如在线购物和研究协助。
三、生成式AI投资猛增,新投资AI公司数量大涨
尽管去年AI私人投资总体下降,但对生成式AI的投资却大幅增长,比2022年增长了近2倍,达到252亿美元。
获得新融资的生成式AI公司数量去年达到99家。
生成式AI领域的主要参与者,包括OpenAI、Anthropic、Hugging Face和Inflection都公布了大量融资。
全球在AI领域的私人投资总额连续第二年下降,但幅度低于2021年至2022年的急剧下降。
新获得投资的AI公司数量飙升至1812家,比上年增长40.6%。
其中美国占了近一半。
2023年,美国在AI领域的私人投资达到672亿美元,是第二名中国大陆的近8.7倍。自2022年以来,中国大陆和欧盟(包括英国)的AI领域私人投资分别下降了44.2%和14.1%,而美国在同一时间段内显着增长了22.1%。
在生成式AI私人投资上,美国总投资额一骑绝尘,2023年达到224.6亿美元。
与2022年相比,在AI Infra、研究和监管领域的私人投资总额大幅增长。
四、生成式AI成大公司焦点,近6成组织用AI增加收入
1、《财富》500强企业财报会议大量提及生成式AI
2023年,AI在财报电话会议中被提及394次(几乎占所有财富500强公司的80%),比2022年的266次有显著增加。自2018年以来,《财富》500强企业财报电话会议中提到AI的次数几乎翻了一番。最常被提及的主题是生成式AI,占所有财报电话会议的19.7%。
2、全球范围内AI工作岗位减少
2022年,AI相关职位占美国所有招聘职位的2.0%,到2023年,这一数字降至1.6%。AI职位列表的下降是由于领先的AI公司发布的职位减少,以及这些公司的技术职位比例减少。
3、超半数组织采用AI
麦肯锡2023年的一份报告显示,55%的组织现在至少在一个业务部门或功能中使用AI(包括生成式AI),高于2022年的50%和2017年的20%。
至少一个功能或业务部门引入AI功能的调查结果如下:
4、AI降低了成本,增加了收入
麦肯锡的一项新调查显示,42%的受访组织表示实施AI(包括生成式AI)降低了成本,59%的组织表示收入增加。与前一年相比,报告成本下降的受访组织增加了10个百分点,这表明AI正在推动企业效率的显著提高。
科技、传媒、通信领域在产品和服务开发、市场和销售方面的AI采用率显著增长。
5、AI提高了员工的工作效率和质量
2023年,几项研究评估了AI对劳动力的影响,表明AI使员工能够更快地完成任务,并提高他们的产出质量。
这些研究还表明,AI有潜力弥合低技能工人和高技能工人之间的技能差距。还有一些研究警告说,在没有适当监督的情况下使用AI可能会导致性能下降。
6、ChatGPT、GitHub Copilot最受专业开发者欢迎
调查显示,ChatGPT、Bing AI、WolframAlpha是最受专业开发者欢迎的3款AI搜索工具。
GitHub Copilot是2023年最受专业开发者欢迎的AI开发工具,其次是Tabnine和AWS CodeWhisperer。
云计算平台中最受欢迎的是AWS、微软Azure和谷歌云。
开发者们认为AI工具有提高生产力、加快学习、提高效率、提高代码精确度等好处。
常用的生成式AI功能有生成草稿、个性化营销、总结文稿、生成图像或视频等。
7、中国主导着工业机器人,机器人安装更加多样化
自2013年超越日本成为工业机器人的主要安装国以来,中国与最接近的竞争对手的差距已显著扩大。2013年,中国大陆的安装量占全球总量的20.8%,到2022年这一比例将上升到52.4%。
2017年,协作机器人仅占所有新工业机器人安装量的2.8%,到2022年这一数字将攀升至9.9%。同样,2022年,除了医疗机器人之外,所有应用类别的服务机器人安装量都有所增加。
五、负责任的AI:缺乏标准化,深度伪造难被发现
1、对大语言模型负责任的健全和标准化评估严重缺乏
AI指数的新研究表明,负责任的AI报告严重缺乏标准化。
包括OpenAI、Google和Anthropic在内的领先开发人员主要针对不同的负责任的AI基准测试他们的模型。这种做法使系统地比较顶级AI模型的风险和局限性的努力变得复杂。
2、政治造假易产生、难被发现
政治深度伪造已经影响到世界各地的选举。近期研究表明,现有的AI深度伪造检测方法的准确率参差不齐。此外,像CounterCloud这样的新项目展示了AI如何轻松地创建和传播虚假内容。
3、研究人员发现大语言模型中更复杂的漏洞
以前,红队AI模型的大多数努力都集中在测试对人类直观有意义的对抗性提示上。今年,研究人员发现了让大语言模型表现出有害行为的不太明显的策略,比如要求模型无限重复随机单词。
4、AI风险是全球企业关注问题
一项关于负责任的AI的全球调查强调,企业最关心的AI问题包括隐私、安全、可靠性。调查显示,企业已经开始采取措施来降低这些风险。然而,在全球范围内,大多数公司迄今只减轻了这些风险的一部分。
5、大语言模型可能输出受版权保护的材料
许多研究人员已经表明,受欢迎的大语言模型的生成输出可能包含受版权保护的材料,比如《纽约时报》的节选或电影中的场景。这种输出是否构成侵犯版权正成为一个核心的法律问题。
6、AI开发者透明度得分低
新引入的基金会模型透明度指数显示,AI开发者缺乏透明度,特别是在训练数据和方法的披露方面。这种开放性的缺乏阻碍了进一步理解AI系统的稳健性和安全性。
7、极端的AI风险很难分析
在过去的一年里,AI学者和从业者之间出现了一场关于关注即时模型风险(如算法歧视)与潜在的长期存在威胁的实质性辩论。区分哪些主张是有科学依据的,应该为政策制定提供信息,已经变得具有挑战性。与存在威胁的理论性质形成对比的是,已经存在的短期风险的实际性质使这一困难更加复杂。
8、AI滥用事件数量持续上升
根据追踪与AI滥用相关事件的AI事件数据库,2023年报告了123起事件,比2022年增加了32.3%。自2013年以来,AI滥用事件增长了20多倍。一个值得注意的例子包括在网上广泛分享的由AI生成的泰勒·斯威夫特(Taylor Swift)露骨的深度伪造照片。
9、ChatGPT、图像生成模型需持续解决偏见问题
研究人员发现,ChatGPT对美国民主党和英国工党存在明显的政治偏见。这一发现引发了人们对该工具可能影响用户政治观点的担忧。
5个主流商用图像生成模型在年龄、种族、性别方面的平均偏见得分如下:
10、全球AI立法进程提速
全球立法程序中提到AI的次数几乎翻了一番,从2022年的1247次增加到2023年的2175次。每个大洲至少有1个国家在2023年讨论了AI,这突显了AI政策话语的真正全球影响力。
在过去的一年和五年里,美国与AI相关的法规数量显著增加。到2023年,AI相关法规从2016年的一项增加到25项。仅去年一年,AI相关法规总数就增长了56.3%。
发布AI法规的美国监管机构从2022年的17个增加到2023年的21个,在2023年首次颁布AI相关法规的新监管机构包括交通部、能源部和职业安全与健康管理局。
结语:全球公众更加认识到AI的潜在影响,也更加紧张
益普索(Ipsos)的纵向调查数据分析了全球对AI的态度,多伦多大学调查了公众对ChatGPT的看法,皮尤研究中心(Pew)调查了美国人对AI的态度。
一项调查显示,过去一年,认为AI将在未来三到五年内极大地影响他们生活的人的比例从60%上升到66%。此外,52%的人对AI产品和服务表示紧张,比2022年上升了13个百分点。皮尤研究中心数据显示,52%的美国人对AI感到担忧甚于兴奋,这一比例高于2022年的38%。
2022年,包括德国、荷兰、澳大利亚、比利时、加拿大和美国在内的几个西方发达国家,对AI产品和服务的态度最不乐观。从那以后,这些国家中承认AI好处的受访者比例都有所上升,其中荷兰的转变最为显著。
在益普索的一项调查中,37%的受访者认为AI会改善他们的工作。只有34%的人认为AI将促进经济发展,32%的人认为AI将改善就业市场。
在对AI改善生计潜力的看法上存在显著的人口差异,年轻一代普遍更为乐观。例如,59%的Z世代受访者认为AI将改善娱乐选择,而婴儿潮一代只有40%。此外,收入和受教育程度较高的人比收入和受教育程度较低的人更看好AI对娱乐、健康和经济的积极影响。
多伦多大学的一项国际调查显示,63%的受访者知道ChatGPT。在这些人中,大约一半的人每周至少使用一次ChatGPT。