本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。
作者 | 智东西编辑部
今日,2023年最瞩目的人工智能大会举办!
智东西11月7日报道,今天凌晨2点,在OpenAI首届开发者大会上,OpenAI的首席执行官萨姆•阿尔特曼(Sam Altman)宣布了GPT-4、ChatGPT的年度最重磅更新。
携GPT-4新成果而来,OpenAI今日的大会堪称“AI春晚”,就像苹果发布会一样,在发布前就被产业界各种“押题”,尽管押中不少,仍引来众多开发者熬夜观看。现场,阿尔特曼总是还没讲出要发什么,下面的掌声已经先爆发出来。
▲OpenAI首届开发者大会现场(图源:@Leo Rezaei)
自ChatGPT爆火全球以来,我国企业纷纷推出对标GPT的大模型,而OpenAI近一年来也没闲着,智东西听会后总结发现,本次OpenAI主要有以下三大方面更新重点值得关注和思考。
1、GPT-4 Turbo:支持128k上下文,相当于300页文档,输入价格大降2/3,速率限制翻倍,知识更新到2023年4月,改进指令跟随和JSON Mode,更新多个函数调用能力。这意味着比GPT-4更强、更便宜、开发成本更低、知识更新鲜,而且能一次性输入一整本书。
2、开放新模态API:包括接受图像输入的GPT-4 Turbo、文生图模型DALL·E 3、 文本转语音模型TTS,不久后还将支持自动语音识别模型Whisper v3。
3、GPT定制化服务:支持用户5分钟内、无代码创建一个量身定制的ChatGPT版本,支持教育、设计、办公等不同行业客户定制个性化GPT,本月上线GPT应用商店,推出Assistants API来降低开发者构建AI助手的门槛。
▲通过GPTs定制专用版ChatGPT
阿尔特曼明确称要将ChatGPT打造成一个AI助手,让开发者通过简单的自然语言对话,生成所需要的定制化AI助手。可见,其野心已经远不止于做一个对话机器人,而是要做类似一个生产力工具的“超能”产品。
OpenAI将向推出最有用和最常用GPTs的开发者付费激励,此举意味着OpenAI意图拿出收入的一部分,培育一个围绕ChatGPT的新生态。
此前在10月阿尔特曼曾透露,OpenAI的年营收达到了13亿美元,同比增长了超4500%。而通过本次的发布,可见OpenAI在商业化方面进一步加快了步伐。
无论是AI助手还是新生态的打造,都让人不得不感到OpenAI与其“铁杆盟友”微软的竞争变得更加针锋相对。
发布会进展到20分钟左右时,阿尔特曼请出了微软CEO萨提亚·纳德拉(Satya Nadella)为其站台,似乎要力破两者有裂痕的传闻。但显然,微软和纳德拉都不是这场发布的主角,其谈及将在基础设施和Copilot系列产品两方面与OpenAI合作,但并未公布两者的最新合作动向。
OpenAI已经全力推出AI助手,这是否将和微软Copilot同台竞争?引起产业关注。
▲OpenAI的CEO萨姆•阿尔特曼(左)和微软CEO萨提亚·纳德拉(右)
一、GPT-4 Turbo六大升级,一次性能输入300多页文本
阿尔特曼先回顾了OpenAI过去一年发布的产品进程,截至目前,已经有大约200万开发人员在其API上构建各种各样的应用,超过92%的全球500强企业正使用其产品,ChatGPT的周活跃用户达到大约一亿。
OpenAI宣布推出了最新的、更聪明的AI模型GPT-4 Turbo,阿尔特曼介绍了六大更新点。
首先,更长的上下文长度。GPT-4 Turbo具有128k上下文长度,相比于此前的版本有显著增加,此前GPT-4支持8k上下文长度,在某些情况下能支持高达32k长度。这也意味着,GPT-4 Turbo单个提示中可容纳相当于300多页文本的内容。
今天,GPT-4 Turbo可供所有付费开发者通过传递gpt-4-1106-previewAPI进行尝试,阿尔特曼透露,他们计划在未来几周内发布稳定的生产就绪模型。
第二,更可控。开发人员需要对模型的响应和输出进行更多控制,OpenAI推出了被称为Json Mode的新功能,其可以确保开发人员更容易调用API,且更好遵循指示。
这一功能的改进包括,提供了一条消息中调用多个功能的能力,用户可以发送一条消息请求多个操作等。
除此以外,其它相关更新参数将允许开发人员使模型更容易返回一致的输出结果,从而实现可重复输出,这一测试版功能对于重播调试请求、编写更全面的单元测试以及通常对模型行为具有更高程度的控制等应用非常有用。
OpenAI还推出了能记录GPT-4 Turbo、GPT-3.5 Turbo在未来几周内生成的最有可能输出token的概率的日志工具,这有助于构建搜索体验中的自动完成等功能。
第三,更多的世界知识。GPT-4 Turbo的知识库截止时间为2023年4月,这意味着它在回答截止日期前发生事情的相关问题时答案将更准确。OpenAI还在平台中启动检索,开发人员可以将外部文档或数据库中的指示带入其正在构建的内容中。
第四,新的视觉模态。GPT-4 Turbo可以支持图像输入,并完成生成标题、详细分析图像以及阅读带有图形的文档等应用。OpenAI计划为主要的GPT-4 Turbo模型提供视觉支持,作为其稳定版本的一部分。
开发人员可以通过其图像API指定模型,将DALL·E 3直接集成到企业的应用程序和产品中。每生成一张图像的起价为0.04美元(折合人民币约0.29元)。
同时,开发人员还能通过文本转语音API生成更自然的语音文件,OpenAI新TTS模型提供了六种预设声音及两种模型变体。每输入1000个字符起价为0.015美元(折合人民币约0.11元)。
OpenAI还宣布了开源语音识别模型的下一个版本,很快就会发布。
第五,定制微调。这项更新针对的是GPT-4,OpenAI推出一项用于微调GPT-4的实验性访问计划,允许开发人员创建ChatGPT的自定义版本,包括修改模型训练过程的每一步,进行额外的特定领域预训练、运行针对特定领域定制的自定义强化学习后训练过程。
第六,更低的价格和更高的费率限制。OpenAI正在降低整个平台的价格。GPT-4 Turbo输入tokens价格是GPT-4的1/3,为0.01美元/1k tokens(折合人民币约0.07元),输出tokens价格是其1/2,为0.03美元/1k tokens(折合人民币约0.22元)。阿尔特曼举了个例子,将1080×1080像素的图像传递给GPT-4 Turbo将花费0.00765美元(折合人民币约0.06元)。
GPT-3.5 Turbo输入tokens比之前的16k模型价格便宜1/3,输出tokens便宜1/2,分别是0.001美元/1k tokens(折合人民币约0.007元)和0.002美元/1k tokens(折合人民币约0.015元)。
为了帮助开发人员扩展应用程序,OpenAI将所有付费GPT-4用户的每分钟tokens限制增加了一倍,这意味着开发人员的开发成本将大幅降低。
二、ChatGPT进化「AI助手」,无需代码定制化GPTs,硬刚微软Copilot?
在面向开发人员推出一系列更新后,阿尔特曼邀微软CEO萨提亚·纳德拉登台对话,似乎是要力破OpenAI与微软合作关系出现裂痕的传言。
“当第一次看到GPT时,我对整个基础模型的信念已完全改变了!”纳德拉说。他谈及与OpenAI的合作,自己尤其关注两件事:一件是巨大工作量,模型训练工作涉及庞大的数据并行,微软首先是提供全面基础设施服务;另一件事是微软自己及开发人员,微软要大力构建Copilot系列产品,推动产品快速进入市场。
不过,纳德拉并未谈及微软与OpenAI合作的具体新进展。
紧接着,阿尔特曼公布了自家产品ChatGPT新改进,并毫不避讳地在纳德拉面前谈及了他的“AI助手”宏图。智东西认为,这很可能与微软推出的Copilot产生功能重合,从而引发激烈的竞争。
更轻量化的ChatGPT现在使用GPT-4 Turbo,前面提及的GPT-4 Turbo所有六大新功能都将可用。同时,当用户需要编写和运行代码、进行数据分析或生成图像时,ChatGPT现在可以浏览网站。它的使用界面也更简化,用户将不必点击下拉菜单,而是能被体察到什么时候要用它干什么。
阿尔特曼特别强调,ChatGPT将变得更智能化、个性化和可定制。它会询问用户需要什么,进而帮助用户完成任务,这在AI领域常被称为“Agent”(代理),简单点说就是AI助手。
OpenAI推出GPTs新服务,这是针对特定目的定制的ChatGPT版本。
用户可以构建一个定制版的ChatGPT,适用于任何有说明、扩展知识及行动的场景,然后发布给其它人使用。由于其结合了指令、扩展知识和行动,它也将具备更好的控制力,在工作和休闲场景中发挥更大作用。
阿尔特曼通过三个合作伙伴案例来解读GPTs能做什么:
比如,一个教育领域的伙伴Code.org的课程被全球数千万学生使用,其设计了课程策划GPT,汇聚了编程能力和广泛的课程专业知识,让老师能用其帮学生快速解答问题。
知名设计平台Canva构建了一个GPT,支持用户通过自然语言描述设计需要的素材,比如让它为今天的招待会设计一份海报,定制GPT会根据用户提供的细节生成一些选项,用户通过点击和聊天的方式,就能获得最终设计图。
另一个伙伴Zapier已经构建了一个GPT,允许用户在6000个应用程序中执行操作,集成应用。在其负责人的演示中,当她点击Zapier AI操作开始,问“我能知道今天的日程安排是什么吗?”,定制版GPT就连接了她的日历,提示其在日程上出现了冲突。当提出“萨姆,不,我得(提前)走了”,定制GPT会推出与萨姆通话的选项,以供运行。
构建GPTs的方式非常简单,只需要在ChatGPT中对话交谈就够了。
阿尔特曼现场展示了如何使用自然语言,完成ChatGPT构建和分发GPTs,仅仅用了不到5分钟。
当他输入自己的问题“我在YC和创业者们一起工作了很多年。然而,每当我遇到开发人员时,我得到的问题总是关于我如何思考一个商业理念。你能给我一些建议吗?”GPT Builder就回复问阿尔特曼想做什么。
阿尔特曼补充称:“我想帮助初创企业的创始人在获得一些建议后,通过他们的商业创意获得建议,拷问他们为什么没有更快地增长。”GPT Builder快速“思考”后问,阿尔特曼对创业导师有什么看法。
与此同时,页面右面的预览模式已经开始出现了这个GPT的预想展示。阿尔特曼对此表示“很棒”,并进一步给出风格方面的要求:“我将上传一些关于创业公司讲座的成绩单,请给出建议。”随后GPT Builder展示了配置选项卡,供开发者选择要启用的功能。
测试这一定制GPT,当阿尔特曼问“在招聘初创企业员工时,需要注意哪三个方面?”定制GPT就可以根据阿尔特曼上传的文件和GPT-4的知识作答,正是阿尔特曼说过很多次的三件事。他能够对答案进行二次编辑,然后公开分享。
阿尔特曼称,本月晚些时候,OpenAI将推出一个GPT商店,供开发者上传其开发的专业GPT应用,就像App Store一样展示最受欢迎的GPT。
收入共享对OpenAI来说很重要。OpenAI将拿出收入的一部分,向推出最有用和最常用GPTs的开发者付费,从而培育一个充满活力的生态。
三、推出Assistants API测试版,定制语音助手现场分发API积分
对于开发者而言,API(应用程序接口)也是十分重要的一环。阿尔特曼称,构建一个类似Agent的API是很困难的,往往需要数十个开发人员花费几个月的时间。
为此,OpenAI今天推出Assistants API,帮助开发者在自己的应用程序中构建AI助手。
Assistants API引入的一个关键更新是提供持久且无限长的线程(Threading),允许开发人员将线程状态管理移交给OpenAI,并解决上下文窗口长度约束的问题。Assistants API还提供三款新的工具,分别是代码解释器(Code interpreter)、检索(Retrieval)以及函数调用(Function calling)。
代码解释器允许开发者在沙盒执行环境中编写和运行Python代码,可以生成图形和图表,并处理具有不同数据和格式的文件,允许AI助手迭代运行代码来解决具有挑战性的代码和数学问题等。
检索功能可以利用模型之外的知识来增强助手,例如专有领域数据、产品信息或用户提供的文档。
函数调用则使助手能够调用开发者定义的函数,并将函数响应合并到其消息中。
OpenAI开发者体验主管Romain现场演示了Assistants API的Demo。
假设需要构建一个旅行应用程序Wanderlust,图中是已经用GPT-4和DALL-E 3生成的目的地列表及风景图。
要构建一个该网站的AI聊天助手,开发者只需输入聊天助手的名称、简介,选择需要使用的模型,并选择需要的工具即可自动生成。
当输入“让我们去巴黎吧!”,该助手自动生成了对巴黎的介绍,并将右侧的地图聚焦到巴黎。
当输入“(在那里)最值得做的10件事情是什么?”,该助手生成10件事后,又在地图上将对应的地点标注了出来。
在检索功能上,用户可以将需要补充的PDF文件直接拖拽到网页上,Assistants API将会自动解析,并以文字或交互形式将有关的内容补充进来。
Romain还演示了一个为此次开发者大会构建的专用Assistant,包含本次大会的全部数据,并且使用语音交互取代了文字页面交互。
Romain通过手机语音输入,让该助手Whisper与现场与会者打了个招呼。随后,为了调动氛围,他先是让Whisper随机抽取5名“幸运观众”,最后又为现场所有与会者每人提供了500美元的API积分。
Assistants API即日起开放测试版,用户可以在Assistants Playground主页体验,而无需编写任何代码。OpenAI称,与平台的其他部分一样,上传到OpenAI API的数据和文件永远不会用于训练其模型,开发人员可以在认为合适时删除数据。
体验地址:
https://platform.openai.com/docs/assistants/overview
结语:为生成式AI竞赛持续加码,OpenAI的新里程碑
AI产业的热潮仍然不断,OpenAI首届开发者大会的种种更新表明,作为AI领域最热门的企业之一,OpenAI正深入参与到全球AI竞赛中。
今年年中,阿尔特曼在全球巡回演讲中就透漏了OpenAI近期发展路线,两个阶段分别包括2023年首要推出更便宜、更快的GPT-4,更长的上下文窗口等;2024年瞄准多模态。
现在看来,从今年6月GPT-4和GPT-3.5-Turbo的更新,到现在GPT-4 Turbo的发布,不论上下文长度还是函数调用、以及每个人无需代码即可创建一个量身定制的ChatGPT版本、视觉功能的加入……这都意味着OpenAI的整体目标正在稳步推进。
可以看出,在生成式AI领域热度不减,越来越多的科技巨头与明星创企都亮出自己杀手锏的当下,OpenAI也在一次次刷新其在生成式AI领域的领先地位。
OpenAI在热切追逐这一领域市场机会,探索新增长点的同时,其在生成式AI领域的统治地位可能会被载入史册。