OpenAI DevDay利好AI开发者的五大创新!

OpenAI 今天在旧金山举行的开发者日活动上宣布了其 API 服务的一系列更新。这些更新将使开发人员能够进一步定制模型、开发新的基于语音的应用程序、降低重复提示的价格,并从较小的模型中获得更好的性能,更好的使用新广场功能。
https://aiquanzi.oss-cn-chengdu.aliyuncs.com/files_user38/article/5cc4b73311fded774bf380506baade4c.jpg

OpenAI 在活动期间宣布了5个主要的更新:模型提炼、提示词缓存、视觉微调, RealTime 的新 API 服务,以及新广场玩法。对于初学者来说,API可以使软件开发人员能够将外部应用程序的功能集成到自己的产品中。

模型提炼


https://aiquanzi.oss-cn-chengdu.aliyuncs.com/files_user38/article/561bea437430521fd83342a734529894.jpeg

该公司推出了一种新方法,通过使用较大模型的输出对 GPT-4o mini 等较小模型进行微调,从而增强其功能,这种方法称为模型蒸馏。该公司在一篇博客文章中表示,“到目前为止,蒸馏是一个多步骤、容易出错的过程,需要开发人员手动协调不连贯的工具之间的多个操作,从生成数据集到微调模型和衡量性能改进。”
图片
为了提高流程效率,OpenAI 在其 API 平台中构建了一个模型蒸馏套件。该平台使开发人员能够使用 GPT-4o 和 o1-preview 等高级模型来构建自己的数据集,以生成高质量的响应,微调较小的模型以跟踪这些响应,然后创建和运行自定义评估以衡量模型在特定任务中的表现。

OpenAI 表示,为了帮助开发人员开始进行蒸馏,它将在 10 月 31 日之前每天在 GPT-4o mini 上提供 200 万个免费训练Tokens,在 GPT-4o 上提供 100 万个免费训练Tokens。(Tokens是 AI 模型为理解请求而处理的数据块。)训练和运行蒸馏模型的成本与 OpenAI 的标准微调价格相同。

提示词缓存

https://aiquanzi.oss-cn-chengdu.aliyuncs.com/files_user38/article/f51fd13939c056dbf62667fa59a8a329.jpeg

OpenAI 一直致力于降低其 API 服务的价格,并通过“提示缓存”朝着这个方向迈出了新的一步,这项新功能使开发人员能够重复使用常见的提示,而无需每次都支付全价。
图片
许多使用 OpenAI 模型的应用程序在提示前添加了较长的前缀,详细说明模型在完成特定任务时应如何操作,例如指示模型以愉快的语气响应所有请求,或始终以项目格式响应。较长的前缀通常可以改进模型并有助于保持响应的一致性,但也会增加每次 API 调用的成本。


现在,OpenAI 表示 API 将自动保存或“缓存”长前缀长达一小时。如果 API 检测到具有相同前缀的新提示,它将自动对输入成本应用 50% 的折扣。对于具有非常集中用例的 AI 应用程序开发人员来说,新功能可以节省大量资金。OpenAI 的竞争对手 Anthropic于 8 月在其自己的模型系列中引入了提示缓存。


视觉微调

https://aiquanzi.oss-cn-chengdu.aliyuncs.com/files_user38/article/fc0cc91265e83f9a9723e802c5376d20.jpeg

现在,开发人员除了可以使用文本之外,还可以使用图像对 GPT-4o 进行微调,OpenAI 表示,这将增强模型理解和识别图像的能力,从而实现“增强的视觉搜索功能、改进的自动驾驶汽车或智能城市的物体检测,以及更准确的医学图像分析等应用”。
图片
通过将带标签的图像数据集上传到 OpenAI 平台,开发人员可以提高模型在理解图像方面的性能。OpenAI 表示,Coframe 是一家正在构建人工智能驱动的增长工程助手的初创公司,它已经使用视觉微调来提高助手为网站生成代码的能力。通过为 GPT-4 提供数百张网站图像和用于创建这些图像的代码,与基础 GPT-4o 相比,他们将模型生成具有一致视觉风格和正确布局的网站的能力提高了 26%。

为了让开发人员入门,OpenAI 将在 10 月份每天免费发放 100 万个训练Tokens。从 11 月开始,使用图像对 GPT-4o 进行微调将花费每 100 万个Tokens 25 美元。


即时的API
https://aiquanzi.oss-cn-chengdu.aliyuncs.com/files_user38/article/6ccbeeb8aa5bd56199968589b5d5bafa.jpeg



上周,OpenAI 向所有 ChatGPT 用户推出了其高级语音模式,该模式听起来像人类的声音。现在,该公司正在帮助开发人员利用其技术构建语音转语音应用程序。

如果开发人员之前想要创建一个可以与用户对话的 AI 应用程序,他们首先需要转录音频,将文本传递给 GPT-4 等语言模型进行处理,然后将输出发送到文本转语音模型。OpenAI 表示,这种方法“通常会导致情感、强调和口音的丧失,以及明显的延迟。”

借助 Realtime API,音频可立即由 API 处理,无需将多个应用程序链接在一起,从而使其速度更快、更便宜、响应速度更快。该 API 还支持函数调用,这意味着由其支持的应用程序将能够执行操作,例如订购披萨或预约。Realtime 最终将更新以处理包括视频在内的各种多模式体验。

处理文本时,API 的费用为每百万输入令牌 5 美元,每百万输出令牌 20 美元。处理音频时,API 的费用为每百万输入令牌 100 美元,每百万输出令牌 200 美元。OpenAI 表示,这相当于“每分钟音频输入约 0.06 美元,每分钟音频输出约 0.24 美元”。


新广场功能

https://aiquanzi.oss-cn-chengdu.aliyuncs.com/files_user38/article/32894654fa1f67077642966bb7ad4c66.jpeg


新广场的功能主要包括生成提示词,Functions和Schemas,对提示词的结构框架以及其他用法作出了更多说明。

图片
在一天前就有这部分的内容疑似泄漏,「系统提示词」也被人扒了出来。
主要包括:“了解任务:掌握主要目标、目标、要求、约束和预期输出。”

最小更改:如果提供了现有提示,请仅在简单时对其进行改进。对于复杂的提示,在不改变原始结构的情况下提高清晰度并添加缺失的元素。

结论前推理:鼓励在得出任何结论之前进行推理步骤。注意力!如果用户提供了随后发生推理的示例,则 REVERSE 顺序!永远不要以结论开始例子!

推理顺序:调出提示和结论部分的推理部分(按名称划分的特定字段)。对于每个,确定执行此操作的 ORDER 以及是否需要反转。

结论、分类或结果:应始终出现在最后。


总结:OpenAI 的 DevDay 2024 标志着公司将转向更加专注、以开发者为中心的创新。虽然此次活动没有前几年那么热闹,但推出的功能表明 OpenAI 致力于提高开发者对 AI 的可访问性和效率。


参考链接:

1.https://www.inc.com/ben-sherry/openai-just-announced-4-new-ai-features-and-theyre-available-now/90982838




0 个评论

要回复文章请先登录注册