GPT-4 Turbo 和 gpt-3.5-turbo-1106 的速度基准测试

基准测试结果

OpenAI 刚刚发布了 GPT-3.5 和 GPT-4 的新版本, 关于它们的性能和能力引起了广泛关注。 为此,我对这些新模型进行了基准测试。

Aider 是一个开源命令行聊天工具,可让你与 GPT 协作编辑本地 git 仓库中的代码。 Aider 依赖一套 代码编辑基准测试 来定量评估模型性能。

这是使用 aider 基准测试套件评估和比较 OpenAI GPT 模型代码编辑能力的一系列报告中的最新一篇。你可以查阅之前的报告了解 aider 基准测试套件的更多背景信息:

速度

本报告比较了不同 GPT 模型的响应速度。 Aider 的基准测试会测量每次向 GPT 请求解决基准测试套件中的编程练习时,OpenAI 聊天补全端点的响应时间。这些结果仅测量等待 OpenAI 响应提示所花费的时间。 因此它们主要衡量这些模型生成以源代码为主的响应内容的速度。

一些观察发现:

  • GPT-3.5 提速 6-11 倍gpt-3.5-turbo-1106 模型比六月份 (0613) 版本(即默认的 gpt-3.5-turbo 模型)快 6-11 倍。
  • GPT-4 Turbo 提速 2-2.5 倍。新的 gpt-4-1106-preview 模型比六月份 (0613) 版本(即默认的 gpt-4 模型)快 2-2.5 倍。
  • 三月份 (0301) 的旧版 GPT-3.5 实际上比六月份 (0613) 版本更快。这是一个意外的发现。

更新记录

最后更新于 2023 年 11 月 14 日。 OpenAI 已放宽速率限制,因此这些结果不再被视为初步数据。


目录