GPT-4 Turbo 和 gpt-3.5-turbo-1106 的速度基准测试

OpenAI 刚刚发布了 GPT-3.5 和 GPT-4 的新版本，关于它们的性能和能力引起了广泛关注。为此，我对这些新模型进行了基准测试。

Aider 是一个开源命令行聊天工具，可让你与 GPT 协作编辑本地 git 仓库中的代码。 Aider 依赖一套代码编辑基准测试来定量评估模型性能。

这是使用 aider 基准测试套件评估和比较 OpenAI GPT 模型代码编辑能力的一系列报告中的最新一篇。你可以查阅之前的报告了解 aider 基准测试套件的更多背景信息：

GPT 代码编辑基准测试评估了 3 月和 6 月版本的 GPT-3.5 和 GPT-4
OpenAI “1106” 模型的代码编辑能力基准测试比较了旧模型与 11 月(1106)模型

速度

本报告比较了不同 GPT 模型的响应速度。 Aider 的基准测试会测量每次向 GPT 请求解决基准测试套件中的编程练习时，OpenAI 聊天补全端点的响应时间。这些结果仅测量等待 OpenAI 响应提示所花费的时间。因此它们主要衡量这些模型生成以源代码为主的响应内容的速度。

一些观察发现：

GPT-3.5 提速 6-11 倍。gpt-3.5-turbo-1106 模型比六月份 (0613) 版本（即默认的 gpt-3.5-turbo 模型）快 6-11 倍。
GPT-4 Turbo 提速 2-2.5 倍。新的 gpt-4-1106-preview 模型比六月份 (0613) 版本（即默认的 gpt-4 模型）快 2-2.5 倍。
三月份 (0301) 的旧版 GPT-3.5 实际上比六月份 (0613) 版本更快。这是一个意外的发现。

更新记录

最后更新于 2023 年 11 月 14 日。 OpenAI 已放宽速率限制，因此这些结果不再被视为初步数据。

目录