GPT-4 Turbo 和 gpt-3.5-turbo-1106 的速度基准测试
OpenAI 刚刚发布了 GPT-3.5 和 GPT-4 的新版本, 关于它们的性能和能力引起了广泛关注。 为此,我对这些新模型进行了基准测试。
Aider 是一个开源命令行聊天工具,可让你与 GPT 协作编辑本地 git 仓库中的代码。 Aider 依赖一套 代码编辑基准测试 来定量评估模型性能。
这是使用 aider 基准测试套件评估和比较 OpenAI GPT 模型代码编辑能力的一系列报告中的最新一篇。你可以查阅之前的报告了解 aider 基准测试套件的更多背景信息:
- GPT 代码编辑基准测试 评估了 3 月和 6 月版本的 GPT-3.5 和 GPT-4
- OpenAI “1106” 模型的代码编辑能力基准测试 比较了旧模型与 11 月(1106)模型
速度
本报告比较了不同 GPT 模型的响应速度。 Aider 的基准测试会测量每次向 GPT 请求解决基准测试套件中的编程练习时,OpenAI 聊天补全端点的响应时间。这些结果仅测量等待 OpenAI 响应提示所花费的时间。 因此它们主要衡量这些模型生成以源代码为主的响应内容的速度。
一些观察发现:
- GPT-3.5 提速 6-11 倍。
gpt-3.5-turbo-1106
模型比六月份 (0613) 版本(即默认的gpt-3.5-turbo
模型)快 6-11 倍。 - GPT-4 Turbo 提速 2-2.5 倍。新的
gpt-4-1106-preview
模型比六月份 (0613) 版本(即默认的gpt-4
模型)快 2-2.5 倍。 - 三月份 (0301) 的旧版 GPT-3.5 实际上比六月份 (0613) 版本更快。这是一个意外的发现。
更新记录
最后更新于 2023 年 11 月 14 日。 OpenAI 已放宽速率限制,因此这些结果不再被视为初步数据。