我测试了Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1:结果会让你惊讶
2 分钟阅读

Loading youtube content...
目录
当 Claude (Anthropic) 发布 Sonnet 4.5,大胆宣称它是"世界上最好的编码模型"时,我知道我必须亲自测试这个说法。
毕竟,ChatGPT-5 刚刚发布就在 AI 社区掀起了波澜。而 Opus 4.1 几个月来一直是编码 AI 的宠儿之王。这个新的 Sonnet 模型真的能同时击败它们俩吗?
我决定让这三个模型通过完全相同的编码挑战,看看在真实场景中哪个表现最好。我的发现改变了我对"最好的" AI 编码助手的看法。
测试方法论
为了保持公平,我给每个模型完全相同的提示词和挑战。没有帮助,不同尝试之间没有调整(至少一开始没有)。只有纯粹的性能表现。
我测试了以下内容:
挑战 1:游戏开发
我要求每个模型创建一个在浏览器中运行的功能完整的愤怒的小鸟游戏。要求很简单:让它好玩,添加动画,确保它能正常工作,并让它在视觉上有吸引力。
挑战 2:落地页设计
我要求每个模型为电子邮件营销机构创建一个专业的落地页。目标是注重转化的设计,配合适当的文案、视觉吸引力,并遵守现有的品牌指南。
这些模型可以访问参考材料并提出后续问题。我想看看它们如何处理开发者和设计师每天面临的复杂的真实世界任务。
第一轮:愤怒的小鸟挑战
Claude Sonnet 4.5:崩溃的速度恶魔
Sonnet 4.5 最先完成。我们说的是一分钟左右,而其他的需要 5-10 分钟。令人印象深刻,对吧?
别急。
当我打开游戏时,乍一看在视觉上很吸引人。好的图形,漂亮的布局。但当我尝试玩的那一刻,一切都崩溃了。
弹弓机制完全坏了。我无法正确地向后拉。小鸟几乎飞不起来。当我不可避免地输掉时,游戏完全崩溃了。除非刷新整个页面,否则没有办法重新开始。
基本上无法游玩。
评价:漂亮但坏掉了。
Claude Opus 4.1:意外的冠军
Opus 4.1 生成代码花了更长时间,但输出质量的差异如同白天和黑夜。
首先,它给了我一个真正的入口屏幕,上面有如何游玩的说明。不错的细节。
当我点击"开始游戏"时,机制完美地运行。弹弓反应流畅。物理感觉对。碰撞检测准确。最重要的是,玩起来真的很有趣。
我发现自己通过了多个关卡,真正享受这个体验。对于从简单提示词创建游戏的第一次尝试来说,这非常出色。
评价:Opus 完胜这个挑战。
ChatGPT-5:令人困惑的一团糟
ChatGPT-5 生成代码花了最长时间。当它最终完成时,我打开了它称为"Slingbirds"的东西。
老实说,我无法弄清楚我应该做什么。界面令人困惑。似乎有某种保龄球般的机制?小鸟甚至不可见。我到处点击试图理解,但游戏基本上不能正常工作。
评价:根本不在竞争之列。
第二轮:第二次机会
我不是那种基于一次尝试就下判断的人。也许 Sonnet 4.5 只是运气不好。我给所有模型另一次机会,使用略微改进的提示词。
Sonnet 4.5:仍在挣扎
Sonnet 4.5 的第二次尝试略好一些。游戏加载了,我可以看到界面的一些改进。但物理引擎仍然从根本上坏了。小鸟的移动感觉不对,游戏体验令人沮丧而不是有趣。
ChatGPT-5:更糟了
不知怎么的,ChatGPT-5 的第二次尝试比第一次更令人困惑。输出糟糕到我决定不再浪费时间。
Opus 4.1:持续卓越
我甚至没有费心再次测试 Opus 4.1 的游戏。它已经完美运行了。
超级思考实验
Claude 的模型有一个叫做"扩展思考"或"超级思考"模式的功能。我决定在启用此功能的情况下给 Sonnet 4.5 最后一次机会,想着也许它只是需要更多处理时间才能真正掌握挑战。
结果呢?几乎和第一次尝试一样糟糕。
这让我思考:也许 Sonnet 4.5 需要极其具体、精心制作的提示词才能表现良好。同时,Opus 4.1 似乎能处理更模糊的指令,仍然能提供高质量的结果。
挑战 2:落地页设计
这时事情变得有趣了。
我要求所有三个模型为电子邮件营销机构创建一个注重转化的落地页。它们可以访问我公司的现有网站、品牌指南和文档。目标是创建看起来专业、符合我们的设计系统并能真正将访问者转化为潜在客户的东西。
结果令人惊讶
在不透露最初哪个模型创建了哪个页面的情况下(我想盲测它们),我发现:
页面 1:干净但普通
这个落地页看起来很专业,但感觉有点千篇一律。文案还可以,但没什么特别的。它触及了所有基本要点,但缺乏个性。视觉设计很安全。
页面 2:不一致但雄心勃勃
这个页面试图做很多事情。一些部分很出色,其他部分感觉不符合品牌。某些地方的颜色选择有问题,使一些文字难以阅读。需要几轮迭代来修复可读性问题。
页面 3:一致且注重转化
这个页面因其设计一致性而立即脱颖而出。它始终保持我们的品牌标准,有效使用留白,文案犀利。FAQ 部分提出了潜在客户会问的正确问题。从转化角度来看,整体结构很有意义。
大揭秘
- 页面 1 是 ChatGPT-5。扎实,但没什么特别的。
- 页面 2 是 Opus 4.1。雄心勃勃但需要改进。
- 页面 3 是 Sonnet 4.5。它完全掌握了这个挑战。
测试第 2 轮:全新开始
为了确保落地页结果不受模型相互查看工作的影响,我开始了一个全新的对话,要求 Sonnet 4.5 为 Facebook 广告机构创建一个落地页。
结果再次令人印象深刻。Sonnet 4.5 在设计上表现出强大的一致性,总体犯的错误更少,并且很好地理解了转化优化要求。
是的,它最初搞砸了一些颜色选择,使文字无法阅读。是的,需要 3-4 轮反馈才能把一切都弄对。但最终输出真的很好。
结构、视觉层次、选择使用更少的词但让每个词都算数——一切都协调地运作。
我学到的:没有"最好的" AI 模型
在花了几个小时测试这些模型后,这是我的真实看法:
Claude Opus 4.1 擅长:
- 创造性解决问题
- 游戏开发和复杂逻辑
- 处理模糊或不完美的提示词
- 第一次就做对
Claude Sonnet 4.5 擅长:
- 结构化设计任务
- 一致性和对细节的关注
- 落地页和网页设计
- 遵循既定模式
ChatGPT-5 擅长:
- 嗯...根据这些测试我还在摸索
声称 Sonnet 4.5 是"世界上最好的编码模型"既真实又具有误导性。这完全取决于你在构建什么。
对于网页设计、落地页和需要严格遵守设计系统的任务,Sonnet 4.5 非常出色。对于创造性解决问题、游戏开发和需要凭不完美指令发挥直觉的任务,Opus 4.1 仍然是冠军。
提示词质量因素
我注意到一个模式:Sonnet 4.5 似乎需要更具体、更详细的提示词才能达到最佳表现。当我给它精确的指令和清晰的参考时,它提供了出色的结果。
另一方面,Opus 4.1 即使用我有些模糊的初始提示词也表现良好。它智能地填补了空白,并对我想要什么做出了很好的假设。
这不一定是 Sonnet 4.5 的弱点。它可能只是意味着它以不同方式优化。如果你愿意投入时间制作详细的提示词,Sonnet 4.5 可以提供非常一致的输出。
其他更新呢?
Claude 还随 Sonnet 4.5 一起发布了一些我没有详细介绍的其他有趣更新:
Claude Agent SDK – 这看起来对构建自主代理系统很有前景。我很好奇它与你可以用 N8N 等工具构建的东西相比如何。
Imagine With Claude – 这似乎是 Claude 对 Lovable、Bolt 和 V0 等平台的回应。它本质上是一个 AI 驱动的应用构建器。我计划在未来的比较中测试这个。
ChatGPT-5 现象
还记得 ChatGPT-5 刚推出时,每个人都抱怨它不如预期好吗?然后两周后,它实际上表现得非常好?
我认为我们可能在 Sonnet 4.5 上看到类似的情况。模型可能需要时间来稳定,或者也许我们都需要时间来学习如何有效地提示它。
我肯定会花更多时间使用 Sonnet 4.5,看看随着我了解它的优势和劣势,我的结果是否会改善。
最终评价
如果你强迫我为所有编码任务选择一个模型,我仍然会选择 Opus 4.1。它是最通用的,能够很好地处理最广泛的任务。
但对于像落地页设计这样的特定用例,Sonnet 4.5 现在是我的首选。对设计细节的一致性和关注使它值得用于这些特定任务。
至于 ChatGPT-5,我需要在不同场景中进行更多测试。这些特定的挑战没有发挥它的优势,无论那些优势是什么。
你的体验如何?
我很想听听其他测试过这些模型的人的意见。你看到类似的结果了吗?你找到了 Sonnet 4.5 真正出色的用例吗?
在视频的评论中留下你的想法,让我知道你接下来想看什么测试。
在这里观看完整的测试过程: https://youtu.be/TAGUl0Xj7xg
该视频实时展示了每次尝试、每次失败和所有迭代。如果你正在决定为你的项目使用哪个 AI 编码助手,值得观看整个过程。
准备好提升你的 AI 工作流程了吗?订阅获取更多深入的 AI 工具比较和真实世界测试。