随笔：coding 类模型使用与模型生态的分化与融合

近期的一些随笔，更多聚焦在 coding 方面的模型使用与模型趋势方面的思考。

最近 4.5-sonnet 都是在 cursor 上用的，cursor 产品体验打磨得很不错，从 plan 到执行，配合非常快的 4.5，长任务下不管是任务完成度、代码质量都很好，或许还是模型强大，但 UI/UX 独一份。

很大的槽点是太爱写文档，而 augment 却很喜欢写测试，同一个模型却在 prompt 下通过上下文学习表现出不同的特性。这方面对比 cc，后者无可挑剔。

在终端关于文件搜索命令方面，调用成功以及效率远不如 cc 高，总是搜不到需要的文件，获取不够的上下文进行工作对于探索型任务不够友好。

在 TDD 与细致化 prompt 规范下，无论是 coding agent、CLI ，能力都相差不大，而国内模型 glm、deepseek、kimi 接入 cc 中都已足够可用。

不过 cursor 非常适合 vibe coding，尤其是和 claude 搭配。

当然，我仍然更喜欢文档/规范把模糊要求转成可验证的目标，配合执行反馈闭环。

重要的不是想要某种效果，而是思考权衡如何在现有架构中实现这种效果，并综合考虑项目长远发展，在探索沟通中逐渐明晰，将其转化为具体要求并通过 AI 快速实现作验证。

能够感受到模型能力风评的转向，更多开发者选择 GPT-5-high 或者 GPT-5-codex

模型能力的提升已经达到这样一种状态：在某些相同任务集中，上下文与工具集等模型能力外的环境完全相同，任务完成度与水平相差不多。

有的模型系列仅就能力而言，长久以来比如 Claude 在 coding （广义上是工具调用）占据上风，o 系列模型在推理方面总有出乎意料的效果（代表性的 deep research、还有元认知等）。（我最喜欢哪个模型？毋庸置疑 Gemini）

claude-3.5-sonnet 代表一种强大的自主能力，随后又有 o1 引入的推理范式。

后来居上的其他有代表性的开源模型，R1、K2，分别是推理与 Agentic，语言模型的强化学习已成为共识，先是推理再是 agentic

从效果而言，3.5-sonnet 在 agentic 方面版本领先，效果惊人，并继续迭代，不断延续下来；然而，推理能力的欠缺也是这方面的代价，尽管后来 3.7 系列推出了混合推理模式，但综合效果一般。

可以知道，Opus系列就是推理时间长且推理能力强大的模型，并结合 agentic 能力，然而，成本始终是过不去的坎。

GPT-5 系列带来新的变化，路由带来的 o 系列的强大推理，经过版本验证后的 agentic 能力的加强，成本的额外控制，恰到好处风评能够逆转。

不管是我在 coding类任务实际使用 GPT-5 系列（尤其是 high），还是社区方面，就复杂代码库的开发与 bug 修复（尤其是自主纠错），其能力卓越。

sonnet 系列模型却成为了一种附属，用来快速的更新测试、完成小的更改、遵循详细的任务（细致化规范的，比如 SDD、TDD）。

推理与 agentic 的综合正成为下一个共识，从 deepseek-v3 后续小版本系列的模型，同时取代了 R1 的 v3.1-think，v4 一定代表着推理与 agentic 的强大综合，综合一贯的成本，毫无疑问将极具竞争力并代表 reasoning 与 agentic 的共识。

在这之前，下一个更具期待性的无疑是 Gemini-3 系列。