2026 年 1 月做了 DeepSeek 和 GPT-4 的横评。不是跑分,是真实开发场景下的对比。
测试设置
三个场景:
- LeetCode 中等难度题(代码生成)
- 中文技术文档写作(中文理解)
- 多轮调试连续对话(上下文保持)
代码生成
DeepSeek 的代码生成在简单场景和 GPT-4 差距不大,但在复杂算法题上偶尔会给出过度啰嗦的解法。GPT-4 的输出更干净。
data-ad-format="fluid" data-ad-layout-key="-7k+ex-4a-9w+4a">中文注释场景 DeepSeek 有优势,本地模型对中文语境的理解更自然。
中文理解
这点国产模型明显领先。不只是语言,还有对国内技术生态的了解——知道什么是”福报”、什么是”卷”,给出的建议更接地气。
多轮对话
多轮调试场景 GPT-4 的上下文保持更好,DeepSeek 在超过 5 轮之后偶尔会丢前面的约束条件。
结论
1 月的结论:简单任务用 DeepSeek 省成本,复杂任务还是 GPT-4 稳。国产模型进步很快,差距在缩小。