豆包编程到底行不行??

在等待Gemini 3到来的每一天,

都深刻感受到国内厂商的卷。

AI编程这块领域

已经从红海变成死海了,

字节还是带着doubao-seed-code 杀了进来,

一个专门面向代码任务的模型。

我猜,

这里面的其中缘由,

多少跟前几天

Trae用不了Claude有很大的关系。

模型啊,终究还是要用属于自己的好。

根据官方放出的Benchmark,

Trae+doubao-seed-code 的成绩来到了78.8%,

甚至超过了Claude-4.5-sonnet的77.2%。

但是这里有一个问题是,

这个成绩是在SWE-Bench-Verified-Openhands 上跑出来的,

根据我自己的搜索,以及Anthropic 官方文档,

Claude-4.5-Sonnet 是只有在SWE-Bench-Verified上仅仅通过bash字符串替换修改文件跑出的77.2%。

这里如果我说的有问题,也欢迎评论区指出

虽然两个测试集题目一样,

但是配置的工具是不太一样的。

这个差异对Agent的影响还是挺大的。

SWE-Bench-Verified-Openhands 配置的工具是OpenHands 这个工具包,

所以还是建议,

谨慎看待这个Benchmark榜,一切以自己的使用体验为准

当然,我实际上手体验了一下,

看看它是否真的如宣传的一样,领先了国内其他模型。

首先,

它同样支持接入Claude Code,

方法在这:

  1. 在终端执行以下命令进入Claude Code 的配置文件,
vim ~/.claude/settings.json
  1. 编辑配置文件,文件内容替换成下面这个:
{
    "env": {
        "ANTHROPIC_AUTH_TOKEN": "ARK_API_KEY",
        "ANTHROPIC_BASE_URL": "https://ark.cn-beijing.volces.com/api/coding",
        "API_TIMEOUT_MS": "3000000",
        "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": 1,
        "ANTHROPIC_MODEL": "doubao-seed-code-preview-latest"
    }
}

然后可以检验一下:

模型显示是doubao-seed-code-preview-latest 就说明配置成功了。

先来一个我最经常考的case

设计并创建一个非常有创意、精心且细致的体素(voxel)艺术场景:主题是上海白天的建筑风景。让整个场景看起来震撼、多样化,并使用色彩丰富的体素。使用 
HTML,CSS, JS 来实现,但最终请把所有内容整合在一个单独的 HTML 文件里,这样我可以直接粘贴后在 Chrome 中打开运行,

来看doubao-seed-code的效果:

ber,

为啥给我生成了倒过来的建筑风景。。。

尝试继续修改下,

这回对了,

就是我咋感觉不太能看得出这是上海的风景

感觉不咋符合题意。。。

这个case我也跑了Claude-4.5-Sonnet,

看起来还是Claude 明显好点。

再看一个测烂了的小球测试:

使用 p5.js(无需 HTML)创建 10 个彩色球在旋转六边形内弹跳的效果,考虑重力,弹性,摩擦和碰撞。

emm… 咱就是说这个效果好像是不咋行。

再对比Claude-4.5-Sonnet一手,

讲真,这个效果至少和Claude比,

看起来还是有很大差距的。

还可以再看一个用python写的小球测试:

编写一个Python程序,使用Pygame(或其他合适的库),模拟几个受重力影响的小球在一个绕中心旋转的正方形内真实地弹跳。小球应该对旋转正方形的墙壁碰撞做出响应,保持物理真实性,包括速度变化、重力效果和旋转感知的碰撞检测

emm…

感觉这模型是对物体运动的理解还不是很到位。。。

再来最后看一个case吧:

写一个 html 文件,以及使用 three.js 来制作一个网页,根据科学的认知,用3D方式展示地球是如何形成的。不需要用户自己准备图片

这里,直接对比一手GLM-4.6看看:

「视频1」

两个感觉差不太多,

我觉得都还行。

不过,

doubao-seed-code 还有个优势是,

它原生支持对图片的理解,

不像国内其他的很多模型不是多模态的。

既然支持图片的理解,

我觉得就可以拿来复刻一些UI界面什么的试试。

比如先复刻下面这个火山引擎的页面,

请参照这个页面,使用HTML+CSS+JS进行复刻,图片可使用SVG进行尽可能复刻替代

内容样式上还原的挺到位的,颜色还原上感觉还是差点。

我也测了下Claude-4.5-Sonnet

视觉颜色上Claude确实更靠近原参考图,

但是内容上doubao-seed-code

确实挺到位的,

包括一些小细节的图标,

比如发送按钮、切换视图的按钮

都还原出来了,

我觉得

这点比claude要好些。

再来复刻一个WPS中的Word页面,

提示词和之前的差不多:

请参照这个页面,使用HTML+CSS+JS进行对这个文档编辑器的复刻,要求能正常编辑文字

加粗、斜体、删除等这些基本的文字编辑功能都还原了,

我觉得还不错。

最后,来测个skills吧,

看看接入Claude Code 的doubao-seed-code能不能正确调用配置的skills。

我配置了自己写的一个

用seedream 4.0图像生成的skill,

但是非常不幸的是,

doubao-seed-code 不知道去调skills

我也试了同样最近火到爆炸的K2-thinking

它是能够正确找到skills并成功调用的

下面是它生成的图片:

最后,

再说下价格,

火山引擎上的这个coding plan 是挺便宜的;

第一个月Lite版只要9.9元,

具体用量规则我放在这儿了:

反正 9.9

买不了吃亏,买不了上当。

可以来试试。

也真心希望国产大模型继续卷起来,

加油猛猛冲,

相信豆包也一定会越来越好~

以上,

感谢您读到这里。

若觉得内容有帮助,欢迎点赞、推荐、关注。别错过更新,给公众号加个星标⭐️吧!期待与您的下次相遇~

留言讨论