不是,GLM-4.7 你好像越来越强了?!

家人们,周末好呀!

本来快年底了,大周末的真的想偷懒不更了。

但是因为这周国内的模型更新非常多,然后作为一个主做评测的博主,自己还没写过GLM-4.7,就很愧疚。。。

(虽然我自己已经用GLM-4.7写了几天的代码了。。。)

以及正好今天刷X刷到GLM-4.7在Artificial Analysis的榜单上已经是国产第一、开源头牌的水平了,就觉得还是要说两句的。

Artificial Analysis

首先要介绍一下Artificial Analysis 这个榜单是做什么的。

网址在此:https://artificialanalysis.ai/

这玩意算是一个独立的评测分析机构,我觉得它比较牛逼的一点是评测做的真的很全,不仅仅是模型各个benchmark上的表现评分,包括GPQA、HLE、AIME 2025、LiveCode Bench、terminal-bench 这些涵盖了通用推理、知识、数学、代码、工具调用等维度,还有价格、速度、延迟这些比较重要,但是又可能会被忽略的维度也有考虑。

所以,整体来说肯定是非常具有参考价值的。

我仔细看了一下细分的几个类别,有几个比较亮眼的成绩。

第一个是工具调用的能力。

一个agent好不好用的很大一个关键点就在于它能不能在这种多轮任务中知道什么时候要去调用工具。

而τ²-Bench(Telecom)这个benchmark专门测试的是AI在电信场景的多轮对话、工具调用的能力。

GLM-4.7 在工具调用上已经做到了世界最强。

而在大家比较关注的写代码能力上,GLM-4.7也真的非常强。

只比Gemini 低了,开源模型排第一,侧面证明了GLM-4.7的写代码的能力。

以及,抛开Artificial Analysis 这个机构做的一些测试,还有一个非常有意思的评测榜单,叫Vending-Bench。

我先讲下这个Benchmark是做什么用的。

它非常的实际,就是让模型来操作一台自动贩卖机的商业运转,模拟一整年的经营过程,然后看他们最后卡上能赚多少钱。

主打的就是一个模拟真实商业世界的任务,考察模型在长时间的任务下的各种稳定性。

而GLM-4.7是第一个开源模型做到盈利赚钱的,甚至赚的还比GPT-5.1更多。。。

Benchmark先说到这儿,我想分享些我自己这几天使用它的感受。

我的感受

第一点就是前端审美的提升。

真别小看这一点,人类毕竟是个视觉动物,这道理就和大家都喜欢看美女是一样儿的。

之前国产模型在前端这一块没一个能打的,但GLM-4.7这次提升真的非常大。

比如,我让它做了一个5090 gpu 相关的网页。

提示词很简单,就是“生成一个跟5090相关的网页”。

这个和英伟达非常相近的配色,绿色都是它自己想的,我甚至没要求它用什么颜色。

再来看一个大家常用的信息图场景,这次GLM-4.7无论是从内容还是美观程度上已经能做得非常不错了。

提示词来自@shaomeng,内容就选用GLM-4.7 官方的博客内容。

这个结果真的不错,而且还竟然把原图和表格给我渲染出来了。

还有一个我做的前两年很火的跳动的爱心。

一把出就这个效果,真的非常不错

以及官方也有一个我觉得非常有意思的case,手势结合卡牌。

第二点是对Skills的支持。

这个真的也非常关键。最近对Skills的讨论又热起来了,有了对Skills的支持,能拓展非常多的玩法。

比如我之前一直用的生图Skills,可以直接赋予GLM之前不能做的生图能力。

再比如,我可以用一个抓取YouTube视频的skill来获取视频的一些基本信息。

基本信息都是正确的。有了对Skills的支持之后,替换掉Claude的理由又多了一个。

第三个点是review代码,查bug的能力的提升。

我自己这几天使用的过程中除了让GLM-4.7帮我写代码,也同样用它帮我来修复或者分析一些问题。

配合上chrome-devtools这个mcp的使用,它做的都非常不错!

最后再写点儿什么吧。

站在2025年的尾巴上回望,作为一名从业者,感触真的很深。

去年的这个时候,我们还在感叹什么时候能追上 Claude-3.5,还在为每一次用国产模型生成的 Bug 感到焦虑。

但这一年,从上半年的 DeepSeek 惊艳亮相,到下半年 GLM 系列的持续发力,我们不仅是见证者,更是这股浪潮的亲历者。

看看海外社区那些惊叹的评论吧,没有客套,全是发自内心真诚的赞美。

不得不感叹一句牛逼,

曾经我们仰望着大洋彼岸给我们创造着看似触不可及的星空,而如今我们自己也已经成为了别人的漫天星辰。

父亲在后面扶着,我却总担心他松手,频频回头。父亲笑着说:“别回头,看前面,你才能骑得直。”

那一刻的重心,并不在于谁在扶我,而是我能够走多远。

今天,我们好像又站在同样的位置。

过去,我们把最强默认成别人的名字;现在,GLM-4.7 把自己的名字亲自写进了各大排行榜的前列中。

我们终于可以开始思考我们可以用自己的模型创造什么样的未来。

这才是2025年带给我们最大的礼物,一种心态上的彻底祛魅与独立。

2025即将过去了,那些仰望星空的日子也要结束了。

正如GLM-4.7所证明的:

只要一直向前走,我们自己,就是星空。

真好,

“莫愁前路无知己,天下谁人不识君。“

以上,

若觉得内容有帮助,欢迎点赞、推荐、关注。别错过更新,给公众号加个星标⭐️吧!期待与您的下次相遇~