分享好友 最新资讯首页 最新资讯分类 切换频道
智谱新一代旗舰模型达开源SOTA:持续探索AGI上限,叫板OpenAI
2025-08-06 08:54

图片GLM-4.5是一款面向推理、代码与智能体的开源SOTA模型。

据IPO早知道消息,智谱于7月28日正式发布新一代旗舰模型 GLM-4.5,一款专为智能体应用打造的基础模型。Hugging Face 与 ModelScope 平台同步开源,模型权重遵循 MIT License。

不可否认的是,衡量 的第一性原理,是在不损失原有能力的前提下融合更多通用智能能力,而GLM-4.5 就是智谱对这一理念的首次完整呈现,并有幸取得技术突破。GLM-4.5 首次在单个模型中实现将推理、编码和智能体能力原生融合,以满足智能体应用的复杂需求。

换言之,GLM-4.5 在包含推理、代码、智能体的综合能力达到开源 SOTA

具体来讲,GLM-4.5采用混合专家(MoE)架构,包括 GLM-4.5:总参数量 3550 亿,激活参数 320 亿;GLM-4.5-Air:总参数 1060 亿,激活参数 120 亿;同时,GLM-4.5还提供两种模式:用于复杂推理和工具使用的思考模式,及用于即时响应的非思考模式。

为综合衡量模型的通用能力,智谱选择了最具有代表性的 12 个评测基准,包括 MMLU Pro、AIME 24、MATH 500、SciCode、GPQA 、HLE、LiveCodeBench、SWE-Bench Verified、Terminal-Bench、TAU-Bench、BFCL v3 和 BrowseComp。综合平均分,GLM-4.5 取得了全球模型第三、国产模型第一,开源模型第一

图片

值得注意的是,GLM-4.5 参数量为 DeepSeek-R1 的 1/2、Kimi-K2 的 1/3,但在多项标准基准测试中表现得更为出色,这得益于 GLM 模型的更高参数效率。在衡量模型代码能力的 SWE-bench Verified 榜单上,GLM-4.5 系列位于性能/参数比帕累托前沿,表明在相同规模下 GLM-4.5 系列实现了最佳性能。

图片

在性能优化之外,GLM-4.5 系列也在成本和效率上实现突破,由此带来远低于主流模型定价:API 调用价格低至输入 0.8 元/百万 tokens,输出 2 元/百万 tokens。

为评测 GLM-4.5 在真实场景 Agent Coding 中的效果,智谱接入 Claude Code 与 Claude-4-Sonnet、Kimi-K2、Qwen3-Coder 进行对比测试。测试采用 52 个编程开发任务,涵盖六大开发领域,在独立容器环境中进行多轮交互测试。

图片

实测结果显示,GLM-4.5 相对其他开源模型展现出竞争优势,特别在工具调用可靠性和任务完成度方面表现突出。尽管 GLM-4.5 相比 Claude-4-Sonnet 仍有提升空间,在大部分场景中可以实现平替的效果。

此外,得益于模型原生具备的在前端编写网站、在后端进行数据库管理,以及通过工具调用接口支持任意的智能体应用等能力,GLM-4.5 系列能胜任全栈开发任务,编写复杂应用、游戏、交互网页。

事实上,智谱在7月取得了多项模型突破——7月初,智谱开源发布新一代通用视觉语言模型GLM-4.1V-Thinking,以推理能力为核心突破,刷新10B级别多模态模型性能上限

其中,轻量版GLM-4.1V-9B-Thinking模型参数控制在10B级别,在兼顾部署效率的同时实现性能突破。该模型在MMStar、MMMU-Pro、ChartQAPro、OSWorld等28项权威评测中,有23项达成10B级模型的最佳成绩,其中18项更是持平或超越参数量高达72B的Qwen-2.5-VL,充分展现了小体积模型的极限性能潜力。

图片

凭借9B的模型尺寸,GLM-4.1V-9B-Thinking成功登顶HuggingFace Trending第一

显然,智谱仍持续在探索AGI的上限,这也就不难理解OpenAI将智谱列为其全球竞争对手。

另据OpenAI日前最新发布的分析报告,智谱的海外业务同样进展迅速,现已为越南、印度尼西亚、马来西亚、新加坡等东南亚国家,阿联酋、沙特阿拉伯等中东国家以及肯尼亚等非洲国家的政企提供基础设施解决方案。

在OpenAI看来,智谱的目标是赶在欧、美竞争对手之前,让中国企业的AI体系率先落地于新兴市场,并展现出一种“可验证、负责任、标准化”的技术形象。

本月月底,GPT-5预计将面世。

本文为IPO早知道原创

作者|Stone Jin

最新文章
光影百年映初心!全国艺联 “影像之灯” 影展登陆首都电影院天津店,14 部中外佳作开票预售|展映_网易新闻
当1895年卢米埃尔兄弟的活动电影机投射出第一束光影,当1905年《定军山》在大观楼奏响中国人的电影序曲,这盏 “影像之灯” 便跨
对谈预告|成庆×王汉洋x李雨白:我们为何不再想象未来?_腾讯新闻
今年,我们打开讨论的视野,邀请成庆老师、《山有虎》主播王汉洋、《知行小酒馆》主播李雨白一起跨界对谈,聊聊在这个不再奢望未
东京12月通胀意外放缓难挡日本央行紧缩步伐 加息节奏成市场焦点_腾讯新闻
智通财经APP获悉,随着食品和能源价格压力减弱,被视为全国通胀趋势领先指标的东京通胀降温幅度超过市场预期,但这不太可能阻止
12岁女生网购盗版小说《一屋暗灯》内容涉黄,投诉后网店仍在售,警方回应_腾讯新闻
6月12日,陕西汉中某小学学生家长左先生向极目新闻反映,他女儿网购的盗版小说《一屋暗灯》涉黄,书中的色情内容描写的尺度非常
兴业银行普惠金融助力传力|小微企业|贷款|融资|兴业银行大连分行_网易新闻
对餐饮业来说,同行真的是冤家吗?在大连,两家小微企业,用自己从兴业银行大连分行获得融资支持的经历,颠覆了以往的旧观念,并
白云区熙瑞街,保利珑熙住宅转让|广州产权交易所|房地产|保利地产_网易新闻
本次为大家带来保利珑熙住宅转让项目项目近地铁13号线罗冲围站感兴趣的朋友们快来看看吧!保利珑熙广东省广州市白云区罗冲围松鹤
新年又立flag了?为什么你的健康计划最后都失败了?_腾讯新闻
地球是一个奇迹科技|全球每年一月,数百万人都会立下宏大的健康目标。研究表明,那些最有可能改善长期健康且真正能坚持下去的习
为您量身定制商业计划书_聚荣网
专业的团队为您量身定制商业计划书,商业计划书是一个商业计划。登尼特集团,一个经历了20个年头的企业,总部在香港的无国界、跨
助力网易全球破圈,《燕云十六声》凭什么
网易的2025年,无论是营收还是利润,依旧是稳步增长的一年。相比于前两年的利润距离300亿就差临门一脚(2023年与2024年网易的净
活力28递表港交所 拟上市募资
2025年12月1日,日化品牌活力28正式向港交所递交招股书,拟在主板挂牌上市。该公司主营洗衣粉、香皂、液体洗涤剂等产品的生产与
推荐文章