AI资讯 2026/1/24
AI 日报
AI内容摘要
OpenAI计划2月上线ChatGPT广告业务,面向庞大用户群变现。智元机器人以39%市场份额领跑全球人形机器人市场。Google DeepMind发布D4RT模型,赋予AI四维视觉能力以动态理解世界。阿里巴巴开源Qwen3-TTS语音模型,性能达新SOTA水平。研究显示顶级大模型视觉推理能力仍不及六岁儿童。OpenAI Codex集成至JetBrains IDE,提升开发者编程效率。
Today’s AI News
OpenAI 商业版图再扩张:ChatGPT 广告业务 2 月上线,9 亿活跃用户变现开启 据知情人士透露,OpenAI 计划于 2 月初正式上线 ChatGPT 广告业务,首批已敲定数十家广告商,这标志着其商业模式的一次重大转折。初期将采用按广告曝光量计费的模式,广告将首先面向美国地区的免费版及低价付费版用户。此举背后,是 ChatGPT 庞大的 9 亿周活跃用户量 所带来的巨大变现潜力,以及公司为筹集巨额资金提供"催化剂”的战略考量。不过,OpenAI 对具体的定价细则和全面放开资源的时间仍保持神秘。
2025全球机器人暴涨500%,智元斩获"三冠王”称霸多场景 IDC 报告显示,2025 年全球人形机器人市场出货量约 1.8 万台,实现爆发式增长。中国厂商智元(AGIBOT) 表现突出,以约 39% 的市场份额,一举斩获全球整体出货量、五大主流场景出货量及全尺寸细分领域出货量三项世界第一。其成功得益于全方位的场景覆盖与产品矩阵,以及率先引入 RaaS(机器人即服务) 租赁模式等商业模式创新,引领行业进入规模化商用时代。
硅基生物的"思维广角”:Google DeepMind 推出 D4RT,赋予 AI 穿透时空的四维视觉 Google DeepMind 发布了全新的统一 AI 模型 D4RT,该模型通过将空间三维与时间维度融合,旨在让 AI 能够动态地理解世界,实现"四维全感知”。D4RT 采用"查询式”架构,将复杂的视觉任务简化为一个核心问题,其运行速度比此前技术标杆快 18 到 300 倍,具备实时构建四维地图的潜力。该技术不仅能实现全时空像素追踪和瞬时云端重建,还为机器人导航、增强现实(AR) 及构建具备物理常识的通用人工智能描绘了未来应用前景。
Qwen3-TTS 正式开源:全能语音生成、克隆与设计系统 阿里巴巴 Qwen 团队发布了新一代开源语音合成模型系列 Qwen3-TTS。该系列基于创新的 Qwen3-TTS-Tokenizer-12Hz 多码本语音编码器,具备语音克隆、音色定制、自然语言情绪控制、10种语言支持及实时流式生成(延迟低至97毫秒)等能力。在权威测试中,其各项性能超越多个主流开源及闭源模型,达到新 SOTA 水平。模型已全面开源,可通过 GitHub、HuggingFace 等渠道获取。
硅基生物的"视力瓶颈”:顶级大模型视觉推理竟难敌 6 岁孩童? 一项由多家顶尖机构联合发布的最新研究显示,当前顶级大模型(如 Gemini 3 Pro Preview)的视觉推理能力存在显著短板,仅略胜三岁幼儿,与六岁儿童相比仍有约20%的差距。研究发现,大模型处理视觉信息时依赖"图像转文字再推理”的模式,导致在非言语精细细节、空间想象力等维度表现不佳,暴露了其在物理世界感知上的根本性缺陷。这为具身智能的发展提出了挑战,并指出了强化学习或原生多模态推理等可能的进化路径。
GPT-5.2 核心注入!OpenAI 编程神器 Codex 杀入 JetBrains 全家桶,开发者效率起飞 OpenAI 的编程工具 Codex 现已正式集成至 JetBrains 全系 IDE(如 IntelliJ IDEA、PyCharm)。此次集成的 Codex 基于 GPT-5.2Codex,具备强大的代码生成与逻辑理解能力,支持云端与本地环境切换,旨在为开发者提供从代码规划到发布的全流程 AI 辅助。用户可通过 ChatGPT 账号、API Key 或 JetBrains AI 订阅等方式接入,目前该功能处于限时免费阶段,但需手动在插件市场安装启用。