Bubble's Brain - 2026-01-24

AI资讯 2026/1/24

AI 日报

AI内容摘要

OpenAI计划2月上线ChatGPT广告业务，面向庞大用户群变现。智元机器人以39%市场份额领跑全球人形机器人市场。Google DeepMind发布D4RT模型，赋予AI四维视觉能力以动态理解世界。阿里巴巴开源Qwen3-TTS语音模型，性能达新SOTA水平。研究显示顶级大模型视觉推理能力仍不及六岁儿童。OpenAI Codex集成至JetBrains IDE，提升开发者编程效率。

Today’s AI News

OpenAI 商业版图再扩张：ChatGPT 广告业务 2 月上线，9 亿活跃用户变现开启 据知情人士透露，OpenAI 计划于 2 月初正式上线 ChatGPT 广告业务，首批已敲定数十家广告商，这标志着其商业模式的一次重大转折。初期将采用按广告曝光量计费的模式，广告将首先面向美国地区的免费版及低价付费版用户。此举背后，是 ChatGPT 庞大的 9 亿周活跃用户量 所带来的巨大变现潜力，以及公司为筹集巨额资金提供"催化剂”的战略考量。不过，OpenAI 对具体的定价细则和全面放开资源的时间仍保持神秘。
2025全球机器人暴涨500%，智元斩获"三冠王”称霸多场景 IDC 报告显示，2025 年全球人形机器人市场出货量约 1.8 万台，实现爆发式增长。中国厂商智元（AGIBOT） 表现突出，以约 39% 的市场份额，一举斩获全球整体出货量、五大主流场景出货量及全尺寸细分领域出货量三项世界第一。其成功得益于全方位的场景覆盖与产品矩阵，以及率先引入 RaaS（机器人即服务） 租赁模式等商业模式创新，引领行业进入规模化商用时代。
硅基生物的"思维广角”:Google DeepMind 推出 D4RT，赋予 AI 穿透时空的四维视觉 Google DeepMind 发布了全新的统一 AI 模型 D4RT，该模型通过将空间三维与时间维度融合，旨在让 AI 能够动态地理解世界，实现"四维全感知”。D4RT 采用"查询式”架构，将复杂的视觉任务简化为一个核心问题，其运行速度比此前技术标杆快 18 到 300 倍，具备实时构建四维地图的潜力。该技术不仅能实现全时空像素追踪和瞬时云端重建，还为机器人导航、增强现实（AR） 及构建具备物理常识的通用人工智能描绘了未来应用前景。
Qwen3-TTS 正式开源：全能语音生成、克隆与设计系统 阿里巴巴 Qwen 团队发布了新一代开源语音合成模型系列 Qwen3-TTS。该系列基于创新的 Qwen3-TTS-Tokenizer-12Hz 多码本语音编码器，具备语音克隆、音色定制、自然语言情绪控制、10种语言支持及实时流式生成（延迟低至97毫秒）等能力。在权威测试中，其各项性能超越多个主流开源及闭源模型，达到新 SOTA 水平。模型已全面开源，可通过 GitHub、HuggingFace 等渠道获取。
硅基生物的"视力瓶颈”：顶级大模型视觉推理竟难敌 6 岁孩童？ 一项由多家顶尖机构联合发布的最新研究显示，当前顶级大模型（如 Gemini 3 Pro Preview）的视觉推理能力存在显著短板，仅略胜三岁幼儿，与六岁儿童相比仍有约20%的差距。研究发现，大模型处理视觉信息时依赖"图像转文字再推理”的模式，导致在非言语精细细节、空间想象力等维度表现不佳，暴露了其在物理世界感知上的根本性缺陷。这为具身智能的发展提出了挑战，并指出了强化学习或原生多模态推理等可能的进化路径。
GPT-5.2 核心注入！OpenAI 编程神器 Codex 杀入 JetBrains 全家桶，开发者效率起飞 OpenAI 的编程工具 Codex 现已正式集成至 JetBrains 全系 IDE（如 IntelliJ IDEA、PyCharm）。此次集成的 Codex 基于 GPT-5.2Codex，具备强大的代码生成与逻辑理解能力，支持云端与本地环境切换，旨在为开发者提供从代码规划到发布的全流程 AI 辅助。用户可通过 ChatGPT 账号、API Key 或 JetBrains AI 订阅等方式接入，目前该功能处于限时免费阶段，但需手动在插件市场安装启用。