Bubble's Brain - 2025-12-13

AI资讯 2025/12/13

AI 日报

AI内容摘要

智谱AI开源AutoGLM系统，赋予AI设备代理能力以操作智能手机。Runway推出通用世界模型GWM-1，能模拟世界逻辑并实时交互。陶哲轩团队借助多种AI工具，48小时内解决尘封50年的数学难题。  
Google发布Gemini 2.5 Flash音频模型，优化实时语音交互与翻译。Google还将Gemini应用于翻译服务，提升自然度与上下文理解。Mistral AI发布新一代开源编码模型Devstral 2，性能逼近顶级闭源模型。  
OPPO将推出AI妙听功能，可将文章转为双人播客。Skywork发布移动端APP，实现多Agent并行协作生成内容。蚂蚁开源千亿参数离散扩散模型LLaDA2.0，推理速度更快。

Today’s AI News

智谱AI正式开源了其核心项目AutoGLM的全部源代码与模型。这是一个能让AI自主使用智能手机的系统，其核心理念是让AI能够像人类一样，直接在应用程序中执行具体操作，而不仅仅是回答问题。该系统赋予AI"设备代理能力”，使其能够理解界面、执行动作、感知反馈并持续学习。团队开源旨在推动产业共建、让数据和隐私回归用户，并推动Agent生态的全面爆发。
Runway推出了第一代"通用世界模型”GWM-1。该模型不仅能生成图像或视频，更重要的是能够理解世界的运行逻辑，模拟时间、空间、物理、动作和因果关系，并能在实时环境中进行交互、控制和泛化使用。它包含三个核心子系统：GWM-Worlds、GWM-Avatars以及GWM-Robotics。
数学家陶哲轩与多位合作者借助多种AI工具，在48小时内成功解决了尘封50年的数学难题Erdős #1026。解题过程中，团队先后使用了Harmonic的数学AI模型"亚里士多德”、AlphaEvolve、ChatGPT Pro等工具。这标志着"人+人+AI”的协作模式正成为解决复杂数学问题的新趋势。
Google发布了专为实时语音交互优化的Gemini 2.5 Flash Native Audio模型。该模型能直接生成自然语音输出，实现低延迟、语调自然的实时对话。其核心能力包括更聪明的函数调用、更强的指令理解，并首次推出了连续语音到语音实时翻译功能。
Google宣布将Gemini AI模型应用于Google Translate，显著提升翻译的自然性、准确度与上下文理解。语音翻译方面，推出了Gemini驱动的"语音对语音翻译”Beta功能，用户可通过耳机实时听到保留语调和情绪的翻译。
欧洲AI公司Mistral AI发布了新一代开源编码模型家族Devstral 2，包括123B参数的旗舰版和24B参数的轻量版。旗舰版在权威编码基准SWE-bench Verified上取得72.2分，性能逼近顶级闭源模型。
OPPO ColorOS将于12月推出一项名为"AI妙听”的新功能。该功能允许用户将文章一键转换为双人播客，并配有背景音乐，旨在通过重构内容提供更生动的听觉体验。
国产大模型Skywork正式发布移动端APP 5.0版本，其核心亮点是将"多Agent并行协作”落地到手机端。用户只需一句语音指令，系统即可同时唤醒多个专业Agent，并行生成要点摘要、待办清单、脑图、PPT等多种内容。
蚂蚁技术研究院近日开源了LLaDA2.0系列模型，这是业内首个参数规模达到1000亿的离散扩散大语言模型。该模型通过创新的训练策略，在保持高质量生成的同时，推理速度比同级自回归模型快2.1倍。
AI视频生成工具Medeo AI发布新版本，引入智能Agent架构，实现了颠覆性突破。新版工具支持通过自然语言指令实时、无限次地修改视频内容，如增删镜头或调整脚本，极大提升了创作灵活性。
Broadcom公司CEO在财报会议上透露，已收到来自AI公司Anthropic总计价值210亿美元的谷歌张量处理单元订单，预计将在2026年底前交付。Anthropic计划借此大规模扩展其AI基础设施，目标是在2026年前部署100万个TPU。