AI资讯 2025/12/13
AI 日报
AI内容摘要
智谱AI开源AutoGLM系统,赋予AI设备代理能力以操作智能手机。Runway推出通用世界模型GWM-1,能模拟世界逻辑并实时交互。陶哲轩团队借助多种AI工具,48小时内解决尘封50年的数学难题。
Google发布Gemini 2.5 Flash音频模型,优化实时语音交互与翻译。Google还将Gemini应用于翻译服务,提升自然度与上下文理解。Mistral AI发布新一代开源编码模型Devstral 2,性能逼近顶级闭源模型。
OPPO将推出AI妙听功能,可将文章转为双人播客。Skywork发布移动端APP,实现多Agent并行协作生成内容。蚂蚁开源千亿参数离散扩散模型LLaDA2.0,推理速度更快。
Today’s AI News
智谱AI正式开源了其核心项目AutoGLM的全部源代码与模型。这是一个能让AI自主使用智能手机的系统,其核心理念是让AI能够像人类一样,直接在应用程序中执行具体操作,而不仅仅是回答问题。该系统赋予AI"设备代理能力”,使其能够理解界面、执行动作、感知反馈并持续学习。团队开源旨在推动产业共建、让数据和隐私回归用户,并推动Agent生态的全面爆发。
Runway推出了第一代"通用世界模型”GWM-1。该模型不仅能生成图像或视频,更重要的是能够理解世界的运行逻辑,模拟时间、空间、物理、动作和因果关系,并能在实时环境中进行交互、控制和泛化使用。它包含三个核心子系统:GWM-Worlds、GWM-Avatars以及GWM-Robotics。
数学家陶哲轩与多位合作者借助多种AI工具,在48小时内成功解决了尘封50年的数学难题Erdős #1026。解题过程中,团队先后使用了Harmonic的数学AI模型"亚里士多德”、AlphaEvolve、ChatGPT Pro等工具。这标志着"人+人+AI”的协作模式正成为解决复杂数学问题的新趋势。
Google发布了专为实时语音交互优化的Gemini 2.5 Flash Native Audio模型。该模型能直接生成自然语音输出,实现低延迟、语调自然的实时对话。其核心能力包括更聪明的函数调用、更强的指令理解,并首次推出了连续语音到语音实时翻译功能。
Google宣布将Gemini AI模型应用于Google Translate,显著提升翻译的自然性、准确度与上下文理解。语音翻译方面,推出了Gemini驱动的"语音对语音翻译”Beta功能,用户可通过耳机实时听到保留语调和情绪的翻译。
欧洲AI公司Mistral AI发布了新一代开源编码模型家族Devstral 2,包括123B参数的旗舰版和24B参数的轻量版。旗舰版在权威编码基准SWE-bench Verified上取得72.2分,性能逼近顶级闭源模型。
OPPO ColorOS将于12月推出一项名为"AI妙听”的新功能。该功能允许用户将文章一键转换为双人播客,并配有背景音乐,旨在通过重构内容提供更生动的听觉体验。
国产大模型Skywork正式发布移动端APP 5.0版本,其核心亮点是将"多Agent并行协作”落地到手机端。用户只需一句语音指令,系统即可同时唤醒多个专业Agent,并行生成要点摘要、待办清单、脑图、PPT等多种内容。
蚂蚁技术研究院近日开源了LLaDA2.0系列模型,这是业内首个参数规模达到1000亿的离散扩散大语言模型。该模型通过创新的训练策略,在保持高质量生成的同时,推理速度比同级自回归模型快2.1倍。
AI视频生成工具Medeo AI发布新版本,引入智能Agent架构,实现了颠覆性突破。新版工具支持通过自然语言指令实时、无限次地修改视频内容,如增删镜头或调整脚本,极大提升了创作灵活性。
Broadcom公司CEO在财报会议上透露,已收到来自AI公司Anthropic总计价值210亿美元的谷歌张量处理单元订单,预计将在2026年底前交付。Anthropic计划借此大规模扩展其AI基础设施,目标是在2026年前部署100万个TPU。
留言讨论