AI资讯 2025/10/30
AI 日报
AI内容摘要
AI正通过对话式创作简化设计与办公,并能自动生成营销视频与有声剧。
为应对算力需求,巨头投资AI数据中心,同时开发智能工具治理AI谣言。
人形机器人探索人机协作与隐私保护,高效图像模型与AR眼镜也获新突破。
Today’s AI News
AI正在将复杂的设计和办公软件操作简化为自然的对话式创作。用户现在可以通过与ChatGPT对话来直接指挥Adobe Express或Photoshop进行修图,其创作核心基于Adobe自家的Firefly模型,确保了生成作品的商用版权安全。与此同时,Google Gemini也实现了根据主题或文档一键生成图文并茂的演示文稿,极大地提升了日常办公和学习的效率。
为应对AI生成内容带来的审核挑战,OpenAI推出了一款名为gpt-oss-safeguard的开源审核工具。其革命性在于,它不再依赖关键词匹配,而是学会了阅读和理解规则。该系统能像人类一样,根据给定的"行为准则”进行推理判断,并提供详细的判决解释,使内容审核过程从一个不透明的"黑盒子”转变为一个透明、灵活且能够沟通的智能系统。
由OpenAI支持的机器人公司1X推出了售价2万美元的Neo 人形机器人,旨在进入家庭处理家务。该机器人的一大特点是,当遇到无法处理的复杂情况时,会请求人类专家通过VR设备进行远程操控,形成"AI学生”与"人类老师”的组合。为解决由此引发的隐私安全问题,厂商承诺将通过技术手段实时模糊处理人脸、设置禁入区域,并要求所有远程操控都必须经过用户的主动授权,这标志着人形机器人在探索人机协作与隐私保护边界的同时,正尝试从实验室走向家庭。
腾讯混元推出了国内首个交互式AI播客,彻底改变了传统的收听体验。用户在收听过程中可以随时通过语音或文字向AI提问,AI会根据上下文即时回答,将单向的"听”播客转变为双向的"聊”播客。此外,该功能还支持用户自定义节目风格和多达8种AI人声,甚至能将文章链接直接转化为一期双人对谈节目,使其成为一个全天候待命的私人知识陪聊。
为满足AI时代对算力的巨大需求,亚马逊云(AWS)宣布将在未来六年内向韩国追加投资50亿美元,用于建设更大规模的AI数据中心。此举旨在联合韩国SK集团,于2027年前建成韩国最大的AI算力设施,凸显了在全球AI军备竞赛中,数据中心作为基础设施的战略重要性,本质上是在为未来的AI应用发展储备"粮草”。
为满足AI对计算基础设施的庞大需求,NVIDIA推出了**“Omniverse DSX Blueprint”,这是一套为未来AI数据中心设计的"蓝图”。该方案利用DSX Boost技术在不扩建的情况下提升30%的计算能力,并通过DSX Flex技术智能接入包括太阳能和风能在内的可再生能源**。此外,它还运用数字孪生技术在虚拟世界中进行全面模拟,以确保这些"AI豪宅”能够高效、环保且快速地建成。
清华大学和快手联合研发了一款全新的SVG扩散模型,旨在取代传统AI绘画中效率低下的VAE模型。新模型通过彻底解决”语义纠缠”问题,能够精准地修改图像的特定属性而不影响其他部分,从而使训练效率飙升了6200%,图片生成速度也提升了3500%,实现了AI创作能力的重大突破。
Magic Leap和Google时隔多年再次达成战略合作,共同开发下一代AR眼镜。此次合作将结合Magic Leap在光学和波导设计方面的顶尖技术与Google强大的Raxium微型LED引擎。双方强强联合,旨在打造一款功能强大、佩戴舒适且时尚的设备,将数字信息与现实世界无缝融合,为用户提供一副"未来之眼”。
字节跳动旗下的豆包App推出**“AI多人有声剧”功能,能够全自动地将文字小说转化为配有不同角色声音、背景音乐和音效的广播剧。该系统的角色识别准确率高达98%,能精准拿捏人物情绪,使AI从一个"念稿机器”进化为一个能自导自演的“AI剧团”**,极大地解放了有声内容的生产力。
从字节"剪映”团队走出的资深人士创立新公司,致力于打造一个营销多模态Agent。该产品的目标是让中小企业用户通过与AI进行简单的对话,就能自动生成专业的营销短视频,无需学习复杂的编辑工具。这相当于为每个商家配备了一个随叫随到的**“AI视频团队”**,旨在大幅降低内容创作门槛。
面对AI可能被用于制造谣言的风险,抖音正积极用AI来治理AI谣言。平台开发了谣言治理智能体,能够24小时全网搜索权威信息进行主动识别和处理,并推出了**“AI抖音求真”功能,在潜在误导性内容旁提供官方辟谣链接。同时,抖音倡导所有创作者明确标注AI生成内容,致力于为人工智能生成内容(AIGC)**的健康发展建立可靠的规则。
Soul公司最新推出了SoulX-Podcast模型,这是一款专为音频内容创作设计的AI工具,能够生成超过90分钟的超长稳定对话。该模型不仅精通普通话、英语甚至多种方言,还能精准模仿人类的笑声、叹气和停顿等细微情绪。其最核心的技术是强大的”零样本克隆”能力,可以快速复制任何人的声音和语气,标志着AI播客时代正加速到来。
谷歌实验室推出了一款名为Pomelli的营销工具,旨在帮助中小企业主解决品牌形象设计和营销素材制作的难题。用户只需提供公司网站,Pomelli就能自动分析并提炼出企业的**“品牌DNA”**,随后基于此生成一系列符合品牌调性的营销点子和配套的图文、广告横幅等物料,让专业的品牌营销变得简单高效。
留言讨论