网捷达

原生多模态统一架构比不过单模态专家模型？华为团队出品的EMMA “Say No”

作者：Xin He， Longhui Wei等解读：AI生成未来背景与动机当前多模态大模型已经成为大模型领域最为重要的研究热点，尤其是随着OpenAI的GPT-4O展现出极强的多模交互生成能力，

模态架构模型 EMMA 2025-12-10

自动驾驶大模型中常提的泛化能力是指啥？

在讨论自动驾驶大模型时，常会有几个评价维度，如感知是否准确、决策是否稳定、系统是否足够鲁棒，以及模型有没有“泛化能力”。相比准确率、延迟这些容易量化的指标，“泛化能力”这个词看起来比较抽象，也更容易被

自动驾驶模型训练数据 2025-12-10

热点丨DeepSeek V3.2重磅更新，从模型层向系统层跃迁

前言：近日，DeepSeek的一场突发更新，这个以代码生成和硬核推理著称的[极客首选]，一口气抛出两款正式版模型DeepSeek-V3.2与DeepSeek-V3.2-Speciale。不仅在推理

DeepSeek 2025-12-08

如何训练好自动驾驶端到端模型？

最近有位小伙伴在后台留言提问：端到端算法是怎样训练的？是模仿学习、强化学习和离线强化学习这三类吗？其实端到端（end-to-end）算法在自动驾驶、智能体决策系统里，确实会用到模仿学习（包括行为克隆、

训练自动驾驶 2025-12-08

中美大模型“登月路”：谷歌与月之暗面的这一年

文｜魏琳华编｜王一粟两年前，面对OpenAI的突袭，节节败退的谷歌内部拉响了“红色警报”。为了应对这场可能动摇到谷歌根本业务——搜索的危机，谷歌作出了一个重大决定：2023年4月，谷歌将两个顶尖

人工智能 2025-12-05

仅用1张图1小时，比肩FLUX.1和Qwen，推理狂飙5倍！Glance用“快慢哲学”颠覆扩散模型！

作者：Zhuobai Dong等解读：AI生成未来亮点直击极致高效的训练：仅需?1 个样本，在?单张 V100 GPU?上不到?1 小时?即可完成训练。这与需要数千GPU小时（如 DMD2 需要

训练扩散模型蒸馏适配器 2025-12-05

延迟优先：英伟达发布 Nemotron-Flash，小模型也要“算得更快”

小型语言模型(SLM)的设计工作主要集中于减少参数数量以实现参数最优的 SLM，但参数效率并不一定能转化为实际设备上的相应加速。英伟达近日发表的论文解决了这一难题。该论文旨在识别 SLM 实际设备延

英伟达 2025-12-04

DeepSeek 一口气上新两款模型：性能直逼 Gemini-3.0-Pro

刚刚，DeepSeek 一口气推出两个新模型：DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。前者专注平衡推理能力与模型长度，可达到GPT-5 级别的性能，适用于日常问

DeepSeek 2025-12-04

“欧洲 DeepSeek”发布 Mistral 3 系列模型

昨日，素有 “欧洲 DeepSeek” 之称的 Mistral 3 上线，这是 Mistral 模型的下一代产品。 Mistral 3 包含三个先进的小型密集模型：140 亿、80 亿和 30 亿。M

Mistral 2025-12-04

OpenAI 买下 Neptune：给大模型装上“体检和记录仪”

OpenAI 又出手了，这次不是买芯片厂，也不是投算力公司，而是悄悄把“幕后工具人” Neptune 收进了自己怀里。 12 月 4 日，OpenAI 宣布与波兰创业公司 Neptune.ai 签署收

OpenAI 2025-12-04

港科大等提出音频驱动多人视频生成新范式 AnyTalker，解锁任意数量角色间的自然互动！

作者：Zhizhou Zhong等解读：AI生成未来亮点直击可扩展的多人驱动结构：本文提出了一种可扩展的多流处理结构 Audio-Face Cross Attention Layer，能够以循环

数据音频模型 2025-12-04

多模态理解生成“大一统”！Meta&港大等重磅发布Tuna：统一视觉表征，性能碾压Show-o2

作者：Zhiheng Liu等解读：AI生成未来亮点直击 Tuna，一个采用统一视觉表示的原生统一多模态模型，在一个单一框架内实现了图像/视频理解、图像/视频生成和图像编辑。广泛的实验表明，Tu

编码器模型多模态训练图像编辑 2025-12-03

DeepSeek杀出一条血路：国产大模型突围不靠运气！

【从注意力到Agent，能力跃迁的底层解法。】作者：高恒出品：高见观潮? 全文约3500字，阅读时间大约5分钟进入2025年末，全球大模型赛道的技术焦点几乎被Google重新夺回。Gemini 3

DeepSeek 大模型 2025-12-03

特斯拉再添一把火，「世界模型」如何重塑自动驾驶？

作者 |肖恩编辑 |德新两年一度的计算机视觉顶会ICCV 10月在美国檀香山闭幕，今年的最佳论文颁给了卡内基梅隆大学团队的BrickGPT，一种能从文本描述直接生成物理结构稳定并可实际搭建的积木机

特斯拉世界模型蔚来华为自动驾驶 2025-12-02

《黑客帝国》雏形已现？腾讯造出“可对话宇宙”，实时生成、任意交互，世界为你改变！

作者：Junshu Tang等解读：AI生成未来 Hunyuan-GameCraft-2将生成式世界模型从静态场景视频合成提升到开放式、遵循指令的交互式模拟。合成交互视频Pipeline展

模型视频推理训练交互 2025-12-02

ChatGPT三周年，那个“对话模型”如何重构我们的世界

2022年11月30日，太平洋时间下午12:14，OpenAI在博客上发布了一条看似平常的消息：推出一个名为ChatGPT的对话交互模型。当时的描述克制得近乎谦虚——“我们训练了一个名为ChatGPT

ChatGPT 对话交互模型 2025-12-01

给图像生成配“阅卷老师”！RubricRL拒绝黑盒瞎蒙，用细粒度量表驯服大模型，指哪改哪！

作者：Xuelu Feng等解读：AI生成未来亮点直击提出通用化基于量规的奖励设计方案，可同时适用于扩散模型与自回归文生图模型；构建提示词自适应、可分解的监督框架，显著提升模型训练的可解释性与

模型图像动态 2025-12-01

图像生成开源界又出“王炸”！南洋理工&阶跃星辰发布iMontage：解锁“多对多”生成新玩法！

作者：Zhoujie Fu等解读：AI生成未来亮点直击 iMontage统一模型，能够处理可变数量的输入/输出帧，有效衔接了视频生成与高动态图像生成领域。构建任务无关的时序多样化数据pipeli

图像模型生成输出图像编辑 2025-12-01

DeepSeek 开源全新数学模型 DeepSeekMath-V2，主打自验证框架

刚刚，DeepSeek 开源了全新的数学模型 DeepSeekMath-V2，专注可自验证的数学推理框架。 DeepSeek-Math-V2 在 IMO-ProofBench 和 IMO 2025（6

DeepSeek 2025-12-01

90 后华人副教授攻破 30 年数学猜想，生成式 AI 受益

塔拉格兰卷积猜想，困扰数学界 30 多年的问题，在近日被一名 90 后的华人副教授攻破。 1989 年，法国数学家 Michel Talagrand 提出了一个关于卷积应用于布尔超立方体上的 L 函数

生成式AI 2025-12-01

OpenAI最新智能编码模型GPT-5.1-Codex-Max：可24小时连续处理百万 Tokens

昨日，OpenAI 推出全新的前沿智能编码模型?GPT-5.1-Codex-Max。 GPT-5.1-Codex-Max 基于 GPT 基础推理模型的升级版构建而成，该模型已在软件工程、数学、研究等领

OpenAI 2025-12-01

何恺明新作：Just Image Transformer让去噪模型回归基本

当今的去噪扩散模型并非传统意义上的“去噪”。它们并不直接预测干净的图像。相反，神经网络预测的是噪声或带噪声的量。 ResNet 之父、麻省理工副教授何恺明新论文发现了这一问题。预测干净数据和预测带

何恺明 2025-12-01

π*0.6：一款能从经验中学习的VLA模型

今日，美国具身智能创业公司 Physical Intelligence（简称 PI ）发布了最新机器人基础模型?π*0.6。官方称，过去一年，机器人成功完成一半任务并不难，但要让它每次都成功却非常困

VLA 2025-12-01

监督稀疏解决了！DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law

近日，特斯拉在 ICCV 的会议中就分享了其当下面临的挑战 ——监督稀疏。监督信号是低维、稀疏的驾驶动作，和 VLA 高维、稠密的视觉信息流不符。即便使用海量数据也无法释放 VLA 模型的巨大潜力。

特斯拉 2025-12-01

李飞飞World Labs推出世界模型Marble：构建空间智能未来的基础

刚刚，李飞飞在社交平台上宣布，她的 AI 公司 World Labs 正式推出世界模型 Marble，11 月 12 日起向所有人开放。两个月前，World Labs 分享了 Marble 的预览版

李飞飞 2025-12-01

自动驾驶模型是如何“看”懂点云信息的？

在自动驾驶中，点云是一个非常重要的感知信号，如激光雷达（LiDAR）生成的点云，其实就是三维空间里一堆带坐标、强度和时间戳的点。单帧点云看起来像“星星撒一地”，不像图像那样有整齐的像素网格，也没有颜色

点云模型训练场景 2025-12-01

ICCV`25 | 视频交互“随心所欲”！复旦&通义万相等开源DreamRelation:让想象力从此无边界

作者：Yujie Wei等解读：AI生成未来亮点直击首个关系导向的视频定制框架：本工作首次尝试解决“关系视频定制”任务，即基于少量样本视频，生成具有特定交互关系（如握手、拥抱）但主体不同的新视频

视频矩阵生成 DreamRelation 2025-11-28

再见VAE！英伟达PixelDiT硬刚SD/FLUX：破局像素生成，端到端效果比肩隐空间模型

作者：Yongsheng Yu等解读：AI生成未来亮点直击 PixelDiT，一种单阶段、完全基于Transformer的像素空间扩散模型，无需单独的自编码器即可进行端到端训练。证明了高效的像素

像素模型空间图像 2025-11-27

重磅！阿里达摩院发布首个VLA与世界模型统一架构RynnVLA-002：97.4%成功率刷新认知

作者：Jun Cen等解读：AI生成未来亮点直击统一架构：RynnVLA-002，这是一个将视觉-语言-动作（VLA）模型与世界模型统一在单一框架中的“动作世界模型”。双向增强：实现了 VLA

模型训练机器人 RynnVLA 2025-11-25

AI芯天下丨热点丨谷歌Gemini 3.0强势来袭，模型定义应用成产业分水岭

前言：近日，蛰伏8个月的谷歌，以近乎突袭的方式推出新一代AI模型Gemini 3.0，瞬间改写了全球大模型的竞争格局。OpenAI CEO奥尔特曼罕见发文祝贺[这看起来是个很棒的模型]，特斯拉CEO马

电子工程 2025-11-25

构建中国能碳大模型新高地，格创东智联合上海交大、长三投落子能源与AI联合实验室

11月18日，上海市长三角绿洲智谷·赵巷园区迎来一场意义深远的创新合作。由格创东智、上海交通大学国家电投智慧能源创新学院与长三角投资（上海）有限公司下属长三角赵巷新兴产业经济发展（上海）有限公司共同成

格创东智 2025-11-24

硬刚GPT-Image-1？苹果最新UniGen-1.5强势发布：一个模型搞定理解+生成+编辑！

作者：Rui Tian等解读：AI生成未来亮点直击推出UniGen-1.5统一多模态大模型，通过创新的架构设计与训练流程，实现了先进的图像理解、生成与编辑能力融合。开创统一强化学习训练框架，借

图像图像编辑模型 2025-11-24

大模型中常提的快慢思考会对自动驾驶产生什么影响

2024年7月，理想汽车发布的基于端到端模型、VLM视觉语言模型和世界模型的全新自动驾驶技术架构标志着其全栈自研的智能驾驶研发进入了新阶段。该架构的算法原型创新性地受到了诺贝尔奖得主丹尼尔·卡尼曼提出

思维 VLM视觉语言模型 2025-11-24

谁将是唯一可能盈利的细分大模型？

文：诗与星空 ID：SingingUnderStars ? 2025年10月，一名美国网友通过ChatGPT分析其姐夫的ICU抢救账单，发现19.5万美元账单中存在16.2万美元的违规收费，最终账单降

公司盈利模型 2025-11-21

模型、数据、落地之争：具身智能来到“破晓”时刻

文｜魏琳华编｜王一粟 “具身智能，究竟发展到了哪个节点？”对于这个火爆但早期的产业，不少人都有这个疑问。一方面，是资本用真金白银投出的繁盛。据不完全统计，中国具身智能相关企业数量已接近百万家。今年

具身智能 2025-11-20

面对越来越强的模型和岗位消失，我们该做点什么？

面对模型越来越强，岗位消失和白领阵痛，个人和企业该如何应对？文｜王众编｜赵艳秋今天一早，被谷歌Gemini 3的发布刷屏了。大家都在感叹这是今年最强大模型。有人甚至直言：我们这一代人，可能刚刚站

大模型 2025-11-19

新加坡国立等发布WEAVE：首个上下文交错式跨模态理解与生成全套解决方案

作者：Wei Chow、Jiachun Pan等解读：AI生成未来亮点直击数据集创新：WEAVE-100k——首个面向多轮上下文感知图像理解与生成的大规模数据集。包含10万个样本、37万轮对话和

模型评估图像 WEAVEBench 2025-11-18

李飞飞“世界模型”最新成果：一张图像生成三维世界

9月17日凌晨，斯坦福大学教授李飞飞的创业公司 World Labs 发布了新成果 Marble。 World Labs 的官方账号声称：“从单张图像生成持久的 3D 世界，比以前更大、更好”。李飞

李飞飞 2025-11-17

宇树最新模型架构：理解机器人与环境的交互规律

9月15日，宇树宣布开源 UnifoLM-WMA-0，其为宇树科技跨多类机器人本体的开源世界模型-动作架构，专为通用机器人学习而设计，其核心理念在于设计一个可以理解机器人与环境交互物理规律的世界模型。

宇树科技 2025-11-17

阿里发布新基础模型架构Qwen3-Next：推理效率提升10倍

9月12日，阿里通义千问发布了下一代基础模型架构?Qwen3-Next，并开源了基于该架构的 Qwen3-Next-80B-A3B 系列模型。 X上的网友纷纷给出好评，表示设计出色、推理准确该结构相比

阿里 2025-11-17

视频生成模型