网捷达

热点丨DeepSeek V3.2重磅更新，从模型层向系统层跃迁

前言：近日，DeepSeek的一场突发更新，这个以代码生成和硬核推理著称的[极客首选]，一口气抛出两款正式版模型DeepSeek-V3.2与DeepSeek-V3.2-Speciale。不仅在推理

DeepSeek 2025-12-08

如何训练好自动驾驶端到端模型？

最近有位小伙伴在后台留言提问：端到端算法是怎样训练的？是模仿学习、强化学习和离线强化学习这三类吗？其实端到端（end-to-end）算法在自动驾驶、智能体决策系统里，确实会用到模仿学习（包括行为克隆、

训练自动驾驶 2025-12-08

中美大模型“登月路”：谷歌与月之暗面的这一年

文｜魏琳华编｜王一粟两年前，面对OpenAI的突袭，节节败退的谷歌内部拉响了“红色警报”。为了应对这场可能动摇到谷歌根本业务——搜索的危机，谷歌作出了一个重大决定：2023年4月，谷歌将两个顶尖

人工智能 2025-12-05

仅用1张图1小时，比肩FLUX.1和Qwen，推理狂飙5倍！Glance用“快慢哲学”颠覆扩散模型！

作者：Zhuobai Dong等解读：AI生成未来亮点直击极致高效的训练：仅需?1 个样本，在?单张 V100 GPU?上不到?1 小时?即可完成训练。这与需要数千GPU小时（如 DMD2 需要

训练扩散模型蒸馏适配器 2025-12-05

延迟优先：英伟达发布 Nemotron-Flash，小模型也要“算得更快”

小型语言模型(SLM)的设计工作主要集中于减少参数数量以实现参数最优的 SLM，但参数效率并不一定能转化为实际设备上的相应加速。英伟达近日发表的论文解决了这一难题。该论文旨在识别 SLM 实际设备延

英伟达 2025-12-04

DeepSeek 一口气上新两款模型：性能直逼 Gemini-3.0-Pro

刚刚，DeepSeek 一口气推出两个新模型：DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。前者专注平衡推理能力与模型长度，可达到GPT-5 级别的性能，适用于日常问

DeepSeek 2025-12-04

“欧洲 DeepSeek”发布 Mistral 3 系列模型

昨日，素有 “欧洲 DeepSeek” 之称的 Mistral 3 上线，这是 Mistral 模型的下一代产品。 Mistral 3 包含三个先进的小型密集模型：140 亿、80 亿和 30 亿。M

Mistral 2025-12-04

OpenAI 买下 Neptune：给大模型装上“体检和记录仪”

OpenAI 又出手了，这次不是买芯片厂，也不是投算力公司，而是悄悄把“幕后工具人” Neptune 收进了自己怀里。 12 月 4 日，OpenAI 宣布与波兰创业公司 Neptune.ai 签署收

OpenAI 2025-12-04

DeepSeek杀出一条血路：国产大模型突围不靠运气！

【从注意力到Agent，能力跃迁的底层解法。】作者：高恒出品：高见观潮? 全文约3500字，阅读时间大约5分钟进入2025年末，全球大模型赛道的技术焦点几乎被Google重新夺回。Gemini 3

DeepSeek 大模型 2025-12-03

特斯拉再添一把火，「世界模型」如何重塑自动驾驶？

作者 |肖恩编辑 |德新两年一度的计算机视觉顶会ICCV 10月在美国檀香山闭幕，今年的最佳论文颁给了卡内基梅隆大学团队的BrickGPT，一种能从文本描述直接生成物理结构稳定并可实际搭建的积木机

特斯拉世界模型蔚来华为自动驾驶 2025-12-02

ChatGPT三周年，那个“对话模型”如何重构我们的世界

2022年11月30日，太平洋时间下午12:14，OpenAI在博客上发布了一条看似平常的消息：推出一个名为ChatGPT的对话交互模型。当时的描述克制得近乎谦虚——“我们训练了一个名为ChatGPT

ChatGPT 对话交互模型 2025-12-01

给图像生成配“阅卷老师”！RubricRL拒绝黑盒瞎蒙，用细粒度量表驯服大模型，指哪改哪！

作者：Xuelu Feng等解读：AI生成未来亮点直击提出通用化基于量规的奖励设计方案，可同时适用于扩散模型与自回归文生图模型；构建提示词自适应、可分解的监督框架，显著提升模型训练的可解释性与

模型图像动态 2025-12-01

DeepSeek 开源全新数学模型 DeepSeekMath-V2，主打自验证框架

刚刚，DeepSeek 开源了全新的数学模型 DeepSeekMath-V2，专注可自验证的数学推理框架。 DeepSeek-Math-V2 在 IMO-ProofBench 和 IMO 2025（6

DeepSeek 2025-12-01

OpenAI最新智能编码模型GPT-5.1-Codex-Max：可24小时连续处理百万 Tokens

昨日，OpenAI 推出全新的前沿智能编码模型?GPT-5.1-Codex-Max。 GPT-5.1-Codex-Max 基于 GPT 基础推理模型的升级版构建而成，该模型已在软件工程、数学、研究等领

OpenAI 2025-12-01

何恺明新作：Just Image Transformer让去噪模型回归基本

当今的去噪扩散模型并非传统意义上的“去噪”。它们并不直接预测干净的图像。相反，神经网络预测的是噪声或带噪声的量。 ResNet 之父、麻省理工副教授何恺明新论文发现了这一问题。预测干净数据和预测带

何恺明 2025-12-01

π*0.6：一款能从经验中学习的VLA模型

今日，美国具身智能创业公司 Physical Intelligence（简称 PI ）发布了最新机器人基础模型?π*0.6。官方称，过去一年，机器人成功完成一半任务并不难，但要让它每次都成功却非常困

VLA 2025-12-01

监督稀疏解决了！DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law

近日，特斯拉在 ICCV 的会议中就分享了其当下面临的挑战 ——监督稀疏。监督信号是低维、稀疏的驾驶动作，和 VLA 高维、稠密的视觉信息流不符。即便使用海量数据也无法释放 VLA 模型的巨大潜力。

特斯拉 2025-12-01

李飞飞World Labs推出世界模型Marble：构建空间智能未来的基础

刚刚，李飞飞在社交平台上宣布，她的 AI 公司 World Labs 正式推出世界模型 Marble，11 月 12 日起向所有人开放。两个月前，World Labs 分享了 Marble 的预览版

李飞飞 2025-12-01

自动驾驶模型是如何“看”懂点云信息的？

在自动驾驶中，点云是一个非常重要的感知信号，如激光雷达（LiDAR）生成的点云，其实就是三维空间里一堆带坐标、强度和时间戳的点。单帧点云看起来像“星星撒一地”，不像图像那样有整齐的像素网格，也没有颜色

点云模型训练场景 2025-12-01

再见VAE！英伟达PixelDiT硬刚SD/FLUX：破局像素生成，端到端效果比肩隐空间模型

作者：Yongsheng Yu等解读：AI生成未来亮点直击 PixelDiT，一种单阶段、完全基于Transformer的像素空间扩散模型，无需单独的自编码器即可进行端到端训练。证明了高效的像素

像素模型空间图像 2025-11-27

端到端像素扩散天降外挂！北大&华为等开源DeCo：生图质量超越SD3、OmniGen2等

作者：Zehong Ma等解读：AI生成未来亮点直击 DeCo解耦框架：DiT专注低频语义建模（采用下采样输入）；轻量级像素解码器重建高频信号。创新频率感知损失函数：通过DCT转换至频域；基于J

解码器像素高频模型图像 2025-11-26

重磅！阿里达摩院发布首个VLA与世界模型统一架构RynnVLA-002：97.4%成功率刷新认知

作者：Jun Cen等解读：AI生成未来亮点直击统一架构：RynnVLA-002，这是一个将视觉-语言-动作（VLA）模型与世界模型统一在单一框架中的“动作世界模型”。双向增强：实现了 VLA

模型训练机器人 RynnVLA 2025-11-25

AI芯天下丨热点丨谷歌Gemini 3.0强势来袭，模型定义应用成产业分水岭

前言：近日，蛰伏8个月的谷歌，以近乎突袭的方式推出新一代AI模型Gemini 3.0，瞬间改写了全球大模型的竞争格局。OpenAI CEO奥尔特曼罕见发文祝贺[这看起来是个很棒的模型]，特斯拉CEO马

电子工程 2025-11-25

构建中国能碳大模型新高地，格创东智联合上海交大、长三投落子能源与AI联合实验室

11月18日，上海市长三角绿洲智谷·赵巷园区迎来一场意义深远的创新合作。由格创东智、上海交通大学国家电投智慧能源创新学院与长三角投资（上海）有限公司下属长三角赵巷新兴产业经济发展（上海）有限公司共同成

格创东智 2025-11-24

硬刚GPT-Image-1？苹果最新UniGen-1.5强势发布：一个模型搞定理解+生成+编辑！

作者：Rui Tian等解读：AI生成未来亮点直击推出UniGen-1.5统一多模态大模型，通过创新的架构设计与训练流程，实现了先进的图像理解、生成与编辑能力融合。开创统一强化学习训练框架，借

图像图像编辑模型 2025-11-24

大模型中常提的快慢思考会对自动驾驶产生什么影响

2024年7月，理想汽车发布的基于端到端模型、VLM视觉语言模型和世界模型的全新自动驾驶技术架构标志着其全栈自研的智能驾驶研发进入了新阶段。该架构的算法原型创新性地受到了诺贝尔奖得主丹尼尔·卡尼曼提出

思维 VLM视觉语言模型 2025-11-24

谁将是唯一可能盈利的细分大模型？

文：诗与星空 ID：SingingUnderStars ? 2025年10月，一名美国网友通过ChatGPT分析其姐夫的ICU抢救账单，发现19.5万美元账单中存在16.2万美元的违规收费，最终账单降

公司盈利模型 2025-11-21

模型、数据、落地之争：具身智能来到“破晓”时刻

文｜魏琳华编｜王一粟 “具身智能，究竟发展到了哪个节点？”对于这个火爆但早期的产业，不少人都有这个疑问。一方面，是资本用真金白银投出的繁盛。据不完全统计，中国具身智能相关企业数量已接近百万家。今年

具身智能 2025-11-20

面对越来越强的模型和岗位消失，我们该做点什么？

面对模型越来越强，岗位消失和白领阵痛，个人和企业该如何应对？文｜王众编｜赵艳秋今天一早，被谷歌Gemini 3的发布刷屏了。大家都在感叹这是今年最强大模型。有人甚至直言：我们这一代人，可能刚刚站

大模型 2025-11-19

李飞飞“世界模型”最新成果：一张图像生成三维世界

9月17日凌晨，斯坦福大学教授李飞飞的创业公司 World Labs 发布了新成果 Marble。 World Labs 的官方账号声称：“从单张图像生成持久的 3D 世界，比以前更大、更好”。李飞

李飞飞 2025-11-17

宇树最新模型架构：理解机器人与环境的交互规律

9月15日，宇树宣布开源 UnifoLM-WMA-0，其为宇树科技跨多类机器人本体的开源世界模型-动作架构，专为通用机器人学习而设计，其核心理念在于设计一个可以理解机器人与环境交互物理规律的世界模型。

宇树科技 2025-11-17

阿里发布新基础模型架构Qwen3-Next：推理效率提升10倍

9月12日，阿里通义千问发布了下一代基础模型架构?Qwen3-Next，并开源了基于该架构的 Qwen3-Next-80B-A3B 系列模型。 X上的网友纷纷给出好评，表示设计出色、推理准确该结构相比

阿里 2025-11-17

小米又有新动作：开源首个原生端到端语音大模型

刚刚，小米音频隆重推出 Xiaomi-MiMo-Audio 模型。这是首个原生端到端语音大模型，小米团队将预训练时间扩展至超过?1 亿小时，在各种音频任务中实现了小样本泛化。 MiMo-Audio-

小米 2025-11-17

美团最新推理模型来了：专注 Thinking，具备 SOTA 水准

今日，美团发布了最新推理模型 LongCat-Flash-Thinking。该模型是国内首个同时具备「深度思考 + 工具调用」与「非形式化 + 形式化」推理能力相结合的大语言模型。模型总参数达?56

美团 2025-11-17

马斯克新模型：性价比之王！1/10 价格复刻 Gemini 2.5 性能

就在昨日，xAI 又推出 Grok 4 Fast。马斯克在自己的 X 平台上配文：2M 上下文窗口！除了支持 2M 的上下文窗口之外，新模型仅需?约1/10?的价格即可达到?Gemini 2.5 的性

马斯克 2025-11-17

阿里最新视觉语言模型 Qwen3-VL：明察、深思、广行

阿里通义千问于今日正式推出全新升级的 Qwen3-VL 系列——这是迄今为止 Qwen 系列中最强大的视觉语言模型。 Qwen3-VL 在文本理解与生成、感知与推理、上下文长度支撑、与Agent交互中