扩散模型
-
热点丨DeepSeek V3.2重磅更新,从模型层向系统层跃迁
前言: 近日,DeepSeek的一场突发更新,这个以代码生成和硬核推理著称的[极客首选],一口气抛出两款正式版模型DeepSeek-V3.2与DeepSeek-V3.2-Speciale。 不仅在推理
DeepSeek 2025-12-08 -
如何训练好自动驾驶端到端模型?
最近有位小伙伴在后台留言提问:端到端算法是怎样训练的?是模仿学习、强化学习和离线强化学习这三类吗?其实端到端(end-to-end)算法在自动驾驶、智能体决策系统里,确实会用到模仿学习(包括行为克隆、
-
中美大模型“登月路”:谷歌与月之暗面的这一年
文|魏琳华 编|王一粟 两年前,面对OpenAI的突袭,节节败退的谷歌内部拉响了“红色警报”。 为了应对这场可能动摇到谷歌根本业务——搜索的危机,谷歌作出了一个重大决定:2023年4月,谷歌将两个顶尖
人工智能 2025-12-05 -
仅用1张图1小时,比肩FLUX.1和Qwen,推理狂飙5倍!Glance用“快慢哲学”颠覆扩散模型!
作者:Zhuobai Dong等 解读:AI生成未来 亮点直击 极致高效的训练:仅需?1 个样本,在?单张 V100 GPU?上不到?1 小时?即可完成训练。这与需要数千GPU小时(如 DMD2 需要
-
延迟优先:英伟达发布 Nemotron-Flash,小模型也要“算得更快”
小型语言模型(SLM)的设计工作主要集中于减少参数数量以实现参数最优的 SLM,但参数效率并不一定能转化为实际设备上的相应加速。 英伟达近日发表的论文解决了这一难题。该论文旨在识别 SLM 实际设备延
英伟达 2025-12-04 -
DeepSeek 一口气上新两款模型:性能直逼 Gemini-3.0-Pro
刚刚,DeepSeek 一口气推出两个新模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。 前者专注平衡推理能力与模型长度,可达到GPT-5 级别的性能,适用于日常问
DeepSeek 2025-12-04 -
“欧洲 DeepSeek”发布 Mistral 3 系列模型
昨日,素有 “欧洲 DeepSeek” 之称的 Mistral 3 上线,这是 Mistral 模型的下一代产品。 Mistral 3 包含三个先进的小型密集模型:140 亿、80 亿和 30 亿。M
Mistral 2025-12-04 -
OpenAI 买下 Neptune:给大模型装上“体检和记录仪”
OpenAI 又出手了,这次不是买芯片厂,也不是投算力公司,而是悄悄把“幕后工具人” Neptune 收进了自己怀里。 12 月 4 日,OpenAI 宣布与波兰创业公司 Neptune.ai 签署收
OpenAI 2025-12-04 -
DeepSeek杀出一条血路:国产大模型突围不靠运气!
【从注意力到Agent,能力跃迁的底层解法。】 作者:高恒出品:高见观潮? 全文约3500字,阅读时间大约5分钟 进入2025年末,全球大模型赛道的技术焦点几乎被Google重新夺回。Gemini 3
-
-
ChatGPT三周年,那个“对话模型”如何重构我们的世界
2022年11月30日,太平洋时间下午12:14,OpenAI在博客上发布了一条看似平常的消息:推出一个名为ChatGPT的对话交互模型。当时的描述克制得近乎谦虚——“我们训练了一个名为ChatGPT
-
给图像生成配“阅卷老师”!RubricRL拒绝黑盒瞎蒙,用细粒度量表驯服大模型,指哪改哪!
作者:Xuelu Feng等 解读:AI生成未来 亮点直击 提出通用化基于量规的奖励设计方案,可同时适用于扩散模型与自回归文生图模型; 构建提示词自适应、可分解的监督框架,显著提升模型训练的可解释性与
-
DeepSeek 开源全新数学模型 DeepSeekMath-V2,主打自验证框架
刚刚,DeepSeek 开源了全新的数学模型 DeepSeekMath-V2,专注可自验证的数学推理框架。 DeepSeek-Math-V2 在 IMO-ProofBench 和 IMO 2025(6
DeepSeek 2025-12-01 -
OpenAI最新智能编码模型GPT-5.1-Codex-Max:可24小时连续处理百万 Tokens
昨日,OpenAI 推出全新的前沿智能编码模型?GPT-5.1-Codex-Max。 GPT-5.1-Codex-Max 基于 GPT 基础推理模型的升级版构建而成,该模型已在软件工程、数学、研究等领
OpenAI 2025-12-01 -
何恺明新作:Just Image Transformer让去噪模型回归基本
当今的去噪扩散模型并非传统意义上的“去噪”。 它们并不直接预测干净的图像。相反,神经网络预测的是噪声或带噪声的量。 ResNet 之父、麻省理工副教授何恺明新论文发现了这一问题。 预测干净数据和预测带
何恺明 2025-12-01 -
π*0.6:一款能从经验中学习的VLA模型
今日,美国具身智能创业公司 Physical Intelligence(简称 PI )发布了最新机器人基础模型?π*0.6。 官方称,过去一年,机器人成功完成一半任务并不难,但要让它每次都成功却非常困
VLA 2025-12-01 -
监督稀疏解决了!DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law
近日,特斯拉在 ICCV 的会议中就分享了其当下面临的挑战 ——监督稀疏。 监督信号是低维、稀疏的驾驶动作,和 VLA 高维、稠密的视觉信息流不符。即便使用海量数据也无法释放 VLA 模型的巨大潜力。
特斯拉 2025-12-01 -
李飞飞World Labs推出世界模型Marble:构建空间智能未来的基础
刚刚,李飞飞在社交平台上宣布,她的 AI 公司 World Labs 正式推出世界模型 Marble,11 月 12 日起向所有人开放。 两个月前,World Labs 分享了 Marble 的预览版
李飞飞 2025-12-01 -
自动驾驶模型是如何“看”懂点云信息的?
在自动驾驶中,点云是一个非常重要的感知信号,如激光雷达(LiDAR)生成的点云,其实就是三维空间里一堆带坐标、强度和时间戳的点。单帧点云看起来像“星星撒一地”,不像图像那样有整齐的像素网格,也没有颜色
-
再见VAE!英伟达PixelDiT硬刚SD/FLUX:破局像素生成,端到端效果比肩隐空间模型
作者:Yongsheng Yu等 解读:AI生成未来 亮点直击 PixelDiT,一种单阶段、完全基于Transformer的像素空间扩散模型,无需单独的自编码器即可进行端到端训练。 证明了高效的像素
-
-
重磅!阿里达摩院发布首个VLA与世界模型统一架构RynnVLA-002:97.4%成功率刷新认知
作者:Jun Cen等 解读:AI生成未来 亮点直击 统一架构:RynnVLA-002,这是一个将视觉-语言-动作(VLA)模型与世界模型统一在单一框架中的“动作世界模型”。 双向增强:实现了 VLA
-
AI芯天下丨热点丨谷歌Gemini 3.0强势来袭,模型定义应用成产业分水岭
前言:近日,蛰伏8个月的谷歌,以近乎突袭的方式推出新一代AI模型Gemini 3.0,瞬间改写了全球大模型的竞争格局。OpenAI CEO奥尔特曼罕见发文祝贺[这看起来是个很棒的模型],特斯拉CEO马
电子工程 2025-11-25 -
构建中国能碳大模型新高地,格创东智联合上海交大、长三投落子能源与AI联合实验室
11月18日,上海市长三角绿洲智谷·赵巷园区迎来一场意义深远的创新合作。由格创东智、上海交通大学国家电投智慧能源创新学院与长三角投资(上海)有限公司下属长三角赵巷新兴产业经济发展(上海)有限公司共同成
格创东智 2025-11-24 -
硬刚GPT-Image-1?苹果最新UniGen-1.5强势发布:一个模型搞定理解+生成+编辑!
作者:Rui Tian等 解读:AI生成未来 亮点直击 推出UniGen-1.5统一多模态大模型,通过创新的架构设计与训练流程,实现了先进的图像理解、生成与编辑能力融合。 开创统一强化学习训练框架,借
-
大模型中常提的快慢思考会对自动驾驶产生什么影响
2024年7月,理想汽车发布的基于端到端模型、VLM视觉语言模型和世界模型的全新自动驾驶技术架构标志着其全栈自研的智能驾驶研发进入了新阶段。该架构的算法原型创新性地受到了诺贝尔奖得主丹尼尔·卡尼曼提出
-
谁将是唯一可能盈利的细分大模型?
文:诗与星空 ID:SingingUnderStars ? 2025年10月,一名美国网友通过ChatGPT分析其姐夫的ICU抢救账单,发现19.5万美元账单中存在16.2万美元的违规收费,最终账单降
-
模型、数据、落地之争:具身智能来到“破晓”时刻
文|魏琳华 编|王一粟 “具身智能,究竟发展到了哪个节点?”对于这个火爆但早期的产业,不少人都有这个疑问。 一方面,是资本用真金白银投出的繁盛。据不完全统计,中国具身智能相关企业数量已接近百万家。今年
具身智能 2025-11-20 -
面对越来越强的模型和岗位消失,我们该做点什么?
面对模型越来越强,岗位消失和白领阵痛,个人和企业该如何应对? 文|王众 编|赵艳秋 今天一早,被谷歌Gemini 3的发布刷屏了。大家都在感叹这是今年最强大模型。有人甚至直言:我们这一代人,可能刚刚站
大模型 2025-11-19 -
李飞飞“世界模型”最新成果:一张图像生成三维世界
9月17日凌晨,斯坦福大学教授李飞飞的创业公司 World Labs 发布了新成果 Marble。 World Labs 的官方账号声称:“从单张图像生成持久的 3D 世界,比以前更大、更好”。 李飞
李飞飞 2025-11-17 -
宇树最新模型架构:理解机器人与环境的交互规律
9月15日,宇树宣布开源 UnifoLM-WMA-0,其为宇树科技跨多类机器人本体的开源世界模型-动作架构,专为通用机器人学习而设计,其核心理念在于设计一个可以理解机器人与环境交互物理规律的世界模型。
宇树科技 2025-11-17 -
阿里发布新基础模型架构Qwen3-Next:推理效率提升10倍
9月12日,阿里通义千问发布了下一代基础模型架构?Qwen3-Next,并开源了基于该架构的 Qwen3-Next-80B-A3B 系列模型。 X上的网友纷纷给出好评,表示设计出色、推理准确该结构相比
阿里 2025-11-17 -
小米又有新动作:开源首个原生端到端语音大模型
刚刚,小米音频隆重推出 Xiaomi-MiMo-Audio 模型。 这是首个原生端到端语音大模型,小米团队将预训练时间扩展至超过?1 亿小时,在各种音频任务中实现了小样本泛化。 MiMo-Audio-
小米 2025-11-17 -
美团最新推理模型来了:专注 Thinking,具备 SOTA 水准
今日,美团发布了最新推理模型 LongCat-Flash-Thinking。 该模型是国内首个同时具备「深度思考 + 工具调用」与「非形式化 + 形式化」推理能力相结合的大语言模型。模型总参数达?56
美团 2025-11-17 -
马斯克新模型:性价比之王!1/10 价格复刻 Gemini 2.5 性能
就在昨日,xAI 又推出 Grok 4 Fast。马斯克在自己的 X 平台上配文:2M 上下文窗口!除了支持 2M 的上下文窗口之外,新模型仅需?约1/10?的价格即可达到?Gemini 2.5 的性
马斯克 2025-11-17 -
阿里最新视觉语言模型 Qwen3-VL:明察、深思、广行
阿里通义千问于今日正式推出全新升级的 Qwen3-VL 系列——这是迄今为止 Qwen 系列中最强大的视觉语言模型。 Qwen3-VL 在文本理解与生成、感知与推理、上下文长度支撑、与Agent交互中
阿里 2025-11-17 -
Meta 开源首个世界代码模型:彻底改变代码生成!
就在刚刚,Meta FAIR 推出代码世界模型(CWM)。这是一个?32B 参数、上下文大小达 131k token?的研究模型,旨在探索世界模型如何改变代码生成和代码推理。 这是全球首个将世界模型系
Meta 2025-11-17 -
DeepSeek 最新实验模型 V3.2-Exp:首次引入稀疏注意力机制,推理更高效
DeepSeek 开源了最新的实验模型——V3.2-Exp。 V3.2-Exp 在 V3.1-Terminus 的基础上引入了?DeepSeek 稀疏注意力机制——可以优化长上下文场景下训练和推理的效
DeepSeek 2025-11-17 -
Meta 曝光第三代 ”分割一切“ 模型:根据提示即可理解概念
刚刚,X 上的一篇推文分享了关于 Meta SAM 3 的论文。该论文已被投稿至 ICLR 2026。 SAM 是 Meta 提出的“分割一切”模型。该模型于 2023 年 4 月公开,在自然语言和视
Meta 2025-11-17 -
吴新宙带领英伟达冲刺自动驾驶L4背后的VLA大模型算法
2023年8月,吴新宙算是在中国L2+智能辅助驾驶竞争顶峰--辅助驾驶进城之后离开小鹏汽车加入英伟达。2024年1月,特斯拉推出FSD V12 Beta端到端版本,智能辅助驾驶算法进入“端到端”阶段。
最新活动更多 >
-
12月9日立即报名>> 恩智浦创新技术峰会
-
12月15日立即申请试用>> 【免费试用】金升阳助力机器人行业电源国产化
-
深圳专场立即报名 >> 12月16-17日 AMD 嵌入式峰会
-
12月19日预约直播> OFweek 2025锂电池“零缺陷”生产技术在线峰会
-
12月19日立即报名>> 【线下会议】OFweek 2025(第十届)物联网产业大会
-
即日-12.25点击申报>> 维科杯·OFweek 2025(第四届)储能行业年度评选

