网捷达

π*0.6：一款能从经验中学习的VLA模型

今日，美国具身智能创业公司 Physical Intelligence（简称 PI ）发布了最新机器人基础模型?π*0.6。官方称，过去一年，机器人成功完成一半任务并不难，但要让它每次都成功却非常困

VLA 2025-12-01

重磅！阿里达摩院发布首个VLA与世界模型统一架构RynnVLA-002：97.4%成功率刷新认知

作者：Jun Cen等解读：AI生成未来亮点直击统一架构：RynnVLA-002，这是一个将视觉-语言-动作（VLA）模型与世界模型统一在单一框架中的“动作世界模型”。双向增强：实现了 VLA

模型训练机器人 RynnVLA 2025-11-25

VLA能解决自动驾驶中的哪些问题？

很多从事自动驾驶的小伙伴应该对VLA这个概念已经非常熟悉了。VLA即“Visual-Language-Action”（视觉—语言—动作）模型，它的核心是将视觉信息、语言表达和动作控制这三者整合到一个统

自动驾驶 VLA 2025-11-25

吴新宙带领英伟达冲刺自动驾驶L4背后的VLA大模型算法

2023年8月，吴新宙算是在中国L2+智能辅助驾驶竞争顶峰--辅助驾驶进城之后离开小鹏汽车加入英伟达。2024年1月，特斯拉推出FSD V12 Beta端到端版本，智能辅助驾驶算法进入“端到端”阶段。

吴新宙 VLA 驾驶 2025-11-17

VLA和世界模型，谁才是自动驾驶的最优解？

随着自动驾驶技术发展，其实现路径也呈现出两种趋势，一边是以理想、小鹏、小米为代表的VLA（视觉—语言—行动）模型路线；另一边则是以华为、蔚来为主导的世界模型（World Model）路线，这两种路径都

自动驾驶 2025-11-05

自动驾驶上常提的VLA与世界模型有什么区别？

VLA：把“看”和“说”连到“做”上自动驾驶中常提的VLA，全称是Vision-Language-Action，直译就是“视觉-语言-动作”。VLA的目标是把相机或传感器看到的画面、能理解和处理自然

自动驾驶 2025-10-14

为什么把VLA直接放上自动驾驶汽车没那么容易？

在自动驾驶领域，经常会有技术提出将VLA（视觉—语言—动作模型）应用到自动驾驶上。VLA的作用就是把看、懂、决策三件事交给一个大模型，摄像头看到画面，模型用“视觉＋语言”去理解场景和意图，最后直接输出

自动驾驶 VLA 2025-09-23

揭秘小鹏自动驾驶「基座模型」和「VLA大模型」

2025年的CVPR自动驾驶 Workshop上，小鹏汽车的Liu Xianming先生做了一篇名为《Scaling up Autonomous Driving via Large Foundatio

小鹏自动驾驶 2025-09-12

端到端自动驾驶的前世今生：不管VLA还是WM世界模型,都需要世界引擎。

2025年的CVPR自动驾驶Workshop上，香港大学的Li Hongyang做了一篇名为《自动驾驶端到端方法：现状与展望》的开场演讲。演讲给了端到端一个定义，并介绍了端到端的前世今生，以及挑战，

自动驾驶 2025-09-10

VLA与世界模型会让自动驾驶汽车走多远？

在一个雨夜的十字路口，你开车行驶到路中央，前方是一辆犹豫不决的电动车，左侧有一台打着转向灯的出租车，右后方突然闪过一束远光灯。这时候你会怎么做？经验丰富的司机往往会迅速分析，电动车可能突然横穿，出租车

模型驾驶推理数据 2025-09-01

VLA模型能帮助纯视觉自动驾驶走向成熟吗

最近在和一位小伙伴交流时，他提出了一个非常有趣的问题：VLA模型是否更适合纯视觉系统？它能帮助纯视觉系统算法走向成熟吗？这个问题非常有意思，对于这个问题，先讲结论，VLA（Vision-Languag

视觉语义模型 VLA 控制场景 2025-08-28

自动驾驶中常提的VLM是个啥？与VLA有什么区别？

自动驾驶车辆要在复杂多变的道路环境中安全行驶，不仅需要“看见”前方的车辆、行人和路面标志，还需要“读懂”交通标识上的文字提示、施工告示牌和乘客的语言指令。之前和大家讨论过VLA（相关阅读：自动驾驶中常

模型图像视觉自动驾驶 2025-08-08

具身智能VLA困于“数据泥潭”，靠人类活动视频数据能否破局？

前言尽管当前的视觉-语言-动作（VLA）模型已展现出显著进展，但其在新场景和与复杂物体交互中的性能会显著下降，在遵循指令方面落后于像LLaVA 这样的大型多模态模型（LMM）。这种局限性源于现有V

机器人视觉具身智能 2025-08-04

从“模仿”走向“思考”：VLA司机大模型带来的变化

芝能智芯出品 VLA（Vision-Language-Action）驾驶大模型是理想汽车在2025年八月即将实现重要落地的辅助驾驶。不同于第一代的结构化算法和第二代的端到端系统，采用了新的视觉-语言

模型推理驾驶 2025-07-31

VLA模型如何重塑具身智能 —— 8家国内外典型具身智能VLA模型梳理与分析

一、国外典型具身智能VLA架构国外4家典型的具身智能VLA模型：谷歌DeepMind RT-2、Physical AI? π0?、Figure AI Helix 、英伟达GR00T N1。 1.?谷

机器人英伟达 2025-07-14

谷歌具身智能VLA模型RT-H—— 基于语言的动作分层框架

2024年3月，谷歌DeepMind正式推出端到端的框架RT-H。它是一个带动作分层结构的机器人Transformer ——?将语言化动作作为高级任务描述与低级动作之间的中间预测层，从而通过语言化动作

机器人指令 RT-H 模型 2025-07-10

产业丨谷歌发布本地VLA模型，具身智能正在进入“端侧时代”

前言：如果过去十年机器人领域的焦点先后经历了[可见]的视觉感知、[可理解]的语言理解，那么在VLA模型出现之后，机器人开始进入[动作精准]的第三阶段。目前，VLA模型已逐渐成为具身智能行业的共识，被视为连接感知、语言和行为的通用架构

谷歌具身智能 2025-07-04

谷歌具身智能VLA大模型 —— Gemini Robotics : 将人工智能带入到物理世界

引言真正实用的机器人需要能够理解周围的物理世界，并以可靠且安全的方式与之交互。也就是说，基于物理实体的AI智能体必须具备鲁棒的人类级具身推理能力，即包含在物理具身世界中操作和运行所需的基础概念的世界知识体系

机器人谷歌具身智能智能体 2025-06-25

自动驾驶中常提的VLA是个啥？

随着自动驾驶技术落地，很多新技术或在其他领域被使用的技术也在自动驾驶行业中得到了实践，VLA就是其中一项，尤其是随着端到端大模型的提出，VLA在自动驾驶中的使用更加普遍。那VLA到底是个啥？它对于自动

自动驾驶 VLA 2025-06-18

一文看懂视觉语言动作模型（VLA）及其应用

VLA 应该是自动驾驶以及机器人产业前沿最热的 AI人工智能词语。我们之前文章《2025年，自动驾驶即将开“卷”的端到端大模型 2.0 - VLA (Vision Language Action)》也分享和预言过它是自动驾驶大模型2.0

视觉语言动作模型 2025-06-12

迈向人类级驾驶智能：VLA视觉语言的行动模型

芝能科技出品2025年，由于安全和强监管的作用，辅助驾驶行业正处于黎明前的黑暗。面对复杂的现实路况、多样的人类行为模式，以及传统AI在泛化和理解能力上的瓶颈，理想汽车在《AI Talk第二季》系统性的阐述了“VLA（视觉语言行动模型）”

智能驾驶视觉 2025-05-15

2025年，自动驾驶即将开“卷”的端到端大模型 2.0 - VLA (Vision Language Action)

太卷了，智能驾驶在国内的落地发展太迅速了，从体验功能端，大家开城大战打完了之后就进入点到点的落地战，点到点弄完了之后肯定Robotaxi大战；而在硬核的软件技术端，端到端大模型战在华为这个月宣布急攻端到端大模型的信息下，已经算是进入焦灼状态

机器人 VLA 自动驾驶视觉算法 2024-12-23

VLA