网捷达

多任务多模态全统一！港科大&快手可灵等最新UnityVideo:生成、理解、控制多项SOTA！

作者：Jiehui Huang等解读：AI生成未来亮点直击统一框架：UnityVideo，一个统一的多模态、多任务视频生成与理解框架。在基于DiT的架构中，实现了文本到视频生成、可控视频生成以及

模型 UnityVideo 数据训练 2025-12-12

1步顶100步！TwinFlow:无需教师模型，仅单步推理，Qwen-Image-20B生成速度涨100倍！

作者：Zhenglin Cheng等解读：AI生成未来亮点直击简单而有效的一步生成框架。提出了一种一步生成框架，该框架不需要辅助训练模型（GAN 判别器）或冻结的教师模型（不同的/一致性蒸馏），

模型训练图像 TWINFLOW 2025-12-11

港科大等提出音频驱动多人视频生成新范式 AnyTalker，解锁任意数量角色间的自然互动！

作者：Zhizhou Zhong等解读：AI生成未来亮点直击可扩展的多人驱动结构：本文提出了一种可扩展的多流处理结构 Audio-Face Cross Attention Layer，能够以循环

数据音频模型 2025-12-04

多模态理解生成“大一统”！Meta&港大等重磅发布Tuna：统一视觉表征，性能碾压Show-o2

作者：Zhiheng Liu等解读：AI生成未来亮点直击 Tuna，一个采用统一视觉表示的原生统一多模态模型，在一个单一框架内实现了图像/视频理解、图像/视频生成和图像编辑。广泛的实验表明，Tu

编码器模型多模态训练图像编辑 2025-12-03

《黑客帝国》雏形已现？腾讯造出“可对话宇宙”，实时生成、任意交互，世界为你改变！

作者：Junshu Tang等解读：AI生成未来 Hunyuan-GameCraft-2将生成式世界模型从静态场景视频合成提升到开放式、遵循指令的交互式模拟。合成交互视频Pipeline展

模型视频推理训练交互 2025-12-02

给图像生成配“阅卷老师”！RubricRL拒绝黑盒瞎蒙，用细粒度量表驯服大模型，指哪改哪！

作者：Xuelu Feng等解读：AI生成未来亮点直击提出通用化基于量规的奖励设计方案，可同时适用于扩散模型与自回归文生图模型；构建提示词自适应、可分解的监督框架，显著提升模型训练的可解释性与

模型图像动态 2025-12-01

图像生成开源界又出“王炸”！南洋理工&阶跃星辰发布iMontage：解锁“多对多”生成新玩法！

作者：Zhoujie Fu等解读：AI生成未来亮点直击 iMontage统一模型，能够处理可变数量的输入/输出帧，有效衔接了视频生成与高动态图像生成领域。构建任务无关的时序多样化数据pipeli

图像模型生成输出图像编辑 2025-12-01

90 后华人副教授攻破 30 年数学猜想，生成式 AI 受益

塔拉格兰卷积猜想，困扰数学界 30 多年的问题，在近日被一名 90 后的华人副教授攻破。 1989 年，法国数学家 Michel Talagrand 提出了一个关于卷积应用于布尔超立方体上的 L 函数

生成式AI 2025-12-01

再见VAE！英伟达PixelDiT硬刚SD/FLUX：破局像素生成，端到端效果比肩隐空间模型

作者：Yongsheng Yu等解读：AI生成未来亮点直击 PixelDiT，一种单阶段、完全基于Transformer的像素空间扩散模型，无需单独的自编码器即可进行端到端训练。证明了高效的像素

像素模型空间图像 2025-11-27

硬刚GPT-Image-1？苹果最新UniGen-1.5强势发布：一个模型搞定理解+生成+编辑！

作者：Rui Tian等解读：AI生成未来亮点直击推出UniGen-1.5统一多模态大模型，通过创新的架构设计与训练流程，实现了先进的图像理解、生成与编辑能力融合。开创统一强化学习训练框架，借

图像图像编辑模型 2025-11-24

新加坡国立等发布WEAVE：首个上下文交错式跨模态理解与生成全套解决方案

作者：Wei Chow、Jiachun Pan等解读：AI生成未来亮点直击数据集创新：WEAVE-100k——首个面向多轮上下文感知图像理解与生成的大规模数据集。包含10万个样本、37万轮对话和

模型评估图像 WEAVEBench 2025-11-18

李飞飞“世界模型”最新成果：一张图像生成三维世界

9月17日凌晨，斯坦福大学教授李飞飞的创业公司 World Labs 发布了新成果 Marble。 World Labs 的官方账号声称：“从单张图像生成持久的 3D 世界，比以前更大、更好”。李飞

李飞飞 2025-11-17

Meta 开源首个世界代码模型：彻底改变代码生成！

就在刚刚，Meta FAIR 推出代码世界模型（CWM）。这是一个?32B 参数、上下文大小达 131k token?的研究模型，旨在探索世界模型如何改变代码生成和代码推理。这是全球首个将世界模型系

Meta 2025-11-17

美团又开源视频生成模型，生成能力可达 SOTA 水平

继音频生成模型 LongCat-Audio 后，美团 LongCat 又发布新的视频生成模型。据官方通报，该模型在文生（Text-to-Video）、图生（Image-to-Video）两大任务上达

美团 2025-11-14

一步直接封神！单步扩散媲美250步教师模型！中科大&amp;字节发布图像生成“分层蒸馏术”

作者：Hanbo Cheng等解读：AI生成未来亮点直击系统性分析与统一视角：对轨迹蒸馏（TD）进行了系统性分析，揭示了其本质是一种有损压缩过程。这一视角解释了为何TD方法虽然能有效保留全局结构

模型蒸馏 2025-11-14

a16z最新AI百强榜：硅谷顶级VC带你读懂全球生成式AI赛道最新趋势

在去年爆发式增长后，生成式AI消费应用市场正在悄然进入新阶段。日前，全球顶级风投机构Andreessen Horowitz（简称a16z）发布了第五版《The Top 100 Gen AI Cons

模型 ChatGPT 2025-08-29

AI生成图片，哪家强？

AI的渗透正无远弗届。正如很多插画网站，添加“AI生成”标签已是标配。从艺术角度看，AI生成的图片，似乎争议依然巨大。但不得不承认的是，在工作和学习中，AI图片生成却是一个提高效率的好办法。目前，

Gemini 测评 2025-08-29

昆仑万维UniPic 2.0“小钢炮”模型炸场，一个模型搞定理解+生成+编辑

文｜魏琳华编｜王一粟大模型又迎来新一波的迭代周期。近日，从Open AI发布GPT-5，到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周，连续

AI 昆仑万维模型 2025-08-14

视频生成模型大盘点：谁能定义下一代内容？

你被AI视频包围了吗？新眸原创·作者 | 简瑜过去两个月，不少人被一段“动物跳水”短视频刷了屏——在标准跳水台上，大象、小猪、柯基轮番登场，以高难度的动作跳入水中，甚至耳边还会伴随有专业的赛事解说

视频模型生成 2025-08-07

一句话生成3D世界！Google发布Genie3，或引爆世界模型大战？

一句话，生成一个几分钟的3D世界。过去两周，大模型圈又热闹了起来。上周阿里在 Qwen 系列上再度加码，连发多个开源模型；这周紧接着，OpenAI 在沉寂五年后首次开放自家语言模型权重，在北京时间

Google 阿里 OpenAI 世界模型通用世界模型 2025-08-07

产业元宇宙重启:生成式AI如何催化虚实共生的生产力裂变?

作者：彭昭（智次方创始人、云和资本联合创始合伙人）物联网智库原创这是我的第382篇专栏文章。最近，越来越多的朋友跟我提起“元宇宙”这个久违了的名词，还记得两年前“元宇宙”席卷全球时，无数企业、

宇宙产业虚拟 2025-08-06

生成式AI→物理AI:智能体经济正重塑"新基建"底座

作者：彭昭（智次方创始人、云和资本联合创始合伙人）物联网智库原创这是我的第380篇专栏文章。 7月17日，在第三届链博会活动中，英伟达公司创始人兼CEO黄仁勋与之江实验室主任、阿里云创始人王坚进

智能题物理 2025-07-31

Odyssey新“世界模型”：让你进入视频的世界，沉浸交互、实时生成

最近有一个挺有意思的模型。在伦敦的初创公司Odyssey，上线了一个 “互动视频生成模型”。它把视频，变成了一个可以互动、实时生成的世界。就像玩第一人称一样，可以在视频里逛来逛去

Odyssey 2025-06-12

多模态2025：技术路线“神仙打架”，视频生成冲上云霄

文｜魏琳华编｜王一粟一场大会，聚集了中国多模态大模型的“半壁江山”。智源大会2025为期两天的论坛中，汇集了学界、创业公司和大厂等三方的热门选手，关于多模态的集中讨论达到了前所未有的热度

AI 多模态视频生成 2025-06-11

视频生成大模型的2025半年“赛点”：向左刷榜“跑分”，向右刷屏“跑量”

文 | 智能相对论作者 | 陈泊丞果然，一如当年Sora的发布一般炸裂，在AI视频生成上还得看国外厂商秀操作？！在举办的2025 Google I/O开发者大会上，谷歌带来视频生成类大模型领域的又一重磅产品Veo 3

大模型 2025-06-06

生成式AI狂飙突进：自动驾驶的“开挂”秘籍与暗礁突围战！

引言当你坐在车里，双手悠闲地放在腿上，车辆自动穿梭在车水马龙的街道，精准避开各种突发状况，宛如一位经验老道的 “老司机”。没错，这就是自动驾驶的魅力！而如今，生成式 AI 就像给自动驾驶装上了超级 “外挂”，正带着它一路狂飙

生成式AI 自动驾驶 2025-05-12

研华NVIDIAJetsonOrinNano系统支持SuperMode提升生成式AI性能1.7倍

2025年春季— 研华科技，作为全球工业嵌入式 AI 解决方案供应商，宣布推出搭载NVIDIA Jetson Orin Nano 8GB系统模块的AI边缘运算系统，EPC-R7300 Orin Nano Super

研华 2025-03-07

好莱坞将Sora拒之门外！视频生成模型还得靠短剧打打样？

还是中国玩家会玩。美国著名导演、演员本·阿弗莱克（Ben Affleck）曾表示，AI虽无法完全取代电影创作，但能够取代电影制作中“费时费力却缺乏创意”的环节

Sora 可灵即梦视频生成模型短剧 2025-02-11

我把DeepSeek装进了电脑里：生成能力一般，但确实很好玩

本地部署还是硬核玩家的玩法。这个春节假期，要说“红得发紫”的科技产品，DeepSeek应该当之无愧。甚至平时对科技新闻毫不在意的长辈们，也走过来问小雷有没有听说过DeepSeek

DeepSeek 深度求索大模型 AI AIPC 2025-02-08

Sora之后，视频生成模型的中国牌局

Sora，自2月16日OpenAI发布后一直被吐槽是“技术期货”，终于在12月10日，正式版Sora露面了，可以生成最高 1080p 分辨率、最长 20 秒的视频。 OpenAI CEO奥特曼称，Sora正式版是视频生成领域的GPT-1时刻

AI Sora 视频生成模型 2024-12-12

大模型在先,小模型在后,生成式AI试水工业,如何破局数据短缺/可靠性不足?

作者：彭昭（智次方创始人、云和资本联合创始合伙人）物联网智库原创这是我的第352篇专栏文章。在我之前的文章《从LLM大模型到SLM小模型再到TinyML,这个领域有望增长31倍》中，曾经提到小模型SLM的进展，如今这一领域正在悄然发生突破

生成式AI 大模型 2024-12-11

聚焦生成式AI，商汤的孤注“1”掷

在大模型开启的AI新纪元里，科技行业迎来前所未有的大变局。在不久前，商汤科技联合创始人、执行董事徐冰公开表示，我们可能正处于历史上最好的起点，正处于可能是有史以来最大的科技变革浪潮。商汤要更具适应性、更具弹性，并能够快速转型

时代架构业务行业生成式AI 商汤 2024-12-05

AI版《我的世界》震撼欧美，AI实时生成成下一个大风口？

把AI融入，已经不是什么新鲜话题了。早在2005年的《极度恐慌》中，Monolith Productions就通过引入AI的方法，让中的敌人拥有了简单的思考能力，他们会通过简单的指令进行沟通、会通过玩家的行为判断威胁性，甚至会利用地图和手上的武器进行包抄等战术操作

AI 我的世界 AIGC 互动视频 2024-11-07

英伟达：生成式AI时代的赢家，市值再超苹果成全球最高

文/杨剑勇英伟达的市值再次超过苹果，成为全球市值最高的公司，当前市值高达3.43万亿美元（人民币约合24.45万亿）。毋庸置疑，在生成式AI时代，英伟达无疑是最大赢家，不仅营收成倍增长，在资本市场上的表现也是一路狂飙，是地表最强个股

英伟达生成式AI 2024-11-06

押注生成式AI，商汤科技也开始走到“台前”鏖战？

【摘要】商汤科技近年来的财务表现不尽如人意，2023年营收下降10.57%，净利润亏损达64.40亿人民币，毛利率也从2022年的66.75%大幅下滑至2023年的44.07%。面对资金流紧张和应收账款减值高达53%的挑战，商汤在成本控制和业务扩展上面临巨大压力

商汤科技生成式AI 2024-09-09

实测4款头部PPT生成大模型：配图错误频发、数据可视化集体翻车

大模型从图文、图片、视频卷到了PPT生成，但距离“一键生成”的终极目标还有明显距离，这就得看谁能持续“烧钱”完成进步了

PPT 大模型讯飞智文 2024-08-27

“自动驾驶第一股”进军“生成式AI”

近日，“自动驾驶第一股” 的图森未来于宣布正式进军生成式人工智能（AIGC）领域。公司与上海三体动漫有限公司达成合作，共同开发基于科幻小说《三体》系列的动画电影和视频，标志着图森未来生成式 AI 新业务部门的成立

图森未来 2024-08-19

景鲲要再造一个百度？生成式AI颠覆搜索为时尚早

AI搜索不是救世主，但是一种新选择。这一轮生成式 AI 引发的浪潮可以说愈演愈烈，几乎每隔一段时间就会有新的 AI 公司和 AI 产品出现在我们的面前，也能看到很多已经功成名就的人选择投身 AI 创业热潮

AI 大模型搜索 AI搜索百度 2024-06-24

Sora发布半年之后，AI视频生成领域风云再起

作者：一号编辑：美美 AI视频最近有些疯狂，Sora可能要着急了。自OpenAI的Sora发布以来，AI视频生成技术便成为了科技界的热门话题。尽管Sora以其卓越的性能赢得了广泛关注，但其迟迟未能面向公众开放，让人期待之余也不免有些焦虑

AI Sora AI视频生成 2024-06-19

聚焦“智物融合，AI碳索”，涂鸦智能以生成式AI引领行业创新潮流

5月29日，2024 TUYA全球开发者大会在深圳福田香格里拉正式开幕。全球化云开发者平台涂鸦智能（NYSE: TUYA，HKEX: 2391）携手行业翘楚，举办了一系列主题论坛活动。其中，主论坛分为上半场与下半场两场

涂鸦智能 2024-05-30

生成

多任务多模态全统一！港科大&amp;快手可灵等最新UnityVideo:生成、理解、控制多项SOTA！