清华特奖得主团队视频生成AI一夜刷屏,100%开源+61页技术报告,还能无限扩展生成,网友:游戏规则改变者

发布时间:2025-04-22 15:46:00 浏览量:0

新国产AI视频生成模型横空出世,一夜间全网刷屏。

Magi-1,首个实现顶级画质输出的自回归视频生成模型模型权重、代码100%开源

整整61页的技术报告中还详细介绍了创新的注意力改进和推理基础设施设计,给人一种视频版DeepSeek的感觉。

Magi-1将视频生成卷到了新高度,大片级品质直接锁住大家的眼球。

其主打能力,一是无限长度扩展,实现跨时间的无缝连贯叙事:

二是能将生成时长控制精确到每一“秒”

另外,Magi-1对物理规律也有更深度的理解,Physics-IQ基准测试56.02%,大幅领先一众顶流。

现在看这张图,Sora的时代是真的过去了。

这匹“黑马”来自中国团队Sand.ai,中文名听着有点萌叫三呆科技,实力却不容小觑。

创始人曹越,清华特奖得主、光年之外联合创始人。

目前大伙儿可在官网免费试玩Magi-1。GitHub更是一晚过后狂揽500+Star。

此次开源了从24B到4.5B参数的一系列模型,最低配置一块4090就能跑。

网友们激动转发测试,评价也是相当高,看一下这个feel:

这绝对是令人惊叹的工作。将自回归扩散应用于视频领域不仅是研究上的一大步,更是为现实世界的创意领域开辟了新可能。Magi-1在生成质量和精度上树立了新标杆。

开源特性+令人瞩目的基准测试表现=游戏规则改变者。

无限长度扩展,控制精确到每“秒”

还有更多官方效果展示,先来欣赏一波~

比如漂在水面上的猫,水面自然晃动,波光粼粼:

抽着雪茄的海盗船长,颇有大片的感jio:

光影等细节满满:

网友们也都陆陆续续晒出了自己的实测效果:

画质超清晰,VR头显上的细微反光以及狗的胡须和毛发细节都栩栩如生。

还有网友生成了正在跳舞的小动物,belike:

量子位自然不能错过,第一时间上手实测了一波。

玩法上,打开Magi-1,主打图生成视频,且是以一个“项目”为单位:

上传好图片之后,Magi-1像一张画布一样,呈现节点式的交互界面,点击图片侧边加号按钮就能创建一个“视频块”。

开始设置prompt,支持精确调整时长,一次最长10s,也可设置Variations一次性生成多个视频:

稍等片刻,一只活蹦乱跳的吉卜力小狗就生成好了。

我们第一次尝试就得到了下面酱婶儿的效果,小狗的动作姿态整体比较符合物理规律,没有离谱的扭曲以及突然出现的第五条腿(doge)。

视频左边还有自动改写增强后的prompt。

接着,对这段视频进行扩展,小狗摇头晃脑活蹦乱跳在表达什么呢?

原来是在讲述它今天在河里游泳玩耍的事情。

把这一个个镜头“组装”起来,分分钟就能打造出一部连贯的叙事短片。

另外Magi-1中还有“资产管理”板块,可基于生成的视频再创建一个新项目,进行二次加工创作。

完整模型架构、推理基础设施公开

Magi-1公布的技术论文足足有61页之多。

Magi-1整体架构基于Diffusion Transformer,采用Flow-Matching作为训练目标。

训练分为多阶段,第一阶段固定分辨率(256×256,16 帧),第二阶段引入可变分辨率和图像-视频联合训练,并在推理时使用滑动窗口方法来支持任意分辨率。

其最大的特点是不把视频当成一个整体去生成,而是通过自回归去噪方式预测固定长度的视频片段(chunk),每个片段固定为24帧。

当前一个片段达到一定去噪水平后,便开始生成下一个片段。这种流水线设计最多可同时处理四个片段,提高视频生成的效率。

同时,这种约束早期片段噪声水平低于后期片段的设计,确保了视频前后的因果性,避免片段的信息影响过去,导致时间一致性差(如物体突然消失或运动轨迹断裂)。

配合这种分片段自回归设计,Magi-1在Diffusion Transformer的基础上融入了多项改进。

光是在注意力机制上就有多项创新。

Block-Causal Attention

  • 片段内全注意力:每个视频片段内的所有帧间进行全注意力计算,捕捉片段内短时序依赖(如单片段内物体的快速运动)。
  • 片段间因果注意力:仅允许当前片段关注之前已生成的片段,禁止未来片段信息反向流入,确保因果性。
  • 3D RoPE 位置编码:结合空间和时间位置信息,学习可训练的基频参数,提升长时序建模能力。

Parallel Attention Block

传统DiT架构中自注意力(处理视觉特征)和交叉注意力(处理文本条件)串行执行,需两次TP通信(Tensor Parallel);并行块将两者的查询投影Q共享,仅需一次通信,减少GPU间同步开销

QK-NormGQA

QK-Norm是源自视觉Transformer的技术,通过归一化查询(Q)和键(K)的范数,稳定注意力权重计算,避免梯度爆炸/消失。Magi-1将其扩展到时空注意力和交叉注意力模块,提升训练稳定性,尤其在240亿参数规模下效果显著。

接下来的GQA、FFN 中的三明治归一化、SwiGLU大家就很熟悉了。

到了具体软硬协同层面,论文还提出了可扩展分布式注意力机制MagiAttention。

Flex-Flash-Attention

基于FlashAttention-3,将不规则注意力掩码分解为多个 AttnSlice,使各种常用注意力掩码可表示为多个AttnSlice的组合,从而支持灵活的注意力掩码类型。利用英伟达Hopper 架构的TMA 特征,引入Slice级并行和原子操作,在支持灵活掩码的同时,保持与FlashAttention-3相当的计算性能。

计算负载均衡

将整个掩码沿查询维度均匀划分为多个dispatch chunks,并分配到不同的上下文并行(CP)对应的bucket中,使每个bucket包含相同数量的dispatch chunks,避免因负载不均衡导致的计算资源闲置。

零冗余通信原语

针对现有环形点对点通信原语存在冗余通信的问题,引入group-cast和 group-reduce原语。根据注意力掩码的需求,精准地发送和收集关键值(KV)及梯度(dKV)信息,避免不必要的通信,实现零冗余通信。通过使用all-to-all-v原语进行原型实现,并借助内核融合减少预处理和后处理开销。

自适应多阶段重叠

为实现真正的线性扩展,引入多阶段计算-通信重叠策略,将每个rank的远程 KV/dKV 通信划分为多个阶段。

在正向传递中,先启动group-cast内核预取下一阶段的远程KV,然后异步执行Flex-Flash-Attention(FFA)内核进行部分注意力计算;

在反向传递中,除了预取 KV,还在启动 FFA 内核前,通过group-reduce内核减少上一阶段的dKV。通过引入可调节超参数num_stages,根据不同训练设置、微批次以及正向和反向传递的计算-通信比率,自适应地控制重叠粒度。

所有这些改动作为一个完整的MagiAttention项目,代码也在GitHub上开源。

推理基础设施方面,主要针对两种场景进行设计:实时流式视频生成和在 RTX 4090 GPU 上的经济高效部署,以满足不同应用需求。

在实时流式视频生成上采用异构服务架构,将T5(提取文本Embedding,为视频生成提供语义信息)和Magi-1部署在高性能GPU 上,VAE部分部署在经济高效的硬件上,实现Magi-1推理和VAE解码并发执行,并通过分析性能数据来分配资源,提升整体吞吐量。

针对RTX4090部署场景,借鉴语言模型将KV缓存存储在CPU内存中,根据需要动态加载回GPU。针对RTX4090的PCIe总线带宽限制,提出Context Shuffle Overlap(CSO)技术,优化通信与计算的重叠,提升计算资源利用率,使4.5B参数模型在单块RTX 4090 GPU上部署时,峰值内存占用控制在21.94GB;24B模型在8块RTX4090 GPU上部署时,峰值内存占用控制在19.29GB,且最大MFU(浮点运算数利用率)达到 58% 。

最后,评估结果分为内部人工评估、自动评估(VBench-I2V基准)、物理理解能力评估三部分。

人类评估中Magi-1与海螺、腾讯混元、通义万相Wan2.1相比,尤其是在指令跟随和运动质量方面有优势,与闭源模型可灵1.6在视觉质量上还有一些差距。

在VBench-I2V基准上:MAGI-1(2×解码器)以总分89.28排名第一,尤其在动态程度(Dynamic Degree)上有优势,平衡运动幅度与图像质量。

曹越执掌的团队,已完成三轮融资

Sand.AI创始人曹越,博士毕业于清华大学软件学院,2018年获清华大学特等奖学金。

读博期间在微软MSRA实习,2021年以Swin Transformer共同一作身份获ICCV最佳论文“马尔奖”

2022年,曹越与王慧文等共同创办光年之外,后加入智源研究院领导多模态与视觉研究中心。

2023年曹越创办Sand.ai,在很长一段时间保持隐身模式。

2024年7月,其投资方今日资本“风投女王”徐新的一条传闻把Sand.ai炸出水面。

当时有人发帖称“今日资本撤离一级市场”,徐新发朋友圈辟谣时透露,2024年5月今日资本领投了Sand.AI的早期融资。

到现在据了解,Sand.AI已完成三轮融资,主要参与方包括今日资本、经纬创投等。

创新工场创始人李开复刚刚也发帖推荐了Sand.AI与Magi-1,称“很高兴看到继 DeepSeek 之后,又有一家AI公司开发出世界一流的开源模型”。

目前Sand.ai具体融资金额,团队规模等尚未可知,不过从MAGI-1论文附带的贡献者名单看,核心技术团队至少有36人

其中很多成员与曹越在工作经历上有交集。

创始成员方羽新,有微软MSRA、智源研究院实习经历,也是光年之外创始成员之一。

两人在智源研究院期间在大规模视觉表征预训练模型EVA系列上多次合作。

核心贡献者李凌志,也有MSRA实习经历,曾担任小红书算法主管和阿里巴巴集团达摩院算法专家。

多位团队成员在个人主页等处介绍自己现在为一家隐形初创公司工作。

现在答案已经明了,他们在Sand AI,做AI视频生成界的DeepSeek。

在线试玩:https://sand.ai/

参考链接:[1]
https://github.com/SandAI-org/MAGI-1[2]
https://static.magi.world/static/files/MAGI_1.pdf[3]
https://x.com/kaifulee/status/1914528611429966315

本文来自微信公众号“量子位”,作者:梦晨 西风,36氪经授权发布。

相关阅读
  • 8月16日,李连杰抖音账号更新视频并配文:最近又经历了一次无常的试炼。视频显示,李连杰本人躺在病床上,还配有一张外拍手术室的照片。网友纷纷询问:怎么了,祝早日康复。此前,李连杰曾多次被传乌龙死讯。对于相关传闻,李连杰也曾笑称有网友说他“死了那么多次都没死”。据中新文娱报道,2023年11月,李连杰在
  • 养发行业的千亿级蓝海市场,本质是品牌方与加盟商共享的“价值洼地”。当传统护发仍停留在洗剪吹服务时,丝域养发于2003年以“头皮SPA”开辟新赛道,通过科学化、场景化的服务重塑消费认知。20余年的发展,丝域养发加盟通过优质的服务积累200万忠实粉丝,并通过“标准化+可复制”的加盟模式,更是在全国200
  • 咸宁网讯 记者宋文虎、通讯员曹玮报道:日前,在咸宁高新区华源包装(咸宁)有限公司,一条条生产线高速运转,金属包装产品被源源不断加工出来,呈现一派热火朝天场景。该公司主要从事马口铁彩印及其衍生品的制造加工,凭借先进的技术和完整的生产线能力,产值每年实现15%到20%的增长。然而,企业发展的背后也有困扰
  • 本报讯 首席记者吕洋报道 近日,沈阳康平县公安局网络安全保卫大队民警在午休理发时,意外“邂逅”一名恶意合成他人不雅视频并在短视频平台发布的违法行为人,成功将其擒获。日前,胜利派出所接到辖区某理发店经营者王女士报警,称有人恶意合成她的不雅视频并发布在短视频平台上。派出所迅速将王女士提供的视频转递至网安
  • 天尚行有限公司箱包展示大厅。人民网记者 祝龙超摄“这个爆款是AI设计的,只需在软件界面输入面料、颜色、图案、款式、功能等多样化需求关键词,便能在极短时间内生成多种风格迥异的箱包效果图。”天尚行箱包皮具有限公司销售总监周鑫指着一款双肩包介绍,以前设计师手绘设计一款箱包需要3至7天,现在运用AI技术很快
  • 7月7日,美媒称FBI和美国司法部已得出结论,认为被控性侵的已故富商杰弗里·爱泼斯坦没有所谓的“客户名单”,其死因确为自杀,报道刊发后在美国舆论界激起轩然大波。美国“连线”新闻网11日报道称,尽管美国司法部于7日公布了所谓“爱泼斯坦所在牢房”的监控视频,但有网友发现该视频缺少了其中1分钟。“连线”新
  • 近日,有网友拍视频称,广西贵港一家螺蛳粉门店,有四只老鼠在菜篮里吃菜。网传截图,在视频评论区,门店回复,联系了消杀公司,今晚做全场消杀。目前,这条视频已经隐藏。网络截图。7月10日,潇湘晨报记者联系网传门店,电话接通后记者说起老鼠的事,工作人员说打错了便挂断电话。据媒体报道,螺蛳粉店负责人回应,视频
  • 来源:央视新闻客户端当地时间8日凌晨,尼泊尔热苏瓦地区暴发洪水,造成重大人员财产损失。截至当地时间8日12时,仍有18人失联。经中国驻尼使馆证实,失联人员包括6名中方施工人员。目前热苏瓦地区通信已中断。中尼边界桥友谊桥被冲毁,附近的尼泊尔口岸海关办公院落、陆港仓库、电动汽车充电装置和水电站也遭到破坏
  • 当地时间8日凌晨,尼泊尔热苏瓦地区暴发洪水,造成重大人员财产损失。截至当地时间8日12时,仍有18人失联。经中国驻尼使馆证实,失联人员包括6名中方施工人员。目前热苏瓦地区通信已中断。中尼边界桥友谊桥被冲毁,附近的尼泊尔口岸海关办公院落、陆港仓库、电动汽车充电装置和水电站也遭到破坏。尼方已派出120余
  • 北京商报讯(记者 张天元)7月2日,“牛约堡多个门店食材裸露蟑螂横行”相关话题引发热议。根据福建省广播影视集团电视新闻综合频道《第一帮帮团》栏目,两家牛约堡后厨食材乱堆放,汉堡烤台及设备表面油污和食物残渣遍布,部分区域污垢已凝结成块。罐头架上、地面多只蟑螂爬行。据了解,牛约堡于2019年在上海创立,

网站内容来自网络,如有侵权请联系我们,立即删除!
Copyright © 团队网 赣ICP备2024047966号-5