清华特奖得主团队视频生成AI一夜刷屏,100%开源+61页技术报告,还能无限扩展生成,网友:游戏规则改变者

发布时间:2025-04-22 15:46:00 浏览量:0

新国产AI视频生成模型横空出世,一夜间全网刷屏。

Magi-1,首个实现顶级画质输出的自回归视频生成模型模型权重、代码100%开源

整整61页的技术报告中还详细介绍了创新的注意力改进和推理基础设施设计,给人一种视频版DeepSeek的感觉。

Magi-1将视频生成卷到了新高度,大片级品质直接锁住大家的眼球。

其主打能力,一是无限长度扩展,实现跨时间的无缝连贯叙事:

二是能将生成时长控制精确到每一“秒”

另外,Magi-1对物理规律也有更深度的理解,Physics-IQ基准测试56.02%,大幅领先一众顶流。

现在看这张图,Sora的时代是真的过去了。

这匹“黑马”来自中国团队Sand.ai,中文名听着有点萌叫三呆科技,实力却不容小觑。

创始人曹越,清华特奖得主、光年之外联合创始人。

目前大伙儿可在官网免费试玩Magi-1。GitHub更是一晚过后狂揽500+Star。

此次开源了从24B到4.5B参数的一系列模型,最低配置一块4090就能跑。

网友们激动转发测试,评价也是相当高,看一下这个feel:

这绝对是令人惊叹的工作。将自回归扩散应用于视频领域不仅是研究上的一大步,更是为现实世界的创意领域开辟了新可能。Magi-1在生成质量和精度上树立了新标杆。

开源特性+令人瞩目的基准测试表现=游戏规则改变者。

无限长度扩展,控制精确到每“秒”

还有更多官方效果展示,先来欣赏一波~

比如漂在水面上的猫,水面自然晃动,波光粼粼:

抽着雪茄的海盗船长,颇有大片的感jio:

光影等细节满满:

网友们也都陆陆续续晒出了自己的实测效果:

画质超清晰,VR头显上的细微反光以及狗的胡须和毛发细节都栩栩如生。

还有网友生成了正在跳舞的小动物,belike:

量子位自然不能错过,第一时间上手实测了一波。

玩法上,打开Magi-1,主打图生成视频,且是以一个“项目”为单位:

上传好图片之后,Magi-1像一张画布一样,呈现节点式的交互界面,点击图片侧边加号按钮就能创建一个“视频块”。

开始设置prompt,支持精确调整时长,一次最长10s,也可设置Variations一次性生成多个视频:

稍等片刻,一只活蹦乱跳的吉卜力小狗就生成好了。

我们第一次尝试就得到了下面酱婶儿的效果,小狗的动作姿态整体比较符合物理规律,没有离谱的扭曲以及突然出现的第五条腿(doge)。

视频左边还有自动改写增强后的prompt。

接着,对这段视频进行扩展,小狗摇头晃脑活蹦乱跳在表达什么呢?

原来是在讲述它今天在河里游泳玩耍的事情。

把这一个个镜头“组装”起来,分分钟就能打造出一部连贯的叙事短片。

另外Magi-1中还有“资产管理”板块,可基于生成的视频再创建一个新项目,进行二次加工创作。

完整模型架构、推理基础设施公开

Magi-1公布的技术论文足足有61页之多。

Magi-1整体架构基于Diffusion Transformer,采用Flow-Matching作为训练目标。

训练分为多阶段,第一阶段固定分辨率(256×256,16 帧),第二阶段引入可变分辨率和图像-视频联合训练,并在推理时使用滑动窗口方法来支持任意分辨率。

其最大的特点是不把视频当成一个整体去生成,而是通过自回归去噪方式预测固定长度的视频片段(chunk),每个片段固定为24帧。

当前一个片段达到一定去噪水平后,便开始生成下一个片段。这种流水线设计最多可同时处理四个片段,提高视频生成的效率。

同时,这种约束早期片段噪声水平低于后期片段的设计,确保了视频前后的因果性,避免片段的信息影响过去,导致时间一致性差(如物体突然消失或运动轨迹断裂)。

配合这种分片段自回归设计,Magi-1在Diffusion Transformer的基础上融入了多项改进。

光是在注意力机制上就有多项创新。

Block-Causal Attention

  • 片段内全注意力:每个视频片段内的所有帧间进行全注意力计算,捕捉片段内短时序依赖(如单片段内物体的快速运动)。
  • 片段间因果注意力:仅允许当前片段关注之前已生成的片段,禁止未来片段信息反向流入,确保因果性。
  • 3D RoPE 位置编码:结合空间和时间位置信息,学习可训练的基频参数,提升长时序建模能力。

Parallel Attention Block

传统DiT架构中自注意力(处理视觉特征)和交叉注意力(处理文本条件)串行执行,需两次TP通信(Tensor Parallel);并行块将两者的查询投影Q共享,仅需一次通信,减少GPU间同步开销

QK-NormGQA

QK-Norm是源自视觉Transformer的技术,通过归一化查询(Q)和键(K)的范数,稳定注意力权重计算,避免梯度爆炸/消失。Magi-1将其扩展到时空注意力和交叉注意力模块,提升训练稳定性,尤其在240亿参数规模下效果显著。

接下来的GQA、FFN 中的三明治归一化、SwiGLU大家就很熟悉了。

到了具体软硬协同层面,论文还提出了可扩展分布式注意力机制MagiAttention。

Flex-Flash-Attention

基于FlashAttention-3,将不规则注意力掩码分解为多个 AttnSlice,使各种常用注意力掩码可表示为多个AttnSlice的组合,从而支持灵活的注意力掩码类型。利用英伟达Hopper 架构的TMA 特征,引入Slice级并行和原子操作,在支持灵活掩码的同时,保持与FlashAttention-3相当的计算性能。

计算负载均衡

将整个掩码沿查询维度均匀划分为多个dispatch chunks,并分配到不同的上下文并行(CP)对应的bucket中,使每个bucket包含相同数量的dispatch chunks,避免因负载不均衡导致的计算资源闲置。

零冗余通信原语

针对现有环形点对点通信原语存在冗余通信的问题,引入group-cast和 group-reduce原语。根据注意力掩码的需求,精准地发送和收集关键值(KV)及梯度(dKV)信息,避免不必要的通信,实现零冗余通信。通过使用all-to-all-v原语进行原型实现,并借助内核融合减少预处理和后处理开销。

自适应多阶段重叠

为实现真正的线性扩展,引入多阶段计算-通信重叠策略,将每个rank的远程 KV/dKV 通信划分为多个阶段。

在正向传递中,先启动group-cast内核预取下一阶段的远程KV,然后异步执行Flex-Flash-Attention(FFA)内核进行部分注意力计算;

在反向传递中,除了预取 KV,还在启动 FFA 内核前,通过group-reduce内核减少上一阶段的dKV。通过引入可调节超参数num_stages,根据不同训练设置、微批次以及正向和反向传递的计算-通信比率,自适应地控制重叠粒度。

所有这些改动作为一个完整的MagiAttention项目,代码也在GitHub上开源。

推理基础设施方面,主要针对两种场景进行设计:实时流式视频生成和在 RTX 4090 GPU 上的经济高效部署,以满足不同应用需求。

在实时流式视频生成上采用异构服务架构,将T5(提取文本Embedding,为视频生成提供语义信息)和Magi-1部署在高性能GPU 上,VAE部分部署在经济高效的硬件上,实现Magi-1推理和VAE解码并发执行,并通过分析性能数据来分配资源,提升整体吞吐量。

针对RTX4090部署场景,借鉴语言模型将KV缓存存储在CPU内存中,根据需要动态加载回GPU。针对RTX4090的PCIe总线带宽限制,提出Context Shuffle Overlap(CSO)技术,优化通信与计算的重叠,提升计算资源利用率,使4.5B参数模型在单块RTX 4090 GPU上部署时,峰值内存占用控制在21.94GB;24B模型在8块RTX4090 GPU上部署时,峰值内存占用控制在19.29GB,且最大MFU(浮点运算数利用率)达到 58% 。

最后,评估结果分为内部人工评估、自动评估(VBench-I2V基准)、物理理解能力评估三部分。

人类评估中Magi-1与海螺、腾讯混元、通义万相Wan2.1相比,尤其是在指令跟随和运动质量方面有优势,与闭源模型可灵1.6在视觉质量上还有一些差距。

在VBench-I2V基准上:MAGI-1(2×解码器)以总分89.28排名第一,尤其在动态程度(Dynamic Degree)上有优势,平衡运动幅度与图像质量。

曹越执掌的团队,已完成三轮融资

Sand.AI创始人曹越,博士毕业于清华大学软件学院,2018年获清华大学特等奖学金。

读博期间在微软MSRA实习,2021年以Swin Transformer共同一作身份获ICCV最佳论文“马尔奖”

2022年,曹越与王慧文等共同创办光年之外,后加入智源研究院领导多模态与视觉研究中心。

2023年曹越创办Sand.ai,在很长一段时间保持隐身模式。

2024年7月,其投资方今日资本“风投女王”徐新的一条传闻把Sand.ai炸出水面。

当时有人发帖称“今日资本撤离一级市场”,徐新发朋友圈辟谣时透露,2024年5月今日资本领投了Sand.AI的早期融资。

到现在据了解,Sand.AI已完成三轮融资,主要参与方包括今日资本、经纬创投等。

创新工场创始人李开复刚刚也发帖推荐了Sand.AI与Magi-1,称“很高兴看到继 DeepSeek 之后,又有一家AI公司开发出世界一流的开源模型”。

目前Sand.ai具体融资金额,团队规模等尚未可知,不过从MAGI-1论文附带的贡献者名单看,核心技术团队至少有36人

其中很多成员与曹越在工作经历上有交集。

创始成员方羽新,有微软MSRA、智源研究院实习经历,也是光年之外创始成员之一。

两人在智源研究院期间在大规模视觉表征预训练模型EVA系列上多次合作。

核心贡献者李凌志,也有MSRA实习经历,曾担任小红书算法主管和阿里巴巴集团达摩院算法专家。

多位团队成员在个人主页等处介绍自己现在为一家隐形初创公司工作。

现在答案已经明了,他们在Sand AI,做AI视频生成界的DeepSeek。

在线试玩:https://sand.ai/

参考链接:[1]
https://github.com/SandAI-org/MAGI-1[2]
https://static.magi.world/static/files/MAGI_1.pdf[3]
https://x.com/kaifulee/status/1914528611429966315

本文来自微信公众号“量子位”,作者:梦晨 西风,36氪经授权发布。

相关阅读
  • 北京商报讯(记者 张天元)7月2日,“牛约堡多个门店食材裸露蟑螂横行”相关话题引发热议。根据福建省广播影视集团电视新闻综合频道《第一帮帮团》栏目,两家牛约堡后厨食材乱堆放,汉堡烤台及设备表面油污和食物残渣遍布,部分区域污垢已凝结成块。罐头架上、地面多只蟑螂爬行。据了解,牛约堡于2019年在上海创立,
  • 7月2日据“网信中国”消息↓↓↓近期,国家网信办扎实组织开展“清朗·优化营商网络环境—整治涉企网络‘黑嘴’”专项行动,部署地方网信办积极受理处置涉企网络侵权不法行为,督促重点网站平台强化涉企信息内容管理,从严从快处置一批涉企违法违规账号。其中包括:“柴怼怼”等账号编造涉企虚假不实信息,恶意诋毁攻击企
  • 【来源:四川在线_滚动新闻】四川在线记者 薛维睿将毫米级种子标本放进“三维数字标本快速构建系统”,屏幕出现720°可旋转虚拟模型,标本纹路清晰可见,按比例放大后用3D打印,便能做出和实物一模一样的标本模型……“三维数字标本快速构建系统”装置这台“成都造”智能设备,由来自成都经开区的四川杰莱美科技有限
  • 近日,约旦摄影师扎伊德·阿巴迪在社交媒体发布了从安曼拍摄到此轮以伊冲突中,伊朗弹道导弹袭击以色列的6段冲突视频。外网有分析师依据视频素材,结合地理定位与导弹点火时序,从这些视频中统计得出,以方在拦截行动中使用34枚“箭-3”反导拦截弹、9枚“箭-2”反导拦截弹及39枚美国“萨德”拦截弹。每枚“萨德”
  • 潮新闻客户端 记者 祝瑶用AI精准破局胰腺癌筛查困境之后,“平扫CT+AI”技术或将再一次改变胃癌筛查模式。6月25日,浙江省肿瘤医院联合阿里巴巴达摩院,发布全球首个胃癌影像筛查AI模型DAMO GRAPE,首次利用平扫CT影像识别早期胃癌病灶。在实际操作中,DAMO GRAPE全国20家医院近10
  • 最近,上海辟谣平台收到读者询问,网传“7月1日起老年人坐火车有新规定,买票打折”等信息是真的吗?经核查,传言不实。进一步溯源发现,相关信息大概率为自媒体利用AI软件生成,依旧是“博眼球,拉流量,变现谋利”的套路。AI撰写,以讹传讹根据读者提供的线索,上海辟谣平台核查发现,所谓“7月1日起老年人坐火车
  • 记者6月20日从教育部获悉,根据教育部“2025高考护航行动”有关部署,结合全国各省(区、市)高考志愿填报时间安排,2025年高考“云咨询周”活动将于6月22日至28日在教育部“阳光高考”信息平台举行。活动期间,平台将提供文字问答和视频直播两种方式,文字问答咨询时间为9点至17点,鼓励高校积极采用视
  • 近日,广西桂林一名女生在高考结束后自己挑行李回家,感动无数网友。视频里,女孩穿着朴素,用一根木棍当扁担,独自挑着塞得满满当当的两个大包。有网友留言:“虽然没有掌声,没有鲜花,没有拥抱,但步伐却无比坚定。骨子里透着一股韧劲!这份自信和坦然令人佩服。”据“今日灌阳”6月14日报道,“扁担女孩”名叫刘燕,
  • 6月12日下午,三亚凤凰国际机场对外发布消息称,受今年第1号台风“蝴蝶”影响,经综合研判后决定,三亚凤凰国际机场自6月12日22时起暂停航班起降,后续航班取消。同时,一些航司相续发布通知称,涉及台风“蝴蝶”影响的航班,旅客可申请免费退改机票。据了解,6月12日,三亚凤凰国际机场航班计划297架次,其
  • 近日,北大数学科学学院教师韦东奕入驻短视频平台一事,引发广泛关注。6月11日,相关话题再次冲上热搜。据红星新闻报道,近日,记者在办公室见到了韦东奕本人,和多条网传视频中不修边幅不同,记者眼中的韦东奕无论是发型还是衣着都很整洁,也并不能明显看出口腔问题。韦东奕的表达并不像视频中看起来那样局促,面对记者

网站内容来自网络,如有侵权请联系我们,立即删除!
Copyright © 团队网 赣ICP备2024047966号-5