Open-Sora升级，可生成16s、720p分辨率视频--头条今日-看天下新闻图文生活资讯平台

日前，全球首个类Sora架构开源视频生成模型Open-Sora迎来更新、并依旧全部开源，其中包含最新的模型架构、最新的模型权重、多时间/分辨率/长宽比/帧率的训练流程、数据收集和预处理的完整流程、所有的训练细节等。

据了解，Open-Sora是由Colossal-AI于今年3月推出，其采用了Sora同源架构的Diffusion Transformer（DiT），并同样使用DiT架构的高质量开源文生图模型PixArt-α为基座，在此基础上引入时间注意力层、将其扩展到了视频数据上。具体来说，其整个架构包括一个预训练好的VAE、一个文本编码器，以及一个利用空间-时间注意力机制的STDiT（Spatial Temporal Diffusion Transformer）模型。

据悉，在功能方面，新版Open-Sora可支持长达16秒的单镜头视频生成，且视频分辨率最高可达720p，并可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。而且新版Open-Sora还支持视频拼接功能，这也意味着用户有机会免费创作一段带有故事性的小短片。

在架构方面，新版Open-Sora对STDiT架构进行了关键性改进，旨在提高模型的训练稳定性和整体性能。针对当前的序列预测任务，该团队采纳了大语言模型的最佳实践，将时序注意力中的正弦波位置编码（sinusoidal positional encoding）替换为更加高效的旋转位置编码（RoPE embedding）。此外为了增强训练的稳定性，该团队还参考SD3模型架构，进一步引入了QK归一化技术，以增强半精度训练的稳定性。

训练方面，新版Open-Sora采用了一种多阶段训练方法，每个阶段都会基于前一个阶段的权重继续训练。据悉，相较于单一阶段训练，这种多阶段训练通过分步骤引入数据，能够更高效地实现高质量视频生成的目标。

在数据收集和预处理流程方面，Colossal-AI致力于扩充和优化数据集，为新版Open-Sora建立了一个自动化的数据处理流程，该流程遵循奇异值分解（SVD）原则，涵盖了场景分割、字幕处理、多样化评分与筛选，以及数据集的管理系统和规范。

据悉在公布Open-Sora各项进展的同时，Colossal-AI方面还指出，“尽管Open-Sora在复现类Sora文生视频模型的工作方面取得了不错的进展，但我们也发现，当前生成的视频在多个方面仍有待改进，包括生成过程中的噪声问题、时间一致性的缺失、人物生成质量不佳以及美学评分较低。对于这些挑战，我们将在下一版本的开发中优先解决，以期望达到更高的视频生成标准”。

【以上内容转自“三易生活网”，不代表本网站观点。如需转载请取得三易生活网许可，如有侵权请联系删除。】

	“社保缴满15年就够了”误解该如何消除？
	报告：适时合理调整国有金融资本在银行等行业的比重
	“App扣费前提醒一声有那么难吗”
	业务猛增4000%！黄金变现热潮持续短期追涨需谨慎
	中微公司一季度净利润下降9.53%，刻蚀设备营收增长六成
	江苏银行一季度营收、净利均涨逾10%，拨备覆盖率下降
	公告现多处文字错误西藏珠峰被监管警示
	上市券商一季报披露拉开帷幕自营业务仍是业绩“胜负手”
	长城汽车业绩过山车：去年一季度净利暴跌九成后，今年一季度暴增17倍
	浙江建投：去年净利润同比下降近六成，计提资产减值准备10.12亿元

头条今日_全国热点资讯网（头条才是今日你关心的）

Open-Sora升级，可生成16s、720p分辨率视频

相关推荐

“社保缴满15年就够了”误解该如何消除？

报告：适时合理调整国有金融资本在银行等行业的比重

“App扣费前提醒一声有那么难吗”

业务猛增4000%！黄金变现热潮持续短期追涨需谨慎

中微公司一季度净利润下降9.53%，刻蚀设备营收增长六成

江苏银行一季度营收、净利均涨逾10%，拨备覆盖率下降

公告现多处文字错误西藏珠峰被监管警示

上市券商一季报披露拉开帷幕自营业务仍是业绩“胜负手”

长城汽车业绩过山车：去年一季度净利暴跌九成后，今年一季度暴增17倍

浙江建投：去年净利润同比下降近六成，计提资产减值准备10.12亿元

评论