视频生成CogVideoX

一.简介

CogVideoX是什么

CogVideoX是智谱AI最新推出的开源AI视频生成模型，与智谱AI的商业产品“ 清影 ”同源。CogVideoX支持英文提示词，能生成6秒长、每秒8帧、分辨率为720*480的视频。模型推理需7.8-26GB显存，目前不支持量化推理和多卡推理。项目还包括3D Causal VAE组件用于视频重建，以及丰富的示例和工具，包括CLI/WEB Demo、在线体验、API接口示例和微调指南。

CogVideoX的主要功能

AI文生视频：支持用户输入的文本提示词生成视频内容。
低显存需求：在 INT8 精度下，推理显存需求仅为 7.8GB，即使用 1080 Ti 显卡也可以完成推理。
视频参数定制：可以定制视频长度、帧率和分辨率，目前支持6秒长视频，8帧/秒，分辨率为720*480。
3D Causal VAE技术：使用3D Causal VAE技术，实现视频内容的高效重建。
推理与微调：模型支持基本的推理生成视频，同时提供了微调能力，以适应不同需求。

CogVideoX的技术原理

文本到视频生成：CogVideoX使用深度学习模型，特别是基于Transformer的架构，来理解输入的文本提示并生成视频内容。
3D Causal VAE：CogVideoX采用了3D Causal Variational Autoencoder（变分自编码器），一种用于视频重建和压缩的技术，能够几乎无损地重构视频，减少存储和计算需求。
专家Transformer：CogVideoX使用专家Transformer模型，一种特殊的Transformer，通过多个专家处理不同的任务，例如空间和时间信息的处理，以及控制信息流动等。
编码器-解码器架构：在3D VAE中，编码器将视频转换成简化的代码，而解码器根据这些代码重建视频，潜在空间正则化器确保编码和解码之间的信息传递更准确。
混合时长训练：CogVideoX的训练过程采用混合时长训练，允许模型学习不同长度的视频，提高泛化能力。
多阶段训练：CogVideoX的训练分为几个阶段，包括低分辨率预训练、高分辨率预训练和高质量视频微调，逐步提升模型的生成质量和细节。
自动和人工评估：CogVideoX使用自动评估和人工评估相结合的方式，确保生成的视频质量达到预期。