外观
视频生成CogVideoX
一.简介
CogVideoX是什么
CogVideoX是智谱AI最新推出的开源AI视频生成模型,与智谱AI的商业产品“ 清影 ”同源。CogVideoX支持英文提示词,能生成6秒长、每秒8帧、分辨率为720*480的视频。模型推理需7.8-26GB显存,目前不支持量化推理和多卡推理。项目还包括3D Causal VAE组件用于视频重建,以及丰富的示例和工具,包括CLI/WEB Demo、在线体验、API接口示例和微调指南。
CogVideoX的主要功能
- AI文生视频:支持用户输入的文本提示词生成视频内容。
- 低显存需求:在 INT8 精度下,推理显存需求仅为 7.8GB,即使用 1080 Ti 显卡也可以完成推理。
- 视频参数定制:可以定制视频长度、帧率和分辨率,目前支持6秒长视频,8帧/秒,分辨率为720*480。
- 3D Causal VAE技术:使用3D Causal VAE技术,实现视频内容的高效重建。
- 推理与微调:模型支持基本的推理生成视频,同时提供了微调能力,以适应不同需求。
CogVideoX的技术原理
- 文本到视频生成:CogVideoX使用深度学习模型,特别是基于Transformer的架构,来理解输入的文本提示并生成视频内容。
- 3D Causal VAE:CogVideoX采用了3D Causal Variational Autoencoder(变分自编码器),一种用于视频重建和压缩的技术,能够几乎无损地重构视频,减少存储和计算需求。
- 专家Transformer:CogVideoX使用专家Transformer模型,一种特殊的Transformer,通过多个专家处理不同的任务,例如空间和时间信息的处理,以及控制信息流动等。
- 编码器-解码器架构:在3D VAE中,编码器将视频转换成简化的代码,而解码器根据这些代码重建视频,潜在空间正则化器确保编码和解码之间的信息传递更准确。
- 混合时长训练:CogVideoX的训练过程采用混合时长训练,允许模型学习不同长度的视频,提高泛化能力。
- 多阶段训练:CogVideoX的训练分为几个阶段,包括低分辨率预训练、高分辨率预训练和高质量视频微调,逐步提升模型的生成质量和细节。
- 自动和人工评估:CogVideoX使用自动评估和人工评估相结合的方式,确保生成的视频质量达到预期。
二.操作流程
1.点击视频生成CogVideoX
2.选择一款GPU
3.等待镜像拉取,初次拉取时间可能较久,请耐心等待
4.点击9595,启动
5.进入页面进行操作
6.返回容器页面,点击Jupyter
7.点击CogVideo
8.输出文件在output里
三.联系客服
如果您有任何问题,可以联系我们的客服