## 🚀 快速开始 ### 🪟 Windows 一键整合包（推荐 Windows 用户使用） **无需安装 Python、uv 或 ffmpeg，一键开箱即用！** 👉 **[下载 Windows 一键整合包](https://github.com/AIDC-AI/Pixelle-Video/releases/latest)** 1. 下载最新的 Windows 一键整合包并解压 2. 双击运行 `start.bat` 启动 Web 界面 3. 浏览器会自动打开 http://localhost:8501 4. 在「⚙️ 系统配置」中配置 LLM API 和图像生成服务 5. 开始生成视频！ > 💡 **提示**: 整合包已包含所有依赖，无需手动安装任何环境。首次使用只需配置 API 密钥即可。 ### 从源码安装（适合 macOS / Linux 用户或需要自定义的用户） #### 前置环境依赖在开始之前，需要先安装 Python 包管理器 `uv` 和视频处理工具 `ffmpeg`： ##### 安装 uv 请访问 uv 官方文档查看适合你系统的安装方法： 👉 **[uv 安装指南](https://docs.astral.sh/uv/getting-started/installation/)** 安装完成后，在终端中运行 `uv --version` 验证安装成功。 ##### 安装 ffmpeg **macOS** ```bash brew install ffmpeg ``` **Ubuntu / Debian** ```bash sudo apt update sudo apt install ffmpeg ``` **Windows** - 下载地址：https://ffmpeg.org/download.html - 下载后解压，将 `bin` 目录添加到系统环境变量 PATH 中安装完成后，在终端中运行 `ffmpeg -version` 验证安装成功。 #### 第一步：下载项目 ```bash git clone https://github.com/AIDC-AI/Pixelle-Video.git cd Pixelle-Video ``` #### 第二步：启动 Web 界面 ```bash # 使用 uv 运行（推荐，会自动安装依赖） uv run streamlit run web/app.py ``` 浏览器会自动打开 http://localhost:8501 #### 第三步：在 Web 界面配置首次使用时，展开「⚙️ 系统配置」面板，填写： - **LLM 配置**: 选择 AI 模型（如通义千问、GPT 等）并填入 API Key - **ComfyUI / RunningHub 配置**: 如需使用工作流生成图片、视频或语音，配置本地 ComfyUI 地址或 RunningHub API Key - **API 媒体模型配置**: 如需直连图像/视频模型，配置 DashScope、OpenAI、ARK、Kling 等供应商的 API Key、Base URL 和代理选项配置好后点击「保存配置」，就可以开始生成视频了！

## 💻 使用方法打开 Web 界面后，你会看到三栏布局，下面详细讲解每个部分： ### ⚙️ 系统配置（首次必填）首次使用时需要配置，点击展开「⚙️ 系统配置」面板： #### 1. LLM 配置（大语言模型）用于生成视频文案的 AI。 **快速选择预设** - 通过下拉菜单选择预设模型（通义千问、GPT-4o、DeepSeek 等） - 选择后会自动填充 base_url 和 model - 点击「🔑 获取 API Key」链接去注册并获取密钥 **手动配置** - API Key: 填入你的密钥 - Base URL: API 地址 - Model: 模型名称 #### 2. ComfyUI / RunningHub 配置用于通过 ComfyUI 工作流生成视频配图、视频片段或语音。 **本地部署（推荐）** - ComfyUI URL: 本地 ComfyUI 服务地址（默认 http://127.0.0.1:8188） - 点击「测试连接」确认服务可用 **云端部署** - RunningHub API Key: 云端图像生成服务的密钥 #### 3. API 媒体模型配置用于不依赖 ComfyUI/RunningHub，直接调用模型供应商的图像、视频或素材分析能力。 **支持的供应商** - OpenAI / GPT Image：用于 GPT 图像生成模型 - DashScope / Wan / HappyHorse：用于通义万象图像、视频生成 - Volcengine ARK / Seedream / Seedance：用于字节 Seedream 图像和 Seedance 视频生成 - Kling AI / 可灵：用于可灵视频生成 **可配置项** - API Key / Access Key / Secret Key：模型供应商鉴权信息 - Base URL：模型服务地址，WebUI 会提供官方默认地址 - 本地代理：如 `http://127.0.0.1:9090` - 启用代理：每个供应商可单独选择是否走本地代理 - 打印模型请求参数：调试用，会在终端打印发送给模型的 prompt、模型名和输入文件路径 > 💡 如果你只使用 ComfyUI 或 RunningHub，可以不填写 API 媒体模型配置；如果你选择 `api/...` 工作流，则需要配置对应供应商的密钥。配置完成后点击「保存配置」。 ### 📝 内容输入（左侧栏） #### 生成模式 - **AI 生成内容**: 输入主题，AI 自动创作文案 - 适合：想快速生成视频，让 AI 写稿 - 例如：「为什么要养成阅读习惯」 - **固定文案内容**: 直接输入完整文案，跳过 AI 创作 - 适合：已有现成文案，直接生成视频 #### 背景音乐（BGM） - **无 BGM**: 纯人声解说 - **内置音乐**: 选择预置的背景音乐（如 default.mp3） - **自定义音乐**: 将你的音乐文件（MP3/WAV 等）放到 `bgm/` 文件夹 - 点击「试听 BGM」可以预览音乐 ### 🎤 语音设置（中间栏） #### TTS 工作流 - 从下拉菜单选择 TTS 工作流（支持 Edge-TTS、Index-TTS 等） - 系统会自动扫描 `workflows/` 文件夹中的 TTS 工作流 - 如果懂 ComfyUI，可以自定义 TTS 工作流 #### 参考音频（可选） - 上传参考音频文件用于声音克隆（支持 MP3/WAV/FLAC 等格式） - 适用于支持声音克隆的 TTS 工作流（如 Index-TTS） - 上传后可以直接试听 #### 预览功能 - 输入测试文本，点击「预览语音」即可试听效果 - 支持使用参考音频进行预览 ### 🎨 视觉设置（中间栏） #### 图像生成决定 AI 生成什么风格的配图。 **ComfyUI 工作流** - 从下拉菜单选择图像生成工作流 - 支持本地部署（selfhost）和云端（RunningHub）工作流 - 也支持选择 `api/...` 直连图像模型工作流（需先在系统配置中填写对应供应商密钥） - 默认使用 `image_flux.json` - 如果懂 ComfyUI，可以放自己的工作流到 `workflows/` 文件夹 **图像尺寸** - 设置生成图像的宽度和高度（单位：像素） - 默认 1024x1024，可根据需要调整 - 注意：不同的模型对尺寸有不同的限制 **提示词前缀（Prompt Prefix）** - 控制图像的整体风格（语言需要是英文的） - 例如：Minimalist black-and-white matchstick figure style illustration, clean lines, simple sketch style - 点击「预览风格」可以测试效果 #### 视频模板决定视频画面的布局和设计。 **模板命名规范** - `static_*.html`: 静态模板（无需AI生成媒体，纯文字样式） - `image_*.html`: 图片模板（使用AI生成的图片作为背景） - `video_*.html`: 视频模板（使用AI生成的视频作为背景） **使用方法** - 从下拉菜单选择模板，按尺寸分组显示（竖屏/横屏/方形） - 点击「预览模板」可以自定义参数测试效果 - 如果懂 HTML，可以在 `templates/` 文件夹创建自己的模板 - 🔗 [查看所有模板效果图](https://aidc-ai.github.io/Pixelle-Video/zh/user-guide/templates/#_3) #### API 视频生成当选择支持动态视频的模板或扩展工作流时，可以使用直连 API 视频模型生成片段。 - 支持 DashScope Wan / HappyHorse、Kling、Seedance 等视频模型 - 支持按模型能力显示分辨率、画幅比例、时长、水印、原生音频等参数 - 支持网络下载重试与内容审核失败后的提示词中性化重试 - 在「自定义素材」工作流中，API 视频片段会尽量根据旁白音频时长生成，并使用相邻片段信息提升连贯性 ### 🎬 生成视频（右侧栏） #### 生成按钮 - 配置好所有参数后，点击「🎬 生成视频」 - 会显示实时进度（生成文案 → 生成配图 → 合成语音 → 合成视频） - 生成完成后自动显示视频预览 #### 进度显示 - 实时显示当前步骤 - 例如：「分镜 3/5 - 生成插图」 #### 视频预览 - 生成完成后自动播放 - 显示视频时长、文件大小、分镜数等信息 - 视频文件保存在 `output/` 文件夹 ### ❓ 常见问题 **Q: 第一次使用需要多久？** A: 生成时长取决于视频分镜数量、网络状况和 AI 推理速度，通常几分钟内即可完成。 **Q: 视频效果不满意怎么办？** A: 可以尝试： 1. 更换 LLM 模型（不同模型文案风格不同） 2. 调整图像尺寸和提示词前缀（改变配图风格） 3. 更换 TTS 工作流或上传参考音频（改变语音效果） 4. 尝试不同的视频模板和尺寸 **Q: 费用大概多少？** A: **本项目完全支持免费运行！** - **完全免费方案**: LLM 使用 Ollama（本地运行）+ ComfyUI 本地部署 = 0 元 - **推荐方案**: LLM 使用通义千问（成本极低，性价比高）+ ComfyUI 本地部署 - **云端方案**: LLM 使用 OpenAI + 图像使用 RunningHub（费用较高但无需本地环境） **选择建议**：本地有显卡建议完全免费方案，否则推荐使用通义千问（性价比高） ## 🤝 参考项目 Pixelle-Video 的设计受到以下优秀开源项目的启发： - [Pixelle-MCP](https://github.com/AIDC-AI/Pixelle-MCP) - ComfyUI MCP 服务器，让 AI 助手直接调用 ComfyUI - [MoneyPrinterTurbo](https://github.com/harry0703/MoneyPrinterTurbo) - 优秀的视频生成工具 - [NarratoAI](https://github.com/linyqh/NarratoAI) - 影视解说自动化工具 - [MoneyPrinterPlus](https://github.com/ddean2009/MoneyPrinterPlus) - 视频创作平台 - [ComfyKit](https://github.com/puke3615/ComfyKit) - ComfyUI 工作流封装库感谢这些项目的开源精神！🙏 ## 💬 社区交流扫描下方二维码加入我们的社区，获取最新动态和技术支持： | 微信群 | Discord 社区 | | ---- | ---- | | 微信交流群

| ## 📢 反馈与支持 - 🐛 **遇到问题**: 提交 [Issue](https://github.com/AIDC-AI/Pixelle-Video/issues) - 💡 **功能建议**: 提交 [Feature Request](https://github.com/AIDC-AI/Pixelle-Video/issues) - ⭐ **给个 Star**: 如果这个项目对你有帮助，欢迎给个 Star 支持一下！ ## 📝 许可证本项目采用 Apache 2.0 许可证，详情请查看 [LICENSE](LICENSE) 文件。 ## 📚 系列工作 | 框架图 | 论文信息 | |:---:|---| | FilmAgent framework

| **[SIGGRAPH Asia 2024] FilmAgent: Automating Virtual Film Production Through a Multi-Agent Collaborative Framework**
*Zhenran Xu, Longyue Wang, Jifang Wang, Zhouyi Li, Senbao Shi, Xue Yang, Yiyu Wang, Baotian Hu, Jun Yu, Min Zhang*
[[Paper](https://arxiv.org/pdf/2501.12909)] [[GitHub](https://github.com/HITsz-TMG/VideoClaw/blob/main/FilmAgent)] | | Anim-Director result

| **[SIGGRAPH Asia 2024] Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation**
*Yunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang*
[[Paper](https://doi.org/10.1145/3680528.3687688)] [[GitHub](https://github.com/HITsz-TMG/Anim-Director/tree/main/Anim-Director)] | | Anim-Director result

| **[ACL 2025] ComfyUI-Copilot: An Intelligent Assistant for Automated Workflow Development**
*Zhenran Xu, Xue Yang, Yiyu Wang, Qingli Hu, Zijiao Wu, Longyue Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang*
[[Paper](https://aclanthology.org/2025.acl-demo.61/)] [[GitHub](https://github.com/AIDC-AI/ComfyUI-Copilot)] | | AniMaker pipeline

| **[SIGGRAPH Asia 2025] AniMaker: Multi-Agent Animated Storytelling with MCTS-Driven Clip Generation**
*Haoyuan Shi, Yunxin Li, Xinyu Chen, Longyue Wang, Baotian Hu, Min Zhang*
[[Paper](https://doi.org/10.1145/3757377.3764009)] [[GitHub](https://github.com/HITsz-TMG/Anim-Director/tree/main/AniMaker)] | ## ⭐ Star History [![Star History Chart](https://api.star-history.com/svg?repos=AIDC-AI/Pixelle-Video&type=Date)](https://star-history.com/#AIDC-AI/Pixelle-Video&Date)

🎬 Pixelle-Video —— AI 全自动短视频引擎

👤 数字人口播

🖼️ 图生视频

💃 动作迁移

🌄 人文纪实类 - 视频默认模版

🔍 文化解构类 - 视频默认模版

🔭 科学思辨类 - 视频默认模版

🌱 个人成长类 - 克隆音色

🧠 深度思考类 - 默认模板

🏯 历史文化类 - 固定画面

☀️ 情感类 - 克隆音色

📜 小说解说类 - 自创脚本

🧬 知识科普类 - Qwen生图

💰 副业赚钱 - 电影模板

🏛️ 历史解说 - 自定义模板