AI 生图技术深度指南 (2025-2026)
最后更新: 2026年5月1日 | 状态: 生产就绪 覆盖范围: DiT 架构、Flux.1/Kolors、ControlNet++、IP-Adapter、ComfyUI 工作流、角色一致性
1. DiT 架构与模型格局
行业已全面从 UNet 扩散模型转向 Diffusion Transformer (DiT) 和 Flow Matching (Rectified Flow) 范式。
核心架构变化
- MMDiT(多模态 DiT): SD3、Flux、Kolors 均使用。图像 latent 和文本嵌入并行处理,通过调制注意力块融合。消除了旧版 cross-attention UNet 的"语言绑定"问题。
- Flow Matching / Rectified Flow: 替代传统 DDIM/DPM++ 调度器。模型学习连续速度场,Euler/Simple 调度器即可实现更少步数生成,提示词遵循度大幅提升。
- 文本编码器升级:
Flux.1: T5-XXL (11B) + CLIP-L (426M)SD3.5 Large/Medium: T5-XXL + CLIP-G + CLIP-LKolors v2: ChatGLM3-6B(针对亚洲/CJK语义优化)- 分辨率与 Patching: 原生 1024×1024+ latent 空间。DiT 按分辨率线性缩放。Patch 大小通常
2×2或4×4。Flux 原生支持任意宽高比,无裁切伪影。
模型基准对比(2026年4月)
| 模型 | 参数量 | 架构 | 优势 |
|---|---|---|---|
| Flux.1 [dev] | 12B | DiT + Flow Match | 最佳文本渲染、解剖学准确性、提示词遵循度 |
| Flux.1 [schnell] | 12B | 蒸馏 DiT | 1-4 步生成,本地部署友好 |
| SD3.5 Large | 8B | MMDiT | 高美学质量,强大社区生态,推理速度快 |
| Kolors v2 | ~10B | DiT + ChatGLM | 写实亚洲美学,原生多语言提示词支持 |
| HunyuanDiT v3 | 5.5B | 稀疏 DiT | 高效显存使用,电影级光照,强运动/视频先验 |
2. 控制与条件化(ControlNet++ 与 DiT 适配)
传统 UNet 训练的 ControlNet 与 DiT 不兼容(latent 结构不同)。生态已转向 DiT 原生 ControlNet 和 LoRA 控制适配器。 DiT 适配)
传统 UNet 训练的 ControlNet 与 DiT 不兼容(latent 结构不同)。生态已转向 DiT 原生 ControlNet 和 LoRA 控制适配器。### DiT 原生 ControlNet 技术
* Flux ControlNets(InstantX, xlab): 在 DiT transformer 块中进行 patch 级注入。支持 Depth、Canny、OpenPose、Hed 和 IP-Adapter。
* 多 Control 路由(ControlNet++): 使用动态权重门控防止控制信号干扰。ComfyUI 中通过 Apply ControlNet 节点顺序堆叠,权重保持 0.4-0.8。
* 参数指南:
* Control Strength: 0.75-1.0(DiT 模型需要比 SD1.5 更低的控制强度以避免过度约束)
* Start/End %: 从 0.0 开始,0.9 结束(最后 10% 步数让美学细节在无控制干扰下解析)
* Latent 预处理器: 优先使用 DepthAnything v2 和 DWPose,而非旧版 OpenPose/MiDaS,获得更高空间保真度。
3. 角色一致性与身份保持
IP-Adapter FaceID / Plus v2
- 架构: 将参考图像嵌入(CLIP-ViT + ArcFace/InsightFace)投射到 DiT cross-attention 层。
- Plus v2 特性: 多图像堆叠支持、精细人脸 token 路由、减少"身份泄漏"。
- ComfyUI 配置: 使用
IPAdapterApply+FaceID Plus v2权重。设置weight=0.7,weight_type="style transfer"。多角色一致性用IPAdapterBatch链式调用。
InstantID(零样本)
- 结合面部关键点(AntelopeV2)与 IP-Adapter 嵌入。
- 工作流:
Keypoint Preprocessor→InstantID Face Keypoints→Apply ControlNet(关键点,强度 0.8)+IPAdapter(嵌入,强度 0.5)。 - 技巧: 使用
InstantID Keypoint to Pose引导构图同时保持精确面部几何。
PhotoMaker v2
- 机制: "Stack ID" 技术。从多个参考图像提取主体 ID token,作为条件文本嵌入注入。
- 参数:
num_tokens=2,style_strength=0.6-0.8,mix_weight=0.5。 - DiT 兼容性: 通过
PhotoMakerLoader和Apply PhotoMaker节点移植到 SD3.5/Flux。在极端光照/角度变化下保留精细面部特征方面优于标准 IP-Adapter。 *: 通过PhotoMakerLoader和Apply PhotoMaker节点移植到 SD3.5/Flux。在极端光照/角度变化下保留精细面部特征方面优于标准 IP-Adapter。### LoRA 训练用于一致性 - Rank/Alpha:
rank=32, alpha=16(标准),rank=64, alpha=64(高保真角色) - 训练配置:
network_dim=32,network_alpha=16,lr=2e-4,optimizer=AdamW8bit,steps=1500-2500(50-100 张训练图像) - DiT 专属: 使用
lycoris或kohya-ssFlux 分支。仅针对single_blocks训练更轻量 LoRA。添加dropout=0.1防止过拟合。 - 触发词: 使用独特、不常见的 token(
<sks>,ohwx),避免真实名称。
4. 提示词工程与区域控制
SD3 & Flux 提示词范式
DiT 模型 不适合 旧版 SD1.5 语法 (word:1.2)、<lora:>, 或 masterpiece, best quality,。它们偏好 自然语言。
| 方面 | SD1.5/SDXL | SD3 / Flux |
|---|---|---|
| 语法 | 标签密集,权重 (prompt:1.3) |
自然散文,逗号,描述性句子 |
| 负向提示词 | 必需(ugly, bad anatomy) |
基本无效。改用明确的正向描述 |
| 文本渲染 | 不可靠 | 原生 T5-XXL 支持精确文本,用 "" 包裹 |
| 示例 | 1girl, blue hair, masterpiece, 4k |
A photograph of a young woman with bright blue hair looking at the camera. Cinematic lighting, shallow depth of field, 85mm lens. |
Flux 专属提示词技巧:
* 指定媒介: A digital painting of..., A 35mm film photograph of..., An oil painting of...
* 使用空间描述: in the foreground, centered, framed by...
* 精确文本用引号包裹: holding a sign that says "OPEN 24/7"
* 避免矛盾形容词。DiT 模型按字面理解提示词。
DiT 中的区域提示词
旧版区域提示词节点会破坏 DiT 注意力路由。使用以下现代替代方案:
1. Area Conditioning(ConditioningSetArea): ComfyUI 中使用 Conditioning (Set Area) 对不同像素区域应用不同提示词。
2. 掩码 IP-Adapters: 使用 IPAdapter Apply (Masked) 将身份/风格注入限制在特定区域。
3. ControlNet 掩码: 用掩码应用 Canny/Depth,仅在目标区域强制构图。
5. ComfyUI 工作流模式
ked)` 将身份/风格注入限制在特定区域。 3. ControlNet 掩码: 用掩码应用 Canny/Depth,仅在目标区域强制构图。
5. ComfyUI 工作流模式### 核心 DiT/Flux 节点
DualCLIPLoader: 加载t5xxl_fp16.safetensors+clip_l.safetensorsUNETLoader: 加载flux1-dev.safetensors(<24GB VRAM 推荐 fp8)ModelSamplingFlux: 替代传统 CFG。设置max_shift(默认 1.15)和base_shift(0.5)。FluxGuidance: 替代cfg_scale。范围:1.5-4.0。默认3.5。KSampler (Advanced)或FluxSampler: 使用euler或simple调度器。
推荐基础工作流结构
[Load Checkpoint] → [Load LoRA (如有)] → [ModelSamplingFlux]
[Load CLIP] → [Dual Text Encode (正向)]
[Empty Latent Image (w, h, batch=1)] → [KSampler]
[VAE Decode] → [Save Image]
Latent Upscale(2x, bicubic)→ VAE Decode → FaceDetailer (Impact Pack) → KSampler (denoise=0.35)
6. 质量优化与参数调优
调度器与步数优化
| 模型 | 采样器 | 调度器 | 步数 | CFG/Guidance |
|---|---|---|---|---|
| Flux.1 [schnell] | euler |
simple |
4 | 1.0-2.0 |
| Flux.1 [dev] | euler / euler_ancestral |
simple |
20-25 | 3.0-3.5 |
| SD3.5 Large | dpmpp_2m |
karras |
20-30 | 5.0-7.0 |
| Kolors v2 | euler |
normal |
25-30 | 4.0-6.0 |
显存与性能
- FP8 量化: 使用
flux1-dev-fp8.safetensors。质量损失可忽略,显存从 24GB 降至 ~12GB。 - T5 卸载: 启用
clip_skip=1,使用T5xxl_offload自定义节点。 - Latent 超分 Denoise: 保持
0.25-0.40。>0.5 会产生新几何幻觉。
常见陷阱与修复
- 浑浊/塑料质感: 降低 guidance scale(
<3.0),切换到euler_ancestral。 - 过饱和/对比度过高: 提示词添加
neutral lighting, soft shadows。 - 手/解剖问题: 使用
DWPoseControlNet(强度0.4)+ 明确提示词。 - 提示词被忽略: 确保加载了
T5-XXL。仅使用 DiT 原生 LoRA。
/解剖问题: 使用 DWPose ControlNet(强度 0.4)+ 明确提示词。
* 提示词被忽略**: 确保加载了 T5-XXL。仅使用 DiT 原生 LoRA。
---## 7. 【新增】2026最新进阶技术
7.1 Flux LoRA 堆叠与混合
核心问题: 多个 LoRA 直接叠加会导致权重干扰,产生不自然的结果。
解决方案 - 权重归一化混合:
# LoRA 堆叠最佳实践
# 总权重保持在 0.8-1.2 范围内
lora_a_weight = 0.5 # 角色 LoRA
lora_b_weight = 0.3 # 风格 LoRA
lora_c_weight = 0.2 # 光照/环境 LoRA
# 总和 = 1.0,不会过拟合
ComfyUI 节点链:
每个 LoRA 后串联Model Patch 节点,权重递减排列:主体 LoRA > 风格 LoRA > 细节 LoRA。
7.2 多角色场景一致性工作流
挑战: 同一画面中多个不同角色,各自保持面部一致性。
方案 A - 区域 IP-Adapter + 区域提示词:
1. 使用 IPAdapterApply (Masked) 将角色 A 的面部参考嵌入注入到上半部分区域
2. 使用第二个 IPAdapterApply (Masked) 将角色 B 的参考注入到下半部分区域
3. 用 ConditioningSetArea 为每个区域设置不同提示词
方案 B - 参考网格生成:
1. 先用 Flux 生成 2×2 参考网格(每个角色占一格)
2. 将网格图作为 IP-Adapter 参考
3. 提示词描述角色位置关系: Person A on the left, Person B on the right, facing each other
4. 配合 ControlNet Depth 保持构图
7.3 DiT 模型的 CFG 替代方案
DiT/Flow Matching 模型对传统 CFG 响应不佳。推荐使用:
Guidance Rescale:
Guidance rescale 将全局引导转换为自适应引导,减少过饱和和伪影。Classifier-Free Guidance 替代:
* FluxGuidance 节点(推荐): 针对 Flow Matching 优化的引导
* Perturbed-Attention Guidance: 通过扰动自注意力权重实现无分类器引导,无需负向提示词
uidance节点(推荐): 针对 Flow Matching 优化的引导
*Perturbed-Attention Guidance`: 通过扰动自注意力权重实现无分类器引导,无需负向提示词### 7.4 文本渲染专项优化
Flux + T5-XXL 可精确渲染文本,但需要技巧:
- 引号包裹:
a neon sign that reads "CAFE" - 避免过长文本: 最多 5-7 个单词效果最佳
- 指定字体风格:
handwritten text,bold sans-serif text,vintage typography - 位置明确:
top center,bottom right corner - 对比度提示:
white text on dark background,red letters - 分步优化: 先生成含文本的图像,再用 ControlNet Canny 锁定文本区域重绘
7.5 ComfyUI 自动化批量生成脚本
# ComfyUI API 批量生成示例
import requests
import json
import time
SERVER = "http://127.0.0.1:8188"
def queue_prompt(workflow_json, variations):
results = []
for i, var in enumerate(variations):
# 修改提示词节点
workflow["6"]["inputs"]["text"] = var["prompt"]
workflow["6"]["inputs"]["seed"] = var.get("seed", i * 1000)
# 提交到队列
resp = requests.post(f"{SERVER}/prompt", json={"prompt": workflow})
prompt_id = resp.json()["prompt_id"]
# 等待完成
while True:
history = requests.get(f"{SERVER}/history/{prompt_id}").json()
if prompt_id in history:
break
time.sleep(2)
results.append(history[prompt_id])
return results
eak
time.sleep(2)
results.append(history[prompt_id])
return results# 变体生成示例
variations = [
{"prompt": "A portrait of a young woman in a sunlit garden, soft natural lighting, 85mm lens", "seed": 42},
{"prompt": "A portrait of the same woman in a rainy cafe, moody cinematic lighting, 50mm lens", "seed": 43},
{"prompt": "A portrait of the same woman at golden hour beach, warm backlight, 35mm lens", "seed": 44},
]
8. 避坑清单
- 记录
ModelSamplingFlux和FluxGuidance为 Flux 工作流的必需节点 - 用 Flow Matching 调度器推荐替换旧版 CFG/DPM++ 表格
- 为 DiT 模型添加自然语言提示词模板
- 包含
ConditioningSetArea和掩码 IP-Adapter 工作流用于区域控制 - 提供 fp8 量化和 T5 卸载步骤用于本地部署
- 强调 DiT 原生 ControlNet/LoRA 兼容性(SDXL 权重不兼容)
- 【新增】LoRA 堆叠总权重不超过 1.2,避免过拟合
- 【新增】多角色场景使用区域 IP-Adapter + 区域 Conditioning
- 【新增】文本渲染使用引号包裹 + 简短文本 + 指定对比度
---
9. 【2026年5月新增】最新 developments (2026年5月更新)
9.1 FLUX.2 系列 — 黑森林实验室的重大升级
FLUX.2 核心版本(2025年11月25日发布)
Black Forest Labs 于2025年11月发布了 FLUX.2 系列,相比 FLUX.1 实现了从"会画"到"懂你要画什么"的跃升。
FLUX.2 版本矩阵: | 版本 | 定位 | 许可证 | 关键特性 | |------|------|--------|----------| | FLUX.2 [pro] | 闭源商业版 | 商业API | 最强版本,可与头部闭源模型抗衡,指令遵循最强 | | FLUX.2 [flex] | 开源全能版 | FLUX非商业 | 支持文生图+图生图+图像编辑统一架构 | | FLUX.2 [dev] | 开源开发版 | FLUX非商业 | 高质量开发版本,社区生态主力 | | FLUX.2 [klein] | 轻量开源版 | 4B: Apache2.0 / 9B: FLUX非商业 | 亚秒级生成,消费级GPU友好 | 非商业 | 高质量开发版本,社区生态主力 | | FLUX.2 [klein] | 轻量开源版 | 4B: Apache2.0 / 9B: FLUX非商业 | 亚秒级生成,消费级GPU友好 |#### FLUX.2 [klein] 详解(2026年1月15日发布)
核心突破: - 4B 和 9B 两个参数版本: 首次将高质量 DiT 模型压缩到消费级 GPU 可运行的规模 - 统一生成与编辑架构: 同一模型同时支持文生图、图生图、局部重绘、风格迁移 - 极速推理: 4B蒸馏版最低 0.5秒 生成(4步采样),9B版本约1-2秒 - 多参考条件控制: 支持同时参考 最多10张图像(FLUX.2 全系特性) - 4MP 图像编辑: 支持高分辨率图像的直接编辑修改 - 中文友好: Klein 9B 版本内置 Qwen-3.8B 文本编码器,对中文提示词理解能力显著优于 T5-XXL
量化方案: | 格式 | 显存需求 | 速度提升 | 质量影响 | |------|---------|---------|---------| | FP16 | ~24GB (9B) | 基准 | 无损 | | FP8 | ~13GB (9B) | 1.5x | 可忽略 | | NVFP4 | ~7GB (9B) | 2.5-2.7x | 轻微 |
部署要求: - 4B 版本: 最低 8GB 显存(FP8量化后 ~5GB) - 9B 版本: 最低 12GB 显存(NVFP4量化后 ~7GB) - 推荐: RTX 3060 12G / RTX 4060 Ti 16G 及以上
ComfyUI 工作流配置:
[Load Diffusion Model] → flux-2-klein-base-9b-nvfp4.safetensors
[Load Text Encoder] → qwen_3_8b_fp8mixed.safetensors (替代T5-XXL!)
[Load VAE] → flux2-vae.safetensors
[Empty Latent] → [KSampler] → [VAE Decode] → [Save]
FLUX.2 图像编辑能力
FLUX.2 在图像编辑方面实现了生产级能力: - 换装/改色: 描述性指令修改衣物属性("把T恤换成皮夹克") - 局部重绘: 指定区域修改,保持其他区域不变 - 文字添加/修改: 在图片中添加或修改可读文字 - 风格迁移: 将参考图风格应用到生成图片上 - 多参考混合: 结合多张参考图的特征生成新图像
来源: BFL官方博客 (bfl.ai, 2026-01-15), CSDN技术解析, ComfyUI社区工作流
9.2 Midjourney V8 — 生产力级升级(2026年3月)
V8 核心特性
2026年3月,Midjourney 发布了 V8 版本,被称为"生产力级升级": - 文本理解能力大幅提升: 对复杂提示词的解析更加精准 - 亚洲人脸优化: 不再古板化/网红化,东方元素表现显著提升 - 食物/物品细节: 商业级食材准确性,可直接用于餐厅菜单 - AI感降低: 从V7开始的真实感趋势在V8中进一步加强,整体AIGC水平巨大进展 - 视频生成扩展: Midjourney V1 视频模型(2025年6月发布)持续迭代,支持1080P AI感降低: 从V7开始的真实感趋势在V8中进一步加强,整体AIGC水平巨大进展 - 视频生成扩展: Midjourney V1 视频模型(2025年6月发布)持续迭代,支持1080P#### V7 关键功能回顾(2025年4月-5月) - 个性化模型: 首个默认启用模型个性化的版本(需完成200张图像评级解锁) - 草稿模式: 渲染速度提升 10倍,成本降低 50% - Omni Reference (2025年5月): 全方位图像参考,可同时参考人物和背景 - 对话模式: 提示栏切换为对话式交互 - --cref 角色一致性: 跨图像保持角色外观一致
来源: Sohu科技报道 (2026-03-23), 量子位报道, Midjourney官方文档
9.3 SD3.5 与 Stability AI 现状
截至2026年5月: - SD3.5 仍是 Stability AI 最新公开版本(2024年10月发布) - SD4 尚未正式发布,Stability AI 在公司重组后开源节奏放缓 - 社区生态持续为 SD3.5 Large/Medium/Turbo 开发 ControlNet 和 LoRA - 推荐策略: 对于新项目,优先选择 FLUX.2 系列而非等待 SD4
9.4 ControlNet for DiT — 2026年新进展
InstantX / Shakker-Labs 联合模型
- FLUX.1-dev-ControlNet-Union-Pro: 7种控制模式合一(Canny/Tile/Depth/Blur/Pose/Gray/Low-quality)
- 模型大小: 6.6GB,支持 FP16/FP8 量化
- 兼容 ComfyUI 原生 ControlNet 加载器
XLabs-AI ControlNet V3
- 在 1024×1024 分辨率上重新训练,效果优于 V2
- 支持: Canny, HED (SoftEdge), Depth
- 专用 ComfyUI 插件:
x-flux-comfyui
MistoLine_Flux.dev
- 国产 ControlNet 模型,约 1.4B 参数
- 支持任意 lineart 或 outline sketches 控制
- 需要专用节点(与 XLabs 加载器不兼容)
- 兼容 FP16/FP8 和其他量化的 Flux 模型
新增: Flux Kontext 工具集
- 官方开源图像编辑工具,支持10种核心功能
- 图片参考、风格转换、物体移除、文字变更等
推荐工作流: 使用 Shakker-Labs Union-Pro 作为主力 ControlNet,覆盖 90% 控制需求。
来源: HuggingFace模型页, CSDN技术测评, 微博AI社区
9.5 角色一致性 — 2026年新工具与技术
ConsistentID [TPAMI 2026]
- 论文级别的肖像生成与多模态细粒度身份保持方案
- 引入 FaceParsing + FaceID 信息到扩散模型
- 秒级定制,无需额外 LoRA 训练
- 支持 SD/SDXL 模型,极高 ID 保真度 像生成与多模态细粒度身份保持方案
- 引入 FaceParsing + FaceID 信息到扩散模型
- 秒级定制,无需额外 LoRA 训练
- 支持 SD/SDXL 模型,极高 ID 保真度#### PuLID-For-Flux(字节团队开源)
- 无需训练 LoRA 的面部迁移方案
- 与 InstantID 效果相当,专为 Flux 架构适配
- 使用 CLIP Vision + 面部特征提取实现零样本身份保持
- ComfyUI 已有集成节点
IP-Adapter for Flux 生态成熟
- InstantX 版本:
FLUX.1-dev-IP-Adapter+ SigLIP So400M 视觉编码器 - XLabs 版本: 风格参考 + 人脸参考双模式
- LiblibAI 升级版: WebUI 与 ComfyUI 均已适配
FaceShaper 液化前置技术
- 在进行换脸/角色生成前,对面部进行液化预处理
- 提高换脸成功率,减少面部扭曲
- 配合 ReActor/InstantID 使用效果最佳
推荐组合: - 快速原型: PuLID-For-Flux(零样本,无需训练) - 高精度需求: ConsistentID(TPAMI级别质量) - 风格迁移: IP-Adapter Flux + 风格参考
来源: GitHub/JackAILab/ConsistentID, 哔哩哔哩技术教程, HuggingFace
9.6 LoRA 训练进阶 — DoRA/LoHA 在扩散模型中的应用
DoRA (Weight-Decomposed Low-Rank Adaptation)
- 原理: 将预训练权重分解为 幅度(m) × 方向(v̂) 两个独立分量
- 优势: 仅增加约 0.01% 参数即可显著提升训练稳定性与低秩场景性能
- 扩散模型适配: 在 FLUX DiT 的 single_blocks 上训练 DoRA LoRA 比标准 LoRA 收敛更快
- 推荐配置:
network_dim=32, alpha=32, method=dora
LoHA (LoRA with Hadamard Product)
- 利用 Hadamard 积(逐元素乘积)重构更新矩阵
- 在相同参数量下获得更高的理论秩
- 适用于需要捕获更复杂特征变换的场景(如风格 LoRA)
LoKr (LoRA with Kronecker Product)
- 利用 Kronecker 积重构,进一步扩展表示能力
- 适合超大规模特征映射 特征变换的场景(如风格 LoRA)
LoKr (LoRA with Kronecker Product)
- 利用 Kronecker 积重构,进一步扩展表示能力
- 适合超大规模特征映射#### 2026年推荐训练策略 | 用途 | 方法 | Dim | Alpha | 训练步数 | |------|------|-----|-------|---------| | 角色一致性 | DoRA | 32 | 32 | 1500-2000 | | 风格迁移 | LoHA | 64 | 64 | 2000-3000 | | 轻量适配 | LoRA | 16 | 8 | 800-1200 | | 高精度角色 | DoRA | 64 | 64 | 2500-3500 |
kohya-ss 兼容性: 最新版本已支持 Flux DoRA/LoHA 训练,需在配置中指定 network_module=networks.lora_flux_dora。
来源: CSDN PEFT对比文章(2026-04-28), 腾讯云开发者文章(2026-05-01), kohya-ss GitHub
9.7 ComfyUI 生态 — 2026年新发展
ComfyUI Cloud(云端化趋势)
- Comfy Org 推出 Comfy Cloud (cloud.comfy.org)
- 浏览器内直接构建和运行工作流,无需本地安装
- 支持多 GPU 实例,按需付费
- 2026年趋势: 云端 ComfyUI 成为主流,解决万元级显卡成本和Python环境配置痛点
国内云平台方案
- RunningHub: ComfyUI 在线运行平台
- 算网: ComfyUI 镜像部署
- 多家平台提供预设 FLUX.2 工作流模板
关键插件更新
- ComfyUI-Manager: 支持一键安装/更新所有 FLUX.2 相关节点
- Impact Pack: FaceDetailer 已适配 FLUX.2 VAE
- EeroHeikkinen Nodes: InstantX ControlNet 专用加载节点
来源: Comfy Org官方博客(2026-04-30), CSDN云平台测评(2026-03-22)
文档更新日期: 2026年5月1日 | 新增: FLUX.2系列、Midjourney V8、ControlNet Union-Pro、ConsistentID、PuLID、DoRA/LoHA、ComfyUI Cloud | 来源: BFL官方、CSDN、HuggingFace、GitHub