AI 生图技术深度指南 (2025-2026)

最后更新: 2026年5月1日 | 状态: 生产就绪 覆盖范围: DiT 架构、Flux.1/Kolors、ControlNet++、IP-Adapter、ComfyUI 工作流、角色一致性

1. DiT 架构与模型格局

行业已全面从 UNet 扩散模型转向 Diffusion Transformer (DiT) 和 Flow Matching (Rectified Flow) 范式。

核心架构变化

MMDiT（多模态 DiT）: SD3、Flux、Kolors 均使用。图像 latent 和文本嵌入并行处理，通过调制注意力块融合。消除了旧版 cross-attention UNet 的"语言绑定"问题。
Flow Matching / Rectified Flow: 替代传统 DDIM/DPM++ 调度器。模型学习连续速度场，Euler/Simple 调度器即可实现更少步数生成，提示词遵循度大幅提升。
文本编码器升级:
Flux.1: T5-XXL (11B) + CLIP-L (426M)
SD3.5 Large/Medium: T5-XXL + CLIP-G + CLIP-L
Kolors v2: ChatGLM3-6B（针对亚洲/CJK语义优化）
分辨率与 Patching: 原生 1024×1024+ latent 空间。DiT 按分辨率线性缩放。Patch 大小通常 2×2 或 4×4。Flux 原生支持任意宽高比，无裁切伪影。

模型基准对比（2026年4月）

模型	参数量	架构	优势
Flux.1 [dev]	12B	DiT + Flow Match	最佳文本渲染、解剖学准确性、提示词遵循度
Flux.1 [schnell]	12B	蒸馏 DiT	1-4 步生成，本地部署友好
SD3.5 Large	8B	MMDiT	高美学质量，强大社区生态，推理速度快
Kolors v2	~10B	DiT + ChatGLM	写实亚洲美学，原生多语言提示词支持
HunyuanDiT v3	5.5B	稀疏 DiT	高效显存使用，电影级光照，强运动/视频先验

2. 控制与条件化（ControlNet++ 与 DiT 适配）

传统 UNet 训练的 ControlNet 与 DiT 不兼容（latent 结构不同）。生态已转向 DiT 原生 ControlNet 和 LoRA 控制适配器。 DiT 适配）

传统 UNet 训练的 ControlNet 与 DiT 不兼容（latent 结构不同）。生态已转向 DiT 原生 ControlNet 和 LoRA 控制适配器。### DiT 原生 ControlNet 技术 * Flux ControlNets（InstantX, xlab）: 在 DiT transformer 块中进行 patch 级注入。支持 Depth、Canny、OpenPose、Hed 和 IP-Adapter。 * 多 Control 路由（ControlNet++）: 使用动态权重门控防止控制信号干扰。ComfyUI 中通过 Apply ControlNet 节点顺序堆叠，权重保持 0.4-0.8。 * 参数指南: * Control Strength: 0.75-1.0（DiT 模型需要比 SD1.5 更低的控制强度以避免过度约束） * Start/End %: 从 0.0 开始，0.9 结束（最后 10% 步数让美学细节在无控制干扰下解析） * Latent 预处理器: 优先使用 DepthAnything v2 和 DWPose，而非旧版 OpenPose/MiDaS，获得更高空间保真度。

3. 角色一致性与身份保持

IP-Adapter FaceID / Plus v2

架构: 将参考图像嵌入（CLIP-ViT + ArcFace/InsightFace）投射到 DiT cross-attention 层。
Plus v2 特性: 多图像堆叠支持、精细人脸 token 路由、减少"身份泄漏"。
ComfyUI 配置: 使用 IPAdapterApply + FaceID Plus v2 权重。设置 weight=0.7，weight_type="style transfer"。多角色一致性用 IPAdapterBatch 链式调用。

InstantID（零样本）

结合面部关键点（AntelopeV2）与 IP-Adapter 嵌入。
工作流: Keypoint Preprocessor → InstantID Face Keypoints → Apply ControlNet（关键点，强度 0.8）+ IPAdapter（嵌入，强度 0.5）。
技巧: 使用 InstantID Keypoint to Pose 引导构图同时保持精确面部几何。

PhotoMaker v2

机制: "Stack ID" 技术。从多个参考图像提取主体 ID token，作为条件文本嵌入注入。
参数: num_tokens=2，style_strength=0.6-0.8，mix_weight=0.5。
DiT 兼容性: 通过 PhotoMakerLoader 和 Apply PhotoMaker 节点移植到 SD3.5/Flux。在极端光照/角度变化下保留精细面部特征方面优于标准 IP-Adapter。 *: 通过 PhotoMakerLoader 和 Apply PhotoMaker 节点移植到 SD3.5/Flux。在极端光照/角度变化下保留精细面部特征方面优于标准 IP-Adapter。### LoRA 训练用于一致性
Rank/Alpha: rank=32, alpha=16（标准），rank=64, alpha=64（高保真角色）
训练配置: network_dim=32, network_alpha=16, lr=2e-4, optimizer=AdamW8bit, steps=1500-2500（50-100 张训练图像）
DiT 专属: 使用 lycoris 或 kohya-ss Flux 分支。仅针对 single_blocks 训练更轻量 LoRA。添加 dropout=0.1 防止过拟合。
触发词: 使用独特、不常见的 token（<sks>, ohwx），避免真实名称。

4. 提示词工程与区域控制

SD3 & Flux 提示词范式

DiT 模型 不适合 旧版 SD1.5 语法 (word:1.2)、<lora:>, 或 masterpiece, best quality,。它们偏好 自然语言。

方面	SD1.5/SDXL	SD3 / Flux
语法	标签密集，权重 `(prompt:1.3)`	自然散文，逗号，描述性句子
负向提示词	必需（`ugly, bad anatomy`）	基本无效。改用明确的正向描述
文本渲染	不可靠	原生 T5-XXL 支持精确文本，用 `""` 包裹
示例	`1girl, blue hair, masterpiece, 4k`	`A photograph of a young woman with bright blue hair looking at the camera. Cinematic lighting, shallow depth of field, 85mm lens.`

Flux 专属提示词技巧: * 指定媒介: A digital painting of..., A 35mm film photograph of..., An oil painting of... * 使用空间描述: in the foreground, centered, framed by... * 精确文本用引号包裹: holding a sign that says "OPEN 24/7" * 避免矛盾形容词。DiT 模型按字面理解提示词。

DiT 中的区域提示词

旧版区域提示词节点会破坏 DiT 注意力路由。使用以下现代替代方案： 1. Area Conditioning（ConditioningSetArea）: ComfyUI 中使用 Conditioning (Set Area) 对不同像素区域应用不同提示词。 2. 掩码 IP-Adapters: 使用 IPAdapter Apply (Masked) 将身份/风格注入限制在特定区域。 3. ControlNet 掩码: 用掩码应用 Canny/Depth，仅在目标区域强制构图。

5. ComfyUI 工作流模式

ked)` 将身份/风格注入限制在特定区域。 3. ControlNet 掩码: 用掩码应用 Canny/Depth，仅在目标区域强制构图。

5. ComfyUI 工作流模式### 核心 DiT/Flux 节点

DualCLIPLoader: 加载 t5xxl_fp16.safetensors + clip_l.safetensors
UNETLoader: 加载 flux1-dev.safetensors（<24GB VRAM 推荐 fp8）
ModelSamplingFlux: 替代传统 CFG。设置 max_shift（默认 1.15）和 base_shift（0.5）。
FluxGuidance: 替代 cfg_scale。范围: 1.5-4.0。默认 3.5。
KSampler (Advanced) 或 FluxSampler: 使用 euler 或 simple 调度器。

6. 质量优化与参数调优

调度器与步数优化

模型	采样器	调度器	步数	CFG/Guidance
Flux.1 [schnell]	`euler`	`simple`	4	1.0-2.0
Flux.1 [dev]	`euler` / `euler_ancestral`	`simple`	20-25	3.0-3.5
SD3.5 Large	`dpmpp_2m`	`karras`	20-30	5.0-7.0
Kolors v2	`euler`	`normal`	25-30	4.0-6.0

显存与性能

FP8 量化: 使用 flux1-dev-fp8.safetensors。质量损失可忽略，显存从 24GB 降至 ~12GB。
T5 卸载: 启用 clip_skip=1，使用 T5xxl_offload 自定义节点。
Latent 超分 Denoise: 保持 0.25-0.40。>0.5 会产生新几何幻觉。

常见陷阱与修复

浑浊/塑料质感: 降低 guidance scale（<3.0），切换到 euler_ancestral。
过饱和/对比度过高: 提示词添加 neutral lighting, soft shadows。
手/解剖问题: 使用 DWPose ControlNet（强度 0.4）+ 明确提示词。
提示词被忽略: 确保加载了 T5-XXL。仅使用 DiT 原生 LoRA。

/解剖问题: 使用 DWPose ControlNet（强度 0.4）+ 明确提示词。 * 提示词被忽略**: 确保加载了 T5-XXL。仅使用 DiT 原生 LoRA。

---## 7. 【新增】2026最新进阶技术

7.1 Flux LoRA 堆叠与混合

核心问题: 多个 LoRA 直接叠加会导致权重干扰，产生不自然的结果。

解决方案 - 权重归一化混合:

# LoRA 堆叠最佳实践
# 总权重保持在 0.8-1.2 范围内
lora_a_weight = 0.5   # 角色 LoRA
lora_b_weight = 0.3   # 风格 LoRA  
lora_c_weight = 0.2   # 光照/环境 LoRA
# 总和 = 1.0，不会过拟合

ComfyUI 节点链:

[Load LoRA] → [Model Patch] → [Load LoRA 2] → [Model Patch 2] → [KSampler]

每个 LoRA 后串联 Model Patch 节点，权重递减排列：主体 LoRA > 风格 LoRA > 细节 LoRA。

7.2 多角色场景一致性工作流

挑战: 同一画面中多个不同角色，各自保持面部一致性。

方案 A - 区域 IP-Adapter + 区域提示词: 1. 使用 IPAdapterApply (Masked) 将角色 A 的面部参考嵌入注入到上半部分区域 2. 使用第二个 IPAdapterApply (Masked) 将角色 B 的参考注入到下半部分区域 3. 用 ConditioningSetArea 为每个区域设置不同提示词

方案 B - 参考网格生成: 1. 先用 Flux 生成 2×2 参考网格（每个角色占一格） 2. 将网格图作为 IP-Adapter 参考 3. 提示词描述角色位置关系: Person A on the left, Person B on the right, facing each other 4. 配合 ControlNet Depth 保持构图

7.3 DiT 模型的 CFG 替代方案

DiT/Flow Matching 模型对传统 CFG 响应不佳。推荐使用：

Guidance Rescale:

# 在 ComfyUI 中使用 FluxGuidance 节点
guidance = 3.5           # 基础引导强度
guidance_rescale = 0.7   # 防止过曝光（默认 1.0）

Guidance rescale 将全局引导转换为自适应引导，减少过饱和和伪影。

Classifier-Free Guidance 替代: * FluxGuidance 节点（推荐）: 针对 Flow Matching 优化的引导 * Perturbed-Attention Guidance: 通过扰动自注意力权重实现无分类器引导，无需负向提示词 uidance节点（推荐）: 针对 Flow Matching 优化的引导 *Perturbed-Attention Guidance`: 通过扰动自注意力权重实现无分类器引导，无需负向提示词### 7.4 文本渲染专项优化

Flux + T5-XXL 可精确渲染文本，但需要技巧：

引号包裹: a neon sign that reads "CAFE"
避免过长文本: 最多 5-7 个单词效果最佳
指定字体风格: handwritten text, bold sans-serif text, vintage typography
位置明确: top center, bottom right corner
对比度提示: white text on dark background, red letters
分步优化: 先生成含文本的图像，再用 ControlNet Canny 锁定文本区域重绘

7.5 ComfyUI 自动化批量生成脚本

# ComfyUI API 批量生成示例
import requests
import json
import time

SERVER = "http://127.0.0.1:8188"

def queue_prompt(workflow_json, variations):
    results = []
    for i, var in enumerate(variations):
        # 修改提示词节点
        workflow["6"]["inputs"]["text"] = var["prompt"]
        workflow["6"]["inputs"]["seed"] = var.get("seed", i * 1000)

        # 提交到队列
        resp = requests.post(f"{SERVER}/prompt", json={"prompt": workflow})
        prompt_id = resp.json()["prompt_id"]

        # 等待完成
        while True:
            history = requests.get(f"{SERVER}/history/{prompt_id}").json()
            if prompt_id in history:
                break
            time.sleep(2)

        results.append(history[prompt_id])
    return results
eak
            time.sleep(2)

        results.append(history[prompt_id])
    return results# 变体生成示例
variations = [
    {"prompt": "A portrait of a young woman in a sunlit garden, soft natural lighting, 85mm lens", "seed": 42},
    {"prompt": "A portrait of the same woman in a rainy cafe, moody cinematic lighting, 50mm lens", "seed": 43},
    {"prompt": "A portrait of the same woman at golden hour beach, warm backlight, 35mm lens", "seed": 44},
]

8. 避坑清单

记录 ModelSamplingFlux 和 FluxGuidance 为 Flux 工作流的必需节点
用 Flow Matching 调度器推荐替换旧版 CFG/DPM++ 表格
为 DiT 模型添加自然语言提示词模板
包含 ConditioningSetArea 和掩码 IP-Adapter 工作流用于区域控制
提供 fp8 量化和 T5 卸载步骤用于本地部署
强调 DiT 原生 ControlNet/LoRA 兼容性（SDXL 权重不兼容）
【新增】LoRA 堆叠总权重不超过 1.2，避免过拟合
【新增】多角色场景使用区域 IP-Adapter + 区域 Conditioning
【新增】文本渲染使用引号包裹 + 简短文本 + 指定对比度

---

9. 【2026年5月新增】最新 developments (2026年5月更新)

9.1 FLUX.2 系列 — 黑森林实验室的重大升级

FLUX.2 核心版本（2025年11月25日发布）

Black Forest Labs 于2025年11月发布了 FLUX.2 系列，相比 FLUX.1 实现了从"会画"到"懂你要画什么"的跃升。

FLUX.2 版本矩阵: | 版本 | 定位 | 许可证 | 关键特性 | |------|------|--------|----------| | FLUX.2 [pro] | 闭源商业版 | 商业API | 最强版本，可与头部闭源模型抗衡，指令遵循最强 | | FLUX.2 [flex] | 开源全能版 | FLUX非商业 | 支持文生图+图生图+图像编辑统一架构 | | FLUX.2 [dev] | 开源开发版 | FLUX非商业 | 高质量开发版本，社区生态主力 | | FLUX.2 [klein] | 轻量开源版 | 4B: Apache2.0 / 9B: FLUX非商业 | 亚秒级生成，消费级GPU友好 | 非商业 | 高质量开发版本，社区生态主力 | | FLUX.2 [klein] | 轻量开源版 | 4B: Apache2.0 / 9B: FLUX非商业 | 亚秒级生成，消费级GPU友好 |#### FLUX.2 [klein] 详解（2026年1月15日发布）

核心突破: - 4B 和 9B 两个参数版本: 首次将高质量 DiT 模型压缩到消费级 GPU 可运行的规模 - 统一生成与编辑架构: 同一模型同时支持文生图、图生图、局部重绘、风格迁移 - 极速推理: 4B蒸馏版最低 0.5秒 生成（4步采样），9B版本约1-2秒 - 多参考条件控制: 支持同时参考 最多10张图像（FLUX.2 全系特性） - 4MP 图像编辑: 支持高分辨率图像的直接编辑修改 - 中文友好: Klein 9B 版本内置 Qwen-3.8B 文本编码器，对中文提示词理解能力显著优于 T5-XXL

量化方案: | 格式 | 显存需求 | 速度提升 | 质量影响 | |------|---------|---------|---------| | FP16 | ~24GB (9B) | 基准 | 无损 | | FP8 | ~13GB (9B) | 1.5x | 可忽略 | | NVFP4 | ~7GB (9B) | 2.5-2.7x | 轻微 |

部署要求: - 4B 版本: 最低 8GB 显存（FP8量化后 ~5GB） - 9B 版本: 最低 12GB 显存（NVFP4量化后 ~7GB） - 推荐: RTX 3060 12G / RTX 4060 Ti 16G 及以上

ComfyUI 工作流配置:

[Load Diffusion Model] → flux-2-klein-base-9b-nvfp4.safetensors
[Load Text Encoder] → qwen_3_8b_fp8mixed.safetensors  (替代T5-XXL!)
[Load VAE] → flux2-vae.safetensors
[Empty Latent] → [KSampler] → [VAE Decode] → [Save]

FLUX.2 图像编辑能力

FLUX.2 在图像编辑方面实现了生产级能力: - 换装/改色: 描述性指令修改衣物属性（"把T恤换成皮夹克"） - 局部重绘: 指定区域修改，保持其他区域不变 - 文字添加/修改: 在图片中添加或修改可读文字 - 风格迁移: 将参考图风格应用到生成图片上 - 多参考混合: 结合多张参考图的特征生成新图像

来源: BFL官方博客 (bfl.ai, 2026-01-15), CSDN技术解析, ComfyUI社区工作流

9.2 Midjourney V8 — 生产力级升级（2026年3月）

V8 核心特性

2026年3月，Midjourney 发布了 V8 版本，被称为"生产力级升级"： - 文本理解能力大幅提升: 对复杂提示词的解析更加精准 - 亚洲人脸优化: 不再古板化/网红化，东方元素表现显著提升 - 食物/物品细节: 商业级食材准确性，可直接用于餐厅菜单 - AI感降低: 从V7开始的真实感趋势在V8中进一步加强，整体AIGC水平巨大进展 - 视频生成扩展: Midjourney V1 视频模型（2025年6月发布）持续迭代，支持1080P AI感降低: 从V7开始的真实感趋势在V8中进一步加强，整体AIGC水平巨大进展 - 视频生成扩展: Midjourney V1 视频模型（2025年6月发布）持续迭代，支持1080P#### V7 关键功能回顾（2025年4月-5月） - 个性化模型: 首个默认启用模型个性化的版本（需完成200张图像评级解锁） - 草稿模式: 渲染速度提升 10倍，成本降低 50% - Omni Reference (2025年5月): 全方位图像参考，可同时参考人物和背景 - 对话模式: 提示栏切换为对话式交互 - --cref 角色一致性: 跨图像保持角色外观一致

来源: Sohu科技报道 (2026-03-23), 量子位报道, Midjourney官方文档

9.3 SD3.5 与 Stability AI 现状

截至2026年5月： - SD3.5 仍是 Stability AI 最新公开版本（2024年10月发布） - SD4 尚未正式发布，Stability AI 在公司重组后开源节奏放缓 - 社区生态持续为 SD3.5 Large/Medium/Turbo 开发 ControlNet 和 LoRA - 推荐策略: 对于新项目，优先选择 FLUX.2 系列而非等待 SD4

9.4 ControlNet for DiT — 2026年新进展

InstantX / Shakker-Labs 联合模型

FLUX.1-dev-ControlNet-Union-Pro: 7种控制模式合一（Canny/Tile/Depth/Blur/Pose/Gray/Low-quality）
模型大小: 6.6GB，支持 FP16/FP8 量化
兼容 ComfyUI 原生 ControlNet 加载器

XLabs-AI ControlNet V3

在 1024×1024 分辨率上重新训练，效果优于 V2
支持: Canny, HED (SoftEdge), Depth
专用 ComfyUI 插件: x-flux-comfyui

MistoLine_Flux.dev

国产 ControlNet 模型，约 1.4B 参数
支持任意 lineart 或 outline sketches 控制
需要专用节点（与 XLabs 加载器不兼容）
兼容 FP16/FP8 和其他量化的 Flux 模型

新增: Flux Kontext 工具集

官方开源图像编辑工具，支持10种核心功能
图片参考、风格转换、物体移除、文字变更等

推荐工作流: 使用 Shakker-Labs Union-Pro 作为主力 ControlNet，覆盖 90% 控制需求。

来源: HuggingFace模型页, CSDN技术测评, 微博AI社区

9.5 角色一致性 — 2026年新工具与技术

ConsistentID [TPAMI 2026]

论文级别的肖像生成与多模态细粒度身份保持方案
引入 FaceParsing + FaceID 信息到扩散模型
秒级定制，无需额外 LoRA 训练
支持 SD/SDXL 模型，极高 ID 保真度像生成与多模态细粒度身份保持方案
引入 FaceParsing + FaceID 信息到扩散模型
秒级定制，无需额外 LoRA 训练
支持 SD/SDXL 模型，极高 ID 保真度#### PuLID-For-Flux（字节团队开源）
无需训练 LoRA 的面部迁移方案
与 InstantID 效果相当，专为 Flux 架构适配
使用 CLIP Vision + 面部特征提取实现零样本身份保持
ComfyUI 已有集成节点

IP-Adapter for Flux 生态成熟

InstantX 版本: FLUX.1-dev-IP-Adapter + SigLIP So400M 视觉编码器
XLabs 版本: 风格参考 + 人脸参考双模式
LiblibAI 升级版: WebUI 与 ComfyUI 均已适配

FaceShaper 液化前置技术

在进行换脸/角色生成前，对面部进行液化预处理
提高换脸成功率，减少面部扭曲
配合 ReActor/InstantID 使用效果最佳

推荐组合: - 快速原型: PuLID-For-Flux（零样本，无需训练） - 高精度需求: ConsistentID（TPAMI级别质量） - 风格迁移: IP-Adapter Flux + 风格参考

来源: GitHub/JackAILab/ConsistentID, 哔哩哔哩技术教程, HuggingFace

9.6 LoRA 训练进阶 — DoRA/LoHA 在扩散模型中的应用

DoRA (Weight-Decomposed Low-Rank Adaptation)

原理: 将预训练权重分解为 幅度(m) × 方向(v̂) 两个独立分量
优势: 仅增加约 0.01% 参数即可显著提升训练稳定性与低秩场景性能
扩散模型适配: 在 FLUX DiT 的 single_blocks 上训练 DoRA LoRA 比标准 LoRA 收敛更快
推荐配置: network_dim=32, alpha=32, method=dora

LoHA (LoRA with Hadamard Product)

利用 Hadamard 积（逐元素乘积）重构更新矩阵
在相同参数量下获得更高的理论秩
适用于需要捕获更复杂特征变换的场景（如风格 LoRA）

LoKr (LoRA with Kronecker Product)

利用 Kronecker 积重构，进一步扩展表示能力
适合超大规模特征映射特征变换的场景（如风格 LoRA）

LoKr (LoRA with Kronecker Product)

利用 Kronecker 积重构，进一步扩展表示能力
适合超大规模特征映射#### 2026年推荐训练策略 | 用途 | 方法 | Dim | Alpha | 训练步数 | |------|------|-----|-------|---------| | 角色一致性 | DoRA | 32 | 32 | 1500-2000 | | 风格迁移 | LoHA | 64 | 64 | 2000-3000 | | 轻量适配 | LoRA | 16 | 8 | 800-1200 | | 高精度角色 | DoRA | 64 | 64 | 2500-3500 |

kohya-ss 兼容性: 最新版本已支持 Flux DoRA/LoHA 训练，需在配置中指定 network_module=networks.lora_flux_dora。

来源: CSDN PEFT对比文章(2026-04-28), 腾讯云开发者文章(2026-05-01), kohya-ss GitHub

9.7 ComfyUI 生态 — 2026年新发展

ComfyUI Cloud（云端化趋势）

Comfy Org 推出 Comfy Cloud (cloud.comfy.org)
浏览器内直接构建和运行工作流，无需本地安装
支持多 GPU 实例，按需付费
2026年趋势: 云端 ComfyUI 成为主流，解决万元级显卡成本和Python环境配置痛点

国内云平台方案

RunningHub: ComfyUI 在线运行平台
算网: ComfyUI 镜像部署
多家平台提供预设 FLUX.2 工作流模板

关键插件更新

ComfyUI-Manager: 支持一键安装/更新所有 FLUX.2 相关节点
Impact Pack: FaceDetailer 已适配 FLUX.2 VAE
EeroHeikkinen Nodes: InstantX ControlNet 专用加载节点

来源: Comfy Org官方博客(2026-04-30), CSDN云平台测评(2026-03-22)

文档更新日期: 2026年5月1日 | 新增: FLUX.2系列、Midjourney V8、ControlNet Union-Pro、ConsistentID、PuLID、DoRA/LoHA、ComfyUI Cloud | 来源: BFL官方、CSDN、HuggingFace、GitHub

AI 生图技术深度指南 (2025-2026)

1. DiT 架构与模型格局

核心架构变化

模型基准对比（2026年4月）

2. 控制与条件化（ControlNet++ 与 DiT 适配）

3. 角色一致性与身份保持

IP-Adapter FaceID / Plus v2

InstantID（零样本）

PhotoMaker v2

4. 提示词工程与区域控制

SD3 & Flux 提示词范式

DiT 中的区域提示词

5. ComfyUI 工作流模式

5. ComfyUI 工作流模式### 核心 DiT/Flux 节点

推荐基础工作流结构

6. 质量优化与参数调优

调度器与步数优化

显存与性能

常见陷阱与修复

7.1 Flux LoRA 堆叠与混合

7.2 多角色场景一致性工作流

7.3 DiT 模型的 CFG 替代方案

7.5 ComfyUI 自动化批量生成脚本

8. 避坑清单

---

9. 【2026年5月新增】最新 developments (2026年5月更新)

9.1 FLUX.2 系列 — 黑森林实验室的重大升级

FLUX.2 核心版本（2025年11月25日发布）

FLUX.2 图像编辑能力

9.2 Midjourney V8 — 生产力级升级（2026年3月）

V8 核心特性

9.3 SD3.5 与 Stability AI 现状

9.4 ControlNet for DiT — 2026年新进展

InstantX / Shakker-Labs 联合模型

XLabs-AI ControlNet V3

MistoLine_Flux.dev

新增: Flux Kontext 工具集

9.5 角色一致性 — 2026年新工具与技术

ConsistentID [TPAMI 2026]

IP-Adapter for Flux 生态成熟

FaceShaper 液化前置技术

9.6 LoRA 训练进阶 — DoRA/LoHA 在扩散模型中的应用

DoRA (Weight-Decomposed Low-Rank Adaptation)

LoHA (LoRA with Hadamard Product)

LoKr (LoRA with Kronecker Product)

LoKr (LoRA with Kronecker Product)

9.7 ComfyUI 生态 — 2026年新发展

ComfyUI Cloud（云端化趋势）

国内云平台方案

关键插件更新