title: MiniMax 多模态生成管线打磨日志 created: 2026-05-04 updated: 2026-05-05 type: reference tags: [minimax, multimodal, ai-generation, pipeline, mmx]

最新运行: Brain v22 (2026-05-07) — I2V Tilt-Down(91/100) + PhyScore物理合理性维度首测(14/15) + TTS Soft_Girl描述词法(+4.6%情感) + Music Cover Reggae(62/100不推荐) + Tech Radar(Kiwi-Edit/EmoSphere++)

MiniMax 多模态生成管线打磨日志

Brain v1.1.8 自主学习引擎 — 首次运行记录执行时间: 2026-05-04 12:34 UTC+8

本日测试概览

测试项目	模型	状态	核心发现
文生图 (T2I)	image-01	✅ 完成	影视级光影，subject-ref 一致性 6/10
I2V 运镜控制	Hailuo-2.3	⚠️ 配额耗尽	每日2次配额，需错峰使用
TTS 情感对比	speech-2.8-hd	✅ 完成	4种声线对比，成熟女声叙事感最强
音乐生成	music-2.6	✅ 完成	氛围音乐生成成功，6.2MB 成品
视觉质检	Vision AI	✅ 完成	自动化打分流程跑通

一、文生图 (T2I) 打磨

1.1 原始 Prompt 测试

Prompt:

A young Chinese woman with long black hair, wearing a white silk dress, 
standing in a rain-lit Tokyo street at night, neon signs reflecting on wet 
pavement, cinematic lighting, shallow depth of field, photorealistic, 85mm 
portrait style

参数: --aspect-ratio 16:9 --seed 42 --prompt-optimizer

视觉质检评分:

维度	得分	说明
主体清晰度	9/10	面部焦点锐利，发丝与布料细节高保真
构图质量	9/10	三分法构图，过肩回视经典构图，景深过渡自然
伪影/畸变	7/10	皮肤过于光滑(缺乏毛孔纹理)，霓虹文字乱码，背景人物模糊
影视质感	9/10	青橙色调，雨夜氛围强烈，情绪传达到位

综合评分: 85/100 ✅ 通过 (≥80 无需重试)### 1.2 关键参数发现

--prompt-optimizer 效果显著 — 自动补全了光影细节和镜头语言，建议所有生图任务启用
--seed 固定种子 — 用于可复现测试和 A/B 对比，建议测试阶段固定
--aspect-ratio 16:9 — 电影级画幅，适合影视化场景

1.3 Subject Reference 一致性测试

方法: 使用首图作为 subject-ref，生成同一角色在咖啡馆的场景

一致性评分:

维度	得分	说明
面部特征	8/10	发型(黑色中长发+刘海)、脸型高度一致
服装适配	5/10	白丝裙→米色休闲上衣(场景合理变化但非用户预期)
场景氛围	9/10	雨窗+霓虹光斑延续，冷暖对比出色
手部细节	8/10	AI 常见难点——手指清晰，佩戴戒指细节

综合一致性: 6/10 — 面部保留良好，但服装随场景自适应变化

结论: subject-ref type=character 主要锁定面部特征+发型，不会锁定服装。如需服装一致性，需在 prompt 中明确指定相同服装。

二、I2V 运镜控制测试

2.1 测试设计 (3组运镜)

编号	运镜类型	Prompt 关键词
V1	Push-in (推进)	"Slow camera push-in toward the woman"
V2	Pan Right (右摇)	"Slow camera pan from left to right"
V3	Static + Breathing (静态呼吸)	"Static shot, subtle camera breathing"

2.2 配额限制

Hailuo-2.3 配额: 每日 2 次 / 每周 14 次

⚠️ 重要: 本次运行前已用 2/2 日配额（来自之前的测试），所有 I2V 请求均返回 usage limit exceeded。视频生成测试推迟到明日执行。

2.3 明日测试计划

# 推荐运镜 Prompt 模板
# Push-in (推进)
"Slow camera push-in toward the subject, gentle atmospheric movement, cinematic slow motion, [environment_detail]"

# Pan (摇镜)
"Smooth camera pan from [left/right], revealing [scene_element], [environment_detail], shallow focus maintained"

# Static (固定)
"Static shot, subtle camera breathing, [subject_action], [environment_detail], film grain, cinematic"
Static shot, subtle camera breathing, [subject_action], [environment_detail], film grain, cinematic"# Dolly Zoom (希区柯克变焦) — 高级测试
"Dolly zoom effect, background expands while subject stays same size, dramatic tension, cinematic"

三、TTS 情感对比测试

3.1 测试脚本

雨夜的东京，霓虹灯在湿润的街道上投下斑驳的光影。
她站在街角，白色的丝裙在微风中轻轻飘动。
这是一个关于等待的故事。

3.2 四声线对比

声线	时长	文件大小	情感适配度	适用场景
Warm Girl (温暖少女)	11.0s	177KB	8/10	青春/治愈系旁白
Mature Woman (成熟女性)	14.2s	229KB	9.5/10	影视旁白/叙事
Gentleman (绅士男声)	11.8s	191KB	7.5/10	男性视角叙事
Yujie 御姐 (精品)	15.3s	246KB	9/10	成熟女性/气场

3.3 TTS 最佳实践

speech-2.8-hd 模型 — 当前最优模型，情感表现力显著优于旧版
语速自然区间: 默认速度下，中文叙事文本约 2.7 字/秒
声线推荐:
影视旁白 → Chinese (Mandarin)_Mature_Woman 或 female-yujie-jingpin
治愈系 → Chinese (Mandarin)_Warm_Girl 或 Chinese (Mandarin)_Sweet_Lady
新闻播报 → Chinese (Mandarin)_News_Anchor
情感控制: 当前版本通过声线选择间接控制情感，尚不支持显式情感标签（如 --emotion sad）。建议在 prompt 文本中通过措辞和标点引导情感表达。

四、音乐生成测试

4.1 生成结果

模型: music-2.6
Prompt: "Cinematic ambient music for a rainy Tokyo night scene, melancholic piano with soft strings, atmospheric synth pads, slow tempo, neo-noir mood, 90 BPM"
歌词: 中英双语混合 (4行)
输出: 6.2MB MP3 文件

4.2 音乐生成最佳实践

Prompt 结构: [场景氛围] + [主要乐器] + [辅助乐器] + [节奏/BPM] + [情绪]
歌词语言: 支持中英混合，但单一语言效果更稳定
风格关键词有效: cinematic, ambient, neo-noir, melancholic 等均能准确响应

五、技术雷达 (2026-05-04)

风格关键词有效: cinematic, ambient, neo-noir, melancholic 等均能准确响应

五、技术雷达 (2026-05-04)### 5.1 AI 视频一致性

技术/产品	进展	关注度
Seedance 2.0 (字节)	支持图片+视频+音频+文本四模态同时输入，`@material_name` 引用实现可控生成	⭐⭐⭐⭐⭐
Hailuo 02 (MiniMax)	Artificial Analysis 全球 #2，超越 Google Veo 3，支持 1080P/10s/30fps	⭐⭐⭐⭐⭐
Animate Anyone (CVPR 2024)	角色动画一致性研究，解决局部畸变、帧间抖动	⭐⭐⭐⭐
Duo Chroma AI	参考帧锚定 + 身份向量嵌入，多管齐下修复伪影	⭐⭐⭐

5.2 TTS 情感控制

技术	进展
Inworld TTS 1.5 Max	2026年3月以 1236 ELO 评分领跑第三方盲测
阶跃 StepAudio 2.5 TTS	自然语言控制情感，更细腻的情感控制+更低门槛
MOSS-TTS (上海创新院+复旦)	2026年3月发布，真人级自然度
Smallest.ai Lightning V3	语调与韵律指标超越 OpenAI 和 ElevenLabs

5.3 趋势判断

多模态融合是 2026 主趋势 — Seedance 2.0 的四模态同时输入代表方向
角色一致性仍是核心痛点 — subject-ref 目前仅锁定面部，服装/姿势一致性需额外控制
TTS 情感控制正从"声线选择"向"自然语言指令控制"演进
视频日配额限制 (2次/天) 是生产力瓶颈 — 需要合理规划测试节奏

六、优化经验沉淀

6.1 Prompt 模板库

文生图模板

# 电影级人物肖像
[主体描述], wearing [服装], [场景], [光影条件], cinematic lighting, 
shallow depth of field, photorealistic, 85mm portrait style
--aspect-ratio 16:9 --prompt-optimizer --seed [固定值]

# 角色一致性生成
[与参考图不同的场景], keeping the same character appearance, 
same facial features, same hair style, wearing [指定服装以保持一致性]
--subject-ref "type=character,image=[参考图路径]"

I2V 运镜模板

# 推进镜头
Slow camera push-in toward [主体], [环境细节], cinematic slow motion, 
subtle camera movement, atmospheric mood

# 摇镜头
Smooth camera pan from [left/right], revealing [场景元素], [环境细节], 
shallow focus maintained
mood

# 摇镜头
Smooth camera pan from [left/right], revealing [场景元素], [环境细节], 
shallow focus maintained# 固定镜头
Static shot, subtle camera breathing, [主体动作], [环境细节], 
film grain, cinematic

6.2 避坑参数

问题	解决方案
视频日配额耗尽	每日仅 2 次 Hailuo 额度，测试前检查 quota；优先用 Fast 模式探路
Subject-ref 服装不一致	在 prompt 中显式指定与参考图相同的服装描述
TTS 情感不匹配	通过文本措辞（感叹号、省略号、情绪词）引导，而非依赖模型自动判断
生图皮肤过滑	添加 "natural skin texture, visible pores, photorealistic skin" 关键词
背景文字乱码	在 prompt 中添加 "legible signage" 或接受 AI 生图的固有特征

6.3 自动化质检流程

1. 生成 → 保存本地文件
2. Vision AI 分析 → 4维度打分 (主体/构图/伪影/影视感)
3. 综合 ≥ 80 → 通过，< 80 → 自动分析原因并修正参数重试
4. 通过的结果 → 参数写入 Wiki，成品归档

七、明日计划

I2V 三组运镜测试 (Push-in / Pan Right / Static) — 配额将在 05-05 00:00 重置
Subject-ref 服装锁定测试 — 验证在 prompt 中显式指定服装的一致性效果
TTS 情感引导实验 — 通过文本措辞（vs 标点符号）对比情感表达差异
Music cover 测试 — 尝试将生成的音乐用 cover 模式转换风格

成品归档

文件	类型	说明
`/tmp/openclaw_draft/brain_v1/subject_ref.png`	图片	参考角色图 (290KB)
`/tmp/openclaw_draft/brain_v1/subject_ref_consistency.png`	图片	一致性测试图 (234KB)
`/tmp/openclaw_draft/brain_v1/tts_warm_girl.mp3`	音频	TTS 温暖少女声线 (177KB, 11s)
`/tmp/openclaw_draft/brain_v1/tts_mature_woman.mp3`	音频	TTS 成熟女性声线 (229KB, 14s)
`/tmp/openclaw_draft/brain_v1/tts_gentleman.mp3`	音频	TTS 绅士男声 (191KB, 12s)
`/tmp/openclaw_draft/brain_v1/tts_yujie.mp3`	音频	TTS 御姐声线 (246KB, 15s)
`/tmp/openclaw_draft/brain_v1/music_rainy_tokyo.mp3`	音频	氛围音乐 (6.2MB)