title: MiniMax 多模态生成管线打磨日志 created: 2026-05-04 updated: 2026-05-05 type: reference tags: [minimax, multimodal, ai-generation, pipeline, mmx]
最新运行: Brain v22 (2026-05-07) — I2V Tilt-Down(91/100) + PhyScore物理合理性维度首测(14/15) + TTS Soft_Girl描述词法(+4.6%情感) + Music Cover Reggae(62/100不推荐) + Tech Radar(Kiwi-Edit/EmoSphere++)
MiniMax 多模态生成管线打磨日志
Brain v1.1.8 自主学习引擎 — 首次运行记录 执行时间: 2026-05-04 12:34 UTC+8
本日测试概览
| 测试项目 | 模型 | 状态 | 核心发现 |
|---|---|---|---|
| 文生图 (T2I) | image-01 | ✅ 完成 | 影视级光影,subject-ref 一致性 6/10 |
| I2V 运镜控制 | Hailuo-2.3 | ⚠️ 配额耗尽 | 每日2次配额,需错峰使用 |
| TTS 情感对比 | speech-2.8-hd | ✅ 完成 | 4种声线对比,成熟女声叙事感最强 |
| 音乐生成 | music-2.6 | ✅ 完成 | 氛围音乐生成成功,6.2MB 成品 |
| 视觉质检 | Vision AI | ✅ 完成 | 自动化打分流程跑通 |
一、文生图 (T2I) 打磨
1.1 原始 Prompt 测试
Prompt:
A young Chinese woman with long black hair, wearing a white silk dress,
standing in a rain-lit Tokyo street at night, neon signs reflecting on wet
pavement, cinematic lighting, shallow depth of field, photorealistic, 85mm
portrait style
参数: --aspect-ratio 16:9 --seed 42 --prompt-optimizer
视觉质检评分:
| 维度 | 得分 | 说明 |
|---|---|---|
| 主体清晰度 | 9/10 | 面部焦点锐利,发丝与布料细节高保真 |
| 构图质量 | 9/10 | 三分法构图,过肩回视经典构图,景深过渡自然 |
| 伪影/畸变 | 7/10 | 皮肤过于光滑(缺乏毛孔纹理),霓虹文字乱码,背景人物模糊 |
| 影视质感 | 9/10 | 青橙色调,雨夜氛围强烈,情绪传达到位 |
综合评分: 85/100 ✅ 通过 (≥80 无需重试) 肤过于光滑(缺乏毛孔纹理),霓虹文字乱码,背景人物模糊 | | 影视质感 | 9/10 | 青橙色调,雨夜氛围强烈,情绪传达到位 |
综合评分: 85/100 ✅ 通过 (≥80 无需重试)### 1.2 关键参数发现
--prompt-optimizer效果显著 — 自动补全了光影细节和镜头语言,建议所有生图任务启用--seed固定种子 — 用于可复现测试和 A/B 对比,建议测试阶段固定--aspect-ratio 16:9— 电影级画幅,适合影视化场景
1.3 Subject Reference 一致性测试
方法: 使用首图作为 subject-ref,生成同一角色在咖啡馆的场景
一致性评分:
| 维度 | 得分 | 说明 |
|---|---|---|
| 面部特征 | 8/10 | 发型(黑色中长发+刘海)、脸型高度一致 |
| 服装适配 | 5/10 | 白丝裙→米色休闲上衣(场景合理变化但非用户预期) |
| 场景氛围 | 9/10 | 雨窗+霓虹光斑延续,冷暖对比出色 |
| 手部细节 | 8/10 | AI 常见难点——手指清晰,佩戴戒指细节 |
综合一致性: 6/10 — 面部保留良好,但服装随场景自适应变化
结论:
subject-ref type=character主要锁定面部特征+发型,不会锁定服装。如需服装一致性,需在 prompt 中明确指定相同服装。
二、I2V 运镜控制测试
2.1 测试设计 (3组运镜)
| 编号 | 运镜类型 | Prompt 关键词 |
|---|---|---|
| V1 | Push-in (推进) | "Slow camera push-in toward the woman" |
| V2 | Pan Right (右摇) | "Slow camera pan from left to right" |
| V3 | Static + Breathing (静态呼吸) | "Static shot, subtle camera breathing" |
2.2 配额限制
Hailuo-2.3 配额: 每日 2 次 / 每周 14 次
⚠️ 重要: 本次运行前已用 2/2 日配额(来自之前的测试),所有 I2V 请求均返回
usage limit exceeded。视频生成测试推迟到明日执行。
2.3 明日测试计划
# 推荐运镜 Prompt 模板
# Push-in (推进)
"Slow camera push-in toward the subject, gentle atmospheric movement, cinematic slow motion, [environment_detail]"
# Pan (摇镜)
"Smooth camera pan from [left/right], revealing [scene_element], [environment_detail], shallow focus maintained"
# Static (固定)
"Static shot, subtle camera breathing, [subject_action], [environment_detail], film grain, cinematic"
Static shot, subtle camera breathing, [subject_action], [environment_detail], film grain, cinematic"# Dolly Zoom (希区柯克变焦) — 高级测试
"Dolly zoom effect, background expands while subject stays same size, dramatic tension, cinematic"
三、TTS 情感对比测试
3.1 测试脚本
3.2 四声线对比
| 声线 | 时长 | 文件大小 | 情感适配度 | 适用场景 |
|---|---|---|---|---|
| Warm Girl (温暖少女) | 11.0s | 177KB | 8/10 | 青春/治愈系旁白 |
| Mature Woman (成熟女性) | 14.2s | 229KB | 9.5/10 | 影视旁白/叙事 |
| Gentleman (绅士男声) | 11.8s | 191KB | 7.5/10 | 男性视角叙事 |
| Yujie 御姐 (精品) | 15.3s | 246KB | 9/10 | 成熟女性/气场 |
3.3 TTS 最佳实践
speech-2.8-hd模型 — 当前最优模型,情感表现力显著优于旧版- 语速自然区间: 默认速度下,中文叙事文本约 2.7 字/秒
- 声线推荐:
- 影视旁白 →
Chinese (Mandarin)_Mature_Woman或female-yujie-jingpin - 治愈系 →
Chinese (Mandarin)_Warm_Girl或Chinese (Mandarin)_Sweet_Lady - 新闻播报 →
Chinese (Mandarin)_News_Anchor - 情感控制: 当前版本通过声线选择间接控制情感,尚不支持显式情感标签(如
--emotion sad)。建议在 prompt 文本中通过措辞和标点引导情感表达。
四、音乐生成测试
4.1 生成结果
- 模型: music-2.6
- Prompt: "Cinematic ambient music for a rainy Tokyo night scene, melancholic piano with soft strings, atmospheric synth pads, slow tempo, neo-noir mood, 90 BPM"
- 歌词: 中英双语混合 (4行)
- 输出: 6.2MB MP3 文件
4.2 音乐生成最佳实践
- Prompt 结构:
[场景氛围] + [主要乐器] + [辅助乐器] + [节奏/BPM] + [情绪] - 歌词语言: 支持中英混合,但单一语言效果更稳定
- 风格关键词有效:
cinematic,ambient,neo-noir,melancholic等均能准确响应
五、技术雷达 (2026-05-04)
风格关键词有效: cinematic, ambient, neo-noir, melancholic 等均能准确响应
五、技术雷达 (2026-05-04)### 5.1 AI 视频一致性
| 技术/产品 | 进展 | 关注度 |
|---|---|---|
| Seedance 2.0 (字节) | 支持图片+视频+音频+文本四模态同时输入,@material_name 引用实现可控生成 |
⭐⭐⭐⭐⭐ |
| Hailuo 02 (MiniMax) | Artificial Analysis 全球 #2,超越 Google Veo 3,支持 1080P/10s/30fps | ⭐⭐⭐⭐⭐ |
| Animate Anyone (CVPR 2024) | 角色动画一致性研究,解决局部畸变、帧间抖动 | ⭐⭐⭐⭐ |
| Duo Chroma AI | 参考帧锚定 + 身份向量嵌入,多管齐下修复伪影 | ⭐⭐⭐ |
5.2 TTS 情感控制
| 技术 | 进展 |
|---|---|
| Inworld TTS 1.5 Max | 2026年3月以 1236 ELO 评分领跑第三方盲测 |
| 阶跃 StepAudio 2.5 TTS | 自然语言控制情感,更细腻的情感控制+更低门槛 |
| MOSS-TTS (上海创新院+复旦) | 2026年3月发布,真人级自然度 |
| Smallest.ai Lightning V3 | 语调与韵律指标超越 OpenAI 和 ElevenLabs |
5.3 趋势判断
- 多模态融合是 2026 主趋势 — Seedance 2.0 的四模态同时输入代表方向
- 角色一致性仍是核心痛点 — subject-ref 目前仅锁定面部,服装/姿势一致性需额外控制
- TTS 情感控制正从"声线选择"向"自然语言指令控制"演进
- 视频日配额限制 (2次/天) 是生产力瓶颈 — 需要合理规划测试节奏
六、优化经验沉淀
6.1 Prompt 模板库
文生图模板
# 电影级人物肖像
[主体描述], wearing [服装], [场景], [光影条件], cinematic lighting,
shallow depth of field, photorealistic, 85mm portrait style
--aspect-ratio 16:9 --prompt-optimizer --seed [固定值]
# 角色一致性生成
[与参考图不同的场景], keeping the same character appearance,
same facial features, same hair style, wearing [指定服装以保持一致性]
--subject-ref "type=character,image=[参考图路径]"
I2V 运镜模板
# 推进镜头
Slow camera push-in toward [主体], [环境细节], cinematic slow motion,
subtle camera movement, atmospheric mood
# 摇镜头
Smooth camera pan from [left/right], revealing [场景元素], [环境细节],
shallow focus maintained
mood
# 摇镜头
Smooth camera pan from [left/right], revealing [场景元素], [环境细节],
shallow focus maintained# 固定镜头
Static shot, subtle camera breathing, [主体动作], [环境细节],
film grain, cinematic
6.2 避坑参数
| 问题 | 解决方案 |
|---|---|
| 视频日配额耗尽 | 每日仅 2 次 Hailuo 额度,测试前检查 quota;优先用 Fast 模式探路 |
| Subject-ref 服装不一致 | 在 prompt 中显式指定与参考图相同的服装描述 |
| TTS 情感不匹配 | 通过文本措辞(感叹号、省略号、情绪词)引导,而非依赖模型自动判断 |
| 生图皮肤过滑 | 添加 "natural skin texture, visible pores, photorealistic skin" 关键词 |
| 背景文字乱码 | 在 prompt 中添加 "legible signage" 或接受 AI 生图的固有特征 |
6.3 自动化质检流程
1. 生成 → 保存本地文件
2. Vision AI 分析 → 4维度打分 (主体/构图/伪影/影视感)
3. 综合 ≥ 80 → 通过,< 80 → 自动分析原因并修正参数重试
4. 通过的结果 → 参数写入 Wiki,成品归档
七、明日计划
- I2V 三组运镜测试 (Push-in / Pan Right / Static) — 配额将在 05-05 00:00 重置
- Subject-ref 服装锁定测试 — 验证在 prompt 中显式指定服装的一致性效果
- TTS 情感引导实验 — 通过文本措辞(vs 标点符号)对比情感表达差异
- Music cover 测试 — 尝试将生成的音乐用 cover 模式转换风格
成品归档
| 文件 | 类型 | 说明 |
|---|---|---|
/tmp/openclaw_draft/brain_v1/subject_ref.png |
图片 | 参考角色图 (290KB) |
/tmp/openclaw_draft/brain_v1/subject_ref_consistency.png |
图片 | 一致性测试图 (234KB) |
/tmp/openclaw_draft/brain_v1/tts_warm_girl.mp3 |
音频 | TTS 温暖少女声线 (177KB, 11s) |
/tmp/openclaw_draft/brain_v1/tts_mature_woman.mp3 |
音频 | TTS 成熟女性声线 (229KB, 14s) |
/tmp/openclaw_draft/brain_v1/tts_gentleman.mp3 |
音频 | TTS 绅士男声 (191KB, 12s) |
/tmp/openclaw_draft/brain_v1/tts_yujie.mp3 |
音频 | TTS 御姐声线 (246KB, 15s) |
/tmp/openclaw_draft/brain_v1/music_rainy_tokyo.mp3 |
音频 | 氛围音乐 (6.2MB) |