技术雷达 (2026年5月7日·每日扫描)

扫描时间: 2026年5月7日 00:23 (UTC+8) 执行者: Hermes Agent (豆腐) 每日技术雷达扫描引擎 数据源: GitHub API (11 领域扫描)、mmx web search 对比基线: tech-radar-may-2026-may6.md (2026-05-06) 覆盖领域: AI 设计工具、Agent 技能生态、浏览器自动化、AI 生图、多智能体框架、TTS/音乐 筛选标准: Stars > 200 且近 30 天创建/活跃更新

1. 扫描摘要

领域	新增项目数	重大变化	可落地
AI 设计工具	1	open-design 爆发至 30K, GPT-Image-2 生态	✅ GPT-Image-2 Prompts 可直接参考
Agent 技能生态	1	agentic-stack 跨 Agent 记忆层	✅ 可与现有 skills/memory 互补
AI 生图	1	ERNIE-Image 百度开源 8B DiT	⏳ 需 GPU 环境
浏览器自动化	1	agent-browser-mcp 真实 Chrome MCP	✅ 适合已登录态操作场景
多智能体	1	Ultron 集体智能系统	⏳ 概念验证阶段
视频编辑	0	video-use 稳步增长至 6.5K	✅ 已覆盖

本次新增收录: 4 个（agentic-stack, ERNIE-Image, agent-browser-mcp, GPT-Image-2 精选） 已有项目更新: 12 个（stars 变化追踪）

2. 今日重点关注 🔥

k, ERNIE-Image, agent-browser-mcp, GPT-Image-2 精选） 已有项目更新: 12 个（stars 变化追踪）

2. 今日重点关注 🔥### 2.1 EvoLinkAI/awesome-gpt-image-2-API-and-Prompts ⭐12,588 [NEW]

GitHub: https://github.com/EvoLinkAI/awesome-gpt-image-2-API-and-Prompts License: CC0-1.0 (公共领域，可自由使用) 语言: Python 创建日期: 2026-04-18

定位: GPT-Image-2 API 调用指南 + 359 个精选 Prompt 案例集。

核心内容: - 359 个已验证 Prompt: 覆盖人物、风景、产品、插画、Logo 等多种风格 - API 调用模板: Python/Node.js 完整示例代码 - 多语言文档: 中文、日文、韩文、西语等 10 种语言版本 - 配套 Skill: gpt-image-2-gen-skill 可被 Claude Code/Codex/Hermes 直接调用 - 工作流: GPT-Image-2 × Seedance 2.0 电影级工作流

对我们的价值: - P1 直接可用: Prompt 集合可直接参考用于 MiniMax 或其他生图工具 - API 调用模板可集成到自动化流水线 - CC0 许可证，无合规风险

使用方法:

# 克隆 Prompt 集合
git clone https://github.com/EvoLinkAI/awesome-gpt-image-2-API-and-Prompts.git
# 查看中文版本
cat awesome-gpt-image-2-API-and-Prompts/README_zh-CN.md

避坑指南: - ✅ CC0 许可证，商用无限制 - ⚠️ 需 OpenAI API Key 才能实际调用 GPT-Image-2 - ⚠️ 部分高级 Prompt 需要付费 API 层级

避坑指南**: - ✅ CC0 许可证，商用无限制 - ⚠️ 需 OpenAI API Key 才能实际调用 GPT-Image-2 - ⚠️ 部分高级 Prompt 需要付费 API 层级

---### 2.2 codejunkie99/agentic-stack ⭐1,859 [NEW]

GitHub: https://github.com/codejunkie99/agentic-stack License: Apache-2.0 语言: Python 最新推送: 2026-05-05

定位: 可移植的 .agent/ 文件夹（记忆 + 技能 + 协议），可在 Claude Code、Cursor、OpenCode、OpenClaw、Hermes 等多个 Agent 之间迁移，切换工具不丢失知识。

核心能力: - 跨 Agent 记忆层: 一套 .agent/ 文件夹适配所有主流 coding agent - Dashboard TUI: 终端仪表盘监控所有 Agent 健康状态、cron 运行、token 消耗 - Team Brain: 多 Agent 团队脑协调 - Flywheel 机制: 将已批准的红敏运行转化为 trace records、eval cases、训练数据 - 16+ Agent 适配: Claude Code, Cursor, Windsurf, OpenCode, OpenClaw, Hermes, Codex, Antigravity, Pi 等

架构概览:

.agent/
├── memory/          # 持久化记忆
├── skills/          # 可移植技能
├── protocols/       # 交互协议
├── adapters/        # 各 Agent 适配层
└── data-layer/      # 监控仪表盘

对我们的价值: - P2 值得关注: 与现有 Hermes skills/memory 体系互补 - 多 Agent 编排场景下的知识共享 - Token 消耗可视化监控

快速安装:

git clone https://github.com/codejunkie99/agentic-stack.git
cd agentic-stack
./install.sh
agentic-stack dashboard  # 启动 TUI 仪表盘

避坑指南: - ⚠️ 项目仍处于 v0.15.x 阶段，API 可能变动 - ✅ Apache-2.0 许可，可自由使用 - ⚠️ Dashboard TUI 需要 ncurses 环境

避坑指南**: - ⚠️ 项目仍处于 v0.15.x 阶段，API 可能变动 - ✅ Apache-2.0 许可，可自由使用 - ⚠️ Dashboard TUI 需要 ncurses 环境

---### 2.3 baidu/ERNIE-Image ⭐425 [NEW]

GitHub: https://github.com/baidu/ERNIE-Image License: Apache-2.0 语言: Python 模型发布: 2026-04-14

定位: 百度开源的文本到图像生成模型，基于单流 Diffusion Transformer (DiT)，仅 8B 参数即达到开源模型 SOTA 水平。

核心亮点: - 紧凑但强大: 8B DiT 参数，性能超越更大参数的开源模型 - 文本渲染能力强: 擅长长文本、排版密集型内容（海报、信息图） - 指令遵循: 支持复杂多对象、关系描述 - 结构化生成: 海报、UI 类图像表现优秀 - Prompt Enhancer: 内置轻量提示增强器，将简短输入扩展为丰富描述 - 两个版本: ERNIE-Image (标准) + ERNIE-Image-Turbo (快速)

安装与推理:

pip install ernie-image
# 或从 HuggingFace 下载
# https://huggingface.co/Baidu/ERNIE-Image
# https://huggingface.co/Baidu/ERNIE-Image-Turbo

对我们的价值: - P3 长期跟踪: 中文理解能力强，适合中文场景生图 - 可作为 Flux/SD 系列的备选方案 - 海报/信息图场景特别适用

避坑指南: - ⚠️ 需要 GPU 环境推理 - ⚠️ 相对较新，社区生态不如 SD/Flux 成熟 - ✅ Apache-2.0 许可，商用友好 - ✅ HuggingFace Demo 可用: https://huggingface.co/spaces/baidu/ERNIE-Image

✅ Apache-2.0 许可，商用友好
✅ HuggingFace Demo 可用: https://huggingface.co/spaces/baidu/ERNIE-Image

---### 2.4 335234131/agent-browser-mcp ⭐174 [NEW]

GitHub: https://github.com/335234131/agent-browser-mcp License: MIT 语言: Python 特点: 标注 hermes-agent topic

定位: 让 Agent 直接操作"真实 Chrome"的 MCP 服务。不是沙盒浏览器，而是连接本机已打开的 Chrome，保留登录状态、Cookies、已打开标签页。

核心能力: - 真实 Chrome 标签页发现与切换 - 页面扫描与简化内容提取 - 页面内 JavaScript 执行 - CDP 单命令 / 批量调用 - 页面截图 / 桌面截图 - Cookies 读取 - 物理鼠标/键盘操作: 移动、点击、拖拽、输入、热键

MCP 工具列表: | 类别 | 工具 | |------|------| | 标签页 | get_setup_status, list_tabs, switch_tab, open_url, open_new_tab | | 页面读取 | scan_page, execute_js | | CDP/截图 | cdp_command, cdp_batch, get_cookies, capture_page_screenshot | | 物理输入 | mouse_move, mouse_click, mouse_drag, type_text, hotkey |

对我们的价值: - P2 特定场景可用: 需登录态的网站操作（后台管理系统、OA 系统） - 与现有 browser_navigate 工具互补，适合需要持久会话的场景 - 适合 E9 OA 复杂页面自动化（动态表单、iframe 嵌套）

安装:

pip install agent-browser-mcp
# 需要 Chrome + 扩展 + 本地桥接服务 (端口 18765/18766)

避坑指南: - ⚠️ 需要 Chrome 远程调试权限 - ⚠️ 仅支持 macOS/Windows，Linux 支持待验证 - ✅ 保留登录态，不需要每次重新认证 - ⚠️ 物理输入操作会干扰当前用户使用

3. 已有项目增量更新 📊

3.1 open-design ⭐29,957 (↑ +3,163 🚀)

爆炸式增长: 从 4 月 28 日创建至今仅 9 天，stars 突破 30K。 最新变化: 19 Skills 扩展至 31 个可组合技能，设计系统从 71 增至 72 个。 新增支持: 明确标注支持 Hermes Agent，新增 HyperFrames 动画叠加。状态: ⭐ 本月最热门项目，建议持续关注。

3.2 alchaincyf/huashu-design ⭐12,290 (↑ +295)

稳定增长: 花叔的设计 skill 持续受到关注。 最新变化: v2.0 发布，新增 MP4 导出和 20 种设计词汇表。状态: 中文友好，适合快速原型设计。 +295)

稳定增长: 花叔的设计 skill 持续受到关注。 最新变化: v2.0 发布，新增 MP4 导出和 20 种设计词汇表。状态: 中文友好，适合快速原型设计。### 3.3 browser-use/browser-harness ⭐10,973 (↑ +402)

稳步增长: browser-use 生态的底层 CDP 直连工具。状态: 自修复机制持续改进，domain skills 扩展中。

3.4 h4ckf0r0day/obscura ⭐10,582 (↑ +262)

稳步增长: Rust 无头浏览器引擎。 最新动态: Obscura Cloud 托管版本即将上线，开源引擎保持 Apache-2.0 全功能。状态: v0.1.2，需关注稳定性。

3.5 browser-use/video-use ⭐6,481 (↑ +138)

稳步增长: AI 视频编辑工具。状态: 支持多种 Agent 驱动，适合视频流水线集成。

3.6 OpenClaw ⭐368,981 (↑ +423)

持续霸榜: 个人 AI 助手生态持续扩展。状态: 每日活跃开发，生态不断丰富。

3.7 n8n ⭐186,763

工作流自动化: v2.20.0 发布，AI 能力持续增强。

3.8 Dify ⭐140,156

Agentic 工作流平台: v1.14.0 发布。

3.9 LiteLLM ⭐45,742

LLM API 统一: v1.83.14，100+ LLM API 支持。

3.10 Superpowers ⭐179,087

Agentic Skills 框架: v5.1.0 发布。

3.11 Diffusers ⭐33,559

图像/音频生成库: v0.38.0 新增图像和音频 pipeline。

3.12 caveman ⭐54,304

Token 优化: 持续增长，开发者成本焦虑未减。

4. 新增 vs 已有项目对比

项目	类别	Stars	状态	可落地性
GPT-Image-2 Prompts	Prompt 集合	12,588	🆕 新收录	P1 - 直接参考
agentic-stack	跨 Agent 记忆	1,859	🆕 新收录	P2 - 评估集成
ERNIE-Image	AI 生图	425	🆕 新收录	P3 - 长期跟踪
agent-browser-mcp	浏览器 MCP	174	🆕 新收录	P2 - 特定场景
open-design	设计工具	29,957	📈 爆发	P1 - 持续追踪
browser-harness	浏览器自动化	10,973	📈 稳定	P1 - 已验证
video-use	视频编辑	6,481	📈 稳定	P2 - 待集成
obscura	无头浏览器	10,582	📈 稳定	P2 - 需验证

---## 5. 可落地行动清单

优先级	行动	关联现有能力	预期收益	难度
P1	GPT-Image-2 Prompt 集合参考	minimax-image-gen	提升生图 Prompt 质量	低
P1	open-design 集成评估	html-ppt-skill, architecture-diagram	快速 UI 原型生成	低
P2	agentic-stack 适配验证	skills/memory 体系	跨 Agent 知识迁移	中
P2	agent-browser-mcp 测试	browser_navigate	已登录态自动化操作	中
P2	video-use 视频编辑流水线	manim-video, ppt-to-video	AI 视频编辑能力补齐	中
P3	ERNIE-Image 生图评测	minimax-image-gen	中文生图备选方案	高
P3	obscura 大规模抓取测试	web 搜索工具	降低资源消耗 85%	高

6. 趋势总结

GPT-Image-2 生态爆发: OpenAI GPT-Image-2 发布后，Prompt 工程和 API 调用指南需求激增。359 个精选案例的 awesome 列表 3 周突破 12K stars，说明开发者对高质量生图 Prompt 的强烈需求
跨 Agent 知识迁移成为刚需: agentic-stack 和 open-design 都支持 15+ Agent CLI，说明多 Agent 并存时代，"一次配置到处运行"成为核心价值
open-design 现象级增长: 9 天 30K stars，超越多数同赛道项目，反映开发者对 Claude Design 闭源方案的不满和对开源替代品的渴望
百度 ERNIE-Image 开源: 中文 AI 生图模型的开源化趋势，8B DiT 达到 SOTA，特别是文本渲染能力突出，适合中文海报/信息图场景
真实浏览器 MCP 化: agent-browser-mcp 将真实 Chrome 包装为 MCP 工具，保留登录态，是 Agent 操作已认证系统的实用方案
browser-use 生态成熟: 从 browser-use → browser-harness → video-use 形成完整 AI 浏览器操作生态，覆盖高层任务、底层控制、视频编辑三大场景

7. Brain v19 论文专项扫描 📚

补充扫描: AI 视频一致性、主体驱动生图、TTS 最新论文 (2026 Q1-Q2)

重大行业动态

OpenAI 正式关停 Sora (2026-03-24): 消费级 AI 视频市场退出，Hailuo/Seedance/Kling 三足鼎立 026 Q1-Q2)

重大行业动态

OpenAI 正式关停 Sora (2026-03-24): 消费级 AI 视频市场退出，Hailuo/Seedance/Kling 三足鼎立### 最新论文

论文	日期	核心贡献	影响
ASTRA (多主体生成)	2026-04-15	检索增强姿态引导 + 解耦位置编码	多角色场景身份融合
DreamVAR (主体驱动生图)	2026-01-30	VAR 模型 + RL，一致性优于 Diffusion	可能替代 `--subject-ref`
T5Gemma-TTS	2026-04-02	编码器-解码器，持久文本条件	开源零样本克隆
LongCat-AudioDiT	2026-03-31	波形潜在空间扩散 TTS, SOTA SIM 0.818	MiniMax 面临开源竞争
MultiBind	2026-03-23	多主体属性错位诊断基准	Vision 质检维度扩展
MOSS-TTSD	2026-03-20	60分钟对话合成，5人零样本克隆	多角色旁白场景

8. 与上次扫描对比

变化	详情
新增收录	GPT-Image-2 Prompts, agentic-stack, ERNIE-Image, agent-browser-mcp
重大增长	open-design (+3,163, 9天破30K), OpenClaw (+423)
趋势变化	GPT-Image-2 生态崛起，跨 Agent 知识迁移成趋势
移除关注	graphify/gbrain (已在上期充分覆盖，转为长期追踪)

本报告由 Hermes Agent 每日技术雷达扫描引擎自动生成 下次扫描时间: 2026年5月8日 基线文档: tech-radar-may-2026-may6.md