跳转至

技术雷达 (2026年5月7日·每日扫描)

扫描时间: 2026年5月7日 00:23 (UTC+8) 执行者: Hermes Agent (豆腐) 每日技术雷达扫描引擎 数据源: GitHub API (11 领域扫描)、mmx web search 对比基线: tech-radar-may-2026-may6.md (2026-05-06) 覆盖领域: AI 设计工具、Agent 技能生态、浏览器自动化、AI 生图、多智能体框架、TTS/音乐 筛选标准: Stars > 200 且近 30 天创建/活跃更新


1. 扫描摘要

领域 新增项目数 重大变化 可落地
AI 设计工具 1 open-design 爆发至 30K, GPT-Image-2 生态 ✅ GPT-Image-2 Prompts 可直接参考
Agent 技能生态 1 agentic-stack 跨 Agent 记忆层 ✅ 可与现有 skills/memory 互补
AI 生图 1 ERNIE-Image 百度开源 8B DiT ⏳ 需 GPU 环境
浏览器自动化 1 agent-browser-mcp 真实 Chrome MCP ✅ 适合已登录态操作场景
多智能体 1 Ultron 集体智能系统 ⏳ 概念验证阶段
视频编辑 0 video-use 稳步增长至 6.5K ✅ 已覆盖

本次新增收录: 4 个(agentic-stack, ERNIE-Image, agent-browser-mcp, GPT-Image-2 精选) 已有项目更新: 12 个(stars 变化追踪)


2. 今日重点关注 🔥

k, ERNIE-Image, agent-browser-mcp, GPT-Image-2 精选) 已有项目更新: 12 个(stars 变化追踪)


2. 今日重点关注 🔥### 2.1 EvoLinkAI/awesome-gpt-image-2-API-and-Prompts ⭐12,588 [NEW]

GitHub: https://github.com/EvoLinkAI/awesome-gpt-image-2-API-and-Prompts License: CC0-1.0 (公共领域,可自由使用) 语言: Python 创建日期: 2026-04-18

定位: GPT-Image-2 API 调用指南 + 359 个精选 Prompt 案例集。

核心内容: - 359 个已验证 Prompt: 覆盖人物、风景、产品、插画、Logo 等多种风格 - API 调用模板: Python/Node.js 完整示例代码 - 多语言文档: 中文、日文、韩文、西语等 10 种语言版本 - 配套 Skill: gpt-image-2-gen-skill 可被 Claude Code/Codex/Hermes 直接调用 - 工作流: GPT-Image-2 × Seedance 2.0 电影级工作流

对我们的价值: - P1 直接可用: Prompt 集合可直接参考用于 MiniMax 或其他生图工具 - API 调用模板可集成到自动化流水线 - CC0 许可证,无合规风险

使用方法:

# 克隆 Prompt 集合
git clone https://github.com/EvoLinkAI/awesome-gpt-image-2-API-and-Prompts.git
# 查看中文版本
cat awesome-gpt-image-2-API-and-Prompts/README_zh-CN.md

避坑指南: - ✅ CC0 许可证,商用无限制 - ⚠️ 需 OpenAI API Key 才能实际调用 GPT-Image-2 - ⚠️ 部分高级 Prompt 需要付费 API 层级


避坑指南**: - ✅ CC0 许可证,商用无限制 - ⚠️ 需 OpenAI API Key 才能实际调用 GPT-Image-2 - ⚠️ 部分高级 Prompt 需要付费 API 层级

---### 2.2 codejunkie99/agentic-stack ⭐1,859 [NEW]

GitHub: https://github.com/codejunkie99/agentic-stack License: Apache-2.0 语言: Python 最新推送: 2026-05-05

定位: 可移植的 .agent/ 文件夹(记忆 + 技能 + 协议),可在 Claude Code、Cursor、OpenCode、OpenClaw、Hermes 等多个 Agent 之间迁移,切换工具不丢失知识。

核心能力: - 跨 Agent 记忆层: 一套 .agent/ 文件夹适配所有主流 coding agent - Dashboard TUI: 终端仪表盘监控所有 Agent 健康状态、cron 运行、token 消耗 - Team Brain: 多 Agent 团队脑协调 - Flywheel 机制: 将已批准的红敏运行转化为 trace records、eval cases、训练数据 - 16+ Agent 适配: Claude Code, Cursor, Windsurf, OpenCode, OpenClaw, Hermes, Codex, Antigravity, Pi 等

架构概览:

.agent/
├── memory/          # 持久化记忆
├── skills/          # 可移植技能
├── protocols/       # 交互协议
├── adapters/        # 各 Agent 适配层
└── data-layer/      # 监控仪表盘

对我们的价值: - P2 值得关注: 与现有 Hermes skills/memory 体系互补 - 多 Agent 编排场景下的知识共享 - Token 消耗可视化监控

快速安装:

git clone https://github.com/codejunkie99/agentic-stack.git
cd agentic-stack
./install.sh
agentic-stack dashboard  # 启动 TUI 仪表盘

避坑指南: - ⚠️ 项目仍处于 v0.15.x 阶段,API 可能变动 - ✅ Apache-2.0 许可,可自由使用 - ⚠️ Dashboard TUI 需要 ncurses 环境


避坑指南**: - ⚠️ 项目仍处于 v0.15.x 阶段,API 可能变动 - ✅ Apache-2.0 许可,可自由使用 - ⚠️ Dashboard TUI 需要 ncurses 环境

---### 2.3 baidu/ERNIE-Image ⭐425 [NEW]

GitHub: https://github.com/baidu/ERNIE-Image License: Apache-2.0 语言: Python 模型发布: 2026-04-14

定位: 百度开源的文本到图像生成模型,基于单流 Diffusion Transformer (DiT),仅 8B 参数即达到开源模型 SOTA 水平。

核心亮点: - 紧凑但强大: 8B DiT 参数,性能超越更大参数的开源模型 - 文本渲染能力强: 擅长长文本、排版密集型内容(海报、信息图) - 指令遵循: 支持复杂多对象、关系描述 - 结构化生成: 海报、UI 类图像表现优秀 - Prompt Enhancer: 内置轻量提示增强器,将简短输入扩展为丰富描述 - 两个版本: ERNIE-Image (标准) + ERNIE-Image-Turbo (快速)

安装与推理:

pip install ernie-image
# 或从 HuggingFace 下载
# https://huggingface.co/Baidu/ERNIE-Image
# https://huggingface.co/Baidu/ERNIE-Image-Turbo

对我们的价值: - P3 长期跟踪: 中文理解能力强,适合中文场景生图 - 可作为 Flux/SD 系列的备选方案 - 海报/信息图场景特别适用

避坑指南: - ⚠️ 需要 GPU 环境推理 - ⚠️ 相对较新,社区生态不如 SD/Flux 成熟 - ✅ Apache-2.0 许可,商用友好 - ✅ HuggingFace Demo 可用: https://huggingface.co/spaces/baidu/ERNIE-Image


  • ✅ Apache-2.0 许可,商用友好
  • ✅ HuggingFace Demo 可用: https://huggingface.co/spaces/baidu/ERNIE-Image

---### 2.4 335234131/agent-browser-mcp ⭐174 [NEW]

GitHub: https://github.com/335234131/agent-browser-mcp License: MIT 语言: Python 特点: 标注 hermes-agent topic

定位: 让 Agent 直接操作"真实 Chrome"的 MCP 服务。不是沙盒浏览器,而是连接本机已打开的 Chrome,保留登录状态、Cookies、已打开标签页。

核心能力: - 真实 Chrome 标签页发现与切换 - 页面扫描与简化内容提取 - 页面内 JavaScript 执行 - CDP 单命令 / 批量调用 - 页面截图 / 桌面截图 - Cookies 读取 - 物理鼠标/键盘操作: 移动、点击、拖拽、输入、热键

MCP 工具列表: | 类别 | 工具 | |------|------| | 标签页 | get_setup_status, list_tabs, switch_tab, open_url, open_new_tab | | 页面读取 | scan_page, execute_js | | CDP/截图 | cdp_command, cdp_batch, get_cookies, capture_page_screenshot | | 物理输入 | mouse_move, mouse_click, mouse_drag, type_text, hotkey |

对我们的价值: - P2 特定场景可用: 需登录态的网站操作(后台管理系统、OA 系统) - 与现有 browser_navigate 工具互补,适合需要持久会话的场景 - 适合 E9 OA 复杂页面自动化(动态表单、iframe 嵌套)

安装:

pip install agent-browser-mcp
# 需要 Chrome + 扩展 + 本地桥接服务 (端口 18765/18766)

避坑指南: - ⚠️ 需要 Chrome 远程调试权限 - ⚠️ 仅支持 macOS/Windows,Linux 支持待验证 - ✅ 保留登录态,不需要每次重新认证 - ⚠️ 物理输入操作会干扰当前用户使用


3. 已有项目增量更新 📊

3.1 open-design ⭐29,957 (↑ +3,163 🚀)

爆炸式增长: 从 4 月 28 日创建至今仅 9 天,stars 突破 30K。 最新变化: 19 Skills 扩展至 31 个可组合技能,设计系统从 71 增至 72 个。 新增支持: 明确标注支持 Hermes Agent,新增 HyperFrames 动画叠加。 状态: ⭐ 本月最热门项目,建议持续关注。

3.2 alchaincyf/huashu-design ⭐12,290 (↑ +295)

稳定增长: 花叔的设计 skill 持续受到关注。 最新变化: v2.0 发布,新增 MP4 导出和 20 种设计词汇表。 状态: 中文友好,适合快速原型设计。 +295)

稳定增长: 花叔的设计 skill 持续受到关注。 最新变化: v2.0 发布,新增 MP4 导出和 20 种设计词汇表。 状态: 中文友好,适合快速原型设计。### 3.3 browser-use/browser-harness ⭐10,973 (↑ +402)

稳步增长: browser-use 生态的底层 CDP 直连工具。 状态: 自修复机制持续改进,domain skills 扩展中。

3.4 h4ckf0r0day/obscura ⭐10,582 (↑ +262)

稳步增长: Rust 无头浏览器引擎。 最新动态: Obscura Cloud 托管版本即将上线,开源引擎保持 Apache-2.0 全功能。 状态: v0.1.2,需关注稳定性。

3.5 browser-use/video-use ⭐6,481 (↑ +138)

稳步增长: AI 视频编辑工具。 状态: 支持多种 Agent 驱动,适合视频流水线集成。

3.6 OpenClaw ⭐368,981 (↑ +423)

持续霸榜: 个人 AI 助手生态持续扩展。 状态: 每日活跃开发,生态不断丰富。

3.7 n8n ⭐186,763

工作流自动化: v2.20.0 发布,AI 能力持续增强。

3.8 Dify ⭐140,156

Agentic 工作流平台: v1.14.0 发布。

3.9 LiteLLM ⭐45,742

LLM API 统一: v1.83.14,100+ LLM API 支持。

3.10 Superpowers ⭐179,087

Agentic Skills 框架: v5.1.0 发布。

3.11 Diffusers ⭐33,559

图像/音频生成库: v0.38.0 新增图像和音频 pipeline。

3.12 caveman ⭐54,304

Token 优化: 持续增长,开发者成本焦虑未减。


4. 新增 vs 已有项目对比

项目 类别 Stars 状态 可落地性
GPT-Image-2 Prompts Prompt 集合 12,588 🆕 新收录 P1 - 直接参考
agentic-stack 跨 Agent 记忆 1,859 🆕 新收录 P2 - 评估集成
ERNIE-Image AI 生图 425 🆕 新收录 P3 - 长期跟踪
agent-browser-mcp 浏览器 MCP 174 🆕 新收录 P2 - 特定场景
open-design 设计工具 29,957 📈 爆发 P1 - 持续追踪
browser-harness 浏览器自动化 10,973 📈 稳定 P1 - 已验证
video-use 视频编辑 6,481 📈 稳定 P2 - 待集成
obscura 无头浏览器 10,582 📈 稳定 P2 - 需验证

| | video-use | 视频编辑 | 6,481 | 📈 稳定 | P2 - 待集成 | | obscura | 无头浏览器 | 10,582 | 📈 稳定 | P2 - 需验证 |

---## 5. 可落地行动清单

优先级 行动 关联现有能力 预期收益 难度
P1 GPT-Image-2 Prompt 集合参考 minimax-image-gen 提升生图 Prompt 质量
P1 open-design 集成评估 html-ppt-skill, architecture-diagram 快速 UI 原型生成
P2 agentic-stack 适配验证 skills/memory 体系 跨 Agent 知识迁移
P2 agent-browser-mcp 测试 browser_navigate 已登录态自动化操作
P2 video-use 视频编辑流水线 manim-video, ppt-to-video AI 视频编辑能力补齐
P3 ERNIE-Image 生图评测 minimax-image-gen 中文生图备选方案
P3 obscura 大规模抓取测试 web 搜索工具 降低资源消耗 85%

6. 趋势总结

  1. GPT-Image-2 生态爆发: OpenAI GPT-Image-2 发布后,Prompt 工程和 API 调用指南需求激增。359 个精选案例的 awesome 列表 3 周突破 12K stars,说明开发者对高质量生图 Prompt 的强烈需求
  2. 跨 Agent 知识迁移成为刚需: agentic-stack 和 open-design 都支持 15+ Agent CLI,说明多 Agent 并存时代,"一次配置到处运行"成为核心价值
  3. open-design 现象级增长: 9 天 30K stars,超越多数同赛道项目,反映开发者对 Claude Design 闭源方案的不满和对开源替代品的渴望
  4. 百度 ERNIE-Image 开源: 中文 AI 生图模型的开源化趋势,8B DiT 达到 SOTA,特别是文本渲染能力突出,适合中文海报/信息图场景
  5. 真实浏览器 MCP 化: agent-browser-mcp 将真实 Chrome 包装为 MCP 工具,保留登录态,是 Agent 操作已认证系统的实用方案
  6. browser-use 生态成熟: 从 browser-use → browser-harness → video-use 形成完整 AI 浏览器操作生态,覆盖高层任务、底层控制、视频编辑三大场景

7. Brain v19 论文专项扫描 📚

补充扫描: AI 视频一致性、主体驱动生图、TTS 最新论文 (2026 Q1-Q2)

重大行业动态

  • OpenAI 正式关停 Sora (2026-03-24): 消费级 AI 视频市场退出,Hailuo/Seedance/Kling 三足鼎立 026 Q1-Q2)

重大行业动态

  • OpenAI 正式关停 Sora (2026-03-24): 消费级 AI 视频市场退出,Hailuo/Seedance/Kling 三足鼎立### 最新论文
论文 日期 核心贡献 影响
ASTRA (多主体生成) 2026-04-15 检索增强姿态引导 + 解耦位置编码 多角色场景身份融合
DreamVAR (主体驱动生图) 2026-01-30 VAR 模型 + RL,一致性优于 Diffusion 可能替代 --subject-ref
T5Gemma-TTS 2026-04-02 编码器-解码器,持久文本条件 开源零样本克隆
LongCat-AudioDiT 2026-03-31 波形潜在空间扩散 TTS, SOTA SIM 0.818 MiniMax 面临开源竞争
MultiBind 2026-03-23 多主体属性错位诊断基准 Vision 质检维度扩展
MOSS-TTSD 2026-03-20 60分钟对话合成,5人零样本克隆 多角色旁白场景

8. 与上次扫描对比

变化 详情
新增收录 GPT-Image-2 Prompts, agentic-stack, ERNIE-Image, agent-browser-mcp
重大增长 open-design (+3,163, 9天破30K), OpenClaw (+423)
趋势变化 GPT-Image-2 生态崛起,跨 Agent 知识迁移成趋势
移除关注 graphify/gbrain (已在上期充分覆盖,转为长期追踪)

本报告由 Hermes Agent 每日技术雷达扫描引擎自动生成 下次扫描时间: 2026年5月8日 基线文档: tech-radar-may-2026-may6.md