技术雷达 (2026年5月7日·每日扫描)
扫描时间: 2026年5月7日 00:23 (UTC+8) 执行者: Hermes Agent (豆腐) 每日技术雷达扫描引擎 数据源: GitHub API (11 领域扫描)、mmx web search 对比基线: tech-radar-may-2026-may6.md (2026-05-06) 覆盖领域: AI 设计工具、Agent 技能生态、浏览器自动化、AI 生图、多智能体框架、TTS/音乐 筛选标准: Stars > 200 且近 30 天创建/活跃更新
1. 扫描摘要
| 领域 | 新增项目数 | 重大变化 | 可落地 |
|---|---|---|---|
| AI 设计工具 | 1 | open-design 爆发至 30K, GPT-Image-2 生态 | ✅ GPT-Image-2 Prompts 可直接参考 |
| Agent 技能生态 | 1 | agentic-stack 跨 Agent 记忆层 | ✅ 可与现有 skills/memory 互补 |
| AI 生图 | 1 | ERNIE-Image 百度开源 8B DiT | ⏳ 需 GPU 环境 |
| 浏览器自动化 | 1 | agent-browser-mcp 真实 Chrome MCP | ✅ 适合已登录态操作场景 |
| 多智能体 | 1 | Ultron 集体智能系统 | ⏳ 概念验证阶段 |
| 视频编辑 | 0 | video-use 稳步增长至 6.5K | ✅ 已覆盖 |
本次新增收录: 4 个(agentic-stack, ERNIE-Image, agent-browser-mcp, GPT-Image-2 精选) 已有项目更新: 12 个(stars 变化追踪)
2. 今日重点关注 🔥
k, ERNIE-Image, agent-browser-mcp, GPT-Image-2 精选) 已有项目更新: 12 个(stars 变化追踪)
2. 今日重点关注 🔥### 2.1 EvoLinkAI/awesome-gpt-image-2-API-and-Prompts ⭐12,588 [NEW]
GitHub: https://github.com/EvoLinkAI/awesome-gpt-image-2-API-and-Prompts License: CC0-1.0 (公共领域,可自由使用) 语言: Python 创建日期: 2026-04-18
定位: GPT-Image-2 API 调用指南 + 359 个精选 Prompt 案例集。
核心内容: - 359 个已验证 Prompt: 覆盖人物、风景、产品、插画、Logo 等多种风格 - API 调用模板: Python/Node.js 完整示例代码 - 多语言文档: 中文、日文、韩文、西语等 10 种语言版本 - 配套 Skill: gpt-image-2-gen-skill 可被 Claude Code/Codex/Hermes 直接调用 - 工作流: GPT-Image-2 × Seedance 2.0 电影级工作流
对我们的价值: - P1 直接可用: Prompt 集合可直接参考用于 MiniMax 或其他生图工具 - API 调用模板可集成到自动化流水线 - CC0 许可证,无合规风险
使用方法:
# 克隆 Prompt 集合
git clone https://github.com/EvoLinkAI/awesome-gpt-image-2-API-and-Prompts.git
# 查看中文版本
cat awesome-gpt-image-2-API-and-Prompts/README_zh-CN.md
避坑指南: - ✅ CC0 许可证,商用无限制 - ⚠️ 需 OpenAI API Key 才能实际调用 GPT-Image-2 - ⚠️ 部分高级 Prompt 需要付费 API 层级
避坑指南**: - ✅ CC0 许可证,商用无限制 - ⚠️ 需 OpenAI API Key 才能实际调用 GPT-Image-2 - ⚠️ 部分高级 Prompt 需要付费 API 层级
---### 2.2 codejunkie99/agentic-stack ⭐1,859 [NEW]
GitHub: https://github.com/codejunkie99/agentic-stack License: Apache-2.0 语言: Python 最新推送: 2026-05-05
定位: 可移植的 .agent/ 文件夹(记忆 + 技能 + 协议),可在 Claude Code、Cursor、OpenCode、OpenClaw、Hermes 等多个 Agent 之间迁移,切换工具不丢失知识。
核心能力:
- 跨 Agent 记忆层: 一套 .agent/ 文件夹适配所有主流 coding agent
- Dashboard TUI: 终端仪表盘监控所有 Agent 健康状态、cron 运行、token 消耗
- Team Brain: 多 Agent 团队脑协调
- Flywheel 机制: 将已批准的红敏运行转化为 trace records、eval cases、训练数据
- 16+ Agent 适配: Claude Code, Cursor, Windsurf, OpenCode, OpenClaw, Hermes, Codex, Antigravity, Pi 等
架构概览:
.agent/
├── memory/ # 持久化记忆
├── skills/ # 可移植技能
├── protocols/ # 交互协议
├── adapters/ # 各 Agent 适配层
└── data-layer/ # 监控仪表盘
对我们的价值: - P2 值得关注: 与现有 Hermes skills/memory 体系互补 - 多 Agent 编排场景下的知识共享 - Token 消耗可视化监控
快速安装:
git clone https://github.com/codejunkie99/agentic-stack.git
cd agentic-stack
./install.sh
agentic-stack dashboard # 启动 TUI 仪表盘
避坑指南: - ⚠️ 项目仍处于 v0.15.x 阶段,API 可能变动 - ✅ Apache-2.0 许可,可自由使用 - ⚠️ Dashboard TUI 需要 ncurses 环境
避坑指南**: - ⚠️ 项目仍处于 v0.15.x 阶段,API 可能变动 - ✅ Apache-2.0 许可,可自由使用 - ⚠️ Dashboard TUI 需要 ncurses 环境
---### 2.3 baidu/ERNIE-Image ⭐425 [NEW]
GitHub: https://github.com/baidu/ERNIE-Image License: Apache-2.0 语言: Python 模型发布: 2026-04-14
定位: 百度开源的文本到图像生成模型,基于单流 Diffusion Transformer (DiT),仅 8B 参数即达到开源模型 SOTA 水平。
核心亮点: - 紧凑但强大: 8B DiT 参数,性能超越更大参数的开源模型 - 文本渲染能力强: 擅长长文本、排版密集型内容(海报、信息图) - 指令遵循: 支持复杂多对象、关系描述 - 结构化生成: 海报、UI 类图像表现优秀 - Prompt Enhancer: 内置轻量提示增强器,将简短输入扩展为丰富描述 - 两个版本: ERNIE-Image (标准) + ERNIE-Image-Turbo (快速)
安装与推理:
pip install ernie-image
# 或从 HuggingFace 下载
# https://huggingface.co/Baidu/ERNIE-Image
# https://huggingface.co/Baidu/ERNIE-Image-Turbo
对我们的价值: - P3 长期跟踪: 中文理解能力强,适合中文场景生图 - 可作为 Flux/SD 系列的备选方案 - 海报/信息图场景特别适用
避坑指南: - ⚠️ 需要 GPU 环境推理 - ⚠️ 相对较新,社区生态不如 SD/Flux 成熟 - ✅ Apache-2.0 许可,商用友好 - ✅ HuggingFace Demo 可用: https://huggingface.co/spaces/baidu/ERNIE-Image
- ✅ Apache-2.0 许可,商用友好
- ✅ HuggingFace Demo 可用: https://huggingface.co/spaces/baidu/ERNIE-Image
---### 2.4 335234131/agent-browser-mcp ⭐174 [NEW]
GitHub: https://github.com/335234131/agent-browser-mcp
License: MIT
语言: Python
特点: 标注 hermes-agent topic
定位: 让 Agent 直接操作"真实 Chrome"的 MCP 服务。不是沙盒浏览器,而是连接本机已打开的 Chrome,保留登录状态、Cookies、已打开标签页。
核心能力: - 真实 Chrome 标签页发现与切换 - 页面扫描与简化内容提取 - 页面内 JavaScript 执行 - CDP 单命令 / 批量调用 - 页面截图 / 桌面截图 - Cookies 读取 - 物理鼠标/键盘操作: 移动、点击、拖拽、输入、热键
MCP 工具列表:
| 类别 | 工具 |
|------|------|
| 标签页 | get_setup_status, list_tabs, switch_tab, open_url, open_new_tab |
| 页面读取 | scan_page, execute_js |
| CDP/截图 | cdp_command, cdp_batch, get_cookies, capture_page_screenshot |
| 物理输入 | mouse_move, mouse_click, mouse_drag, type_text, hotkey |
对我们的价值:
- P2 特定场景可用: 需登录态的网站操作(后台管理系统、OA 系统)
- 与现有 browser_navigate 工具互补,适合需要持久会话的场景
- 适合 E9 OA 复杂页面自动化(动态表单、iframe 嵌套)
安装:
避坑指南: - ⚠️ 需要 Chrome 远程调试权限 - ⚠️ 仅支持 macOS/Windows,Linux 支持待验证 - ✅ 保留登录态,不需要每次重新认证 - ⚠️ 物理输入操作会干扰当前用户使用
3. 已有项目增量更新 📊
3.1 open-design ⭐29,957 (↑ +3,163 🚀)
爆炸式增长: 从 4 月 28 日创建至今仅 9 天,stars 突破 30K。 最新变化: 19 Skills 扩展至 31 个可组合技能,设计系统从 71 增至 72 个。 新增支持: 明确标注支持 Hermes Agent,新增 HyperFrames 动画叠加。 状态: ⭐ 本月最热门项目,建议持续关注。
3.2 alchaincyf/huashu-design ⭐12,290 (↑ +295)
稳定增长: 花叔的设计 skill 持续受到关注。 最新变化: v2.0 发布,新增 MP4 导出和 20 种设计词汇表。 状态: 中文友好,适合快速原型设计。 +295)
稳定增长: 花叔的设计 skill 持续受到关注。 最新变化: v2.0 发布,新增 MP4 导出和 20 种设计词汇表。 状态: 中文友好,适合快速原型设计。### 3.3 browser-use/browser-harness ⭐10,973 (↑ +402)
稳步增长: browser-use 生态的底层 CDP 直连工具。 状态: 自修复机制持续改进,domain skills 扩展中。
3.4 h4ckf0r0day/obscura ⭐10,582 (↑ +262)
稳步增长: Rust 无头浏览器引擎。 最新动态: Obscura Cloud 托管版本即将上线,开源引擎保持 Apache-2.0 全功能。 状态: v0.1.2,需关注稳定性。
3.5 browser-use/video-use ⭐6,481 (↑ +138)
稳步增长: AI 视频编辑工具。 状态: 支持多种 Agent 驱动,适合视频流水线集成。
3.6 OpenClaw ⭐368,981 (↑ +423)
持续霸榜: 个人 AI 助手生态持续扩展。 状态: 每日活跃开发,生态不断丰富。
3.7 n8n ⭐186,763
工作流自动化: v2.20.0 发布,AI 能力持续增强。
3.8 Dify ⭐140,156
Agentic 工作流平台: v1.14.0 发布。
3.9 LiteLLM ⭐45,742
LLM API 统一: v1.83.14,100+ LLM API 支持。
3.10 Superpowers ⭐179,087
Agentic Skills 框架: v5.1.0 发布。
3.11 Diffusers ⭐33,559
图像/音频生成库: v0.38.0 新增图像和音频 pipeline。
3.12 caveman ⭐54,304
Token 优化: 持续增长,开发者成本焦虑未减。
4. 新增 vs 已有项目对比
| 项目 | 类别 | Stars | 状态 | 可落地性 |
|---|---|---|---|---|
| GPT-Image-2 Prompts | Prompt 集合 | 12,588 | 🆕 新收录 | P1 - 直接参考 |
| agentic-stack | 跨 Agent 记忆 | 1,859 | 🆕 新收录 | P2 - 评估集成 |
| ERNIE-Image | AI 生图 | 425 | 🆕 新收录 | P3 - 长期跟踪 |
| agent-browser-mcp | 浏览器 MCP | 174 | 🆕 新收录 | P2 - 特定场景 |
| open-design | 设计工具 | 29,957 | 📈 爆发 | P1 - 持续追踪 |
| browser-harness | 浏览器自动化 | 10,973 | 📈 稳定 | P1 - 已验证 |
| video-use | 视频编辑 | 6,481 | 📈 稳定 | P2 - 待集成 |
| obscura | 无头浏览器 | 10,582 | 📈 稳定 | P2 - 需验证 |
| | video-use | 视频编辑 | 6,481 | 📈 稳定 | P2 - 待集成 | | obscura | 无头浏览器 | 10,582 | 📈 稳定 | P2 - 需验证 |
---## 5. 可落地行动清单
| 优先级 | 行动 | 关联现有能力 | 预期收益 | 难度 |
|---|---|---|---|---|
| P1 | GPT-Image-2 Prompt 集合参考 | minimax-image-gen | 提升生图 Prompt 质量 | 低 |
| P1 | open-design 集成评估 | html-ppt-skill, architecture-diagram | 快速 UI 原型生成 | 低 |
| P2 | agentic-stack 适配验证 | skills/memory 体系 | 跨 Agent 知识迁移 | 中 |
| P2 | agent-browser-mcp 测试 | browser_navigate | 已登录态自动化操作 | 中 |
| P2 | video-use 视频编辑流水线 | manim-video, ppt-to-video | AI 视频编辑能力补齐 | 中 |
| P3 | ERNIE-Image 生图评测 | minimax-image-gen | 中文生图备选方案 | 高 |
| P3 | obscura 大规模抓取测试 | web 搜索工具 | 降低资源消耗 85% | 高 |
6. 趋势总结
- GPT-Image-2 生态爆发: OpenAI GPT-Image-2 发布后,Prompt 工程和 API 调用指南需求激增。359 个精选案例的 awesome 列表 3 周突破 12K stars,说明开发者对高质量生图 Prompt 的强烈需求
- 跨 Agent 知识迁移成为刚需: agentic-stack 和 open-design 都支持 15+ Agent CLI,说明多 Agent 并存时代,"一次配置到处运行"成为核心价值
- open-design 现象级增长: 9 天 30K stars,超越多数同赛道项目,反映开发者对 Claude Design 闭源方案的不满和对开源替代品的渴望
- 百度 ERNIE-Image 开源: 中文 AI 生图模型的开源化趋势,8B DiT 达到 SOTA,特别是文本渲染能力突出,适合中文海报/信息图场景
- 真实浏览器 MCP 化: agent-browser-mcp 将真实 Chrome 包装为 MCP 工具,保留登录态,是 Agent 操作已认证系统的实用方案
- browser-use 生态成熟: 从 browser-use → browser-harness → video-use 形成完整 AI 浏览器操作生态,覆盖高层任务、底层控制、视频编辑三大场景
7. Brain v19 论文专项扫描 📚
补充扫描: AI 视频一致性、主体驱动生图、TTS 最新论文 (2026 Q1-Q2)
重大行业动态
- OpenAI 正式关停 Sora (2026-03-24): 消费级 AI 视频市场退出,Hailuo/Seedance/Kling 三足鼎立 026 Q1-Q2)
重大行业动态
- OpenAI 正式关停 Sora (2026-03-24): 消费级 AI 视频市场退出,Hailuo/Seedance/Kling 三足鼎立### 最新论文
| 论文 | 日期 | 核心贡献 | 影响 |
|---|---|---|---|
| ASTRA (多主体生成) | 2026-04-15 | 检索增强姿态引导 + 解耦位置编码 | 多角色场景身份融合 |
| DreamVAR (主体驱动生图) | 2026-01-30 | VAR 模型 + RL,一致性优于 Diffusion | 可能替代 --subject-ref |
| T5Gemma-TTS | 2026-04-02 | 编码器-解码器,持久文本条件 | 开源零样本克隆 |
| LongCat-AudioDiT | 2026-03-31 | 波形潜在空间扩散 TTS, SOTA SIM 0.818 | MiniMax 面临开源竞争 |
| MultiBind | 2026-03-23 | 多主体属性错位诊断基准 | Vision 质检维度扩展 |
| MOSS-TTSD | 2026-03-20 | 60分钟对话合成,5人零样本克隆 | 多角色旁白场景 |
8. 与上次扫描对比
| 变化 | 详情 |
|---|---|
| 新增收录 | GPT-Image-2 Prompts, agentic-stack, ERNIE-Image, agent-browser-mcp |
| 重大增长 | open-design (+3,163, 9天破30K), OpenClaw (+423) |
| 趋势变化 | GPT-Image-2 生态崛起,跨 Agent 知识迁移成趋势 |
| 移除关注 | graphify/gbrain (已在上期充分覆盖,转为长期追踪) |
本报告由 Hermes Agent 每日技术雷达扫描引擎自动生成 下次扫描时间: 2026年5月8日 基线文档: tech-radar-may-2026-may6.md