title: 运维平台3.0常见问题解决方案
运维平台3.0常见问题解决方案
本文档汇总了 Weaver 运维平台 3.0 的常见问题与解决方案。
1. 代理安装与注册问题
init-Monitor.sh 执行被 Killed
代理安装包解压后,执行 init-Monitor.sh,若显示 Killed,需再执行一遍,直至显示出注册码即可。
运维代理注册失败
按以下顺序排查:
1. 检查网络通信:
- 在主节点执行 telnet <代理节点IP> 9081(如 telnet 192.168.80.73 9081)。
- 如不通,可能原因:
- 代理节点服务未启动。
- 网络限制:需开通 9081 端口,或临时关闭防火墙测试。
2. 检查服务器时间:主节点与代理节点时间差不能超过 1 分钟。
3. 重置 robot.properties:
- 停止代理节点服务:monitor-robot/stop.sh
- 编辑 monitor-robot/app/conf/robot.properties。
- 将 weaver.monitor.robot.salt.register 值改为 false(即使原本就是 false,也请删除后重新输入,以更新文件修改时间)。
- 启动代理:monitor-robot/start.sh
- 再次尝试注册。
- 注:注册码有效期为 30 分钟,或仅能使用一次。
如果以上都无效,查看主节点 stdout.log 日志,搜索 register 关键字分析报错。
2. 性能列表无数据
- 原因 1:Ecology 服务 Resin 关闭了热部署,JSP 未编译。
- 解决:重启 Ecology 服务。
- 原因 2:单点登录(SSO)拦截了请求。
- 解决:在 SSO 设置中排除以下请求:
- 原因 3:Ecology 注释了安全包(
web.xml中SecurityFilter被注释)。 - 解决:取消注释,重启服务。
验证方法: 查看
ecology/WEB-INF/work/_jsp/_join路径下是否有包含_apmagent_jsp和monitorXOperation字样的文件。 也可检查Resin/AgentFileNow/APMagent/目录下是否有.class文件生成。
3. 界面与访问问题
微信告警二维码不显示
- 原因:服务器无法连接外网。
- 解决:开放外网,或防火墙放行
http://opsservice.weaver.com.cn和https://e-cloudstore.com。
使用 IE 浏览器访问空白
- 解决:请使用 Chrome 内核浏览器访问。
service.weaver.com.cn
和https://e-cloudstore.com`。
使用 IE 浏览器访问空白
- 解决:请使用 Chrome 内核浏览器访问。### 页面内容错乱 / 字符显示不正确
- 原因:谷歌浏览器翻译工具干扰。
- 解决:关闭谷歌翻译,还原原网页,并清除浏览器缓存。
运维平台部署后点击登录无响应(F12 报错 hookNonce)
- 解决:下载并部署最新
monitor3_hotfix.zip补丁包,重启服务。
迁移服务器或路径后无法访问
- 说明:运维平台不支持直接迁移。更换服务器需重新部署。
4. 密码与权限
管理员密码忘记
- 将文档附件中的
resetPassword.bat/resetPassword.sh覆盖到服务器monitor3/目录下。 - Windows 执行 bat,Linux 执行 sh。
- 控制台会显示临时密码,登录后即可修改管理员密码。
Linux 下运维平台显示服务未启动(实际可用)
- 原因:应用与运维平台启动用户不一致(如 OA 用 root,运维平台用其他用户)。
- 解决:确保使用同一用户启动 OA 和运维平台。可通过
ps -ef | grep java查看。
5. 代理服务相关
代理失联
- 原因 1:代理服务未启动。
- 解决:进入服务器
monitor-robot目录,执行sh start.sh。 - 原因 2:主节点与代理节点时间差 > 1 分钟。
- 解决:同步服务器时间。
- 原因 3:仅单个子节点代理失联。
- 解决:进入该服务器执行
ps -ef | grep monitor查看进程,若未开启则执行sh start.sh。
系统维护中出现不存在的 / 已不用的服务
- 原因:缓存文件导致。
- 解决:
- 主节点 (LocalHost):停止运维平台服务,删除
monitor3/app/config/env.properties,再重启。 - 代理节点:在运维平台右上角注销该节点代理 -> 停止代理服务 -> 删除
monitor-robot/app/conf/下对应的服务配置文件(如robot-ecology.properties)-> 重新注册代理。
运维平台登录正常,但系统维护显示“服务已启动但无法访问”
- 服务启动有响应时间,等待几分钟或重启服务。
- HTTPS 协议问题:若 OA 使用 HTTPS,需在
monitor3/app/config/manualEnv.properties中增加ecologyHttps=true或ecologyHttps=1,然后重启服务。
远程工具部署时无法访问
- 原因:防火墙拦截或 9081 端口未开放。
- 解决:开放服务器访问端口(不建议直接关闭防火墙)。
6. Ecology 集成与启动
务。
远程工具部署时无法访问
- 原因:防火墙拦截或 9081 端口未开放。
- 解决:开放服务器访问端口(不建议直接关闭防火墙)。
6. Ecology 集成与启动### Windows 服务器扫描不到 Ecology 或无法启动
- 原因:OA 应用服务必须注册为 Windows 服务启动,直接执行
httpd.exe会有权限问题。 - 解决:
- Resin 3:
"D:\WEAVER\Resin\httpd.exe" -java_home "D:\WEAVER\JDK" -Dfile.encoding=GBK -install-as ResinWeb - Resin 4: 执行
Resin/setup.exe注册服务。 - 从 Windows 服务启动一次 Ecology 后,后续即可在运维平台控制。
找不到初始化按钮
- 原因:主程序的 Ecology 服务未启动或权限不足。请手动确认。
Ecology 启动时不自动启动运维平台 3.0
- Resin 3:删除
Resin/conf/resin.conf中的<jvm-avg>-javaagent:...实际路径/permainfileagent-1.0.jar</jvm-avg>。 - Resin 4:删除
Resin/conf/resin.properties中的-javaagent:...实际路径/permainfileagent-1.0.jar。
卸载运维平台 2.0
- 修改
Resin/monitorX.conf中disable=1。 - 删除
Resin/monitor/resin/app文件夹。
7. 文件删除拦截机制 (FileAgent)
机制说明
- 拦截所有
File.delete()操作。 - 使用安全删除方法
weaver.file.FileSecurityUtil.deleteFile()删除附件时,文件会先移入回收站 (ecology/filesystem/fileSystemMonitorTem),14 天后彻底删除。
常见问题
- File.delete() 删不掉文件:改用
weaver.file.FileSecurityUtil.deleteFile()。 - 安全删除方法也无效:更新补丁包中的
monitor3\app\hotfix\3.0.22\robot-hotfix\app\copyFile\FileAgent-0.0.1.jar到ecology/weaverAgent路径下,重启服务。
白名单与回收站配置
在 ecology/WEB-INF/prop/cleanWasteFile.properties(无则新建)中配置:
- 白名单:writeList=白名单路径1,白名单路径2...
- 修改回收站路径:tmpdir=回收站绝对路径
8. 其他报错
Linux 下启动报 watchdogTask 错误
- 解决:执行
ps -ef | grep watch查找到进程号后,使用kill -9 <进程号>杀掉原进程,再重启服务。 - 注意:只杀
monitor3进程,切勿误杀 Resin 进程(若误杀需重启 OA)。
Ecology join 下的 JSP 报错
- 解决:打最新的运维平台补丁包,重启运维平台。
:只杀
monitor3进程,切勿误杀 Resin 进程(若误杀需重启 OA)。
Ecology join 下的 JSP 报错
- 解决:打最新的运维平台补丁包,重启运维平台。### PermainAgentFile 问题
permainagentfile-0.0.1.jar位于中间件根路径下,负责启动前替换文件。- 解决:更新最新代理包中的
monitor-robot\permainagent\permainfile-agent-1.0.jar到中间件路径(如Resin/),重启服务。