蓝鲸智云6.1监控日志部署
监控日志套餐部署
安装步骤参考
该套餐属于蓝鲸社区版增值套餐,请确认基础套餐已经部署完成;如未部署请参考基础套餐部署
该套餐主要适用于监控告警、日志采集的分析的场景。
主要包含蓝鲸相关产品:监控平台、日志平台
物理准备
因模块间存在依赖关系,需要按照顺序依次部署: 监控平台 -> 日志平台。
获取资源包
下载对应的资源包,并上传至中控机 /data 目录下。
下载地址
1 | [root@lj1 data]# cd /data |
机器准备
操作系统:CentOS7.6 mini
生产环境:建议 8 核 16 G,硬盘 100G 以上(可根据实际情况适当调整配置)
机器数量:3 台(假设 ip 分别为:10.11.8.72(jk1),10.11.8.73(jk2),10.11.8.74(jk3))
实现免密
开始部署前,请确保新增主机跟中控机已实现免密。(中控机执行)
sh-keygen 产生公钥与私钥对.
ssh-copy-id 将本机的公钥复制到远程机器的authorized_keys文件中,
1 | ssh-copy-id <ip> |
环境准备
初始化
关闭SELinux及默认防火墙(firewalld)
安装和运行蓝鲸时,模块之间互相访问的端口策略较多,建议对蓝鲸后台服务器之间关闭防火墙。以下命令每台机器均需执行。
1 | # 官方建议,腾讯云yum源 |
节点新增
节点管理
前往节点管理进行安装,根据图中步骤填写相关信息,对新增主机进行 agent 安装
安装成功示意图,如果失败请解决报错后再进行重试或者重装。错误参考
导入标准运维流程模版
标准运维流程模板
详细步骤: 打开标准运维 -> 项目流程 -> 导入 -> 点击上传 -> 创建新流程
假设需要部署的 监控告警及日志服务套餐包 已放置中控机的 /data 目录 ,对应套餐包的标准运维流程模版 已导入至标准运维。导入可参考如下:
检查 install.config
检查 install.config 文件是否已经包含增强套餐的相关模块分布。如果有请先移除相关模块。
1 | [root@lj1 ~]# value_modules=(monitorv3\(influxdb-proxy\) monitorv3\(monitor\) monitorv3\(grafana\) influxdb\(bkmonitorv3\) monitorv3\(transfer\) beanstalk log\(grafana\) log\(api\) kafka\(config\) monitorv3\(unify-query\) monitorv3\(ingester\)) |
开始部署
监控平台
选择 [ce][deploy][bkmonitorv3] 流程模版进行新建任务,根据提示填写相关信息。确认填写信息无误后,开始执行任务。
填写信息包括:
- ctrl_ip:基础环境的中控机 IP
- whole_pkg_path:部署监控平台安装包的绝对路径
- deply_iplist:新增的机器 IP(如果基础环境的资源有富余,可以复用)
该部署流程主要相关操作:
- 将监控平台安装包放至指定目录
- 生成监控平台 install.config 配置
- 初始化新增节点机器
- 授权监控平台所需的 MySQL 访问权限
- 安装监控相关依赖、监控平台后台、监控平台 SaaS
常见失败
准备蓝鲸监控安装包
遇到执行失败的情况,到作业平台查看执行历史,查看详情 (哪一步失败解决哪一步,然后再次执行失败步骤)
查看执行记录,可能会失败,要保证所有节点正常,再次执行。
错误参考
异常信息:IP 校验失败,请确认输入的 IP xxx 是否合法
参考 “安装 gse agent” 章节安装 agent,并确保 IP 所在业务和流程模板一致。
异常信息:任务执行失败,详情页提示 can not find agent by ip
参考 “安装 gse agent” 章节安装 agent,“节点管理”对应 IP 的“agent 状态”应为“正常”。
调用bk_install安装蓝鲸监控
部署监控-调用bk_install安装蓝鲸监控-常见报错
常见报错1:报错信息:es7 集群状态异常,msg ->
解决方案
常见报错2:报错信息:ERROR deploy failed : timeout
一直失败,机器环境因素导致saas部署时间过长超时 由日志可知为普通的超时问题,部署流程没有逻辑上的报错,可以根据部署saas超时处理
分发中控机脚本到扩容主机
无法从配置平台(CMDB)查询到对应 IP,请确认输入的 IP 是否合法。查询失败 IP: 10.11.8.72
将主机分配到对应主机列表,再次尝试执行
ERROR deploy failed : timeout
出现以上报错均为部署saas问题,需要查看appo模块所在机器的agent.log日志来定位问题
1 | # 查看appo模块部署在哪台机器上 |
部署saas超时解决方案
解决方案:
下述所有步骤均以默认的安装目录 /data/bkce 为例,过程中请使用实际的安装目录进行替换。
1、修改 paas_agent 配置文件内的 EXECUTE_TIME_LIMIT 配置项
1 | source /data/install/load_env.sh |
2、修改 open_paas 配置文件
1 | source /data/install/load_env.sh |
3、重启appo和paas服务之后,再次部署即可
1 | ./bkcli restart paas |
监控平台打开报错
社区版6.0~6.0.3 监控平台问题解答汇总
https://bk.tencent.com/s-mart/community/question/2789
解决方案:
https://bk.tencent.com/s-mart/community/question/3149
在bkmonitorv3机器执行
1 | source /data/install/utils.fc |
等30s左右,可以dig解析到IP地址即可
日志平台
选择 [ce][deploy][bklog] 流程模版进行新建任务,根据提示填写相关信息。确认填写信息无误后,开始执行任务。
填写信息包括:
- ctrl_ip:基础环境的中控机 IP
- whole_pkg_path:部署日志平台安装包的绝对路径
- deply_iplist:新增的机器 IP(如果基础环境的资源有富余,可以复用)
该部署流程主要相关操作:
将日志平台安装包放至指定目录
生成日志平台 install.config 配置
初始化新增节点机器
授权日志平台所需的 MySQL 访问权限
安装日志平台相关依赖、日志平台后台、日志平台 SaaS
Agent节点报错
安装Agent报错
安装 agent 报 utf-8 问题
1 | [2022-03-30 16:08:57 ERROR] Traceback (most recent call last): |
部署插件程序-下发安装包 失败
1 | [2022 06-15 16:20:58 ERROR] [processbeat] 部署插件程序-下发安装包 失败,[basereport] 部署插件程序-下发安装包失败,[exceptionbeat ]部署插件程序-下发安装包失败 ➊[2022- 06-15 16:20:58 ERROR] 安装预设插件失败,请先尝试查看日志并处理,若无法解决,请联系管理员处理。 |
出现这样的情况,去job作业平台看下执行历史(注意看下自己的job作业平台的业务是不是Blueking)
可以看到报错是没有代理,原因是蓝鲸的job机器没有安装agent
给图片里job的机器安装下agent,再重新安装下之前报错的机器的agent就可以