监控日志套餐部署
安装步骤参考
该套餐属于蓝鲸社区版增值套餐,请确认基础套餐已经部署完成;如未部署请参考基础套餐部署
该套餐主要适用于监控告警、日志采集的分析的场景。
主要包含蓝鲸相关产品:监控平台、日志平台

物理准备

因模块间存在依赖关系,需要按照顺序依次部署: 监控平台 -> 日志平台。

获取资源包

下载对应的资源包,并上传至中控机 /data 目录下。
下载地址

1
2
[root@lj1 data]# cd /data
[root@lj1 data]# tar xf bkce_co_package-6.1.2.tgz

机器准备

操作系统:CentOS7.6 mini
生产环境:建议 8 核 16 G,硬盘 100G 以上(可根据实际情况适当调整配置)
机器数量:3 台(假设 ip 分别为:10.11.8.72(jk1),10.11.8.73(jk2),10.11.8.74(jk3))

实现免密

开始部署前,请确保新增主机跟中控机已实现免密。(中控机执行)
sh-keygen 产生公钥与私钥对.
ssh-copy-id 将本机的公钥复制到远程机器的authorized_keys文件中,

1
ssh-copy-id <ip>

环境准备

部署参考

初始化

关闭SELinux及默认防火墙(firewalld)
安装和运行蓝鲸时,模块之间互相访问的端口策略较多,建议对蓝鲸后台服务器之间关闭防火墙。以下命令每台机器均需执行。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
# 官方建议,腾讯云yum源
[root@localhost ~]# wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.cloud.tencent.com/repo/centos7_base.repo
[root@localhost ~]# wget -O /etc/yum.repos.d/epel.repo http://mirrors.cloud.tencent.com/repo/epel-7.repo

[root@localhost ~]# yum clean all
[root@localhost ~]# yum makecache


# 关闭防火墙以及selinux
[root@localhost ~]# systemctl stop firewalld
[root@localhost ~]# systemctl disable firewalld

[root@localhost ~]# systemctl stop NetworkManager
[root@localhost ~]# systemctl disable NetworkManager


[root@localhost ~]# setenforce 0
[root@localhost ~]# sed -i '/^SELINUX=/ s/enforcing/disabled/' /etc/selinux/config

[root@localhost ~]# cat >> /etc/security/limits.conf <<EOF
* soft nproc 65530
* hard nproc 65530
* soft nofile 65530
* hard nofile 65530
EOF
[root@localhost ~]# ulimit -n 65535
[root@localhost ~]# ulimit -u 20480

# 必要环境包
[root@localhost ~]# yum install -y rsync pssh jq deltarpm ntpdate epel-release rsync

# 同步时间
[root@localhost ~]# timedatectl set-timezone Asia/Shanghai
[root@localhost ~]# ntpdate -b ntp1.aliyun.com

# 修改主机名 各自分配
[root@localhost ~]# hostnamectl set-hostname lj1

节点新增

节点管理

前往节点管理进行安装,根据图中步骤填写相关信息,对新增主机进行 agent 安装

安装成功示意图,如果失败请解决报错后再进行重试或者重装。错误参考

导入标准运维流程模版

标准运维流程模板
详细步骤: 打开标准运维 -> 项目流程 -> 导入 -> 点击上传 -> 创建新流程

假设需要部署的 监控告警及日志服务套餐包 已放置中控机的 /data 目录 ,对应套餐包的标准运维流程模版 已导入至标准运维。导入可参考如下:

检查 install.config

检查 install.config 文件是否已经包含增强套餐的相关模块分布。如果有请先移除相关模块。

1
2
3
[root@lj1 ~]# value_modules=(monitorv3\(influxdb-proxy\) monitorv3\(monitor\) monitorv3\(grafana\) influxdb\(bkmonitorv3\) monitorv3\(transfer\) beanstalk log\(grafana\) log\(api\) kafka\(config\) monitorv3\(unify-query\) monitorv3\(ingester\))

[root@lj1 ~]# for module in ${value_modules[@]}; do if grep ${module} /data/install/install.config >/dev/null; then echo -e "The \e[1;31m ${module} \e[0m module exists in install.config, please remove it before deploying."; fi; done

开始部署

监控平台

选择 [ce][deploy][bkmonitorv3] 流程模版进行新建任务,根据提示填写相关信息。确认填写信息无误后,开始执行任务。

填写信息包括:

  • ctrl_ip:基础环境的中控机 IP
  • whole_pkg_path:部署监控平台安装包的绝对路径
  • deply_iplist:新增的机器 IP(如果基础环境的资源有富余,可以复用)



该部署流程主要相关操作:

  • 将监控平台安装包放至指定目录
  • 生成监控平台 install.config 配置
  • 初始化新增节点机器
  • 授权监控平台所需的 MySQL 访问权限
  • 安装监控相关依赖、监控平台后台、监控平台 SaaS

常见失败

准备蓝鲸监控安装包

遇到执行失败的情况,到作业平台查看执行历史,查看详情 (哪一步失败解决哪一步,然后再次执行失败步骤)

查看执行记录,可能会失败,要保证所有节点正常,再次执行。
错误参考

异常信息:IP 校验失败,请确认输入的 IP xxx 是否合法
参考 “安装 gse agent” 章节安装 agent,并确保 IP 所在业务和流程模板一致。
异常信息:任务执行失败,详情页提示 can not find agent by ip
参考 “安装 gse agent” 章节安装 agent,“节点管理”对应 IP 的“agent 状态”应为“正常”。

调用bk_install安装蓝鲸监控

部署监控-调用bk_install安装蓝鲸监控-常见报错
常见报错1:报错信息:es7 集群状态异常,msg ->


解决方案

常见报错2:报错信息:ERROR deploy failed : timeout

一直失败,机器环境因素导致saas部署时间过长超时 由日志可知为普通的超时问题,部署流程没有逻辑上的报错,可以根据部署saas超时处理

分发中控机脚本到扩容主机
无法从配置平台(CMDB)查询到对应 IP,请确认输入的 IP 是否合法。查询失败 IP: 10.11.8.72
将主机分配到对应主机列表,再次尝试执行

ERROR deploy failed : timeout
出现以上报错均为部署saas问题,需要查看appo模块所在机器的agent.log日志来定位问题

1
2
3
4
5
# 查看appo模块部署在哪台机器上
[root@lj1 install]# grep appo /data/install/install.config
10.11.8.70 paas,nginx,consul,mongodb,rabbitmq,appo,zk(config)
# 登陆appo机器查看agent日志
[root@lj2 ~]# tail -f /data/bkce/logs/paasagent/agent.log

部署saas超时解决方案
解决方案:
下述所有步骤均以默认的安装目录 /data/bkce 为例,过程中请使用实际的安装目录进行替换。
1、修改 paas_agent 配置文件内的 EXECUTE_TIME_LIMIT 配置项

1
2
3
4
5
6
source /data/install/load_env.sh 
ssh $BK_APPO_IP
vim /data/bkce/paas_agent/paas_agent/etc/paas_agent_config.yaml

# 修改该配置项
EXECUTE_TIME_LIMIT=3000


2、修改 open_paas 配置文件

1
2
3
4
5
6
source /data/install/load_env.sh 
ssh $BK_PAAS_IP
vim /data/bkce/open_paas/paas/conf/settings_production.py

# 在配置文件内任意处新增该配置项。
EVENT_STATE_EXPIRE_SECONDS = 3600


3、重启appo和paas服务之后,再次部署即可

1
2
./bkcli restart paas
./bkcli restart appo

监控平台打开报错


社区版6.0~6.0.3 监控平台问题解答汇总
https://bk.tencent.com/s-mart/community/question/2789

解决方案:
https://bk.tencent.com/s-mart/community/question/3149
在bkmonitorv3机器执行

1
2
3
source /data/install/utils.fc
/data/install/bin/reg_consul_svc -n bkmonitorv3 -t monitor -p 10204 -a $LAN_IP -D > /etc/consul.d/service/bkmonitorv3-monitor.json
consul reload

等30s左右,可以dig解析到IP地址即可

日志平台

选择 [ce][deploy][bklog] 流程模版进行新建任务,根据提示填写相关信息。确认填写信息无误后,开始执行任务。

填写信息包括:

  • ctrl_ip:基础环境的中控机 IP
  • whole_pkg_path:部署日志平台安装包的绝对路径
  • deply_iplist:新增的机器 IP(如果基础环境的资源有富余,可以复用)

该部署流程主要相关操作:
将日志平台安装包放至指定目录
生成日志平台 install.config 配置
初始化新增节点机器
授权日志平台所需的 MySQL 访问权限
安装日志平台相关依赖、日志平台后台、日志平台 SaaS

Agent节点报错

安装Agent报错

安装 agent 报 utf-8 问题

1
2
3
4
[2022-03-30 16:08:57 ERROR] Traceback (most recent call last):
File "/data/bkce/bknodemandeman/apps/backend/utils/ssh.py", line 445, in send_cmd
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xba in position 450: invalid start byte
During handling of the above exception, another exception occurred:


解决方案

部署插件程序-下发安装包 失败

1
[2022 06-15 16:20:58 ERROR] [processbeat] 部署插件程序-下发安装包 失败,[basereport] 部署插件程序-下发安装包失败,[exceptionbeat ]部署插件程序-下发安装包失败 ➊[2022- 06-15 16:20:58 ERROR] 安装预设插件失败,请先尝试查看日志并处理,若无法解决,请联系管理员处理。


解决方案


出现这样的情况,去job作业平台看下执行历史(注意看下自己的job作业平台的业务是不是Blueking)


可以看到报错是没有代理,原因是蓝鲸的job机器没有安装agent

给图片里job的机器安装下agent,再重新安装下之前报错的机器的agent就可以

部署saas超时 ERROR deploy failed: timeout

参考:https://bk.tencent.com/s-mart/community/question/7038