断电重启,手动重启,人工误操作,机器死机,蓝鲸进程怎么办?

中控及:
重启后确认所有进程状态:

1
2
[root@lj1 install]# cd /data/install
[root@lj1 install]# ./bkcli status all

正常情况下应该都是正常拉起RUNNING状态,如果有EXIT的,则尝试手动拉起。手动拉起的具体方法参考组件的启动停止

社区版所有机器同时重启,很大概率会有很多进程启动失败,因为不同机器上组件恢复的时间没法控制,导致依赖的组件还没启动起来,导致失败,连锁反应。所以这种情况,遵循和安装时的启动原则

  • 先启动db
  • 启动依赖的其他开源组件及服务
  • 启动蓝鲸产品
    1
    2
    3
    [root@lj1 install]# ./bkcli start cmdb
    [root@lj1 install]# ./bkcli start job
    [root@lj1 install]# ./bkcli start bknodeman
    已经部署过SaaS,那么手动拉起。
    1
    2
    3
    [root@lj1 install]# ./bkcli start paas
    [root@lj1 install]# ./bkcli start saas-o # 正式环境
    [root@lj1 install]# ./bkcli start saas-t # 测试环境

ElasticSearch – 服务启动操作超时
参考解决

解决办法
修改 ElasticSearch 配置
编辑 ElasticSearch 服务的配置文件。
TimeoutStartSec配置等待启动的时间。默认值为90秒,将此值增加到适当的值,在我的情况下,我将其设置为500

1
2
vi /usr/lib/systemd/system/elasticsearch.service
systemctl daemon-reload


保存该文件,然后重新加载 systemd 管理器配置。

检查启动的超时值。

1
2
3
$ systemctl show elasticsearch | grep ^Timeout
TimeoutStartUSec=8min 20s
TimeoutStopUSec=infinity