1)开始尝试应用AI能力,还无较成熟单点应用
2)具备单场景的AI运维能力,可以初步形成供内部使用的学件
3)有由多个单场景AI运维模块串联起来的流程化AI运维能力,可以对外提供可靠的运维AI学件
4)主要运维场景均已实现流程化免干预AI运维能力,可以对外提供可靠的AIOps服务。
5) 有核心中枢AI,可以在成本、质量、效率间从容调整,达到业务不同生命周期对三个方面不同的指标要求,可实现多目标下的最优或按需最优。
“学件”(Learnware)一词是南京大学周志华老师的原创,学件(Learnware)= 模型(model)+规约(specification),具有可重用、可演进、可了解的特性。
“可重用”的特性使得能够获取大量不同的样本;
“可演进”的特性使得可以适应环境的变化;
“可了解”的特性使得能有效地了解模型的能力。
+++++++
AIOps作为一个团队,由不同角色组成,一般有三种不同角色,他们是运维专家、数据科学家、智能运维研发工程师,以下介绍三种角色分工:
1)运维工程师
特征:具有丰富的运维领域知识、熟悉较为复杂的运维问题、具备解决运维难题能力。
职责:运用机器帮助运维人员完成基础性和重复性的基层运维工作;人工处理机器还不能处理好的运维难题;基于经验对于较为复杂的运维问题给出最终决策—不断训练机器。
2)运维数据工程师
特征:具备编程、数学、统计学、数据可视化、机器学习等能力。
职责: 致力于智能运维平台架构、模型标准、数据分析方法;不断应用最新的机器学习技术设计优化智能运维算法;监督智能运维系统性能并实施优化和改进。
3)运维开发工程师
特征:良好的开发语言基础、大数据处理技术能力。
职责:数据采集、自动化处理、实现和运用算法等。
一、稳定性:运维的本质就是维护系统的稳定性,如何能让系统平稳的运行,变更更加稳定,故障全面治理是首要考量的,所以稳定性方面的智能运维技术演进大致是:
异常检测(Reactive)-> 根因分析(Root Cause Analysis)->根源定位(real time) -> 故障自愈(auto-healing)-> 故障预测(proactive)
无人值守发布中应用的是异常检测的算法,而智能故障定位需要用到的就是后两种技术。
二、效率:在稳定的基础上我们希望能看到极致的运维的效率,极低的运维成本。
智能运维的场景很多,在运维的每层都有用武之地。每个点的微创新的累积最终会给智能运维带来颠覆性的变化。真正实现这种专家经验和”拍脑袋“运维模式转变为基于算法和人工智能的自动化运维,最终走向无人化运维。
“无人化”当然短期内只是一个“自动化程度非常高的”的代名词,在可以看到的未来,“无人化”还是由人来干预或者参与的,尤其是故障处理。
其实自动化被叫做“自働化”更为合理, 人和机器更多是职能上的区别,需要优势互补,人不再做具体的操作了,由机器替代,但人依然是运维的灵魂,是运维的制定者和修改者,机器只是执行者,机器只是帮助人或者提醒人来完成运维操作。
Gartner Group 提出的 AIOps 中的 AI,其实是 Algorithmic IT 的缩写,而不是很多人以为的 Artificial Intelligence 的缩写,但不管是哪种写法,都意味着利用机器学习算法对线上运行的真实数据和日志等作出故障预判,从而执行相应的运维操作。
AIOps 可以说是自动化运维的升级版,所以并非 DevOps 的取代者,而是 DevOps 更高级别的落实者。
ChatOps 的理念由 DevOps 延伸而来,又结合 AI(人工智能)落地,可以说是人工智能和新型工作理念结合的产物。它也是一种新型智能工作方式,帮助团队利用 ChatBot 机器人使成员和各项辅助工具连接在一起,以沟通驱动的方式完成工作。同时解决人与人、人与工具、工具与工具之间的信息孤岛问题,从而有更高的工作效率和更好的协作体验。
2013 年,GitHub 在其内部最早开始推行 ChatOps,希望能以聊天的方式更容易更快速地去完成 DevOps 承载的工作。
ChatOps 主要由四个部分组成:自动化的理念、一个沟通承载平台、一系列连接人与工具的机器人,以及一些后台工具和服务(基础设施)。它不仅可以应用在技术团队中,还可以发展为适应不同种类团队的方法模型,这也是 ChatOps 这个概念提出的背景之一。随着全行业的发展和人力成本的攀升,ChatOps 也可以说是应用于全行业的 DevOps。