鲜衣怒马少年时,运维之路行且知!

前言

阔别2月之余,最大的感受就是褪却对技术的热情,反而更加注重对知识体系的构建。在运维之路上”「行且知」“往往比埋头蛮干更有价值!当然得出这个结论离不开工作的洗礼、现实的鞭打,当然更离不开小伙伴们提供的一份报告《中国AIOps现状调查(2024)》以及小伙伴的热议。

从监控说起

说起监控就离不开可观测建设,此时我们第一时刻想到的是什么?是指标、日志和分布式链路追踪这三大支柱,还是具体的使用场景?其实都没毛病:

  • 从技术实现角度看,我们追求的是第一性原理,尝试性将其拆解到自己的技术领域来完成从已知到未知的跨越;
  • 从应用角度看,我们更多的是从需求或场景出发,期待其能给我们带来多大的价值;

和运维形影不离的是监控,但咱们是否在监控的舒适区呆的太久了,从未真正去想过监控的覆盖范围、盲区以及痛点呢?图片从上图得出可观测性场景主要分为基础设施、容器性能、应用性能、用户体验以及业务性能几方面。而运维的舒适区一般在基础设施、容器、应用上,但即便是舒适区也无法避免痛点和盲区:

  • 痛点是这些监控数据总是分散在各个维度,无法和业务进行有效的关联,增加了排查的维度和难度;
  • 盲区是用户代码、程序执行过程中操作系统层面的资源调度、用户访问链路中的各种页面运行数据等;

正因为这些痛点和盲区,才会有更贴近用户和业务的用户体验、业务性能可观测场景的出现,同时融合eBPF的更多可观测性产品的落地。也许从下到上运维从不缺少来解决问题的工具或手段,真正缺少的是从上到下有目标、有路径、可落地的能力,这些单靠个人主义和缺少认知的团队是无法做到的。

智能运维

关于智能运维的解决方案,我们先来看张统计图:图片当时带给我的感想有以下三点:

  1. 对运维工具的选择,可能会决定你职业生涯的上限!

为什么会这么说呢?我们看图中头部的两家方案提供商”新炬网络“和”腾讯蓝鲸“,他们智能化平台离不开CMDB、监控、自动化、ITSM、大数据分析等几个细分产品,正是融合了多种场景的数据才会有了智能化产品的开花结果。作为运维我们肯定在以上几个场景都有所涉及,但有可能都是分隔的,或有高人指点、或有专业产品的引导、或是自己深刻的感悟才会捅破这层窗户纸,更好的突破职业生涯的上限!

  1. 运维还是要成体系化建设,否则就是工具人,淘汰性太大!

面对各种开源工具的层出不穷,变的是途径,不变的是结果。无论哪种工具,其结果都是为运维体系化建设服务的。在建设过程中,我们知道如何少走弯路以及如何庖丁解牛,那么工具就是一把刀而已!

  1. ”面试造火箭,工作拧螺丝“这是行业常态!

运维体系

说到运维体系,大家可能感觉比较虚,空口大白话谁不会说!正好我这有当下大厂面试高级运维关于运维体系的几个问题,大家可以自行斟酌下!

  • 告警覆盖率和准确率怎么衡量?
  • 故障事件管控怎么设计?
  • 运维体系建设包含哪些方面?
  • 运维上线流程规范有哪些?
  • 运维给公司带来的价值是什么?
  • 运维的工作效率如何提升?
  • 运维的工作重点在哪里?

从问题看高级运维的面试其实是非常厚重的,并没有明显的技术指向,而是更深层次考察对于工作经验、产品价值、流程规范、事件处理等的理解,虽然笼统但是更能看出一个人的价值! 

此时对于从下到上只热衷于技术的同学来说,很快就会有质疑:

“这种问题太笼统,从宏观微观两个方面去回答吧,如何规划和技术实现细节?”❞

其实这正是我说的从运维角度出发看,我们的确非常关心规划和技术实现,但是换个角度以上绝不是单靠单兵作战能够解决,首先你得有思想、有理有据的让团队按你的思路走,否则你也只是工具而已,大厂难道还缺少工具吗?

总结

最后,作为行且知的实践,思索运维多年的大叔,也尝试硬着头皮回答下其中的几个问题:

  1. 告警的覆盖率和准确率相对还是比较笼统。如果说告警层面可以让我们快速发现问题,高覆盖率和准确率或许就足够了。但是从快速解决问题上看,我们如何从众多的告警信息中快速筛选出关键项才是最棘手的,这可能依赖业务链路、业务场景、故障经验等,这些可能超出了整个监控平台的范畴。为什么会有UIOC,多方研判,需要告警能提供准确、全面、有效的数据支撑。
  2. 运维工作效率的提升不在个人,在团队。众人拾柴不一定火焰高,但是心之所向、身之所往才会有事情的起点,场景+工具+平台可能是过程,但持之以恒才是终点。

引用:

云计算开源联盟:《中国AIOps现状调查(2024)》

云观秋毫:https://originx.kindlingx.com/

声明:文中观点不代表本站立场。本文传送门:https://eyangzhen.com/420017.html

联系我们
联系我们
分享本页
返回顶部