乱炖的问题点
最近贝联珠贯新产品发布借助AI Agent发展,打造SREAgent,定位于数字运维专家“多隆”,将专业人员经验沉淀其中,以提供高质量、高效的运维服务。
稳定性保障:提供故障根因定位等常见任务执行,更注重主动运维,如容量规划(提前预测资源需求)、风险识别(结合 AI 和数据提升识别效果)。
其他功能:支持成本优化、迁移改造方案设计、研发答疑、工单处理等。
对此小伙伴发表议论纷纷:
这个产品要认知非常高的公司,才可能会买;
有多少企业愿意为运维投入?都愿意为业务投入和产品投入;
这是锦上添花的事情了;
运维的成本就是自己;
其实作为一线运维的我们,节省成本是其次,是否真正解决痛点问题才是我们最关注的!
正好本周基于交流群内小伙伴讨论,有这么一个痛点问题,不知道这位数字运维专家能否解决!
分布式存储痛点
交流过程中行业资深小伙伴们结合实践经验,指出分布式存储在生产应用中存在几方面痛点。
选型建议
对于生产核心业务,优先推荐商用分布式存储方案,而非依赖Ceph等开源系统,核心原因有二:
极端故障处理门槛高
Ceph在极端场景下可能出现故障,普通技术人员难以解决;而能熟练处理故障的专业人员需长期留存,会导致人力成本升高,且后续管理难度较大。
核心研发人才稀缺且流动集中
国内掌握Ceph核心技术的研发人员数量有限,且多在少数厂商间流动,难以形成广泛、稳定的技术支持体系,增加了企业依赖Ceph的风险。
关键问题
所谓“慢盘”是指硬盘处于“半死不死”状态,这是分布式存储长期未解决的核心问题,其危害及衍生难题具体如下:
核心危害
单块慢盘会导致整个存储集群性能震荡,甚至拖垮集群整体性能,且硬盘数量越多,该问题越明显,即便全闪存集群也无法避免。
慢盘隔离的“两难困境”
隔离策略“太激进”会直接推高硬件维修成本;
隔离策略“太保守”则无法有效解决慢盘拖垮集群的问题;
这个分布式存储的痛点问题,如果交给SREAgent或企业自身打磨的运维智能体,从稳定性保障和成本优化会两方面出发会做出何种选择呢?
AIGC运维平台框架
近期各种运维智能体产品相继发布,都各有千秋,但是我们总希望从上帝视角来窥探一下,顺便琢磨下运维智能体应该覆盖哪些场景。正好北京金融科技产业联盟最近发布《基于AIGC的金融信息系统运维应用研究报告》,可以让我们从专业的角度更清晰认知下。
AIGC运维平台框架的四大运维业务活动具体指安装部署、运行监控、操作控制及综合分析。
安装部署
对各类资源进行安装、部署及维护配置,包括设备上架,服务器、操作系统、数据库、中间件、业务应用等资源对象的安装、部署,以及虚拟机创建和补丁安装等。
运行监控
监视各类资源对象的运行状态、资源耗用(如CPU利用率、内存利用率)、能力支撑(如磁盘IO、消息队列、丢包率、时延)等信息,并以告警方式通知运维人员即时检查和处理异常情况,保障业务系统持续稳定运行。
操作控制
借助工具或人工方式对各类资源对象进行日常维护处理,包括服务启停、远程开关机、参数调整、性能优化、数据备份、版本升级等。
综合分析
通过算法和技术手段从多个维度对运维数据进行挖掘和分析,发现潜在风险或提供决策依据,包括流量分析、容量分析、告警根因分析、关联影响分析、工作效率分析、能耗分析,以及同一对象和维度下的同比和环比分析等。
虽然AIGC运维平台框架已经足够的充分,但这是否能做到SREAgent所定义的数字运维专家级别的稳定性保障、成本优化、迁移改造方案设计等功能呢?
乱炖总结
在实际运维过程中,我们到底需要一个多少分的运维智能体呢?
100分,SREAgent数字运维专家;
80分,覆盖四大运维业务活动;
60分,基本上日常运维的工作都可以替代掉;
添加好友邀你入群,运维人的圈子,每日精彩分享,更有小伙伴们的热议!
声明:来自木讷大叔爱运维,仅代表创作者观点。链接:https://eyangzhen.com/2450.html