工业自动化
李立峰:IT运维管理体系数字化转型探索与实践

发布于:2023-12-13 14:47:20  来源:工业自动化  点击量:14次

  资本市场数字化转型是一场以金融科学技术创新为核心的竞逐,证券公司正围绕“提升客户体验、加速商业模式创新、为运营提能增效”等价值创造进行数字化转型。IT部门的重点是建立可持续扩展的数字化IT能力体系,以支撑与引领企业能够更好地应对外界持续变化的复杂度和不确定性。本文结合广发证券在IT运营数字化转型的探索和实践,围绕数字化运维能力建设经验,提出并分享一个“OPSP+OADS”的IT运营数字化转型方法。

  数字化转型是一项自上而下逐步精细化的系统性工程,为实现证券公司“提升客户体验、加速商业模式创新、为运营提能增效”等数字化转型核心价值创造,需从公司逐步传递到各条线部门与执行团队的转型价值体系中。我们称这个价值创造传递过程是一个“递归传递”的过程,即把整体问题分解成规模缩小的同类问题,然后逐层递归调用解决。在评估数字化IT运营管理体系时,我们依据从公司传递到IT,再由IT传递到运维的过程。以IT最后一道防线的运维为例,传递后的运维价值创造是“增加IT风险保障能力”“加快业务交付速度”“提高IT运营服务质量” “提升客户体验”4点。

  从我们前期数字化实践经验看,大到公司体系、部门体系,小到团队/群组体系的数字化运营管理架构均可以由“组织(Organization)、流程(Process)、场景(Scene)、平台(Platform)”四部分所组成(见图1),我们简称为OPSP。其中,组织重点围绕组织文化、组织架构、岗位设置、自身能力建立数字化管理能力。流程是通过数字化思维重塑工作流程,将制度规范、管理领导力、协同模式、资源配置等在线化。场景是将线上工作“人、事、时间、协同、环境”连接起来,实现提能增效和智慧沉淀,场景需配套有效的技术控制机制,以确保业务及运营管理在合规、风控的基础上更高效开展。平台是支撑组织、流程和场景数字化落地的技术底座。

  要确保IT能力建设方向的准确性,要建立转型绩效指标,引导职能领域统一方向。我们以“线上化(On line)、自动化(Automation)、数字化(Digitization)、服务化(Service)”作为评估维度度量场景数字化转型成熟度(见图2),简称OADS。其中,“线上化”强调线下工作在线化,落地数据资产;“自动化”强调人机协同,由机器代替或辅助人做重复性、操作性、规律性工作;“数字化”强调利用数据资产变现为 “洞察、决策、执行”能力;“服务化”强调技术的开放性与能力输出。围绕OADS,在管理及平台建设上,要求团队以迭代方式不断梳理并丰富工作场景,通过持续性引入或迭代更先进的平台逐步提升场景OADS程度,场景与数字化平台形成虚实结合的数字化技术体系架构。

  面对VUCA的复杂运维数字世界,运维面临如何支撑公司在高速行驶过程中换轮子挑战,一是让“相对来说比较稳定且可预知领域”更加适应数字化时代,保持运维持续稳定;二是适应并赋能企业转型持续探索、创新,驾驭不确定性的能力,增强运维敏捷性。要有效落实运维价值,需要从体系架构、流程机制、组织能力、平台建设、场景构建等全面建设。

  第一,持续优化组织能力建设,主要以运行保障、业务连续性管理、资源管理、信息安全等为基础,扩展到流程经理、运营分析、IT服务、系统退出、运维开发等横向能力,建立学习型文化,推动组织能力持续提升。

  第二,以敏稳双态优化流程能力,吸收DevOps、AIOps、SRE、ITOA、ITIL等方法论,结合“连接、数据、赋能”思维,由被动的流程管理向主动的IT运营转变。

  第三,围绕时间角度,建立“盘前、盘中、盘后、节假日”的运维场景,打造人、事、时间、协同、环境为一体的线上场景。

  最后,推动“监、管、控、析”工具体系向一体化平台架构演进,利用自动化替代手工操作环节,推动运维研发一体化,并利用运维数据中台推动数据运营、探索运维智能化。

  自动化,将规律性、操作性、大计算量的工作,由人工向人机协同转变,提升工作效率、降低操作风险。

  数字化,分析日志、性能、报警、配置等数据,建立 “感知、决策、执行”能力。

  服务化,将底层“监管控析”平台能力API化,上层通过可视化看板、数据指标、工具应用、IT服务台等形式,并通过服务目录交付服务。

  结合OADS成熟度方法论,围绕“人、事、时间、协同、环境”五个要素,梳理了221项运维场景子项(见图4)。场景各阶段从“线上化、自动化、数字化、服务化”四点的百分比来判断成熟度。

  要确保运维数字化方向正确,所有场景落地需围绕运维4个核心价值创造,聚焦有限资源做更有价值的事。图5是围绕“增加IT风险保障能力”价值的场景地图。

  为指引场景以正确的数字化方式推进,我们总结了“连接、数据、赋能”3个数字化关键词,关键词指引运维场景的塑造方向。其中,连接是指在线搭建一张实时互动的多角色协同网络,角色包括人、软件、硬件、机器人等;通过在线数据分析对协同网络中对众多连接进行相对有效管控,让管理者更好地感知协同效率及可能出现的操作风险,让运维员工更好地感知生产运作状况与IT服务水平,并为运营决策提供数据支撑。

  场景沉淀了运维团队宝贵知识,融汇了组织、流程、平台能力。以应急管理场景为例,此场景是“提升业务连续性”价值的关键措施,以下用鱼骨图梳理影响业务连续性因素(见图6)。

  基于如此复杂的影响因素,我们建立了由故障预防、故障发现、故障响应、故障定位、故障恢复、复盘改进构成的6个故障管理闭环周期(如图7),并围绕数字化3个关键词:“数据驱动、在线连接、平台赋能”打造场景。

  数字化感知提升洞察力。全面数字化运作时的状态感知赋能应急洞察力:围绕关键运行指标,构建业务及系统状态感知看板模型,包括:关键时间的可用性状态、业务性能状态、组件状态、依赖状态、基础资源状态、上日变更状态、系统缺陷信息等指标信息,赋能应用处置的洞察力。关联上下游系统协同分析:梳理上下游业务、前端渠道影响,加快关联系统的协同,包括:异常申报后自动创建IM应急群,自动化推送协同任务,机器人负责应急协同指挥。感知客户与行业动态:提前建立客户反馈、业务动态等数据采集能力,包括:在客户端增加客户反馈功能,在线汇总客服反馈、IT服务台协同、终端拨测、现场客户端验证等异常数据采集能力。

  数字化过程建立持续提升能力。线上化处置过程:整合组织人员、应急流程、工具能力,将故障发现、响应、申报、处置、升级、诊断、定位、恢复、复盘步骤实时在线化。数字化应急效率:在线应急过程,落地发现时长(MTTI),响应时长(MTTR),定位时长(MTTK),恢复时长(MTTF)的数字化,达到应急处置效率可观察。以实战练兵:对每个步骤执行时间设置目标阀值,由机器人代替值班经理督促,建立故障处置紧迫性,达到以实战练习处置能力的目的,并在事后分析应急效率。

  “人”:包括值班经理、应急决策、IMS经理、一二线运维、IT服务台、研发、测试、安全、业务团队、故障机器人等。

  “事”:包括申报故障,感知重要业务指标、关联业务影响,获知客户反馈、行业动态,评估应急三把斧决策、启动监管报告、落实业务协同等。

  “时间”:包括异常从发生、发现、响应、申报、处置、诊断、恢复、复盘等多个环节。

  “协同”:打造“chatOps”与“任务管理”的协同机制,提升人、事、机器的在线协同。

  “环境”:针对应急ECC值班、线上应急协同两个环节,环境包括线下ECC值班室、线上IM群与运维平台等。

  人机协同让应急专家从琐事中抽离。为了尽最大可能避免因人员能力水平延误战机,我们建立“先申报后处理”的应急规程,强调故障发生后关联方要第一时间响应。在线异常申报后,事件机器人自动在秒级以内,就能将故障信息扩散出去,不仅促进并行处理效率,且故障专家能够从信息公告、解释沟通、人员召集等琐事中抽离,专注应急。

  “数据+机器人”建立平台化管理模式。以往,为加强故障应急效率,主要是依靠值班经理、职能经理现场管理。靠人管理的方式,有可能会出现监控处理不及时、应急不迅速、跟进不及时等问题,所以我们建立了平台化管理模式。平台化管理模式即是基于数据分析发现问题,触发管理决策规则,再由机器人代替管理岗位指导或督促执行。以缩短“故障发现”为例,通过chatOps机器人协同,有效提升了告警准确率与响应速度。

  工具赋能定位及恢复。数字化提升应急预案有效性:从场景、预案、策略、操作序列的思路建立了线上化的应急预案工具,引入乐高式可组装的应急策略、应急机器人等能力,解决以往WORD版预案“内容多、难匹配、无保鲜”等问题。工具提升问题定位效率:通过业务运行看板、统一日志工具、自动化巡检、最小颗粒度可用性看板等工具,辅助问题定位,尤其是在复杂故障时关联方可以并行使用工具分析,避免集中在个别专家身上。提升应急沟通效率:通过线上预案策略提升应急沟通效率,当业务影响达到监控报送要求主动通知安全组监管报告,通知客服及业务部门制定客户解释话术,建立行业动态的沟通渠道等。

  综合上面的举例,我们大家都认为在数字化转型的技术体系上,在科技条线以外的其他中后台运营条线也可以借鉴“OPSP+OADS”的方法,即结合公司转型的核心价值,以递归传递方式将公司价值主张传递到自己所处的职能条线,结合用户旅程、客户价值主张、精益创新、设计思维等工作方法,重塑领域工作场景。