运行维护相关

2020-03-03 06:52:31 来源：范文大全收藏下载本文

网络运行维护管理工作制度

网络的运行维护管理是网络管理的一项经常性的工作，网络的运行维护管理包括通信维护管理（交换机、路由器、光纤、双绞线），应用维护管理（服务器、网络安全设施，操作系统及应用系统）及用户维护管理（用户的权限，用户的咨询及用户的培训）等部份，为了做好网络运行维护管理工作，特制定本制度。

一、网络通信设备、网络操作系统及应用软件的维护管理

1.根据网络的使用情况及时检测、调整网络通信设施的状态参数，力求使网络通信设施处于最佳运行状况。

2.对于网络通信设施的一般性调整（局部性），由网络通信设施管理人员自行实施，在调试完毕后，务必保存现行的运行配置，并在值班日志上做纪录。

3.对于网络通信设施的重大调整，必须报分管技术的主任，并经分管主任协调审定后方可实施，实施务必保存调整前运行配置及现行的运行配置，并在值班日志上做纪录。

4.对于改动的运行调整情况，在每周召开的中心会议上通报全体人员及时掌握情况。 5.以周为单位，建立主值班制度，主值班人员在值班期内负责运行状况的监测、记录，负责完成一般性调整工作，及时向各管理负责人报告值班期内重大事件，请示处理意见，并参与实施。

6.运行维护必须检测记录下列情况。DNS、WEB 的运行状况、核心路由器、交换机的带宽占用情况、数据包的协议分类情况、丢包情况，并根据检测情况及时调整网络状况。

7.详细记录设备的故障情况及故障处理的情况。

8.及时安排处理用户报修的网络通断问题，保证网络设备及线路的畅通。

9.维护管理如果影响到用户的工作，必须事先报告网管中心主任批准并通知用户，再进行调整。在调整过程中尽量将影响范围及时间控制在最少。

二、用户管理

1.热情为用户服务，在服务过程中热情礼貌。做好规章制度的宣传解释工作。

2.及时作好用户的开户，销户工作，保留好用户的有关资料。

3.加强对用户的宣传培训工作，提高用户上网时的遵章守法意识，提高用户在上网时的操作水平、自我保护意识及用户单机的维护水平。

4.做好用户上门及电话咨询工作，耐心细致，热情服务。

5.用户服务应作好服务记录。

强化运维体系建设，提升系统服务水平

─ 加强运维流程管理。进一步完善运维管理流程，健全运维管理制度和标准，重点加强事件管理、问题管理、变更管理、配置管理等关键管理流程和数据管理、机房管理等制度标准建设与执行力。加强管理流程整合，完善信息交互机制，形成闭环管理。强化事件分级制度，建立有效的事件升级及响应机制；加强事件后续分析与处理，不断优化管理流程；建立变更分类标准和变更分级审批流程，完善变更窗口管理制度，有效降低变更对生产运行的负面影响；制定配置参数移植、修改、备份、存储、更新、销毁等方面的管理制度，控制配置操作引发的风险。完善数据存储、使用、传输以及备份管理，进一步制定标准、规范，重点强化客户信息和经营分析数据等敏感数据访问控制、清理、销毁以及数据变形使用管理；进一步加强机房人员、供电、空调、防火管理。

─ 加大集中监控及一体化管理力度。健全生产系统软硬件、网络及应用系统性能监测指标体系，优化监控策略；在实现对系统、设备、网络、基础环境等监控基础上，重点加强对核心应用系统和电子银行渠道监控；构建统一监控平台，统一管理和展现各种监控资源，实现集中告警方式，全面、及时掌握系统整体运行状态，快速定位故障、缩短处理时间；加大对总分行监控系统整合力度，提高总行对分行生产系统监管能力，进一步完善监控、响应、处理、报告、反馈和跟踪机制，实现全行范围基础设施和主要应用系统生产运行情况的全面监控，提高运行管理的全面控制能力。提高运维管理自动化水平，整合操作、维护、监控、响应、处理等管理流程，推进企业级总控中心（ECC）建设，促进运维管理一体化。

─ 加强应急处置，提高协作能力。建立健全应对突发事件的预警、报告、决策、指挥、响应及退出等环节的应急处置机制。制定监测指标，实时监测业务运行状态，及时发现异常情况，及时预警；建立清晰的报告流程，明确报告路线；建立应急指挥、决策体系，统筹协调，高效决策，保证指挥流程畅通；制定应急处置响应流程，加强关键岗位人员配置。

建立应急预案一体化管理体系，建立涵盖总体预案、专项预案等预案框架；统筹预案管理，加强预案之间的衔接与配套；建立有效的预案维护机制，涵盖预案制定、评审、发布、变更和回收过程；制定预案编制规范，保证预案编制质量；强化预案后评价与持续改进机制，保证预案有效性。

─ 完善灾备体系，提高灾难恢复能力。根据风险战略与业务连续性目标，制定灾难备份体系建设策略与实施路线；以业务有效恢复为目标，逐步加强灾备体系建设；逐步加大数据、系统、基础设施等各类资源的保护范围以及恢复能力。

─ 加强应急演练力度，保证应急灾备体系的有效性。加强应急演练，加大演练频度、扩大演练覆盖范围，采取计划性、非计划性等多种演练形式，有效验证应急响应及灾难恢复流程、决策机制、指挥体系、报告渠道、资源保障效果与能力，通过演练提高认知、完善技能。逐步推进以真实业务接管为目标的实战演练，逐步加大实战演练频度，全面提高应对重大突发事件能力。推进跨地域、跨机构、跨行业应急演练，加强合作、相互支持、共享经验，促进行业以致社会整体应急管理水平的提高。

运维标准化的工作理念：以客户为中心提供IT服务；

提供高质提供的服务是准确计价的

量

、

低

成

本

的

服

务

；

。机房日常事件发生请求:

2、数据中心监

1、客户请求

控报警

3、巡检中发现的异常

1、客户请求：当收到客户请求

要求运维人员对设备、数据和无法远程完成的操作提供服务时，运维应与客户核对三项或三项以上客户信息，保障数据操作

安全。

2、数据中心监控报警：运维人员收到监控软件的报警信息时，应立即对报警信息进行分类和识别，详细地做好记录并诊断、提供初步的技术支持，视情况而是否向上级领导报备。

3、巡检中发现的异常：运维人员应每天定时定点对机房进

行巡检，发现设备或数据异常时，应立即对异常信息进行分类和识别，详细地做好事件记录并诊断、提供初步的技术支持，

视情况而是否向上级领导报备。客户请求自动监测事件巡检事件事件的识别和记录分类、初步技术支持调查和诊断

请示直接上司或与相关技术人员沟通解决和恢复

应急安全事情的处理方案

安全应急事件等级分类和相应的处理流程根据应急事件的特点及实发事件所产生的损失程度，将应急事件分为三级：

1、一般应急事件单一地点的网络故障或服务器受损，如:局部网络瘫痪、个别设备死机，对该地点的系统运行及业务运作造成严重损害，持续时间小于24小时的事件（超过24小时的事件为较大应急事件）。

处理流程：判断事件原因——事件分类（确定为一般应急事件）——初步技术支持（保障系统和公司业务正常运做）——调查和诊断——解决和恢复——事件的记录——事件的关闭——问题管理

2、较大应急事件两个及以上地点的网络故障或服务器系统受损，如：较大规模的网络瘫痪、个别硬件设备损坏或遗失。对该地点的系统运行及业务运作造成严重损害，持续时间小于24小时的事件（超过24小时的事件为重大应急事件）。

处理流程：判断事件原因——事件分类（确定为较大应急事件）——初步技术支持（保障系统和公司业务正常运作）——向上级领导报备并提供解决方案——调查和诊断——解决和恢复——事件的记录——事件的关闭——问题管理

3、重大应急事件多个（两个及以上）地点系统瘫痪，对业务运作造成巨大损失的安全事件以及火灾或遭可抗拒力破坏机房造成损毁和人员伤害等。

处理流程：判断事件原因——事件分类（确定为重大应急事件）——初步技术支持（保障公司业务数据和设备安全）——向上级领导报备并提供解决方案——调查和诊断——解决和恢复——事件的记录——事件的关闭——问题管理

二、应急文档的备存

1、各类网络设备和服务器、PC及其附属设备的型号、序列号等；

2、硬件设备供应商、生产厂商的电话、联系人、网址；

3、操作系统、关键业务应用软件开发商或供应商的电话、联系人；

4、网络拓扑图；

5、路由器、防火墙、入侵检测设备的配置文档，服务器登录用户及原始密码文档；

6、各类软件的技术文档及其他需要保存的文档。

三、应急设备及软件备存

1、正版的操作系统启动盘、安装盘；

2、正版的防病毒软件（注明安装及升级序列号）；

3、数据库管理系统软件，数据库备份软件及最近完整的数据备份存储介质；

4、相关的设备驱动程序（含主板、显卡、网卡等）及更新到最新的服务器注册表文件；

5、备用网线、万用表、测网仪、螺丝刀等必要工具；

6、其他必备的应急工具。

四、日常预防管理

1、定期检查服务器和网络设备；

2、及时更新服务器的防病毒软件病毒库；

3、定期对所有服务器进行漏洞扫描、补丁修复；

4、定时备份重要数据；

5、实行值班制度。

五、预警机制预警信息分为外部预警信息和内部预警信息两类。外部预警信息指本公司外突发的可能破坏网络或者最新病毒等可能产生重大影响的事件警报；内部预警信息指单位内通信网络的中断或部分计算机系统奔溃对业务操作有影响的事件警报和运维人员在机房定时巡检中发现的服务器和设备的异常。运维人员在获得外部预警信息后，对预警信息加以分析，通知公司各部门做好预防和网络保障应急准备工作，并报备上级领导；通过监控软件或机房巡检获得的内部预警信息，分析后按照早发现、早报告、早处置的原则，避免可能演变为严重应急事件的情况。

六、应急事件处理

1、确定事件类型 1）、运维人员及时判断事件的类型和紧急程度； 2）、确定事件范围（多少地点发生事件），检查敏感信息失密情况及其程度，分析攻击来源及侵入点。3)、判断事件危害性及损失程度、分析人为原因、事件潜在危害性；4）、确定事件发生时间及延续时间； 5）、判断需采用的方法及准备处理事件需要的必备资源； 6）、根据损失程度及延续事件等情况确定等级，较大、重大信息的报警信息需报备上级领导，采取相应的措施之后启动应急预案。

七、事件报告

1、报告方式

1）、根据事件的类型及紧急程度及时向上级领导报告（口头或书面报告），并制定具体措施；

2）、运维人员在收到监控软件报警或发现机房巡检时发生异常，识别分析之后需要对设备进行下架检查或需查看系统、数据等信息时，应本着尽快解决故障的原则对上级领导报备，如需其他部门同事的协调解决也应及时反馈。

2、报告内容事件的基本信息（故障发生的时间、故障点、故障情况）、事件的类型、表现出来的现象、涉及的网络，事件当前的状态及可能造成的后果，以及事件解决的建议和措施。

八、现场处理

计算机病毒

1、断网、升级系统补丁及防病毒软件，查找病毒源，进行杀毒；

2、查找不出时，应向有关部门进行报告，提供病毒样本；

3、查找计算机病毒感染的存储介质；

4、对病毒利用的系统漏洞要通过补丁和升级的方式进行填补。

5、记录全部处理过程。

黑客入侵

1、记录系统状况

2、立即复制系统登录文件、历史文件、日志文件等重要文件；

3、修改防火墙、路由器等网络安全设备的过滤规则。

4、断开被攻主机、关闭不需要的服务。

5、处理可疑的文件和程序；

6、修改不安全的帐号和口令；

7、恢复被修改的的软件和数据。

8、安装相应的补丁程序，填补安全漏洞。

9、编写报告，详述事件过程及处理步骤。

备注：采取必要措施抵御入侵行为，保护系统和数据安全，利用完整性检查工具进行检查，必要时向公安机关报告并申请技术协助。

局域网无法使用

1、磁盘陈列（存储介质）设备问题：用同规格的备用硬盘进行替换，其他故障要及时与供应商联系修复；

2、服务器问题：启用备用服务器，通过热备服务服进行双机热备恢复（包括数据服务配置）。提供故障服务器型号、序列号并与服务器供应商联系，取得技术支持，检查服务器软件，将原有数据信息存盘并实施用户数据备分后移支正常服务器上使用，并与软件供应商联系，尽早解决问题。

3、路由器、交换机、防火墙等硬件故障：使用备份端口或备份硬件，并检查或配置相关内容，与供应商联系，尽早解决问题；

4、通信线路故障：用测网仪进行测试，用好的网线进行替代，关键业务使用应急通信线路，向受影响的单位发出通报，立即与线路供应商联系，在线路供应商承诺的时间内解决问题。

5、网络带宽阻塞：通过网管软件，判断阻塞原因及阻塞包发包点，再按情况逐个断网排查，直至网络恢复正常。对已断网计算机进行系统补丁升级、查毒等方式，找到原因并恢复正常后方能接入网络。

广域网无法使用

1、路由器、交换机、防火墙等硬件故障：使用备份端口或备份硬件，并检查或配置相关内容，与供应商联系，尽早解决问题；

2、通信线路故障：关键业务使用应急通信线路，向受影响的单位发出通报，立即与线路供应商联系，在线路供应商承诺的时间内解决问题。

3、网络带宽阻塞：通过网管软件，判断阻塞原因及阻塞包发包点，再按情况逐个断网排查，直至网络恢复正常。对已断网计算机进行系统补丁升级、查毒等方式，找到原因并恢复正常后方能接入网络。

数据库无法正常使用

1、记录故障情况；

2、检查数据库服务是否启动，若未起，则重启数据库服务；

3、检查文件系统，若有问题则在备份重要数据文件后用文件修复软件修复；

4、与数据库供应商联系，取得技术支持；

5、重装数据库；

6、分析原因，编写报告，详述事件过程及处理步骤。

核心设备无法正常使用

1、检查核心设备无法正常工作的原因

2、系统软件故障：和相关负责人联系，尽快恢复工作

3、硬件故障：及时报告上级领导并查找、确定故障设备及故障原因，进行初步处置，同时联系设备供应商共同检测并排除故障。

4、若短时间之内无法修复，应启动备份设备，保持系统网络正常运行，将故障设备脱离网络，进行故障排除。

5、故障排除后，在网络空闲时期，替换备用设备，如故障仍然存在，立即联系厂商进行返厂维修或调换设备。

断电

1、启动应急电源；

2、使用备用UPS进行供电；

3、与相关部门联系，尽快恢复供电；

4、若在UPS供电时间范围内不能恢复供电，要在UPS能正常供电的时间段内进行对主要系统及数据进行备份工作，备份工作完毕后，对主要设备进行系统关闭，请示上级领导后，关闭非关键设备，确保关键设备供电。

火灾

1、立即发出火灾警报并报告；

2、根据情况立即断电；

3、有秩序、有步骤地抢救数据资料和硬件设备

4、火险情况解除后，尽快检查并恢复应用系统的工作。

事件后期恢复及评估

1、清理系统、恢复数据、程序、服务。把所有被攻破的系统和网络设备彻底还原到它们正常的任务状态。恢复工作应该十分小心，避免出现误操作导致数据的丢失。另外，恢复工作中如果涉及到机密数据，需要额外遵照机密系统的恢复要求。

2、备份硬件设备或配件代替使用后，应及时将损坏设备进行维修或者更新。

3、检查威胁造成的结果，评估事件带来的影响和损害：如检查系统、服务、数据的完整性、保密性或可用性，检查攻击者是否侵入了系统，以后是否能再次随意进入，损失的程度，确定暴露出的主要危险等。

九、事件总结记录

每次应急事件处理完后应对此次应急事件进行分析，形成总结报告。报告应包括事件类别、事件发生时间、有无预警信息、事件所造成的影响、参与人员、采取的措施和效果、事件的损失评估、经验教训等内容。并及时向上级领导报备。运维工作的注意事项：

1、值班人员交接班时应注意帐号的登出登入，做好工作交接记录，检查上位在岗运维是否编写值班事件记录、事件记录是否全面详细、有无事件的最终解决方案。

2、收到监控软件报警和巡检时发现的异常，应做好事件识别分析和记录，需要对设备进行上下架检查时，应报备上级领导；需要查看系统、数据以解决问题时，应请示上级领导后方可；需要其他部门的协调解决时应及时与相关同事进行沟通。

查看系统、数据以解决问题时，应请示上级领导后方可；需要其他部门的协调解决时应及时与相关同事进行沟通。

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

运行维护相关

相关推荐