您的当前位置:首页正文

优化运维管理系统通过运维管理系统等技术工具提升运维服

2022-09-14 来源:汇智旅游网
优化运维管理系统,通过运维管理系统等技术工具提升运维服务水平。扩充运维服务范围,让学校更多的信息化系统按照标准的运维工作体系开展运维工作。引进运维团队峰谷动态调整机制,保证高峰期运维服务工作的质量。

1、优化运维服务工作体系 1.1、运维服务平台提升:

在运维工作正式开始前完成运维工作服务台的部署。运维工作服务台含资产与配置管理、智能监控系统、工单系统、知识库网站、运维自动化平台、协同工作平台。结合新的业务特点,在现有基础之上对资产与配置管理系统进行升级,使得现有的资源配置、业务资源配置、系统设置三部分功能更加完善。

完成可视化工具系统的建设,完成系统的安装、调试、用户对接,并提供标准数据接口,能将数据通过系统内的功能进行统一数据的展示,并且支持定制数据展示界面。

完成服务器脚本系统的建设,对目前运维范围内的服务器进行管理,记录用户操作脚本,能通过视频及文字的形式对用户操作的脚本进行回放。 1.2、运维团队及日常管理体系优化:

优化运维工作团队,负责对运维工作团队成员管理及培训工作,运维低峰期派驻两名人员至用户指定地点驻场开展运维服务工作,分为运维主管和运维工程师两个岗位角色,运维高峰期加派后备运维工程师一名,进驻用户运维服务现场开展运维服务工作。

运维低峰期时负责后备运维工程师的管理及培训工作,保证后备运维工程师的技术水平能满足运维要求,能够在运维高峰期时快速进入工作状态。

建立三线运维工作体系,运维工程师作为一线人员,负责事件、工单和需求的一线受理及初步处理,运维主管作为二线,负责进一步处理。各信息化系统的厂商作为三线,在接收到一线、二线的任务后介入处理。

信息中心对整个处理工程进行全程监督及指导。

服务台是运维服务的中央处理器。接收用户的事件报告并及时予以处理、回访,接收客户投诉等。服务台接到的事件报告后,常规事件通过服务台直接解决,非常规事件或无法通过服务台解决的事件,服务台要按照相关制度派发工单,安排运维工程师远程或现场解决。服务台还应定期或不定期对客户就运维服务的满意度进行调查,并对调查数据进行分析统计,并通报有关部门和成员。 2、日常运维工作 2.1、运维服务台:

序号 项目 服务要求 ① 审核学生的信息自维护申请 1 综合数据服务平台 ② 自注册审核人员权限申请的开通或调整 ③ 解答师生在自注册、信息自维护申请填写、学院人事科老师审核等过程中遇到的问题。 2 公共通讯平台 新三通短信平台 通讯录管理系统 ① 解答师生个人账号开通服务,应用账号申请,集团账户创建、添加成员,缴费充值等过程中遇到的问题。 ① 解答师生在发短信过程中出现的相关问题,如短信发送失败、回复的短信收不到等。 ① 解答师生在发短信过程中调用通讯录的问题。 ② 解答师生维护个人通讯录,管理员维护单位通讯录等问题。 ①解答师生激活账号、找回密码等相关的问题。 5 统一身份认证系统 ② 解答用户在申请应用账号过程中遇到的问题,应用系统接入申请的审核,以及修改应用系统的相关信息等问题。 ① 解答师生在登录过程中的问题 6 校务服务网 ② 解答师生在填写各项申请中遇到的问题 ③ 撤销师生误终止的申请,以及终止不需要的申请。 ④ 解答师生收到重复的邮件或手机提醒的问题 7 我的浙大(网① 解答师生在登录过程的问题,以及登录后单位信息有3 4 页版) 误,个人图像修改等问题。 ② 解答师生在通过我的浙大进入其他系统过程中遇到的问题。 ① 帮助网站用户单位解决流程方面的问题。 8 网站群平台 ② 协助网站用户单位与开发方进行沟通,解决技术相关问题。 对各项事件、事故的管理,包括工作计划、工单调配、任务执行、状态跟踪等。使日常运维工作流程化、可跟踪、可监控、可度量、有数据支撑。

根据运维服务工作的内容和流程确定各项工作中的岗位设置和职责分工,并按照相应岗位的要求配备所需不同专业、不同层次的人员,组成专业分工下高效协作的运维队伍。服务台是运维服务的中央处理器。接收用户的事件报告并及时予以处理、回访,接收客户投诉等。服务台接到的事件报告后,常规事件通过服务台直接解决,非常规事件或无法通过服务台解决的事件,服务台要按照相关制度派发工单,安排运维工程师远程或现场解决。服务台还应定期或不定期对客户就运维服务的满意度进行调查,并对调查数据进行分析统计,并通报有关部门和成员。

2.1、智能监控

对接中心基础运维平台,通过接口方式获取信息化服务器的网络、服务器硬件等信息的监控数据,同时,针对基础硬件之上的信息化系统运行情况建立可靠、高效的立体化监控平台,及时发现系统运行异常,进行故障告警和问题预警。包括主机、组件、服务、链路监控等。

主机管理:可以对主机进行设置,包括主机名称、群组、监控接口、模板等。 主机监控:对管理范围内的主机进行监控,获取监控信息和数据,并实现即时报警。针对部分未使用集中数据库的应用进行独立监控。

系统监控:对管理范围内的应用进行监控,掌握应用运行情况,并对日常运行过程中的异常情况进行记录并自动预警,按照工作流程开展后期异常处理工作。 2.2、运维知识库完善

实现各类运维相关知识的创建、储存、共享、应用。包括运维相关的制度、流程、针对不同事件和问题的解决方案等。 2.3、运维工作日志

运维工作团队根据工作内容进行运维工作日志的记录,日志按日进行提交、按周进行汇总、按月进行汇报,日志内容包含:运维服务台工作情况、智能监控运行情况、运维平台提升完成情况等工作内容。 2.4、运行分析管理

面向运维人员提供大数据采集和运行分析支持系统。提供标准化、通用的日志采集、存储、检索和展示功能。定时采集和分析业务的运营数据,及时分析和汇报可能存在的业务瓶颈、潜在风险点以及可优化环节,通过优化、调整提升系统的性能和稳定性。

按照一定周期统计分析事件总数、事件关闭的数量、事件成功关闭的数量比率、规定时间内解决的事件数量百分比、超时未解决的事件数量、规定时间内响应的事件数量百分比、平均解决时间、一次成功解决率、问题总数、已找到根本原因的问题数量、通过变通办法解决的问题数量、问题成功解决率等。挖掘数据潜在价值,进行有效的决策支持。 3、数据可视化

收集在运维过程中产生的运维数据,进行统一的数据采集与存储,利用所采集的数据和可视化工具,建立多个数据可视化视图,通过可视化视图实现运维数据的直观展示,数据可视化范围包括:运维范围内各信息化系统运行情况展示,各服务器运行情况展示。能通过可视化一目了然的掌握服务器及信息化系统的运行情况,发生预警时能通过界面及时展示,快速开展后续运维工作。 4、“学在浙大”整体运维工作

保障浙江大学“学在浙大”教学平台相关的Blackboard运行环境(系维护范围及总体要求 统)、Oracle数据库、虚拟化系统及备份一体机业务的安全稳定运行,针对系统存在或未来可能出现的问题,进行维护服务,应结合招标人的现状和未来的发展需要,制定出全面、科学的解决方案,并提出相应的实施步骤,保证整个系统的日常稳定运行,故障即时抢修和下一步平稳发展。 一、Blackboard运行环境维保服务 1. 配合Blackboard教学平台完成平台的升级、更新及压力测试; 2. 配合Blackboard教学平台对平台的数据进行备份、数据恢复及定期的压力测试; 3. 配合系统集成商对平台的硬件环境(服务器、存储等)提供相关支撑服务; 4. 针对Blackboard课程平台应用的数据库进行定制化的配置及服务; 5. 协同Blackboard课程平台应用工程师对数据库进行巡检、优化及管理; 详细维保服务要求 二、数据库技术服务要求 1.7*24小时远程响应支持服务 对数据库系统故障或与数据库系统相关联的系统故障,投标人提供7*24小时不间断非现场(可以是400电话、e-mail、VPN、QQ等形式)支持服务,通过以上方式直接联络服务商的技术工程师,寻求问题的解决方案、技术文档以及技术指导,提供故障处理案例。 投标人在接到招标人故障申告后应于5分钟内响应,如故障未能在15分钟内通过远程支持得到解决,投标人承诺根据招标人要求派指定服务工程师在2小时内赶到招标人现场,提供不间断故障处理服务。 2.7*24小时应急现场响应支持服务 当遇到复杂性问题,需要到现场进行综合诊断或者浙江大学要求现场支持服务的时候,要求服务团队人员乃至专家后援服务团队人员在2小时内到达支持现场,同时要求在路途中不中断电话支持以求快速解决问题。 服务期内要求现场服务不少于4天。 3.灾难性故障应急支持 灾难性故障指由于各种原因引起数据库不可用或者部分不可用的状况。要求服务团队精通灾备技术,快速恢复各种灾难性故障。熟悉招标人的备份机制和模式,利用备份机制实现快速故障恢复,针对数据灾难情形提供强有力的挽救技术或工具。 4.数据库日常巡检服务 日常检查至少包括以下内容: 检查相关软硬件、数据库配置和SGA、PGA的配置情况; 检查数据库、备份结果集、各表空间的变化情况等,并对数据变化情况作评估; 统计当前表空间、文件系统和数据文件的使用情况; 检查数据库alert.log日志文件和相关trace文件; 检查操作系统用户、数据库用户、系统本身的安全性; 收集数据库运行期间的负载情况和Instance各性能指标; 检查数据库备份是否正常; 提供一年不少于四次的日常巡检服务。 5.协助完善系统日常运维 根据招标人的实际情况,制定合理的运维计划和运维操作手册,完善日常运维文档,并根据日常运维内容提供及时告警。 结合系统定期巡检和招标人重大事件等实际需要,根据检查的内容和用户提出的具体需求,制定数据库性能调优方案。 投标人在招标人的同意下进行数据库性能优化或 SQL优化。 要求服务团队极为擅长性能优化和SQL语句优化,具有丰富的性能优化案例和性能优化相关培训课程,能结合实际案例自行编著培训课程(即ORACLE官方OCP或OCM教材不计在内)者可作为优选。 提供一年一次的健康检查优化服务。 三、虚拟机维护与支持服务 为提高处理Blackboard课程平台的虚拟化服务器故障的能力,形成科学、有效、反应迅速的日常管理流程和应急处理机制,确保虚拟化平台的安全和稳定运行,最大限度地减小服务器故障对生产的影响,降低业务中断风险,需要以下支持服务。 1.服务范围 本服务适用于学校课程平台的VMware虚拟化平台的服务器管理,应对发生和可能发生的故障。 2.电话支持 提供7*24小时不间断电话支持服务,甲方或甲方授权的课程平台方可以通过电话直接联络技术工程师,寻求问题的解决方案、技术文档以及技术指导。 3.现场支持 故障发生时,甲方通过电话支持无法解决问题,可直接约定时间我方技术工程师给予现场支持,第一时间给予解决问题,故障较严重时,我方需不间断处理至问题解决。 四、服务内容 1.定制化服务 (1)针对Blackboard课程平台应用的虚拟机进行定制化的配置; (2)协同Blackboard课程平台应用工程师对虚拟机进行巡检、优化及管理; 2.硬件维护 (1)平台服务器出现硬件告警需要停机维护,技术工程师将立即通知相关人员,将业务虚机迁移到集群中其他服务器主机上,再将故障服务器切换至维护模式并从集群中移除,陪同硬件厂家现场更换至成功恢复。 (2)若服务器硬件24小时内无法恢复,技术工程师将书面报告原因并立即通知业务管理人员进行数据应急备份,防止灾难扩大。 3.虚拟化平台故障 发生平台故障后,技术工程师将及时查找、确定故障原因,进行先期处置。若故障在短时间内无法修复,技术工程师将业务迁移到备用平台环境中,保持业务系统的正常运行;将故障服务器脱离网络,进行故障排除工作。 4.虚拟机软件系统故障 (1)日常做好虚拟机的定时备份和快照,系统崩溃后,能够及时恢复虚拟机。 (2)发生虚拟机系统故障后,技术工程师将及时通知业务人员检查出现故障的原因并尽快排除。 (3)如遇虚拟机系统需要启用备份系统进行恢复时,技术工程师将在恢复后和业务管理员仔细检查业务是否恢复并做好恢复记录。 5.虚拟化平台日常告警故障排除 当虚拟化平台出现告警信息,通过以下步骤排除: (1)确定故障原因。查看已触发的警报内容,确定故障前操作是否是引发该故障的原因,对合规操作引起的告警,进行消除。 (2)对提示硬件产生的告警,应查看硬件状态信息,对确认是硬件的问题按硬件维护预案处理。 (3)对提示因资源不足或性能引发的告警,因查看近期性能图表,找出原因,消除故障提示。 (4)对于无法判断的故障,技术工程师将导出系统日志发给厂家分析处理,联合解决问题。 5.服务内容要求

5.1、保障信息化系统的日常维护工作,确保信息化系统的安全可靠运行; 5.2、建立和维护信息化系统的运维知识库,补充完善故障原因及故障处理经验; 5.3、针对网络与信息化系统运行状态、运行性能、运行错误进行检查(监控); 5.4、对学校指定信息化应用服务的使用情况进行统计,需按月出具统计报表; 5.5、对已经发布的系统及软件漏洞进行及时修复; 5.6、定期备份重要数据及知识库;

5.7、根据浙江大学信息化特点进行分析,按照符合浙江大学信息化建设现状和长远规划的、具有浙江大学特点的目标优化运维管理系统,并通过该系统开展上述服务内容。 6、服务技术要求

6.1、投标人需根据浙江大学信息化发展规划,及信息化现状,给出针对性的系统建设和整体运维方案;

6.2、投标人需在浙江大学校内服务器上建设运维服务管理系统,并提供服务所需全部软件,校方有永久使用权;

6.3、运维工具软件与校方合作的二次开发部分,软件著作权归校方所有;

6.4、运维服务管理系统需具备大规模应用的能力,在容量、性能、可扩展性、可持续建设和发展等方面提出切实可行的方案。

6.5、运维服务管理系统需支持各种主流应用环境,硬件支持主流i386及X64硬件设施、虚拟机,操作系统支持Windows各服务器版、主流Linux发行版、FreeBSD、Solaris、IBM AIX等。

7、投标人资质及人员要求

7.1、投标人需在杭州有常驻机构和常驻技术团队,并向校方委派驻场人员2-3名。常驻杭州技术团队需不少于3人,且运维服务岗位搭配齐全合理,人员具备1小时上门服务响应效率;

7.2、驻场人员需有2年以上运维经验;

7.3、投标人需具备ISO9001质量体系认证或ISO27001信息安全管理体系认证;驻场人员需具备RedHat RHCE、Oracle OCP认证证书;

7.4、保证每周5*8小时驻场服务,7*24小时技术服务;

7.5、运维人员服务期内保持不变,若因特殊情况发生变动,须提前两周通知校方并经同意作出妥善安排;

7.6、所提供的技术服务执行过程中应保证所有操作的可靠性与安全性。 7.7、提供出完整的服务体系、投标人案、应急预案。

7.8、投标人必须采取认真负责的预防措施,防止公司员工在合同执行期间将掌握的任何有关客户机密或专有信息透露给任何未经授权的人等。

8、服务安全要求

8.1、用户及功能权限控制:

运维系统根据需要掌握各应用系统最高管理权限,应根据需求方的定义实现用户、角色的定义和配置,规范控制权限,保障系统和数据安全。系统支持超级管理员、普通管理员和普通用户三种不同角色。超级管理员可以对系统进行管理、配置,能接触到敏感信息如账户、密码等;普通管理员可以查看监控数据,对监控项目、监控数据、事件、用户自助服务应答反馈、运维知识库有操作权限,可接触到部分敏感信息如应用软硬件配置信息;普通用户可以查看各受监控系统的监控数据和运行状态,处理运维事件,在超级管理员明确授权后,可对一组应用进行运维管理。若有人员离职或转岗需对所接触权限进行调整,及时更改相关密钥。本安全服务相关功能需支持学校的运维安全审计系统。 8.2、网络层安全防护:

运维系统应配置如防火墙、负载均衡等防御机制,以抵御网络层面的攻击。运维系统架构各模块之间的通信涉及到的敏感数据进行保护,通过TLS1.2加密传输。 8.3、系统内部安全防护:

提供以下安全控制服务:路由控制,实现专区级别的环境隔离;访问控制,实现模块级别的隔离,保护核心模块安全;频率监控,通过旁路系统实时监控访问异常。 8.4、管理生产和运行环境安全防护:

对运维系统的所有操作,包括CMDB的增删改、应用系统的监控作业配置等均需有操作人员、时间、内容、结果等详细日志数据记录。 9、问题响应及解决 9.1、技术支持服务:

投标人应提供一整套规范的技术支持服务运作体系和流程,指定稳定的技术服务队伍,提供故障诊断、技术咨询等全方位的技术支持服务。同时,投标人应建立相应的采购人档案库,便于及时获得系统运行报告、采购人随访意见反馈、常见故障及处理方案等重要技术资料,采购人资料由客户服务经理管理。

投标人应为采购人提供多种技术支持方式,并对采购人所提交问题指派固定服务队伍进行解答并提供相关建议,对未能彻底解决的问题应进行跟踪、反馈并及时处理。 9.2、定期回顾:

投标人与采购人应定期召开服务例会进行该阶段投标人所提供技术服务的回顾,同时由采购人对该阶段的服务执行情况及服务质量进行考核。在采购人的要求下,投标人有义务随时配合召开其他时间的例会。例会结束之后应由投标人客户服务经理提供会议纪要交采购人确认,并对会议纪要中采购人意见与建议部分于7日内进行反馈并跟踪落实。

会议内容将涉及以下事项:

1.投标人客户服务经理对该阶段所执行服务进行介绍,提交阶段性服务情况汇总报告。报告内容应包括该阶段所发生全部服务内容的的执行及采购人满意度情况。

2.采购人对应标人客户服务经理所提供阶段性服务情况汇总报告进行确认。确认完成后由采购人对该阶段服务执行情况及服务质量进行考核,并依据考核标准评测打分。

3.投标人客户服务经理听取并记录采购人针对该阶段服务执行情况及服务质量的意见及建议,全部内容应通过会议纪要形式确认。

4.投标人客户服务经理应根据采购人需求制定下一阶段的客户服务计划。客户服务计划指投标人应根据采购人所购买服务及其所服务的系统具体情况所定义的服务流程、服务内容、及服务质量。

5.讨论本阶段服务过程中的重大事件对采购人系统运行的影响及应对措施,如系统升级、搬迁、系统管理人员变动、管理流程及制度变更等。

6.针对本阶段服务过程中的重大技术问题,探讨有何预防措施及系统优化措施,寻求问题解决更为合理、有效的途径,改进针对此类问题的服务流程。

7、投标人介绍该阶段所推出的补丁程序信息、软件版本发放信息。 9.3、其他服务及与服务相关的支持:

对采购人非保内业务系统软件、中间件等系统软件出现的问题,投标人应积极配合分析和查找故障产生原因,并提出排除故障的建议和措施,不得推辞。

对采购人如果有涉及机房内重要设备、数据库的迁移,应标人应免费提供技术保障。 10、拟纳入运维的信息化系统

已经开发完成并投入正常运行的信息化系统,全部纳入信息化运维管理,包括但不限于以下系统:知识资源中心门户及统一检索系统、团队信息化平台(包括平台主体、智能建站、实验室管理)、机构知识库系统、人文社科学术资源平台、公共通讯平台(浙大通)、统一身份认证、浙大云盘、校务服务网、综合数据服务平台、网站群平台、业务流程监控管理系统、浙江大学网络运维平台、学在浙大等。 11、服务时间及考核 11.1、 服务时间:

服务期为合同签订后12个月。公司方在合同签订后10日内运维人员全部到齐并经学校面试合格后上岗开展工作;公司方必须提供驻场人员的相关资质证书、简历。

公司方通过学校考核后,具备为学校提供后续相同服务的准入资格。 11.2、考核方式

根据服务内容的要求,按照不同工作内容进行月度考核和年度考核。

运维公司每月提供运维工作报告,包括(1)运维体系建设、运维管理系统建设的需求设计、详细设计方案,以及运维管理系统技术开发、实施进度的具体报告,(2)基于运维管理系统开展的资产配置管理、智能监控及告警处理、知识库、人工服务、运行分析等方面工作开展的报告及报表,由学校项目负责人负责考评,并给出具体考核意见。

年度由学校组织对运维服务进行考评,考评的主要内容是运维公司提交的运维资料及相关文档,并结合每月考评结果进行综合评价,作为年度考核的依据,给出年度综合评价得分。

综合评价得分超过85分视为考核通过,如综合评价得分在70~85分之间,扣5%的运维款项;如综合评价得分在60~70分之间,则扣10%的运维款项;如低于60分,则需由双方另行协商。服务质量考核得分计算办法由双方具体商定。 11.3、信息化系统标准运维考核指标

11.3.1、信息化系统监控及运行分析:

考核指标:保障信息化系统的日常维护工作,确保信息化系统的安全可靠运行。对生产服务器的应用组件、链路、接口开展监控。 11.3.2、告警处理及人工工单处理:

考核指标:建立系统告警的紧急处理流程,建立运维方、校方、应用建设方三方联动机制,对告警事件的响应时间应小于10分钟,介入处理并通知相关方应小于30分钟。对告警告警时间的处理应形成完整记录及事后总结;对人工工单的处理时效,工作日应小于4小时。 11.3.3、资产配置管理、运维自动化脚本部署、知识库:

考核指标:逐步完善形成详实的资产配置管理、运维自动化脚本的编写、知识库的撰写完善。平均每个应用系统,资产配置管理数据不少于5条,自动化脚本不少于5个,知识库不少于5条。

11.3.4、运维管理制度建设:

考核指标:逐步编写并完善运维管理服务制度,包括人员体系、岗位职责、素质能力要求、工作流程等;建立各项规范,包括人员管理、事件响应、问题管理、质量管理、信息安全、知识库管理等。对上述制度和规范,在实际运行中进行检验和迭代优化。 11.3.5、提交月度运行工作报告:

每月提供各应用系统运行报告,其中包含上述日常工作的开展情况,尤其是系统健康状况、系统补丁及漏洞修复状况、数据备份情况、系统告警、工单协调处理、运维知识库建设等组成部分,以及对整体运行的分析报告。 11.4、综合考评细则

11.4.1、信息化系统运维管理系统建设。占分值40分。

根据信息化系统运维管理系统建设情况进行考核,主要考核方面为系统建设与浙江大学信息化建设特色的吻合情况;系统的先进性、科学性;系统自身在用户与权限控制、网络层安全防护、系统内部防护等方面的优良性。结合运维方提供的建设方案、系统全部源代码、系统实际运行报告进行考评。

11.4.2、系统日常运维工作。占分值36分。

根据月度运行工作报告,对照实际运维工作开展情况评分。每月满分3分,根据运维方在系统监控与运行分析、告警处理及人工工单处理、资产配置管理、自动化脚本部署、知识库、运维制度建设等方面工作开展的情况进行考评,每项不合格则扣除0.5分,扣完为止。 11.4.3、人员到位及服务情况。占分值24分。

合同期以连续工作日(5天)一周为考核单元,出现一个考核单元缺少一名负责人或两名工作人员,扣1分;出现连续两至三个工作单元缺一名工作人员,扣3分,出现连续二至三个工作单元缺二名工作人员,扣6分,非连续缺员按累加计算,超两周人次,扣1分,直至占分值扣完。 12、验收办法

年度由需方对运维服务进行考评,考评的主要内容是运维公司提交的运维资料及相关文档,并结合现场记录的实际情况进行综合评价,给出考评意见,作为年度考核的依据。运维

公司提出验收申请,需方出具用户意见,组织专家进行考核验收并出具验收报告。

因篇幅问题不能全部显示,请点此查看更多更全内容