当前位置:首页>微思动态 > >详情
全国热线电话 400-881-4699

在线留言

【必看】IT运维七十二计

发布作者:微思网络   发布时间:2018-01-17   浏览量:0

运维流程管理:


第一计、建立完善的流程制度是运维管理的核心价值,通过流程制度将工作和人员紧密关联,实现高效运维管理。


第二计、网络运维需要实现服务化、产品化、自动化、取代人肉运维,利用制度和流程提升运维效率。


第三计、公司运维体系建设没有通用模板,不可生搬硬套,根据自身的特点找到属于自己的方法,在实际规划中重点考虑如何落地。


第四计、建立逐级故障申告流程,将故障分级管理,指定不同的响应策略,可利用有限的资源达到提升运维响应体验的目的。


第五计、网络运维过程中的割接方案提前写在纸上,而不是割接时留在脑子里,需严格遵守割接流程。


第六计、运维管理中对重要割接要有A/B角,包括方案评审和实施。


网络运维经验


第七计、运维自动化是网络运维的必然工具,网工的痛苦程度与自动化程度成反比,公司应推动自动化系统的建设。


第八计、运维人员的经验都是通过踩坑积累出来的,碰到任何问题,都需要有一颗好学好问的心,解决问题并归纳总结。


第九计、想好方案选产品,还是选好产品组方案,不要轻易相信厂商的方案,在实验室里验证后上线,因为你比厂商更懂自己的网络上的业务。


第十计、管理网络与业务网络要理顺,不管带内还是带外,逃生路径都要准备好。


第十一计、任何一张网络中都需要有AAA认证服务,启用AAA的目的是出现问题时能及时找到问题的触发原因。


第十二计、不惧怕故障,惧怕的是没有排障思路,故障处理的目的是不找rootcause,而是恢复业务。


第十三计、网工不能心存侥幸,网络中的单点设计总会在关键时刻引发严重业务影响,包括单设备和单链路隐患,所以关键业务节点需要冗余设计。


第十四计、网络监控不是监控网络,目的是监控业务,因为任何一张网络都是为承载的业务服务。


第十五计、网络攻城狮要想解放自己,要么学会coding,要么和程序员搞好关系。


网络变更要点


第十六计、生产网络的变更切记三思而后行,一个回车敲下去是永远无法撤回。


第十七计、变更方案合格的定义是:交给不是写方案的人做变更也能顺利完成割接。


第十八计、变更执行的关键是现场实施人员受控,硬件操作工程师和软件操作工程师的配合与协调非常重要。


第十九计、变更方案审批制度建立,审核不通过必须重写,直到所有人对方案一致认可。

第二十计、变更前环境检查,信息收集必须到位,变更后的网络状态对比是确认变更完成的关键环节。


第二十一计、网络变更时,需严格遵守变更方案执行,与预期不符必须撤回,并重新安排变更时间


第二十二计、运维变更中的人、过程、技术都是辅助因素,重要的是有没有达到安全变更的目的。


第二十三计、每个工程师在变更操作前都要安排好自己的backup,确保网络变更不受人为因素的影响。


第二十四计、网工应提高对所有网络变更的重视程度,通常都是小变更出现故障,而对重大变更非常重视,都会顺利完成。


网络技术


第二十五计、在无其他安全设备的情况下,黑洞路由是处理攻击流量最有效的方案。


第二十六计、组建广域网络时需要协调链路资源提供商,不同类型的链路连接到网络设备上配置的参数存在差异,链路类型包括光纤直连,传输波道、MSTP/SDH或是MPLS VPN等。


第二十七计、链路死了不可怕,可怕的是不死不活,频繁闪断。面对闪断,要确认好策略和回切策略。


第二十八计、传输运维工程师三板斧:看告警、查光功率、环会测试。


第二十九计、跨厂商互通时不管是BGP/IGP/LDP/PIM、还是BFD/IPSEC,都需要核实各个timer的一致性。


第三十计、网络设备的MAC表、ARP表、转发表、路由表都是有上限的,超出后直接影响网络通讯及设备处理能力。


第三十一计、谈网络运维要看上下游环境,下有服务器、线路,上有应用、业务。


第三十二计、排障时要注意不同设备厂商、不同设备型号、不同软件版本,QOS的实现机制及支持能力差别很大。


第三十三计、当检测路由表一切正常,但数据不通时,尝试检查下软件转发表以及硬件转发表。


第三十四计、虽说网络收敛越快越好,但同时也要考虑网络设备的性能。


第三十五计、在运行动态路由协议的网络中,尽量根据设备角色制定策略,过多的个性化配置会增加全局运维复杂度。


第三十六计、确认网络中是否有广播风暴最简单的方法是一看交换机指示灯是否疯狂闪烁,二看交换机端口下广播包是否激增。


第三十七计、IT运维中应对故障要先恢复再排查,无计可施重启试试。


第三十八计、每个偶然的故障背后都深藏着必然的联系,找到问题根源并优化掉。


第三十九计、运维的标配软技能:责任心、沟通力、执行力。


第四十计、日常运维口令:打补丁、传文件、批处理、改配置、包管理、看监控。


第四十一计、先量化管理对象,再优化管理对象。


第四十二计、数据安全是底线,即使不服务也不能丢数据。


第四十三计、生产网络的变更切忌三思而后行,一个回车敲下去是永远无法撤回。


第四十四计、变更前检查环境、信息收集必须到位,变更后的前后对比。


第四十五计、网络监控不是监控网络,目的是监控业务。


第四十六计、口说无凭,以工单办事。


第四十七计、面对闪断,要确定好抑制策略和回切策略。


第四十八计、建立完善的流程制度是运维管理的核心价值。


第四十九计、意识问题,提高重视程度,往往都是小变更出现故障,大变更因为非常重视,一般不出故障。


第五十计、停用或关闭无用的服务,系统服务最小化。


第五十一计、任何数据删除都要默认进回收站,不可偷懒跳过。


第五十二计、出问题的第一时间要公告给用户,否则各种询问的唾沫会淹死理你。


第五十三计、故障恢复时间能快则快,哪怕一分钟,TTL生效时间要针对业务适配。


第五十四计、网络安全要牢记,开放外网高危端口需谨慎。


第五十五计、保持应用运行的独立性,防止交叉依赖的程序存在。


第五十六计、养成日常巡检核心监控属性的习惯。


第五十七计、运维删除数据务必备份,并且要谨慎,禁止人工线上删除数据。


第五十八计、不同年限的设备性能不同,磁盘的读写能力不一致,要区别对待,老化磁盘要定期淘汰


第五十九计、存储冷热数据分离,业务硬要能识别冷数据。


第六十计、存储机架和普通设备不一样,用电也不同,做好机架和交换机级别的容灾准备。


第六十一计、进程启动权限最小化,尽可能使用非ROOT账号启动进程。


第六十二计、重要的密码一定不能同其他互联网账号密码相同,特别是同其他小网站的账号密码相同,避免被撞库。


第六十三计、运行的业务进程尽量不要输出敏感信息到日志文件中,避免JAVA代码打印数据库链接的账号信息等。


第六十四计、所有配置里的秘钥要加密存储,关注平台安全。


第六十五计、轻量级非数据服务要有机房间切换能力,加快恢复速度。


第六十六计、大规模和小规模场景不是量的变化,是质的差异。


第六十七计、实时计算链路长,延时敏感。要有各阶段的详细监控指标,方便问题定位。


第六十八计、提供用户自助排查作业和重启等基础运维能力。


第六十九计、存储瓶颈除了容量,文件数也是个大问题。


第七十计、离在线混布是个节约的好思路。


第七十一计、Syslog,authlog等日志定期备份,便于安全事件的追溯和审计。


第七十二计、选择一款适合的网管软件,网强IT综合管理软件,一体化监控,简化事件处理流程 、 提高IT运维管理水平。


总结:如果你是零基础刚入门的网工,建议选一家靠谱的培训机构带入门,先拿1-2证书,参加一些项目积累经验,不然以上的72条你没那么快渗透的。也有很多人问厦门linux培训多少钱,厦门思科培训多少钱啊,厦门OCP多少钱......笔者觉得,你要先认清自己的方向,再来谈钱的事情,选一个自己喜欢的职业比什么都重要。



返回顶部