哪些原因会导致数据中心断网

发布网友发布时间：2022-04-23 14:44

我来回答

共2个回答

懂视网时间：2022-05-01 14:43

一：问题:生产环境DB主机主节点在19号中午突然宕机，导致公司某业务中断。

二：问题解决：

生产以第一时间恢复业务为准则，所以来不及细查原因

1.用horizon和cli两种方式启动云主机均失败,主机状态为ERROR，此状态只可执行删除操作

2.卸载云主机云盘失败，云主机在此刻是无法卸载云盘的，所以删掉原来的云主机，云盘重新回到available状态

3.cli下加载admin环境变量nova reset-state --active backend-mysql-01，状态重置后制作快照，执行（此时是无法rebuild的，只能以从快照新建主机，指定固定ip）

nova boot prod-zabbix02-mysql01 --flavor c1.medium --image 7388c74b-bf8f-4b64-911e-40f838840602 --security_group zabbix-sec-group --nic net-id=bcb3cef7-da93-450c-9f2f-83279d24e9a4,v4-fixed-ip=172.30.0.21

4.重新挂载云盘

5.db组启服务ok

三：天空飞来一封邮件（下列内容来自数据库总监邮件，邮件发送时，故障已经解决）:

近期生产环境DB服务器连续多次出现突发宕机，从服务器/var/log/message中没有任何相关信息，从监控来看，故障时段数据库负载很低，希望云计算部能从虚拟机层面分析一下原因。

9月19日 20:30左右 Zabbix系统数据库突然宕机 172.30.0.21 prod-zabbix02-mysql01

9月19日 12:00左右后台管理项目数据库突然宕机 172.40.0.34 backend-mysql-01 MySQL节点01

9月3日 21:20左右后台管理项目数据库突然宕机 172.40.0.36 backend-mysql-03 MySQL节点03

另外，以前虚拟机的故障后一般能很快重新启动，但这几次虚拟机都无法启动，导致故障恢复时间较长。

四：被迫分析原因（刚开始其实我是拒绝的，我良辰谁都不服，直到副总也发来贺电）

针对昨天prod环境backend-mysql-01意外宕机原因分析如下

backend-mysql-01运行与compute03节点，compute03节点报错日志技术分享

出现该问题的原因是由于VM分配的内存过大（甚至超过的物理主机的内存大小），backend-mysql-01使用m2.xlarge,内存为32G

技术分享

而compute03物理内存剩余为10G，所以一旦数据库负载过高导致内存使用量大则会产生宕机现象，重启由于compute03物理内存不足，是无法重启成功的

补充一点：

云主机在新建时内存的分配都是超分的，比例为ram_allocation_ratio=1.5（这是默认配置）

这样，如果物理节点剩余内存为10G，那么在该物理节点上可以新建15G内存的云主机。

这在资源充足的情况下是一种优化策略（每个主机实际都无法用到100%内存，内存超配后，意味着我们可以新建更多的云主机）,但是针对db这种对内存需求极高的应用来说，该配置就成了一种导致云主机宕机且无法重新启动的导火索（内存溢出）。

五：三种解决方案

解决方案一：

新增compute节点（内存配置高），单独划分主机集合供db部门使用，超分设置ram_allocation_ratio=1.0

解决方案二：

升级计算节点内存

解决方案三：

1.统计生产环境资源，筛选资源充足主机

2.新增主机集合，将现有的资源充足的主机纳入该集合内，以后新建主机使用该主机集合去创建

三种方案对比（本着db应用与其他应用分开，db应用运行与单独的物理节点的原则）：

方案一：最优，无须停节点，数据库应用对性能的独特要求决定了：它应该与其他应用处于不同的物理节点。所以需要单独分配高性能物理机

方案二：较优，需要停节点升级内存，但是也是一种解决问题的方法

方案三：最烂，可以解决短期内的问题，仍然没有将db应用于其他应用分离

本文出自 “一个好人” 博客，请务必保留此出处http://egon09.blog.51cto.com/9161406/1854592

云平台数据库主机意外宕机问题

标签：

热心网友时间：2022-05-01 11:51

断网类型一：系统故障
　　典型事件1：亚马逊AWS平安夜断网
　　故障原因：弹性负载均衡服务故障
　　2012年12月24日，刚刚过去的圣诞节平安夜，亚马逊并没有让他们的客户过得太平安。亚马逊AWS位于美国东部1区的数据中心发生故障，其弹性负载均衡服务(Elastic Load Balancing Service)中断，导致Netflix和Heroku等网站受到影响。其中，Heroku在之前的AWS美国东部区域服务故障中也受到过影响。不过，有些巧合的事情是Netflix的竞争对手，亚马逊自己的业务Amazon Prime Instant Video并未因为这个故障而受到影响。
　　12月24日，亚马逊AWS中断服务事件不是第一次，当然也绝非最后一次。
　　2012年10月22日，亚马逊位于北维吉尼亚的网络服务AWS也中断过一次。其原因与上次相似。事故影响了包括Reddit、Pinterest等知名大网站。中断影响了弹性魔豆服务，其后是弹性魔豆服务的控制台，关系数据库服务，弹性缓存，弹性计算云EC2，以及云搜索。这次事故让很多人认为，亚马逊是应该升级其北维尼吉亚数据中心的基础设施了。
　　2011年4月22日，亚马逊云数据中心服务器大面积宕机，这一事件被认为是亚马逊史上最为严重的云计算安全事件。由于亚马逊在北弗吉尼亚州的云计算中心宕机，包括回答服务Quora、新闻服务Reddit、Hootsuite和位置跟踪服务FourSquare在内的一些网站受到了影响。亚马逊官方报告中声称，此次事件是由于其EC2系统设计存在漏洞和设计缺陷，并且在不断修复这些已知的漏洞和缺陷来提高EC2(亚马逊ElasticComputeCloud服务)的竞争力。
　　2010年1月，几乎6万8千名的Salesforce.com用户经历了至少1个小时的宕机。Salesforce.com由于自身数据中心的"系统性错误"，包括备份在内的全部服务发生了短暂瘫痪的情况。这也露出了Salesforce.com不愿公开的锁定策略：旗下的PaaS平台、Force.com不能在Salesforce.com之外使用。所以一旦Salesforce.com出现问题，Force.com同样会出现问题。所以服务发生较长时间中断，问题将变得很棘手。
　　断网诱因二：自然灾害
　　典型事件1：亚马逊北爱尔兰柏林数据中心宕机
　　故障原因：闪电击中柏林数据中心的变压器
　　2011年8月6日，在北爱尔兰都柏林出现的闪电引起亚马逊和微软在欧洲的云计算网络因为数据中心停电而出现大规模宕机。闪电击中都柏林数据中心附近的变压器，导致其爆炸。爆炸引发火灾，使所有公用服务机构的工作暂时陷入中断，导致整个数据中心出现宕机。
　　这个数据中心是亚马逊在欧洲唯一的数据存储地，也就是说，EC2云计算平台客户在事故期间没有其他数据中心可供临时使用。宕机事件使得采用亚马逊EC2云服务平台的多家网站长中断达两天时间之久。
　　典型事件2：卡尔加里数据中心火灾事故
　　故障原因：数据中心发生火灾
　　2012年7月11日卡尔加里数据中心火灾事故：加拿大通信服务供应商ShawCommunicationsInc位于卡尔加里阿尔伯塔的数据中心发生了一场火灾，造成当地医院的数百个手术延迟。由于该数据中心提供管理应急服务，此次火灾事件影响了支持关键公共服务主要的备份系统。此次事件为一系列*机构敲响了警钟，必须确保及时的恢复和拥有故障转移系统，同时结合出台灾害管理计划。
　　典型事件3：超级飓风桑迪袭击数据中心
　　故障原因：风暴和洪水导致数据中心停止运行
　　2012年10月29日，超级飓风桑迪：纽约和新泽西州的数据中心都受到了此次飓风的影响，所带来的恶劣影响包括为曼哈顿下城地区的洪水和一些设施的停机，周围地区数据中心发电机运行失常。飓风桑迪所带来的影响超出了一般单一的中断事故，为受灾地区数据中心产业带来了规模空前的灾难。事实上，柴油已然成为了数据中心恢复工作的生命线，作为备用电源系统接管了整个地区的负荷，促使特别措施，保持发电机的燃料。随着眼前的工作重点逐步转移到灾后重建，我们有必要长期就数据中心的选址、工程和灾难恢复进行探讨，这一话题可能将持续几个月，甚至几年。
　　断网诱因三：人为因素
　　典型事件1：Hosting.com服务中断事故
　　故障原因：服务供应商执行断路器操作顺序不正确造成的UPS关闭
　　2012年7月28日Hosting.com停运事件：人为错误通常被认为是数据中心停机的主导因素之一。7月Hosting.com中断事件造成 1100名客户服务中断就是一个例子。停机事故的发生是由于该公司位于特拉华州纽瓦克的数据中心正进行UPS系统预防性维护，"服务供应商执行断路器操作顺序不正确造成的UPS关闭是造成数据中心套房内的设施损失的关键因素之一。"Hosting.com首席执行官ArtZeile说。"没有任何重要的电力系统或备用电源系统出现故障，完全是一种人为的错误造成的。"
　　典型事件2：微软爆发BPOS服务中断事件
　　故障原因：微软在美国、欧洲和亚洲的数据中心的一个没有确定的设置错误造成的
　　2010年9月，微软在美国西部几周时间内出现至少三次托管服务中断事件向用户致歉。这是微软首次爆出重大的云计算事件。
　　事故当时，用户访问BPOS(Business Proctivity Online Suite)服务的时候，如果使用微软北美设施访问服务的客户可能遇到了问题，这个故障持续了两个小时。虽然，后来微软工程师声称解决了这一问题，但是没有解决根本问题，因而又产生了9月3日和9月7日服务再次中断。
　　微软的Clint Patterson说，这次数据突破事件是由于微软在美国、欧洲和亚洲的数据中心的一个没有确定的设置错误造成的。BPOS软件中的离线地址簿在"非常特别的情况下"提供给了非授权用户。这个地址簿包含企业的联络人信息。
　　微软称，这个错误在发现之后两个小时就修复了。微软称，它拥有跟踪设施，使它能够与那些错误地下载这些数据的人取得联系以便清除这些数据。
　　断网诱因四：系统故障
　　典型事件1：GoDaddy网站DNS服务器中断
　　故障原因：系统内一系列路由器的数据表造成的网络中断
　　2012年9月10日GoDaddy网站DNS服务器中断：域名巨头GoDaddy是一家最重要的DNS服务器供应商，其拥有500万个网站，管理超过5000万的域名。这就是为什么九月10日中断事故会是一个2012年最具破坏性的事件。
　　一些炒作甚至认为，此次长达6个小时的中断事件是由于拒绝服务攻击的结果，但GoDaddy后来表示，这是路由器表的损坏数据造成的。"服务中断不是由外部影响造成的。"GoDaddy的临时首席执行官史葛瓦格纳说。"这不是黑客攻击也不是一个拒绝服务攻击(DDoS)。我们已经确定了服务中断是由于内部的一系列路由器的数据表造成的网络事件损坏。"
　　典型事件2：盛大云存储断网
　　故障原因：数据中心一台物理服务器磁盘损坏
　　2012年8月6日晚上8：10，盛大云在其官方微博上发布一则因云主机故障致用户数据丢失事件的公开声明。声明说到：8月6日，盛大云在无锡的数据中心因为一台物理服务器磁盘发生损坏，导致"个别用户"数据的丢失。盛大云已经在尽全力协助用户恢复数据。
　　对于因为一台"物理服务器磁盘发生损坏"，导致"个别用户"数据的丢失的情况，盛大云技术人员给出自己的解释：虚拟机的磁盘有两种生产方式，一种是直接使用宿主机的物理磁盘。这种情况下，如果宿主机的物理磁盘发生故障，云主机不可避免会造成数据丢失，这也是本次事件产生的原因;另外一种是使用远程存储，也就是盛大硬盘产品，这种方式实际上是把用户的数据存到了远程的一个集群里，并同时做了多份备份，即使宿主机出故障也不会影响到云主机的数据。因为物理机的损坏很难避免，为了避免您遇到意外损失，我们建议您在云主机之外，也做好数据备份。
　　典型事件3：Google App Engine中断服务
　　故障原因：网络延迟
　　Google App Engine：GAE是用于开发和托管WEB应用程序的平台，数据中心由google管理，中断时间是10月26日，持续4小时，因为突然变得反应缓慢，而且出错。受此影响，50%的GAE请求均失败。
　　谷歌表示没有数据丢失，应用程序行为也有备份可以还原。为表歉意，google宣布11月份用户可以google表示他们正在加强其网络服务以应对网络延迟问题，"我们已经增强了流量路由能力，并调整了配置，这些将会有效防止此类问题再次发生"。
　　断网诱因五：系统Bug
　　典型事件1：Azure全球中断服务
　　事故原因：软件Bug导致闰年时间计算不正确
　　2012年2月28日，由于"闰年bug"导致微软Azure在全球范围内大面积服务中断，中断时间超过24小时。虽然微软表示该软件BUG是由于闰年时间计算不正确导致，但这一事件激起了许多用户的强烈反应，许多人要求微软为此做出更合理详细的解释。
　　典型事件2：Gmail电子邮箱爆发全球性故障
　　事故原因：数据中心例行性维护时，新程序代码的副作用
　　2009年2月24日，谷歌的Gmail电子邮箱爆发全球性故障，服务中断时间长达4小时。谷歌解释事故的原因：在位于欧洲的数据中心例行性维护之时，有些新的程序代码(会试图把地理相近的数据集中于所有人身上)有些副作用，导致欧洲另一个资料中心过载，于是连锁效应就扩及到其它数据中心接口，最终酿成全球性的断线，导致其他数据中心也无法正常工作。
　　典型事件3：“5.19断网事件”
　　事故原因：客户端软件Bug，上网终端频繁发起域名解析请求，引发DNS拥塞
　　2009年5月19日的21：50，江苏、安徽、广西、海南、甘肃、浙江等六省用户申告访问网站速度变慢或无法访问。经过工信部相关单位调查通报称，此次全国六省网络中断事故，原因是国内某公司推出的客户端软件存在缺陷，在该公司域名授权服务器工作异常的情况下，导致安装该软件的上网终端频繁发起域名解析请求，引发DNS拥塞，造成大量用户访问网站慢或网页打不开。
　　其中，DN SPod是国内知名的域名解析服务商之一的N SPod公司，服务数家知名网站的域名解析服务。此次攻击导致DN SPod公司所属的6台dns域名解析服务器瘫痪，直接造成包括暴风影音在内的多家网络服务商的域名解析系统瘫痪，由此引发网络拥塞，造成大量用户不能正常上网。工信部指出，此次事件暴露出域名解析服务成为目前网络安全的薄弱环节，指示各单位要加强对域名解析服务的安全保护。
　　小结
启用云服务的公司，很大程度是考虑这种服务可以更加编辑，性价比高。但是，这样的考虑如果是以降低安全性作为代价，估计很多公司老大不会同意。层出不穷的云服务断网事件引起了云端安全性的担忧。
　　目前来看，解决的办法可以从几个角度出发，对于企业级客户来说，务必在采用云服务的同时定期备份云端的数据，拥有第二套解决方案按，以备不时之需。而对于云服务提供商来说，既然各种断网事件是在所难免的，那就必须思考一个对策，将自己用户的损失降到最低，对断网事件的响应效率要提高。
　　*部门则具有监督和提醒的职责，云服务相关的法律法律要相继出台和不断完善，并且提醒用户百分之百可靠的云计算服务目前还不存在。