1987WEB视界-分享互联网热点话题和事件

您现在的位置是:首页 > 服务器 > 正文

服务器

腾讯云:我们把服务器从1米多的台子上扔下来了,没坏

1987web2023-09-14服务器83

是的,我们真会把服务器从最高1.2米的台子上把服务器摔下来。

这是为了给它做整机跌落测试。

检测服务器能否在震动、冲击等极端情况下,给用户提供稳定的服务。

只有通过的服务器,才能进入腾讯云的数据中心。

实际上,不止是跌落测试,为了保证服务器不宕机,服务实时在线,腾讯云从服务器的选用、日常运维到急救,各类自研技术统统安排上了。一台服务器的不同阶段,分别有不同服务器医生守护!

第一阶段:高标准定制、选用服务器

在腾讯云,服务器想进数据中心的大门,得先经过体检医生全方位的性能测试。

除了要经得起跌落测试,也要抗得住业务压力。

压是真压,长时间、满负载的稳定性压测是必备动作。连续运行超过12小时,服务进程不重启业务不出bug,才算一台内外兼优的好服务器。

服务器内部配置要求更高。

比如,作为服务器里的运动员,硬盘每分钟转动、碰撞上万次,极易出现磨损和故障。这些故障和运行的业务是有关系的。

关系是什么,以前很难弄清楚。但腾讯云根据腾讯业务模型不断测算,最终找出了规律。选取定制化磁头和碟片进行生产,几个月时间,就把硬盘年化故障率(AFR)降低了80%左右

第二阶段:7x24小时巡诊击退bug

服务器进厂运行服役后,健康就更重要了。为此,腾讯云准备了诸多技术,7x24小时保证服务器时时在状态。

首先出场的是化验医生——数据中台。它掌握先进的数据清洗、数据校验技术,可以实时感知服务器内的数据状态。一旦发现内存、硬盘等部位出现数据异常,会立即通知对应部位医生诊治。

比如,硬盘就有自己的诊科医生硬盘打分AI系统,当硬盘有较高损坏风险时,会向运维系统报告替换硬盘。

内存也有自己的诊科医生——多套内存监测算法

当内存发生单比特的故障——CE(可纠正错误,corrected error)时,内存自带的修复功能就能解决bug,用户体验几乎无感。

但当内存发生多比特故障——UCE(不可纠正错误,uncorrected error),服务器立即宕机,用户也将收获一个502。

为此,腾讯云准备了一套监测算法,可以提前识别可能恶化成UCE的CE错误,使UCE拦截率提升超过20%

在监测算法之外,腾讯云还完善了MCA Recovery(MACHINE-CHECK  ARCHITECTURE Recovery)技术,可以阻挡内存做傻事。

用上这套算法后,出现UCE问题时,服务器不会立即重启,而是标记和隔离内存故障数据,再加以解决。目前,可以规避接近一半内存故障导致的宕机。

第三阶段:终极急救大招换身术

经过上面两个阶段,已经可以解决服务器遇到的绝大部分故障。但如果发生极端情况,服务器最终陷入了故障,怎么办?

不用担心,腾讯云早就给服务器备好了急救医生——数据热迁移技术和硬盘多副本技术,保证数据不丢失、用户体验不受影响。

过去服务器出现故障(主要是内存故障)时,得先给服务器关机,才能做数据迁移。这会给业务带来极大的影响,比如游戏厂商就得安排某些服务区关机、停服……

腾讯云自研热迁移技术就不同了,换身过程中,无需关机,只把内存的几个问题字节圈住,再把其他健康数据迁移走,迁移完后再关停损坏服务器,启用新服务器,整个过程用户使用体验也不受影响。

硬盘损坏同样扛得住,腾讯云有多种多副本技术,保证用户数据始终有多个完整副本存在不同服务器中。一个坏了,其他的随时顶上,保证用户使用相关服务不会受影响。

当然,上述只是服务器保护工作中的冰山一角:

  • 数据中心内,比照国家要求,有严格的温湿度及电压调控,保证服务器始终运行在稳定的环境中。

  • 设有服务器故障智能监控体系,能够明确故障部位告警并快速维修。数据中心内,7x24小时安排驻场维修人员。

  • 服务器资源从机器上架到回收退役无缝衔接,全生命周期保证数据安全。退役服务器会进行严格的数据销毁操作。

  • 未经用户授权,腾讯云绝不主动触碰服务器数据。即便用户授权,腾讯云也会通过权限划分确保权限最小化,所有额外权限均需要经过多级评审批准....

现在,你知道为了让你网上冲浪顺畅,腾讯云有多努力了吧!

免责声明:部分文章来源于互联网及其他公众平台,内容仅供读者参考,不确保文章的准确性,如有侵犯版权请告知,我们将在24小时内删除!

SpaceDC发布数据中心安全白皮书,消除数据中心面临的威胁

了解SpaceDC可访问:https://www.spacedc/zh/

往期精彩内容分享

欢迎加入DTDATA数据中心全生态服务平台,找机房、找品牌、找产品、找朋友,DTDATA团队为大家分享更多,敬请关注。服务热线:400-089-1045,投稿邮箱:service@dtdata