日本电子维修技术 HDD服务器两块硬盘亮黄灯,救急(3号更新)




老服务器3850 M5,6块硬盘raid5,现在有两块硬盘亮黄灯了,面板指示灯DASD亮起。目前看起来使用正常。
1.按说raid5的情况,只容许一块硬盘失效而不出错。我这两块硬盘亮黄灯,现在居然还能正常用?
2.如何换上新硬盘?能否在当前还能“正常使用”的情况下,不关机直接拔出一块亮黄灯的硬盘,把新的换上去?然后再换第二块?
现在不敢关机重启,怕关机之后raid罢工。



感谢各位提醒,我已经事先做好了备份才过来发帖的


今天装了msm,各位看看我这情况,能直接一个个拔下来换新吗?其中一个failed,一个unconfigured bad。

3.jpg (171.87 KB, 下载次数: 2)

2018-5-28 17:50 上传


2.jpg (194.18 KB, 下载次数: 1)

2018-5-28 17:50 上传


1.jpg (167.06 KB, 下载次数: 1)

2018-5-28 17:50 上传






6月3号更新:
怪了,当前raid状态是optimal,但是megaraid会自动弹出告警,如下图。
请问这个background initialization是什么意思?后台初始化?为什么正常状态下会初始化呢?
另外我注意到,目测报错的都是位于2号和4号盘位的盘,刚好这两个盘位也是之前亮黄灯的位置。当前这两个盘位都是新换的硬盘。
难道是接口坏了导致数据出错?

1.PNG (69.04 KB, 下载次数: 1)

2018-6-3 03:03 上传


2.PNG (693.98 KB, 下载次数: 1)

2018-6-3 03:03 上传



评论
不知道你服务器的情况 我的R270是直接把坏的拔掉 插一个新的进去 等同步就好了

评论
先换一块,等rebuild完后(一般都要几个小时),再换另一块

评论
一块块换咯

评论
感觉还是先备份数据在换硬盘靠谱把

评论
不好好巡检,出事了吧

评论
先备份。。。。

评论
先备份,然后怎么搞都不怕了。

评论
黄灯代表硬盘健康状态为降级状态,赶紧换盘吧,一块一块的换,话说你没有热备盘?

评论
在保的话先跑下dsa,日志传IBM,然后他们会根据情况发新的硬盘和恢复说明过来

评论

6年前的上古服务器了,早就不在保啦

评论

好的。
raid5应该是有热备,但是我不太确认了。为什么2个黄灯都没事?不是说raid5只能容错一块硬盘的吗?

评论

目前还好。赶快换了保平安

评论

不用关机对吧。就是热更换

评论

这种搞不好关机就起不来了,反正你还是先备份吧

评论

注意是黄灯,两个都红灯的话,用我们这里的话说叫“洗白了”

评论
不能个设备么

评论

备份好了,就来求姿势了

评论

原来还有红色指示灯?
我可不想遇见红灯。

评论

一个一个换吧,千万不要关

评论
5是目前相当坑的一个
经常有朋友讲rebuild一半 另一块挂盘

评论
服务硬盘指示灯 我知道的有蓝和红
蓝表示正常 红表示挂盘 黄是不是可以理解为像是出现C5那样的错误

评论

HP的黄灯表示降级运行,其他服务器也应该是这个意思!

评论

黄灯不代表是完全坏了,只是有问题了。

评论

多谢。这就换新硬盘

评论

应该庆幸是黄,赶快换新硬盘

评论

嗯,目前就这么做了

评论

nonono,千万不要这样子啊

评论

这个要看运气怎么样了

评论

嗯 我相信你运气比我朋友好多了XDD
OK 多谢告知

评论
黄灯只是报警吧。不是红灯就好吧。挨个插拔下有时候就能解决。不行就换硬盘等raid5自己同步呗。

评论
难道这个raid没有管理软件吗?

评论
最好先备份数据,不然重建的时候老硬盘负载太大容易再坏一块!

评论

周一换新盘

评论

比较远古了,不知道哪有管理软件

评论

嗯,备份出来了,周一就更换了

评论

看阵列卡是哪家的了,然后对应去找管理软件,管理软件现在一般win/linux都有,进管理软件就能看到是具体什么情况了

评论

好像是IBM serv raid 5025什么的,应该是lsi oem的

评论

那下个lsi的管理软件吧

评论

明天上班看看去

评论
先备份再换

评论
期待楼主更新结果

评论

主楼更新了一下,麻烦你看看

评论

大佬请看主楼,能否给些指点

评论

这个图片看起来是5盘的阵列内掉了一块,阵列外面应该是热备吧,也掉了

评论

而且这个疑似热备的比较奇怪,是unconfigured bad,foreign。

你们以前是怎么做的啊,只根据截图的话,是5盘r5,一盘在外面

评论

把那个unconfigured bad初始化一下会怎么样?这个盘是从其他阵列上拔下来的吗?

评论

6年前的机器了,我也完全不知道是怎么回事。
那么就是,机器插着6盘,5盘r5,一盘打酱油?连热备都不是?从容量上这么看确实是
我虽然不知道当时怎么回事,但是不管咋说,当时也不该配置一盘打酱油吧?

评论

不太可能是从其他阵列上拔下来的。当时这台服务器是全新的,而且没有其他服务器,这台服务器上元老了。没找到怎么初始化,不过这个change to good是什么意思,好坏还能我手动自选的吗?

4.jpg (51.47 KB, 下载次数: 1)

2018-5-28 20:01 上传




评论

那么请问下,我现在能不能,把那个failed的盘拔了,换个好盘上去。或者说,先换那个unconf的?不过既然是foreign,似乎起不到热备作用,换不换没啥作用?或者,折腾一下,先在空盘位,插一个新硬盘上去,会咋样?不过dashboard的create virtual drive居然不能点?


评论

如果已经备份数据了,可以试一下change to good

评论

可以手动换成good,这个是让阵列卡把他看做good看待,你现在是bad,是啥选项都看不到的

另外,想起来了,在做这些之前,安装一个硬盘哨兵吧,hard disk sentinel,可以看阵列里的硬盘的smart情况。

如果要换的话,先换failed那个吧

另外,没有多余的可用的的physical drive,当然不能创建virtual drive

评论

建议先按hard disk sentinel,看下硬盘健康程度,2个坏的盘是大限将至了,还是阵列卡敏感了

再决定下一步

评论

搞了一晚上,说下情况。
服务器是8盘位,刚才是插了6盘,我又插上一个新盘,然后设置为热备,OK之后新盘立刻rebuild,很好,一切顺利,新盘接替了failed盘开始工作。而被热备替换掉的那个failed盘,应该是GG了,换盘位多次,都是提示unsupported。
既然热备成功,那就处理unconf的那个盘,我点change to good,好了。而且也没有foreign字样了。再次尝试多次正常拔插,都没有问题。
我再插上一个新盘,不知道为啥,自行开始了replace,看起来好像是为了保持之前磁盘阵列的盘体布局一致性。
值得注意的是,rebuild中,发生了不少错误,字面意思是源磁盘内容无法读出。这个错误在意料之中,因为我确实发现少量归档图片乱码了。msm提示puncturing。那么请问,这些错误全部dismiss之后,阵列已经是optimal状态,那这种无法读出的错误,也修正了吗?

评论

感谢,请看看楼上的情况。
unconf的那个盘经过change to good,怎么弄都没事了,也不黄了
另外看了一线msm,有个media error参数,有个online的盘达到了3000多,倒是failed盘还是0.。。。用不用先挽救一下呢。


评论
搭车请教:Raid5插入新盘重建,必须插入与原盘同样容量的么?可否插入更大容量的新盘?

评论

为什么叫洗白?是翘辫子吗

评论

可以,竟然回帖还需要8个字

评论

这样不错,想扩容时只要依次替换旧硬盘就可以了?可以一块块换
我的群晖NAS上次是一块硬盘坏了。
还好在保修期内找某东换了一块


评论

按我的理解,是可以的,不需要与原容量一致。

评论

目前换好了。还算顺利

评论

感觉是R5同时挂了两个盘,然后有些文件永久损坏了。
如果现在阵列已经没有提示错误了,可以试着关机重启一下,看看那些乱码的图片是否可以打开,如果依然是乱码,那基本无解了,只能通过冷备份来恢复。

评论
楼上兄弟没说准,你这个一个unconfig说明根本没没做进raid里面。所以坏了没事。另一个raid坏了一块盘当然还没挂了

评论

好惨。。。。。。
rebuild时间太长是硬伤
还是RAID6稳一些

评论

是,阵列已经正常了,倒腾了好几次,还是乱码,感觉无解,只能先剔除这些少量出错的图片了。冷备份?不存在的

评论

嗯,我看了megaraid之后也是这么想的哈,unconf的那块盘根本就和raid5没关系,而failed那个属于raid5。万幸啊,raid5里只有一块出错,出现第二块坏盘竟然是常年打酱油的那块。
现在不太明白的就是,这个unconf的盘,为什么会是foreign。
真得谢天谢地,攒人品了。

评论

无法赌出的错误,因为数据不一致,并未修正,丢弃了

media error?我都是用hard disk sentinel看硬盘状态的,建议你也安一个,可以看阵列内的硬盘的SMART情况,好的就继续用,不行的就看情况再决定咯

评论

嗯,忘了说啦。用了sentinel,果然,raid5里的那四块online硬盘的其中一块,已经报警,剩余寿命0%,我觉得就是这个硬盘的事。
其实还是很费解的,sentinel已经报警红了,但是为何raid5居然是online状态?
好,我果断替换了这块寿命报警的破盘。
然后,再次插入这块盘,megaraid这次提示了,这盘有毛病。不知道如果不拔下来,能坚挺多久。

评论

有个新情况,麻烦指导下。

评论

看了下首页的帖子,没事的,dismiss all就行,看后面截图猜测是阵列原来有一个热备,然后r5阵里面坏了两块硬盘,热备替换了一块,另一块造成整个阵列降级了。然后rebuild的过程中出错误了,先把所有的错误dismiss吧,你不是有备份吗?用beyond compare对比下备份数据和阵列内的数据,然后对比着修复吧

家里电脑一周没开,才看到。阵列内都是什么数据啊?生产数据还是私人数据啊 这个阵列内的盘单盘大小太小了,不划算,在回帖页面忘了截图里的,这300g的该不是以前的迅猛龙吧?

评论
对了,为啥又多了一个r1,还有就是那个提示就是说后台初始话的过程中,遇到了一些无法修复的错误,简单来说就是丢数据了,而且不知道丢了啥数据,有备份的话,用二进制对比的软件,比较下盘上的文件和备份的文件吧,而且这数据都是整个阵列都optimal的时候备份过的才靠谱,有时候降级后因为还有IO,没法保证100%数据都在,要是没有备份的话。。尴尬了,可能就只能这样了。个人建议,还是换些单盘大点的硬盘吧,300g真是太小了

评论

多谢老司机。这是公司老服务器,12年的,用来做收费业务的数据库后台。当时单盘300G也不是我能管得了的,不是迅猛龙,是IBM的老硬盘了。
现在有备份,暂时没有丢失数据的风险。
多了R1是因为,服务器上还有2个空盘位,我添加了两个新盘组了新阵列。
现在烦人就是这个initialization,没完没了,然而还运行正常

评论

dismiss all后还是不停出来这个吗?做过巡读和一致性检查吗?先做一下吧,如果也没问题的话,就先这样吧 顺便用harddisk sentinel看看硬盘的smart数值,主要观察下05、c5、c6吧

评论
就怕是坏道,先做下常规检查吧,巡读+一致性检查+smart。要是都没问题,还出这个消息的话,我就真不懂了

评论

是的,dissmiss all之后,还是一直弹出这个问题。据我观察,后台会自动开始background initialize,完毕之后再次开始,如果我手动终止,也会过一段时间再次开始。有没有办法把这个给停止下来。   
sentinel看了,都是健康状态,因为替换了好多盘。smart也没有报警的地方。
一致性检查结束,还是无法恢复的介质错误。
我估计是有数据错误,修不过来了。其他没事,所以还可以继续写入新内容。 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收
 ·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
 ·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?

维修经验

CPUcpu-z 1.77版低调发布

日本维修技术更新: New benchmark “submit and compare” feature New clocks dialog reporting all system’s clock speeds in real-time Preliminary support for Intel Kaby Lake AMD Bristol Ridge processors 主要是增加了支持I、A两个新架构的 ...

维修经验

CPU这几天经常开机黑屏,热重启后又正常

日本维修技术这几天经常开机黑屏,热重启后又正常,今天热重启也不管用了。折腾半天总算点亮,显示超频失败,以前出这个画面我是不理它的,直接重启就能正常进系统了,今天不敢托大,因为 ...

维修经验

CPU超频求助!关于华擎H170和6700K

日本维修技术问题见楼主的show贴 https://www.chiphell.com/thread-1634895-1-1.html 这次华擎的H170 Hyper最大的特色应该是自带时钟发生器可以自由超外频 可是楼主好久没有折腾超频了。。。 两图中除了CPU外频 以 ...

维修经验

CPU液态金属会侵蚀cpu核心吗?

日本维修技术前阵子看到有人说,液态金属时间长了会侵蚀cpu铜盖,那么问题来了,这货会不会侵蚀核心呢? 评论 这玩意儿好像只对铝起反应 评论 不是说,cpu的盖子是铜的吗。。。 评论 不会,核 ...

维修经验

CPUm6i究竟支不支持e3 1231v3

日本维修技术官网上看支持列表没写有e3 1231v3,装机帖又有人晒,百度也没个明确答案,那究竟能不能点亮?有在用的chher说一下么 评论 升级最新bios肯定可以支持 评论 我的p67evo官网上也没说支持12 ...

维修经验

CPU华擎 HYPER 妖板 正确玩法

日本维修技术600元的 B150,10相供电,释放洪荒之力 注意必须官网 Beta 区的 BIOS 有 AVX 的 CPU 可能会掉缓存 启动时按 X 键激活 SKY OC,重启后进入 BIOS 160924164727.jpg (95.63 KB, 下载次数: 1) 2016-9-24 17:47 上传 ...

维修经验

CPUE5 2686 V3和i7 6800K如何选择

日本维修技术默认用,不超频,两者功耗是一模一样的 E5 2686 V3:2.0主频,3.5睿频, 18核心36线程 ,45M L3 咸鱼大约2500~3000元 i7 6800K : 3.5主频,3.8睿频 ,6核心12线程 ,盒装3000元 评论 性能应该是26 ...

维修经验

CPUHD530硬解4K能力还是有点弱呀!

日本维修技术播放器用PotPlay 64bit,各种优化后,跑4K @120Hz视频只能到70帧左右的速度,勉强能用! 显示器用的4K的优派VP2780 未标题-1.jpg (211.97 KB, 下载次数: 0) 2016-9-26 21:29 上传 评论 这个估计你没优化 ...

维修经验

CPU6900k 1.25V到4.2体质怎么样

日本维修技术如图,体质怎么样,ring是35,没敢试了,都说ring高了毁硬件 评论 不错的U,但不算雕,上4.4就大雕了,这电压上4.5的目前没见有人发图 评论 谢谢前辈告知 评论 我这个用1.2V超的4.2,R ...

维修经验

CPUI3 6100 华擎B150M pro4超4.5g测试。

日本维修技术看看论坛没多少i3 6100的帖子,就转下自己发的show贴里面的数据,给大家参考下。家里还有当年的神U i3 540 oc 4.5G在给老妈用。 不知道数据上正常吗?有6100的朋友可以告诉下,另外是不有 ...

维修经验

CPU7系u会兼容100系主板吗?

日本维修技术RT,听说要推200系板,100系还能用吗以后。。 评论 兼容的 评论 感谢!以后换u就行了,目前消息200系板会有新的特性吗? 评论 24条PCI-E 3.0通道、支持Intel Optane混合存储技术、十个USB 3 ...

维修经验

CPU有心入5820k了,求教下温度问题

日本维修技术一直徘徊在6700k和5820k之间,6700k现在这德行直接把我推向了5820k啊,从2600k升级上来,三大件都要换,现在唯一疑惑的是IB-E ex这种顶级风冷能不能压住4.5g的5820呢?毕竟刚刚买一个多月。 ...

维修经验

CPU6600&6600K才100的差价

日本维修技术太少了吧。。。 6600.JPG (106.91 KB, 下载次数: 0) 2016-10-1 10:30 上传 评论 毕竟只是i5而已…… 评论 上z170 6600也能超,等于没区别,差价能有100已经不错了 评论 然后又见不超频人士推荐超频 ...