日本电子维修技术 HDD妹的早上HP P6300虚拟化存储挂了

日期：2021-10-04 栏目：维修经验

12位 3.5
一晚上连续挂了3块
整个池中的所有vdisk全废了

看日志
第一块挂了热备顶上了数据同步完了
第二块接着就挂了
在数据同步的过程中
第三块挂了

然后就没有然后了
HP支持说恢复几率很小
目前正在找数据恢复公司

真是年底事情多啊

评论
这就是传说中的raid5在恢复的时候挂盘？楼主也够倒霉的啊，一下连挂三块盘

评论
raid5？每次raid5降级后我都很焦虑，就是怕这种状况，以后还是考虑raid6吧

评论

同时坏三块可以买彩票了。

评论
一般厂家都有将坏盘强制online的方法，可以试试，可以及时挽救数据，成功率非常高且简便。

评论
可以强制ONLINE试试，不过确实几率小。12块连续挂3个很少见。

评论
从备份回档可能还快一些

评论
所以应该用zfs！

评论
这比我13年还背啊，我那会儿是Equallogic 4台group，其中一台RAID10坏了一块盘，1分钟后又坏了一块，整个controller离线了，主好是这个Group的leader，造成整个group offline。但万幸的是数据没损坏多少。

评论
这也是个餐具啊, 马上过年了大家都好多蛋疼事

评论
虚拟化现在不都推崇jbod么

评论

EqualLogicPS存储6210么？
你们有4个member
有没有遇到掉盘导致HA、Rac双机共享盘掉盘导致集群异常切换引发集群应用不可用的情况？
我这自从去年三月开始频繁出现无规律掉盘，dell的san交换机还死机hang住，什么玩意儿都
，一直到现在都没解决
而且dell解决团队联合印度和日本专家，都没找出问题所在
现在我们公司对dell 存储一概不考虑了

另外问下你们的IP-san交换机用的什么？
N4064F 还是？

评论

目前24盘位初始化
除了V7000
1-8、9-15、16-23做三个Mdisk 最后一个GlobalHotspare外
其余的如EQ、compellent、HP 的都是做Raid6
这个6300 11 年上的没出过什么问题
哪知道4个小时内连续爆盘
都来不及调配备件。。

评论

强拉不起来
已经试过了
为了保持数据一致性以及可恢复性
目前打算做开盘
在盘片没有物理损伤的前提下（应该没有，因为可以看到同步时有数据写入0.44GB）
更换磁头
再做数据块级别的全盘镜像到新盘
为了保证机框能认到原盘信息而不是个新盘
将硬盘控制板更换到新盘下
然后插回。。。

看行不行吧
不行就得全12块做数据恢复
那就老麻烦了

评论

估计这些盘都是同一时间上线的，使用环境又相同，所以同时挂掉的概率非常大。
一般公司的SOP都规定，RAID必须每年强制更换一部分新盘（而且是分散在各个月的，不能集中更换），没坏也要换，就是为了防止发生这种问题。

评论

而且估计这些盘都是同一批次

评论

我给客户提的建议就是，同一个存储的盘两年内分三批换掉我负责给公司售后协调客户加买两年原厂服务。楼主还是换v7000吧，鄙公司至少售后的水平还可以。

评论
做阵列真的不能使用同时同期的硬盘。
因为某盘挂掉之后，其他硬盘也是差不多命运的了，这时候再来一次重建，呵呵，命不久矣啊。
所以，阵列跑了一年之后，建议还是分批用新硬盘替换旧硬盘，确保重建机会扩大。

评论

ZFS的话这样的情况也没办法救吧？

评论

有6210，但出问题的是6010。
HA双机共享盘，这么low的东西用DAS多好。。。
遇到过存储故障，掉盘的。
至于Dell的售后吗，那是屎一般的存在，我一个控制器都送到us lab了，也n年没消息。交换机用的8024F，4048F。另外，我这还有compellent，出问题后打电话800都不明白。。。dell干这个实在太low。。

评论

还有这种sop，我混了这么多公司，也没遇到过。。。

评论

zfs避免了raid5的死亡陷阱

评论

前段时间，我们那台老爷子的NS3700（两台）的cluster也死了，主要是我手贱搞死的（敲了命令halt），当时我也是一头冷汗，好几个重要系统瘫痪，还好看了手册，马上重建cluster，资料没有任何损失，侥幸啊。

里面好多集群的仲裁磁盘，你妹的，好险。

评论

磁盘离线那是常有的，控制器离线也遇到，不过双控的问题不大，都会自动切换，不会造成存储离线。

我们这里也有Equallogic的存储，但是状态还是挺稳定。SAN交换机倒是死了一台，不过还有一台（FC/2G）brocade5000顶着。

评论

ZFS企业基本不会用吧，这玩意儿出问题连个技术支持都没有，比raid5还吓人

评论

OK 已经记下年后申请写入SOP 多谢多谢

评论

的确是上线以来都没出现过问题没更换过

评论

目前在用两套 V7000
一套单机头满配连博科做HA
一套7柜满配连博科5100 做vmware vcloud集群
稳定无BUG 很好用
配合TSM NICE

评论

最后你们6010怎么解决的？

我这个case
我看dell他们是解决不了了
老实说最佳实践
但事实上都是他们工程师做的

dell决定停机维护申请好了而后又感觉不具备条件不敢做临时终止了
是不是dell售后解决团队都是拍脑门做事的
太不负责任了

评论

你们Equallogic是几个member？
san交换机型号是什么？
N系列园区交换机么？N4064F？
啊，是不是网易的炉石服务器

评论

想多了
我们另外一个IDC机房的T3认证还没下来
下来了没准会迁过来一个

评论

就一句话，升固件。。。
能升升，能换换，就这样。。。不了了之了。。。
据说我是全球第6个遇到这问题的，相当rare。。。
总之，就是手太背，得去拜拜。。。

评论

EQ的典型用法是n个member组一个大池，这样可以横向扩展。我们当时就怕出问题，所以虽然用了group，但实际上是各个独立的pool，但人算不如天算，不知道group有个leader的角色，这货一挂，按道理说会有别的member选上leader接管，但我遇到相当rare的故障，原leader不释放控制权，新leader无法接，整个group直接offline了。。。所以那以后就拆成单个当MD用了
但古怪的是，我有一套两个EQ不同年份不同型号组一个pool，用了很多年都很稳定，只不过这货那会儿不belong to dell。。。

评论

那就是还没根本上解决吧
dell给我们的解决方式大体上和你们的一样
生固件
换MEM
更新硬盘固件
更新交换机固件（但更新完交换机还死机，但更换之前是dell说应该没事的，已经死机两次了，而且现在还无解）

唉北京DTF2016上我咨询过dell存储专员
他对于EQ的解释是
1个member没问题
多个Member没准就会遇到问题
。。。。

评论

我们被忽悠让五个member组成了一个大池
一个大Group。。。

然后下午Dell DL4000和MD1200紧接着也出问题了。。。
我们需备份的系统中有OracleRac
dell给方案是Appassure
而这货竟然是不能备份Rac的

到现在也没给出方案解决而这项目是2014年开始的
昨天尝试备份几个windows Cluster有Oracle的有Sqlserver的

凌晨开始做全盘快照
然后凌晨就有系统陆续还是时不时的无响应

关了备份就没事了
什么玩意。。。

评论

EMC belong to dell
不会也重蹈覆辙吧
。。。

评论

型号我要去查查，，就是一个主机头加一个扩展柜。用的是FC，没有IP SAN，SAN交换机就是brocade 5000（2G，坏了一台），

现在云平台存储，基本都是华为的牌子（规定），已经转向RAID2.0的结构，已经没有全局热备的概念。以后该型为分布式存储。

评论

真的很危险，，居然选举失败，等同于脑裂。。

还好我就没采用这样的硬盘池，出事真的无从下手。

话说你有很多主机头？这样挺浪费钱。

我的异地容灾方案是用了虚拟存储网关，希望不要出问题，但是验证双活还是挺头疼。

评论

你的member是指扩展柜？如果是多主机头做集群我还没搞过，这涉及到谁做master的问题，有点棘手，集群最怕就是脑裂。

我的5500T挂了6个扩展柜，满配，没有出现掉盘的现象。倒是出现FC inituator无法注册的故障。

评论

你确认用的是EQ？那货据我所知是iscsi only的解决方案。。。

评论

存储故障率其实挺高的，我们别的部门用的netapp metrocluster也出过问题，只不过传统存储厂商不会出很多Rare的问题，这东西我感觉没有一定用户基数的话，就是个雷。很多问题，用户是头一次见，厂商也是。。。所以联想到最近风头正劲的超融合解决方案和vSAN，不敢想。。。

评论

dell的有啊

评论
不容易，在坛子里竟然碰见这么多同行，以后要虚心学习了~~一直做IBM的项目实施，很少接触后期这些问题，学习了~~

评论
这帖出现好多大神

评论

去IOE化的恶果啊。。。华为的raid2.0要是崩了后果不敢想象啊尤其在高负载且空间占用超过50%

评论

其实所有的存储都是基于RAID形式，所以都有崩溃的可能。

不同层的的硬盘所用的RAID是不同的，举例：SSD用的是RAID10，SAS是RAID5(高冗余策略，就是全局冗余空间最大），NLSAS是RIAD6（最高冗余策略）。

评论
明显电源故障，还不速度停机查功率输出。

评论
我们的标准存储就两个牌子可选，EMC和Netapp，不过有时候也一样挂。

评论

看了楼主的惨痛经历，年后我的FREENAS绝对不会上raid5和类似的riadz了，准备六盘raidz2，或者九盘raidz3。这案例抛开同批次的硬盘和没有定期更换来说，最关键的还是raid5，就算是50已经不不太适用高可靠性的大容量存储方案了

参考
http://en.community.dell.com/tec ... -practices-released

附上两个raid可靠性计算器
https://www.servethehome.com/rai ... simple-mttdl-model/
http://www.raid-failure.com/

评论

Raid z3的写惩罚太厉害了

评论

嗯初步考虑六盘raid Z2暂时不上缓存设备32G RECC 内存

评论
都多少悲剧了，还有人在生产环境用raid5。raid6也一样，就多一块校验盘。raid10是唯一正确的选择，当然还得配上异步同步。300g的时代重建raid就得三个多小时，现在4t的sas都是7200的，还能指望重建的时候不出问题?

评论
任何依赖单一设备安全的做法都是不可靠的。所以存储现在都在谈双活。
传统Raid的热备方式确实容易在重建时导致其他成员盘故障，现在大品牌的新型号一般都会用热备盘预拷贝和漫游的技术来尽可能避免此问题。
至于HW的Raid2.0就当个笑话听听吧，可以问问他们内部用的啥存储，基本上全部EMC。还可以问问他们存储如何把美的的ERP搞瘫的

评论

对的，raid平时不维护，简直太可怕了，一出问题就是大问题。

评论

对，商业的话我看好超融合，双活！

评论
只能说楼主运气不好了，就一个disk shelf,坏的应该都是一个RSS组里盘了。
而且盘这么容易坏难道是FATA盘？

评论

RAID2.0最初是3PAR，不是华为。华为的自称RAID2.0+。

笑话也好技术也好，这个市场来评定吧。

不过现在流行的SDS，就类似于RAID2.0技术，就是把硬盘作为一个存储池切片，还可以分层。分布式的存储也是类似，都是强调抛弃传统的RAID阵列卡，统一资源管理。

要抛开节点性的故障，最好的例子就是集群，分布式存储就是理想的方案，难点就在数据同步方面。

评论

专门跑了一趟机房，发现居然全是EMC的。。。。。晕。。。。。

不好意思记错了，，不过还好，，不是EQ........

评论

艾默生的双路UPS 经检测没发现问题
目前大多数企业的老设备 raid5的比例不是一般的多。。。

评论

听说过华为存储出过事情，原来是美的的ERP。。。

评论
向各位请教下
我目前接触较多的是IBM V7000
客户要求说三个扩展柜24×600G 15K 盘柜
划Mdisk是1-8、9-15、16-23分别划三个Mdisk（raid5）24做全局热备

请问合理不？

评论

以前那raid5是黑科技啊，算法复杂，磁盘容量利用率高，读写性能杠杠的，后来有一天我遇到连续两块146g完蛋。

评论

这样用意不明啊，我都是一个机头直接上12块3.5 4T，其中10块做raid10，2块全局HS，直接在一个阵列里划分磁盘。如果容量要求不高于2T，直接上ssd单盘做集群异步同步。

评论

HP的概念是把磁盘次化，然后分片再做raid，甚至允许一块磁盘属于不同raid组。
raid2.0的概念是国内一些厂商例如宏衫华为等提出的，更多的目的是为了写标书屏蔽。
SDS属于看上去很美的东西，传统存储的一些特性在SDS上还很难实现（如snapshot、mirror、CDP等），但是仲裁元数据节点性能均衡等都还是问题，很难在生产环境部署。而且不同厂家对SDS的定义还不一样，很多厂商把X86+软件来做存储就定义为SDS，而另一些厂家把存储的控制平面和数据平面分开，认为SDS主要是在控制平面的对数据平面的定义（包括性能、容灾方式等）。
至于Raid划分，在专业存储厂商里，R10和R5的安全性是一样的，都只允许坏1块盘，R6可以坏2块，但写惩罚太重，只适合归档。一个Raid里几块盘，各厂家都有自己的最佳实践，在保证安全的同时，尽量让cache数据条带化落盘保证较好的性能。一个合格的售前工程师在推方案时就应该考虑这些问题。

评论

是滴，以前我们老板就要求这样换的，而且每次还不能同一批次买。。。。

时间一到，不管好坏全部退役。。

评论

RAID2.0首先提出的是3PAR，现在被HP收购了，这一点我还是坚持我自己的。

至于SDS这一点，我想说的是：SDS和RIAD2.0有共同的想法，就是抛开传统的硬件，构建虚拟的资源池。其实这个也是业界下一个发展方向。你看不起RAID2.0，那是你的观点，我是不赞成的。

至于SDS的标准，这不是讨论的范围，按控制和数据分离标准设计的、且已经有厂家开始部署产品，例如：EMC/ViRP、HW/OpenStor DJ、IBM/IBM Spectrum Scale。产品技术手册已经明确提出支持快照、复制、克隆等功能，而不像你说很难在生产环境部署。至于CDP，传统的存储厂家都不怎么介绍，这就不用多说了。有一点要注意的，这是存储界的发展方向，虽然还在完善当中。传统的双活、全局热备有点过时了。

RAID的级别和特点，没必要再说明。

评论

建议基于以下原则：
1.Mdisk的划分不要跨扩展柜。
2.设立本地热备。
3.设立全局热备。

600G/15K重建窗口时间比较短，可以采用RAID5，如果要考虑性能那么可以做RAID50.当然安全和性能是相矛盾的，具体要取决于业务的需求。

评论

DELL CML也是块化磁盘然后做分层不同RAID模式，从扩展性和利用率上都不错，但1：20的热备盘配比还是比较担心安全性的。

评论

多谢多谢电路电子维修我现在把定影部分拆出来了。想换下滚，因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗？评论认真看，认真瞧。果然有收电路电子维修求创维42c08RD电路图评论电视的图纸很少见评论电视的图纸很少见评论创维的图纸你要说版号，不然无能为力评论板号5800-p42ALM-0050 168P-P42CLM-01
·日本中文新闻唐田绘里香为新剧《极恶女王》剃光头展现演员决心
·日本中文新闻真子小室夫妇新居引发隐私担忧
·日本中文新闻前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校｛日本国际学校｝梅田インターナショナルスクール
·日本学校 LINE：sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活出售平成22年走行48000km 代步小车
·日本华人网络交流円相場　一時1ドル＝140円台まで上昇？
·日本华人网络交流问日本华人一个问题
·日本旅游代购富山接机
·生活百科英国转澳大利亚转换插头
·汽车【求助】修车遇到困难怎么办？

维修经验

日本电子维修技术 HDD妹的早上HP P6300虚拟化存储挂了

CPUcpu-z 1.77版低调发布

CPU这几天经常开机黑屏，热重启后又正常

CPU超频求助！关于华擎H170和6700K

CPU液态金属会侵蚀cpu核心吗？

CPUAMD Zen处理器、AM4接口实物曝光：1331个针脚

CPUm6i究竟支不支持e3 1231v3

CPU华擎 HYPER 妖板正确玩法

CPUE5 2686 V3和i7 6800K如何选择

CPUHD530硬解4K能力还是有点弱呀！

CPU在组一个小机箱，关于i5 6600和i7 6700的选择

CPUwin10超频稳定，但是睡眠唤醒不了，pll电压di

CPU6900k 1.25V到4.2体质怎么样

CPUI3 6100 华擎B150M pro4超4.5g测试。

CPU系统稳定性测试，我发现prime95半个小时内问题

CPU7系u会兼容100系主板吗？

CPU请教各位：J3710和G1840，哪个性能稍好些？

CPU昨日遇到土豪朋友，又被吓到了，有朋友比这

CPU有心入5820k了，求教下温度问题

CPU6600&6600K才100的差价

CPU打算组双路E5 2670，大家有什么好的建议吗？

日本电子维修技术 HDD妹的 早上HP P6300虚拟化存储 挂了

相关推荐

日本电子维修技术 HDD妹的早上HP P6300虚拟化存储挂了