TrueNAS存储池和磁盘降级(DEGRADED)个人处理经验

前言

从去年年初开始折腾NAS并选择了TrueNAS作为系统之后,可以历尽艰辛,软件硬件的坑踩了一大堆,但好在大部分在有限的学习和试错成本之后,都解决了,但是从去年年中开始,TrueNAS突然开始报严重错误(Critical),存储池降级,状态为DEGRADED;一块磁盘也显示降级,状态为DEGRADED。因为我做了TrueNAS自带的Raidz1,相当于标准的Raid5,能抗一块硬盘坏的情况,再加上使用正常,无论是系统运行还是存取速度都没有明显变化,我就没理它。

进入2023年,系统突然像抽风一样报DEGRADED的错误,一共四块盘,三块都报DEGRADED错误,最夸张的时候偶尔四块都报,但是存储池还能访问,把我整蒙圈了,但大部分时候都是三块报。怀着惴惴不安的心情,在度娘上搜索数日,也开着翻译软件看了TrueNAS英文论坛里的相关主题,也请教了大厂专业做存储设备的工程师,断断续续折腾一周多,说实话TrueNAS资料实在是少得可怜,大多是教你怎么安装配置初始化的教程,故障处理的基本没有,查资料和尝试的过程无比痛苦。在我最终自行尝试找到一种方法解决了之后,我决定把我的个人经验分享出来,给有同样困惑的朋友提供一点帮助。

问题描述

如本文标题所示,本篇是个人经验,对于存储系统原理、Linux、NAS存储原理和TrueNAS系统,我都还是小白,虽然我找到了一种方法解决了DEGRADED的问题,但不确定它的适用范围,所以我先详细描述一下我的系统条件和遇到的问题。

系统基本情况

TrueNAS版本:TrueNAS-SCALE-22.02.0.1
存储池磁盘:4块4T希捷硬盘
Raid情况:Raidz1
存储池名称:MainData(个人给存储池起的名,非系统术语,仅用于方便理解截图)

系统报错情况

1、首先是TrueNAS系统的报警,提示我自建的“MainData”存储池降级了,一块或以上的磁盘设备遇到了不能修复的问题,这里提示有两块磁盘处于“DEGRADED”状态。

TrueNAS系统警报

2、查看存储池的状态,发现存储池总体是DEGRADED,池内的RAIDZ1阵列也是DEGRADED,下面sdb和sdd这两块磁盘也是DEGRADED。

DEGRADED提示

3、进入TrueNAS的命令行,输入"zpool status MainData"查看MaiData的状态,发现除了DEGRADED提示和之前一样外,这两块盘还提示“too many errors”,即错误过多。

status命令提示

如果你的报错情况和我的一致,可以往下看处理方法。

处理方法

1、首先把DEGRADED磁盘从阵列中离线

在存储池状态里把提示DEGRADED的一块磁盘离线,点击最右侧的三个点,会弹出菜单,选“离线”。这里我操作的磁盘设备是sdb,首先对它进行离线操作。

按钮位置
菜单选离线
确认离线磁盘

点“确定”之后有个请稍后的提示,根据情况不同时间不同,一般时间不会太久。在这里顺便吐槽一下TrueNAS半生不熟的汉化。

磁盘离线状态

操作完成之后,sdb磁盘状态已经显示为“OFFLINE”了。

2、把离线的磁盘擦除数据

在存储>磁盘里,把离线的这个磁盘擦除数据,我这个就是把sdb擦除数据。

菜单位置
擦除按钮

注意,如果没有提前把磁盘从阵列中离线,那么这里是不会有“擦除”的按钮的。

点“擦除”会有弹窗,直接点“擦除”

擦除弹窗


擦除过程


擦除完成

3、用擦除过的空磁盘替换存储池里原位置的设备

擦除完成后,回到存储池状态界面,可以看到原来磁盘sdb的那一行已经变成了一长串字符串,状态会变成“UNAVAIL”(意思是不可用);点击最右侧三个点,在弹出菜单中选择“更换”,在弹出的界面中选择sdb。这里因为我只操作了一个磁盘,所以只有一个待选项,如果你同时操作了多个磁盘,这里可能会有多个磁盘的选项,因为都是空的,理论上选哪个都行,当然最好是和原来的位置对应选。


磁盘擦除后的状态显示


更换菜单位置


更换弹窗


更换过程

4、阵列重建

替换完磁盘后,阵列会自动进行重建,最上面一行“RESILVER”,翻译过来就是重建的意思(再次吐槽TrueNAS半生不熟的界面汉化)。阵列重建的意思就是按照raid的规则,把数据分布在所有磁盘上的意思。比如原来有4块盘,我做的是raid5,每块盘都按raid5的规则存储了实际数据和校验数据,这些校验数据保证了在损失一块盘的情况下,数据不会丢失。当其中一块盘被更换成空盘之后,raid就会按照规则,通过计算把实际数据和校验数据重新写到空盘里,来实现数据的完整保护机制。更详细的可以自己百度,有很多通俗易懂的解释。


阵列重建

阵列重建是最消耗时间的,消耗的时间和数据量大小有关,而且每操作一次替换硬盘的操作,就要重建一次,我这个阵列数据量只有2T多点,一次重建时间1个多小时,还可以接受;数据量大的可能就得7、8个小时甚至更多,好在是个自动过程,不需要干预,不做高吞吐量操作的话,也不影响NAS使用。重建完成后,磁盘的状态就会变成“ONLINE”了,再把其他DEGRADED状态的磁盘按这个步骤逐一操作,全部磁盘都操作完毕后,阵列的状态也就正常了,不会再有DEGRADED的提示了。


恢复正常

我遇到的问题

我在操作时,遇到一个情况,就是擦除磁盘后,在存储池状态里,sdb磁盘没有变成一长串字符串,还是显示sdb,此时做“更换”操作会报错,提示磁盘非空,存在分区(如下图),原因未知;后来偶尔发现,重启TrueNAS后,存储池状态里,sdb磁盘就变成长串字符串了,就可以正常更换硬盘了。

更换磁盘报错

我遇到的那些坑

由于资料太少,网上能找到和能问到的每一种方法我几乎都试了一下,白干了不少事儿,还好没造成啥可怕的影响,这里把我趟过的主要的坑给大家列一下。

超级无敌巨坑:磁盘DEGRADED

一般来讲,对于各类raid磁盘阵列,除了raid0,DEGRADED这种状态是形容阵列总体状态的,用以形容阵列的数据保护级别降低了,原因也确实和TrueNAS提示的一样,一般是某块硬盘坏了,需要更换。但TrueNAS给硬盘也搞了个DEGRADED的状态,这就导致我在网上提问和请教专家的时候,别人都以为是阵列的状态,给的答复都是需要更换硬盘,网上能查到的资料,包括英文资料,也说要更换磁盘。但我把磁盘拆下来用diskgen查看了smart信息,做了全盘扫描,都没有问题,实在看不出来磁盘哪里坏了。说实话我到现在也不明白单个磁盘DEGRADED到底是啥意思,TrueNAS官网我看着也说的模棱两可,当然也可能是英文我不是很懂,总之这个错位的理解使我走了绝大多数的弯路。

无效方法:磁盘取下删除分区后再装上

大厂专门做存储的朋友给我提供的方法,让我把磁盘取下来,在Windows上用工具删掉所有分区,再装回去,系统就会认为安装了新盘,会自动重建阵列,并消除错误。但实际上我装回去之后,存储池状态里会出现类似磁盘擦除数据后的样子,但选择“更换”时,会提示磁盘非空,不允许选这块盘,报错和“我遇到的问题”那一节的截图一样。后来我发现,TrueNAS的这个软raid和真正的硬raid还是有区别的,有些在硬raid上可用的方法,在TrueNAS的raidz体系里不一定能行。

无效方法:存储池校验

网上有种说法是手动执行存储池校验(英文是scrub),校验完了只要没错误就会把磁盘状态修正为“ONLINE”,实测无论是通过UI界面还是命令行,执行校验后均不会修正磁盘状态,能看到进行了重建,但重建完了阵列和磁盘的DEGRADED状态不变。

待验证的说法:sata线和电源的影响

网上的资料和我做存储的朋友都提到sata线的质量、接头的接触是否良好,会影响磁盘是否出错。我朋友说“一个写操作没有正常执行,就会产生I/O错误”。此外,网上也有外国人说他更换了450W的电源,然后磁盘的DEGRADED状态消失了,不过阵列重建完了又成DEGRADED了,后续也没看到咋解决的。

对于我的情况,我是6盘位,4HDD+2SSD,200W电源,未更换sata线和电源,按本文的方法解决了问题,因此上述说法未经验证;但有一点是大家公认的,那就是尽量不要非正常关机NAS,容易一次性产生大量逻辑错误。


以上就是我处理TrueNAS存储池和磁盘降级(DEGRADED)的一点个人经验和教训,希望能对大家有所帮助。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容