随着电子设备的广泛应用,NAND闪存和eMMC作为主流存储介质,其使用寿命受到广泛关注。本文将探讨其损坏的软件原因,并提供延长使用寿命的实用方法。
前言
长时间运行后出现NAND或者eMMC损坏,可能的原因有物理损坏如雷击损坏,也有可能因为频繁擦写操作引起寿命到期损坏。下面就应用软件方面的可能性进行探讨,寻求延长NAND/eMMC使用寿命的方法。
闪存的寿命和计算公式
在NAND闪存中,P/E Cycle也称为擦除次数,是判断NAND闪存寿命的关键参数。随着P/E Cycle的增加,浮栅与沟道之间的氧化层被磨损的越来越严重,导致浮栅中电子的控制越来越艰难,最终结果就是:NAND的寿命走到了尽头。每颗NAND闪存,在出厂的那一刻,寿命就固定了。
NAND闪存根据存储颗粒密度和结构差异,可分为SLC、MLC、TLC和QLC。存储密度越来越高,容量越来越大,但单位可擦写次数却越来越少。SLC的密度最低,擦写次数最多,使用寿命最长,但现在很少能买到了,特别是大容量闪存,基本都是MLC、TLC甚至QLC了。一般都说MLC的擦写寿命是3000~10000次,但实际上去咨询半导体原厂,得到的答案通常都是3000次,哪怕三星、海力士以及Skyhigh这样的国际品牌,都是这个答案。eMMC实际上是NAND闪存加了控制器,底层存储还是NAND闪存,所以可在此一并讨论。如何延长闪存的使用寿命,确保存储的数据可靠,是工业产品一直在试图解决的问题。一个NAND闪存能使用多久,我们先给出一个预测公式:
对于特定的Linux系统,文件系统开销可看成一个常数,暂时不考虑。根据公式不难看出,预期使用寿命与分区容量大小、可擦写次数正相关,与写入放大、每天写入的次数以及每次写入的数据量成负相关。在产品设计方案选型阶段,容量、可擦写次数是一个正相关变量,但对于特定的一个产品,闪存一旦选定,可擦写次数也就定了,如果有条件扩大分区容量,也是能改善使用寿命的,但改善非常有限。要想比较有效的提高闪存寿命,必须从分母的写入放大、每天写入的次数以及每次写入的数据量上面来优化。
写入放大
我们知道,闪存在写入数据前必须先进行擦除,而擦除操作的粒度与写入操作相比低得多,执行这些操作就会多次移动(或改写)用户数据和元数据。因此,要改写数据,就需要读取闪存某些已使用的部分,更新它们,并写入到新的位置,如果新位置在之前已被使用过,还需连同先擦除;由于闪存的这种工作方式,必须擦除改写的闪存部分比新数据实际需要的大得多,这就是写入放大,此倍增效应会增加请求写入的次数。
写入放大,简单的计算公式如下:影响写入放大的因素:
垃圾回收,启用垃圾回收,WA会减小。
预留空间,增大预留空间,能减小WA。
顺序写入,理论上顺序写入,WA为1,当然其他因素会影响到WA。
随机写入,写入到非连续的LBA对写入放大的影响最大。零散写入会带来极大的WA影响。例如写入一个字节,实际上闪存最小写入单位是页,擦除单位是块,这样会影响到在这个块内的所有数据的搬移和写入,数据量会非常大。
数据压缩,数据压缩后再写入,能减少数据量的写入。
删除重复数据,这样能减少磁盘占用,能减小WA。
从公式来看,减小WA能增加闪存寿命,具体方法有启用垃圾回收、增大预留空间、尽量顺序写入、进行数据压缩以及删除重复数据等。
如何计算数据量?
写入NAND数据量的计算,并不是按照应用程序数据来计算的,这与NAND闪存的结构和擦写方式紧密相关。
一般NAND闪存内部结构分为多个块(Block),每个块包含多个页面(page),每个页面又是由有效个数据区和spare area区(即OOB区)组成。NAND闪存以块为单位进行擦除,以页为单位进行读写。
图1 NAND闪存结构示意图
图1所示的NAND闪存,每个页面为4096字节,一个块为64页,整个器件为2048块,总容量为4096*64*2048=512MB。
如果产品使用的NAND是这样的结构,哪怕写入1字节数据,在计算数据量的时候,也得按4096向上取整,即4096字节,而不是1字节。当然,写入4095字节也是按4096向上取整,4096字节。同理,写入4097字节数据,则向上取整为8192字节。
如果不清楚NAND闪存的这些具体信息,可以查看数据手册或者内核启动信息:
改善措施
综合上述信息,要延长NAND/eMMC的读写寿命,就要尽量减少对闪存的擦写次数,特别是零散数据写入。归纳一下,可以采取以下措施:
1. 合理分区,动静分离
动静数据分离,将数据按修改频率分组。一般可将系统分区与数据分区分开,确保系统分区不受数据写的影响。
有效地使用RAM文件系统。系统log信息,以及应用程序的log信息,不要直接写入闪存,尽量写在RAM文件系统中,仅对异常log定期写入闪存,减少闪存写入次数。
2. 减少数据写入次数
- 先将数据写在内存里,可以在系统中生成一个Ramdisk并挂载到某个目录,将需要写入到闪存的数据先暂存在这个目录,到一定时间再写到闪存里面去。也可以使用系统的ramfs目录存放暂存数据。将频繁修改的数据存储在一块连续的区域中,并定期将数据迁移到新的区域,以避免在同一区域反复擦写。进行数据压缩,减小写入的数据量,特别是对于海量数据的应用,数据压缩尤为重要。
3. 避免零碎散数据写入
确保在写入数据时,数据块的大小是擦除块大小的整数倍,以避免无效的擦除操作。
4. 维持合理的分区占用率
不要写满分区,维持较低的磁盘占用率,能有效地提高闪存使用寿命。磁盘占用率管理分两种情况,采用系统的磁盘配额管理或者应用程序自行管理。
对于eMMC闪存,在使用Ext3/4文件系统的时候,启用磁盘配额管理,确保磁盘使用率在一个合理的范围之内。注意,启用磁盘配额管理,需要普通用户,建议产品应用程序都运行在普通用户模式,而不是root用户来运行。
对于NAND闪存,一般都会使用Yaffs/Yaffs2文件系统,支持不了磁盘配额。这种情况要想维持合理的磁盘占用率的话,可以写一个磁盘占用率监控程序,当磁盘占用率超过某个阈值,就进行磁盘清理工作,删除不重要或者陈旧的文件,以保持闪存处于比较健康的状态。
无论是NAND还是eMMC,都要定期进行数据处理,对于过期的数据要及时删除,减小无用数据在闪存使用中的搬运和写入次数。
5. 闪存健康管理
对于eMMC,可以在系统中通过mmc_erase_info文件查看eMMC的擦写次数,以判断eMMC的健康状况。一旦eMMC的擦写次数已经接近厂商理论值,就要特别留意此闪存上的数据,并做好预案处理。
对于NAND闪存,不能像eMMC这样方便的查看NAND闪存的擦写次数,则可以自行统计NAND擦写次数,并结合寿命预测公式对NAND闪存的健康状况进行大致判断。
6. 坏块检查和替换
定期进行坏块检测和替换,以防止使用坏块导致的数据丢失和写失败。一旦发现NAND坏块数量超过一定数值,就要对NAND整体健康做重新评估,并启动数据安全性预案处理。
D9系列Cortex-A55®核心板 | |
四/五核Cortex-A55
UART*16 CAN FD*4 千兆以太网*2 |