工程师多年总结：开发出可靠性更高嵌入式系统的秘诀

geren2014 · 发表于 2020-7-21 09:20:49

目前嵌入式系统开发应用非常的广泛，在很多领域都有应用，而且技术更新很快。

嵌入式系统是以应用为中心，以计算机技术为基础，并且软硬件可裁剪，适用于应用系统对功能、可靠性、成本、体积、功耗有严格要求的专用计算机系统。它一般由嵌入式微处理器、外围硬件设备、嵌入式操作系统以及用户的应用程序等四个部分组成，用于实现对其他设备的控制、监视或管理等功能。

嵌入式系统的设计技术主要包括硬件设计技术和软件设计技术两大类。其中，硬件设计领域的技术主要包括芯片级设计技术和电路板级设计技术两个方面。

芯片级设计技术的核心是编译 / 综合、库 /IP、测试 / 验证。编译 / 综合技术使设计者用抽象的方式描述所需的功能，并自动分析和插入实现细节。库 /IP 技术将预先设计好的低抽象级实现用于高级。测试 / 验证技术确保每级功能正确，减少各级之间反复设计的成本。

下面我们先来介绍一些基本的开发流程 .

嵌入式系统开发流程
第一步：建立开发环境

操作系统一般使用 Redhat Linux，选择定制安装或全部安装，通过网络下载相应的 GCC 交叉编译器进行安装(比如，ARM-linux-gcc、arm-uclibc-gcc)，或者安装产品厂家提供的相关交叉编译器;

第二步：配置开发主机

配置 minicom，一般的参数为波特率 115200 Baud/s，数据位 8 位，停止位为 1，9，无奇偶校验，软件硬件流控设为无。在 Windows 下的超级终端的配置也是这样。MINICOM 软件的作用是作为调试嵌入式开发板的信息输出的监视器和键盘输入的工具。配置网络主要是配置 NFS 网络文件系统，需要关闭防火墙，简化嵌入式网络调试环境设置过程。

第三步：建立引导装载程序 BOOTLOADER

从网络上下载一些公开源代码的 BOOTLOADER，如 U.BOOT、BLOB、VIVI、LILO、ARM-BOOT、RED-BOOT 等，根据具体芯片进行移植修改。有些芯片没有内置引导装载程序，比如，三星的 ARV17、ARM9 系列芯片，这样就需要编写开发板上 FLASH 的烧写程序，可以在网上下载相应的烧写程序，也有 Linux 下的公开源代码的 J-FLASH 程序。如果不能烧写自己的开发板，就需要根据自己的具体电路进行源代码修改。这是让系统可以正常运行的第一步。如果用户购买了厂家的仿真器比较容易烧写 FLASH，虽然无法了解其中的核心技术，但对于需要迅速开发自己的应用的人来说可以极大提高开发速度。

第四步：下载已经移植好的 Linux 操作系统

如 MCLiunx、ARM-Linux、PPC-Linux 等，如果有专门针对所使用的 CPU 移植好的 Linux 操作系统那是再好不过，下载后再添加特定硬件的驱动程序，然后进行调试修改，对于带 MMU 的 CPU 可以使用模块方式调试驱动，而对于 MCLiunx 这样的系统只能编译内核进行调试。

第五步：建立根文件系统

下载使用 busybox 软件进行功能裁减，产生一个最基本的根文件系统，再根据自己的应用需要添加其他的程序。由于默认的启动脚本一般都不会符合应用的需要，所以就要修改根文件系统中的启动脚本，它的存放位置位于 /etc 目录下，包括：/etc/init.d/rc.S、/etc/profile、/etc/.profile 等，自动挂装文件系统的配置文件 /etc/fstab，具体情况会随系统不同而不同。根文件系统在嵌入式系统中一般设为只读，需要使用 mkcramfs genromfs 等工具产生烧写映像文件。

第六步：建立应用程序的 FLASH 磁盘分区

一般使用 JFFS2 或 YAFFS 文件系统，这需要在内核中提供这些文件系统的驱动，有的系统使用一个线性 FLASH(NOR 型)512KB～32MB，有的系统使用非线性 FLASH(NAND 型)8MB～512MB，有的两个同时使用，需要根据应用规划 FLASH 的分区方案。

第七步：开发应用程序

可以放入根文件系统中，也可以放入 YAFFS、JFFS2 文件系统中，有的应用不使用根文件系统，直接将应用程序和内核设计在一起，这有点类似于μC/OS-II 的方式。

第八步：烧写内核

根文件系统和应用程序，发布产品。

推荐阅读：嵌入式系统开发实践经验分享

提升可靠性的七大技巧
从规范完善的开发周期到严格执行和系统检查，开发高可靠性嵌入式系统的技术有许多种。本文介绍了 7 个易操作且可以长久使用的技巧，它们对于确保系统更加可靠地运行并捕获异常行为大有帮助。

技巧 1——用已知值填充 ROM
软件开发人员往往都是非常乐观的一群人，只要让他们的代码忠实地长时间地运行就可以了，仅此而已。微控制器跳出应用程序空间并在非预想的代码空间中执行这种情况似乎是相当少有的。然而，这种情况发生的机会并不比缓存溢出或错误指针失去引用少。它确实会发生!发生这种情况后的系统行为将是不确定的，因为默认情况下内存空间都是 0xFF，或者由于内存区通常没有写过，其中的值可能只有上帝才知道。

不过有相当完备的 linker 或 IDE 技巧可以用来帮助识别这样的事件并从中恢复系统。技巧就是使用 FILL 命令对未用 ROM 填充已知的位模式。要填充未使用的内存，有很多不同的可能组合可以使用，但如果是想建立更加可靠的系统，最明显的选择是在这些位置放置 ISR fault handler。如果系统出了某些差错，处理器开始执行程序空间以外的代码，就会触发 ISR，并在决定校正行动之前提供储存处理器、寄存器和系统状态的机会。

技巧 2——检查应用程序的 CRC
对嵌入式工程师来说一个很大的好处是，我们的 IDE 和工具链可以自动产生应用程序或内存空间校验和(Checksum)，从而根据这个校验和验证应用程序是否完好。有趣的是，在许多这些案例中，只有在将程序代码加载到设备时，才会用到校验和。

然而，如果 CRC 或校验和保持在内存中，那么验证应用程序在启动时(或甚至对长时间运行的系统定期验证)是否仍然完好是确保意外之事不会发生的极好途径。现在一个编程过的应用程序发生改变的概率是很小的，但考虑每年交付的数十亿个微控制器以及可能恶劣的工作环境，应用程序崩溃的机会并不是零。更有可能的是，系统中的一个缺陷可能导致某一扇区发生闪存写入或闪存擦除，从而破坏应用程序的完整性。

技巧 3——在启动时执行 RAM 检查
为了建立一个更加可靠和扎实的系统，确保系统硬件正常工作非常重要。毕竟硬件会发生故障。(幸运的是软件永远不会发生故障，软件只会做代码要它做的事，不管是正确的还是错误的)。在启动时验证 RAM 的内部或外部没有问题，是确保硬件可以如预期般运作的一个好方法。

有许多不同的方法可用于执行 RAM 检查，但常用的方法是写入一个已知的模式，然后等上一小段时间再回读。结果应该是所读就是所写。真相是，在大多数情况下 RAM 检查是通过的，这也是我们想要的结果。但也有极小的可能性检查不通过，这时就为系统标示出硬件问题提供了极好的机会。

技巧 4——使用堆栈监视器
对许多的嵌入式开发者而言，堆栈似乎是一股相当神秘的力量。当奇怪的事情开始发生，工程师终于被难倒了，他们开始思考，也许堆栈中发生了什么事。结果是盲目地调整堆栈的大小和位置等等。但该错误往往是与堆栈无关的，但怎能如此确定?毕竟，有多少工程师真的实际执行过最坏情况下的堆栈大小分析?

堆栈大小是在编译时就静态分配好的，但堆栈是以动态的方式使用的。随着代码的执行，应用程序需要的变量、返回的地址和其它信息被不断存储在堆栈中。这种机制导致堆栈在其分配的内存中不断增长。然而，这种增长有时会超出编译时确定的容量极限，导致堆栈破坏相邻内存区域的数据。

绝对确保堆栈正常工作的一种方法是实现堆栈监视器，将它作为系统“保健”代码的一部分(有多少工程师会这样做?)。堆栈监视器会在堆栈和“其它”内存区域之间创建一个缓冲区域，并填充已知的位模式。然后监视器会不断的监视图案是否有任何变化。如果该位模式发生了改变，那就意味着堆栈增长得太大了，即将要把系统推向黑暗地狱!此时监视器可以记录事件的发生、系统状态以及任何其它有用的数据，供日后用于问题的诊断。

大多数实时操作系统(RTOS)或实现了内存保护单元(MPU)的微控制器系统中都提供有堆栈监视器。可怕的是，这些功能默认都是关闭状态，或者经常被开发人员有意关闭。在网络上快速搜寻一下可以发现，很多人建议关闭实时操作系统中的堆栈监视器以节省 56 字节的闪存空间。等等，这可是得不偿失的做法!

技巧 5 - 使用 MPU
在过去，是很难在一个小而廉价的微控制器中找到内存保护单元(MPU)的，但这种情况已经开始改变。现在从高端到低端的微控制器都已经有 MPU，而这些 MPU 为嵌入式软件开发人员提供了一个可以大幅提高其固件(firmware)鲁棒性(robustness)的机会。

MPU 已逐渐与操作系统耦合，以便建立内存空间，其中的处理都分开，或任务可执行其代码，而不用担心被 stomped on。倘若真有事情发生，不受控制的处理会被取消，也会执行其他的保护措施。请留意带有这种组件的微控制器，如果有，请多加利用它的这种特性。

技巧 6 - 建立一个强大的看门狗系统
你经常会发现的一种总是最受喜爱的看门狗(watchdog)实现是，在看门狗被启用之处(这是一个很好的开始)，但也是可以用周期性定时器将该看门狗清零之处;定时器的启用是完全与程序中出现的任何情况隔离的。使用看门狗的目的是协助确保如果出现错误，看门狗不会被清零，即当工作暂停，系统会被迫去执行硬件重设定(hardware reset)，以便恢复。使用与系统活动独立的定时器可以让看门狗保持清零，即使系统已失效。

对应用任务如何整合到看门狗系统中，嵌入式开发人员需要仔细考虑和设计。例如，有种技术可能可以让每个在一定时期内运行的任务标示它们可以成功地完成其任务。在此事件中，看门狗不被清零，强制被复位。还有一些比较先进的技术，像是使用外部看门狗处理器，它可用来监视主处理器如何表现，反之亦然。

对一个可靠的系统而言，建立一个强大的看门狗系统是很重要的。由于有太多的技术，难以在这几个段落中完全涵盖，但针对此一议题，笔者未来还会发表相关的文章。

技巧 7 - 避免易失存储器分配
不习惯在资源有限环境下工作的工程师，可能会试图使用其编程语言的特性，这种语言让他们可以使用易失存储器分配。毕竟，这是一种常在计算器系统中使用的技术，在计算器系统中，只有在有必要时，内存才会被分配。例如，以 C 开发时，工程师可能倾向于使用 malloc 来分配在堆(heap)上的空间。有一个操作会执行，一旦完成，可以使用 free 将被分配的内存返回，以便堆的使用。

在资源受限的系统，这可能是一场灾难!使用易失存储器分配的其中一个问题是，错误或不当的技术可能会导致内存泄漏或内存碎片。如果出现这些问题时，大多数的嵌入式系统并没有资源或知识来监视堆或妥善地处理它。而当它们发生时，如果应用程序提出对空间的要求，但却没有所请求的空间可以使用，会发生什么事呢?

使用易失存储器分配所产生的问题是很复杂的，要妥善处理这些问题，可以说是一个噩梦!一种替代的方法是，直接以静态的方式，简化内存的分配。例如，只要在程序中简单地建立一个大小为 256 字节长的缓冲区，而不是经由 malloc 请求这样大小的内存缓冲区。此一分配的内存可在整个应用程序的生命周期期间保持，且不会有堆或内存碎片问题方面的顾虑。

嵌入式软件可靠性设计注意的问题
嵌入式软件的最大特点是以控制为主，软硬结合的较多，功能性的操作较多，模块相互间调用的较多，外部工作环境复杂容易受到干扰或干扰别的设备，且执行错误的后果不仅仅是数据错误而是有可能导致不可估量的灾难，所以总结起来，嵌入式软件可靠性设计需注意的问题有四个方面：

1、软件接口

2、软硬件接口

3、软件代码

4、数据、变量

结论
这些都只是一些可以让开发人员开始建立更可靠嵌入式系统的方法。另外还有很多其他技术，例如利用良好的编码标准、位翻转的监测、执行数组和指针边界检查，及使用断言等。所有这些技术都是让设计者可以开发出可靠性更高嵌入式系统的秘诀。

[经验] 工程师多年总结：开发出可靠性更高嵌入式系统的秘诀

站长推荐 /3