嵌入式系统运行的程序是如何编译出来的？

2021年12月1日汽车技术评论826阅读模式

汽车上使用的ECU中运行的程序，是软件工程师基于C/C++语言编写出来，然后通过编译器编译得到可执行文件，最后将可执行文件刷写入ECU中实现的，今天我们介绍下编译过程。

通常我们使用GCC编译器来实现编译，对于GCC编译器，我们就不展开介绍了，感兴趣的同学可以到网上找些材料，自行充电。

虽然我们称GCC是C语言的编译器，但使用GCC由C语言源代码文件生成可执行文件的过程不仅仅是编译的过程，而是要经历四个相互关联的步骤∶

预处理(也称预编译，Preprocessing)
编译(Compilation)
汇编(Assembly)
链接(Linking)

GCC首先调用cpp进行预处理，在预处理过程中，对源代码文件中包含的预编译语句进行分析。然后调用编译器进行编译，这个阶段根据输入文件生成以.s为后缀的汇编文件。汇编过程是针对汇编语言的步骤，将.S为后缀的汇编语言源代码文件生成以.o为后缀的目标文件。当所有的目标文件都生成之后，GCC会完成最后的链接过程，最终生成可执行文件。

嵌入式系统运行的程序是如何编译出来的？

下面我们详细看看每个阶段。

1 预处理阶段

读取c源程序，对其中的伪指令（以#开头的指令）和特殊符号进行处理。那么，什么事伪指令呢？伪指令主要包括以下四个方面：

（1）宏定义指令，如#define Demu 520，#undef等。对于前一个伪指令，预编译所要做的是将程序中的所有Demu用520替换，但作为字符串常量的Demu则不被替换。对于后者，则将取消对某个宏的定义，使以后该串的出现不再被替换。

（2）条件编译指令，如#ifdef，#ifndef，#else，#elif，#endif等。这些条件编译指令的引入使得程序员可以通过定义不同的宏来决定编译程序对哪些代码进行处理。预编译程序将根据有关的文件，将那些不必要的代码过滤掉。

（3）头文件包含指令，如#include "Filename"或者#include 等。在头文件中一般用伪指令#define定义了大量的宏（最常见的是字符常量），同时包含有各种外部符号的声明。采用头文件的目的主要是为了使某些定义可以供多个不同的C源程序使用。因为在需要用到这些定义的C源程序中，只需加上一条#include语句即可，而不必再在此文件中将这些定义重复一遍。预编译程序将把头文件中的定义统统都加入到它所产生的输出文件中，以供编译程序对之进行处理。

包含到c源程序中的头文件可以是系统提供的。在程序中#include它们要使用尖括号（）。另外开发人员也可以定义自己的头文件，这些文件一般与c源程序放在同一目录下，此时在#include中要用双引号（""）。所以，你知道为什么include的头文件，尖括号和双引号都有了吧，当然这是规范用法，大家敲代码的时候最好也按照这个规范来。

（4）特殊符号，预编译程序可以识别一些特殊的符号。例如在源程序中出现的LINE标识将被解释为当前行号（十进制数），FILE则被解释为当前被编译的C源程序的名称。预编译程序对于在源程序中出现的这些串将用合适的值进行替换。

嵌入式系统运行的程序是如何编译出来的？

预编译程序所完成的基本上是对源程序的“替代”工作。经过此种替代，生成一个没有宏定义、没有条件编译指令、没有特殊符号的输出文件。这个文件的含义同没有经过预处理的源文件是相同的，但内容有所不同。下一步，此输出文件将作为编译程序的输出而被翻译成为机器指令。

2 编译阶段

这个阶段，编译器将预处理后的输出文件进行编译处理和优化处理。

编译程序所要做的工作就是通过词法分析和语法分析，在确认所有的指令都符合语法规则之后，将其翻译成等价的中间代码表示或汇编代码。

2.1 词法分析

词法分析的任务是：输入源程序，对构成源程序的字符串进行扫描和分解，识别出一个个的单词（亦称单词符号），如关键字（if，else，for，while）、标识符、常数、运算符和界符（标点符号、左右括号）。

单词符号是语言的基本组成成分，是人们理解和编写程序的基本要素。识别和理解这些要素无疑也是翻译的基础。如同将英文翻译成中文的情形一样，如果你对英语单词不理解，那就谈不上进行正确的翻译。在词法分析阶段的工作中所依循的是语言的词法规则（也称构词规则）。

2.2 语法分析

语法分析的任务是：在词法分析的基础上，根据语言的语法规则，把单词符号串分解成各类语法单位（语法范畴），如“短语”、“句子”、“程序段”和“程序”等。通过语法分析，确定整个输入串是否构成语法上正确的“程序”。语法分析所依循的是语言的语法规则。语法规则通常用上下文无关文法描述。词法分析是一种线性分析，而语法分析是一种层次结构分析。

例如：

Z = X + 0.618 * Y;

代表一个“赋值语句”，而其中的X + 0.618 * Y 代表一个“算术表达式”。因而，语法分析的任务就是识别X + 0.618 * Y为算术表达式，同时，识别整个符号串属于赋值语句的范畴。

2.3 优化处理

优化处理是编译系统中一项比较深奥的技术。它涉及到的问题不仅同编译技术本身有关，而且同机器的硬件环境也有很大的关系。优化一方面是对中间代码的优化，不依赖于具体的计算机。另一种优化则主要针对目标代码的生成而进行的。

对于前一种优化，主要的工作是删除公共表达式、循环优化（代码外提、强度削弱、变换循环控制条件、已知量的合并等）、复写传播，以及无用赋值的删除等。

后一种类型的优化同机器的硬件结构密切相关，最主要的是考虑是如何充分利用机器的各个硬件寄存器存放有关变量的值，以减少对于内存的访问次数。另外，如何根据机器硬件执行指令的特点对指令进行一些调整使目标代码比较短，执行的效率比较高，这一点非常重要。

2.4 中间代码生成

对语法分析所识别出的各类语法范畴，分析其含义，然后进行初步翻译，产生中间代码。这一阶段通常包含两个方面的工作。

首先，对每种语法范畴进行语义i安插，例如，变量是否定义、类型是否正确等等。如果语义正确，则进行另一方面工作，即进行中间代码的解释。这一阶段所依循的是语言的语义规则。通常使用属性文法描述语义规则。

“翻译”仅仅在这里才开始涉及到。所谓“中间代码”是一种含义明确、便于处理的记号系统，它通常独立于具体的硬件。这种记号系统或者与现代计算机的指令形式比较接近，或者能够比较容易地把它变换成现代计算机的机器指令。例如，许多编译程序采用了“四元式”作为中间代码。这种四元式的形式是：

算符/左操作数/右操作数/结果

它的意义是：对“左右操作数”进行某种运算（由“算符”指明），把运算所得的值作为“结果”保留下来。在采用四元式作为中间代码的情形下，中间代码产生的任务就是按语言的语法规则把各类范畴翻译成四元式序列。

例如，下面的赋值语句:

Z = (X + 0.618) * Y / W;

可被翻译为如下的四元式序列：

序号	算符	左操作	右操作	结果
（1）	+	X	0.618	T1
（2）	*	T1	Y	T2
（3）	/	T2	W	Z

其中，T1和T2是编译期间引进的临时工作变量；第一个四元式意味着把X的值加上0.618存放在T1中；第二个四元式值将T1的值和Y的值相乘存于T2中；第三个四元式指将T2的值除以Y的值留结果于Z中。

一般而言，中间代码是一种独立于具体硬件的记号系统。常用的中间代码，除了四元式之外，还有三元式、间接三元式、逆波兰记号和树形表示等等。

这样，经过以上分析和优化后，汇编代码经过汇编程序的汇编转换成相应的机器指令，才可能被机器执行。

嵌入式系统运行的程序是如何编译出来的？

3 汇编阶段

汇编过程实际上指把汇编语言代码翻译成目标机器指令的过程。对于被翻译系统处理的每一个C语言源程序，都将最终经过这一处理而得到相应的目标文件。目标文件中所存放的也就是与源程序等效的目标的机器语言代码。

目标文件由段组成。通常一个目标文件中至少有两个段：

代码段：该段中所包含的主要是程序的指令。该段一般是可读和可执行的，但一般却不可写。

数据段：主要存放程序中要用到的各种全局变量或静态的数据。一般数据段都是可读，可写，可执行的。

嵌入式系统中主要有三种类型的目标文件：

（1）可重定位文件（relocatable）

其中包含有适合于其它目标文件链接来创建一个可执行的或者共享的目标文件的代码和数据。

（2）共享的目标文件（shared）

这种文件存放了适合于在两种上下文里链接的代码和数据。第一种是链接程序可把它与其它可重定位文件及共享的目标文件一起处理来创建另一个目标文件；第二种是动态链接程序将它与另一个可执行文件及其它的共享目标文件结合到一起，创建一个进程映象。

（3）可执行文件（executable）　

它包含了一个可以被操作系统创建一个进程来执行之的文件。

汇编程序生成的实际上是第一种类型的目标文件。对于后两种还需要其他的一些处理方能得到，这个就是链接程序的工作了。

4 链接阶段

由汇编程序生成的目标文件并不能立即就被执行，其中可能还有许多没有解决的问题。

例如，某个源文件中的函数可能引用了另一个源文件中定义的某个符号（如变量或者函数调用），在程序中可能调用了某个库文件中的函数等。所有的这些问题，都需要经链接程序的处理方能得以解决。

链接程序的主要任务是将有关的目标文件彼此相连接，即将在一个文件中引用的符号同该符号在另外一个文件中的定义连接起来，使得所有的这些目标文件成为一个能够被操作系统装入执行的统一整体。

根据开发人员指定的同库函数的链接方式的不同，链接处理分为两种：

4.1 静态链接

在这种链接方式下，函数的代码将从其所在的静态链接库中被拷贝到最终的可执行程序中。这样该程序在被执行时这些代码将被装入到该进程的虚拟地址空间中。静态链接库实际上是一个目标文件的集合，其中的每个文件含有库中的一个或者一组相关函数的代码。

4.2 动态链接

在此种方式下，函数的代码被放到称作是动态链接库或共享对象的某个目标文件中。链接程序此时所做的只是在最终的可执行程序中记录下共享对象的名字以及其它少量的登记信息。在此可执行文件被执行时，动态链接库的全部内容将被映射到运行时相应进程的虚地址空间。动态链接程序将根据可执行程序中记录的信息找到相应的函数代码。

对于可执行文件中的函数调用，可分别采用动态链接或静态链接的方法。使用动态链接能够使最终的可执行文件比较短小，并且当共享对象被多个进程使用时能节约一些内存，因为在内存中只需要保存一份此共享对象的代码。但并不是使用动态链接就一定比使用静态链接要优越。在某些情况下动态链接可能带来一些性能上损害。

嵌入式系统运行的程序是如何编译出来的？