设计程序时使用的语言称为程序设计语言,如C、C++、Java、Ruby、Python语言等。
程序员必须使用与程序设计语言相匹配的软件来执行由该语言编写的代码,这种软件即语言处理器。
机器语言与汇编语言
有些程序设计语言无需借助软件(语言处理器)执行,这些语言称之为机器语言。机器语言可以由硬件直接解释执行,理论上不必使用语言处理器。
然而,机器语言书写的程序只有载入内存后才能通过硬件执行。因此用户在实际使用时,必须先通过软件从磁盘文件系统中读取机器语言程序,再将其复制到内存。不过这类程序称不上是语言处理器,通常称为操作系统(operating system)。
汇编语言和机器语言是很容易混淆的概念,两者并不相同。机器语言代码本质是一个位数很长的二进制数字,由于它不易于阅读,人们通过汇编语言程序来表述这个巨大的数字,使其更易于理解。因此,如果要执行汇编语言写成的程序,用户通常需要使用软件将其转换为机器语言。这种软件称为汇编程序(assembler)。汇编程序可以说是一种最基本的语言处理器。
解释器与编译器
语言处理器大致分为解释器和编译器两种,它们的执行原理有很大地差异。
- 解释器
解释器根据程序中的算法执行运算,它是一种用于执行程序的软件。如果执行的程序由虚拟机器语言或类似于机器语言的程序设计语言编写,这种软件也能称为虚拟机。
- 编译器
编译器能将某种语言编写的代码转换*为另一种语言的程序。通常它会将源代码转换为机器语言程序。编译器转换程序的行为称为编译,转换前的程序称为源代码或源程序。如果编译器没有把源代码直接转换为机器语言,一般称为源代码转换器或源码转换器(source code translator)。
程序设计语言提供何种类型的语言处理器不一而论
例如,C语言也提供解释器却很少使用。C语言直接通过编译器转换为机器语言执行。转换后得到的机器语言程序会暂时保存至某个文件,需借助操作系统来执行。
有些语言混用解释器和编译器
例如,Java语言首先通过编译器把源代码转换为Java二进制代码,并将这种虚拟的机器语言保存在文件中。之后,Java虚拟机的解释器将执行这段代码。
传统狭义的编译器将会以文件形式保存转换后的程序,只要源程序没有变更,编译仅需执行一次,执行时间也会缩短。然后一些编译器并不保存转换后的程序文件,这种编译器常见于解释器内部。
例如:Java虚拟机为了提高性能,会在执行过程中通过编译器将一部分Java二进制代码直接转换为机器语言使用。执行过程中进行的机器语言转换称为动态编译或JIT编译(Just-In-Time compile)。转换后得到的机器语言程序将被载入内存,由硬件执行,无需使用解释器。
编译器用途多样,它能够直接解释器内部执行。此外,编译器的作用也不局限于将源程序转换为机器语言。
例如:Ruby语言的解释器内部会通过编译器来执行预处理工作,将源程序转换为类似于Java二进制代码的虚拟机器语言程序。解释器真正执行的是这种经过编译的语言,这种设计提高了执行性能。
过去人们提高编译器时,首先会联想到费时的编译过程。不过由于编译后实际执行的是机器语言,因此执行速度很快。而对于解释器,人们通常认为它会在程序输入的同时立即执行,执行速度较慢。这就是两者的基本区别。现代的解释器内部常采用各种类型的编译器,已经越来越没有必要将解释器和编译器区分看待。
语言处理流程
无论解释器还是编译器,语言处理器前半部分的程序结构都是大同小异的。
- 源代码首先将进行词法分析,由一长串字符串细分为更小的字符串单元(单词化),分割后的字符串称为单词。
- 之后处理器将执行语法分析处理,把单词的排列转换为抽象语法树(AST)。
- 至此为止,解释器和编译器的处理方式相同。
- 之后编译器会将抽象语法树转换为其他语言,而解释器会一边分析树一边执行运算。