程序(Program)告诉计算机应该如何完成一个“计算任务”,这里的“计算”可以是数学运算,比如解方程,也可以是符号运算,比如查找和替换文档中的某个单词。从根本上说,计算机是由数字电路组成的运算机器,只能对数字做运算,程序之所以能做符号运算,是因为符号在计算机内部也是用数字表示的。此外,这些数字经过专门的硬件设备转换成人可以听到的声音和看到的图像。
程序由一系列指令(Instruction)组成,指令是指示计算机做某种运算的命令,通常包括以下几类:
- 输入(Input):从键盘、文件或者其他设备获取数据
- 输出(Output):把数据显示回到屏幕或存入一个文件或发送到其他设备
- 基本运算:执行最基本的数学运算(加减乘除)和数据存取
- 测试和分支:测试某个条件,然后根据不同的测试结果执行不同的后续指令。
- 循环:重复执行一系列操作
对于程序来说,有上面这几类指令就足够了。你曾用过的任何一个程序,不管它 有多么复杂,都是由这几类指令组成的。程序是那么的复杂,而编写程序可以用的指令却只有这么简单的几种,这中间巨大的落差就要由程序员去填补了,所以编写程序理应是一件相当复杂的工作。
编写程序可以说就是这样一个过程,把复杂的任务分解成子任务,把子任务再分解成更简单的任务,层层分解,直到最后简单得可用以上指令来完成。
编程语言(Programming Language)分为低级语言(Low-Level Language)和高级语言(High-Level Language)。机器语言(Machine Language)和汇编语言(Assembly Language)属于低级语言,直接用计算指令编写程序。而C、C++、Java、Python等属于高级语言,用语句(Statement)编写程序,语句是计算机指令的抽象表示。
计算机只能对数字做运算,符号、声音、图像在计算机内部都要用数字表示,指令也不例外。
最早的程序员都是直接用机器语言编程,但是很麻烦,需要查阅大量表格来确定每个数字表示什么意思,编写出来的程序很不直观,而且容易出错,于是有了汇编语言,把机器语言中一组一组的数字用助记符(Mnemonic)表示,直接用助记符写出汇编程序,然后让汇编器(Assembler)去查表把助记符替换成数字,也就把汇编语言翻译成了机器语言。
综上所述
- 汇编语言和机器语言的指令是一一对应的,换句话说,汇编器就是做了简单的替换工作。
- C语言的语句和低级语言的指令之间不是简单的一一对应关系,将语句翻译成汇编或机器指令的过程称为编译(Compile),由编译器(Compiler)来完成。
用C语言编写的程序必须经过编译转成机器指令才能被计算机执行,编译需要花些时间,这是用高级语言的一个缺点,然而更多的是优点。首先,用C语言编程更容易,代码更紧凑,可读性更强,出错后更容易改正。其次,C语言是可移植的(Portable)或称为平台无关的(Platform Independent)。
“平台”这个词有很多解释,可以指计算机体系结构(Architecture),也可以指操作系统,也可以指开发平台(编译器、链接器等)。不同的计算机体系结构有不同的指令集(Instruction Set),可以识别的机器指令格式是不同的,直接用某种体系结构的汇编或机器指令写出来的程序只能在这种体系结构的计算机上运行,然而各种体系结构的计算机都有各自的C编译器,可以把C程序编译成各种不同体系结构的机器指令,这意味着用C语言写的程序仅需稍加修改甚至不用修改就可以在各种不同的计算机上编译运行。
各种高级语言都具有C语言的这些优点,所以绝大部分程序是用高级语言编写的,只有和硬件关系密切的少数程序(例如驱动程序)才会用到低级语言。
还要注意一点,即使在相同的体系结构和操作系统下,使用不同的C编译器(或同一个C编译器的不同版本)编译同一个程序得到的结果也有可能不同,C语言有些语法特性在C标准中并没有明确规定,各编译器有不同的实现,编译出来的指令的行为特性也会有所不同,应该尽量避免使用不可移植的语法特性。
首先使用编辑器编写C程序后保存为*.c
的源代码文件,然后运行编译器对其进行编译,编译过程并不执行程序,而是把源代码全部翻译为机器指令,在加上一些描述信息,生成一个新的文件称为可执行文件,可执行文件可以被操作系统加载运行,计算机执行该文件中由编译器生成的指令。
有些高级语言以解释(Interpret)的方式执行,解释执行过程和C语言的编译执行过程很不一样。
# 编写Shell脚本
$ vim script.sh
#! /bin/sh
VAR = 1
VAR = $(($VAR + 1))
echo $VAR
$ /bin/sh script.sh
这里的/bin/sh
称为解释器(Interpreter),它把脚本中的每一行当做一条命令解释执行,而不需要先生成包含机器执行的可执行文件再执行。
还有很多编程语言采用编译和解释相结合的方式执行,这种方式相当流行,如Java、Python、Perl等编程语言都采用这种方式。
以Python为例,*.py
源代码文件首先被编译成*.pyc
文件,称为字节码(ByteCode),然后字节码被Python虚拟机解释执行。字节码是Python虚拟机的指令而非机器指令,所以它是平台无关的,如果把字节码文件从一种平台拷贝到另一个平台上,只要另一种平台也安装了Python虚拟机,就能运行这个字节码文件。
编程语言仍在发展演化,以上介绍的机器语言称为第一代语言(1GL, 1st Generation Programming Language),汇编语言称为第二代语言(2GL, 2nd Generation Programming Language),C、C++、Java、Python等可以称为第三代语言(3GL, 3rd Generation Programming Language)。目前,已经有了4GL(4th Generation Programming Language)和5GL(5th Generation Programming Language)的概念。3GL的编程语言虽然是用语句编程而不直接用指令编程,但语句也分为输入、输出、基本运算、测试分支和循环等几种,和指令有直接的对应关系。而4GL以后的编程语言更多是描述要做什么(Declarative)而不描述具体每一步怎么做(Imperative),具体步骤完全由编译器或解释器决定,例如SQL(SQL, Structure Query Language, 结构化查询语言)。