在Python中,导入是运行时发生的,第一次导入指定文件时,会执行三个步骤:
- 搜索:找到需要导入的模块文件。
- 编译:如果需要,编译为字节码文件。
- 运行:执行模块中的代码,创建其中定义的对象。
注意:这三个步骤只在程序执行时,模块第一次导入的情况下才会发生。之后导入相同模块会跳过这三个步骤,只提取内存中已经加载的模块对象。
Python会把载入的模块存在sys.modules
字典中,并在导入操作开始时搜索该字典。如果没有找到模块,则启动这三个步骤。如下图所示:
1 搜索
Python的模块搜索路径是以下路径的组合:
- 程序所在的主目录。
- 环境变量
PYTHONPATH
中定义的目录(如果设置了的话)。 - 标准库目录。
- 任何
.pth
路径文件中的罗列的目录(如果存在的话)。
其中第一和第三个是自动定义的,第二和第四个可以扩展,从而包含自定义的目录。这四个目录组合就是列表sys.path
中的路径。导入时,Python会从左到右搜索该列表中的每一个目录。
通过在脚本中修改sys.path
,可以在脚本存在期间改变模块搜索路径。而PYTHONPATH
和.pth
文件提供了持久修改搜索路径的方法。
注意:如果不同目录中有同名的模块,Python总是加载
sys.path
中最先出现的模块。如果同一个目录下有同名,但后缀不同的模块文件(例如a.py
和a.so
),此时加载顺序是不固定的。
1.1 主目录
Python首先会在主目录中搜索导入的模块。运行一个程序时,主目录是程序顶层脚本文件所在的目录;交互模式下,主目录是当前工作的目录。
Python总是先搜索主目录,所以它会覆盖其它路径中的同名模块。小心不要以这种方式意外地隐藏库模块。
1.2 PYTHONPATH
目录
如果设置了PYTHONPATH
环境变量,Python接着会从左到右搜索该环境变量中列出的所有目录。这些目录可以是用户自定义的,或者平台特定的目录。
如果所有模块文件都在主目录下,则用户不用操作该环境变量。当导入的模块跨目录时,则需要用户手动设置该环境变量。
1.3 标准库目录
之后,Python会自动搜索标准库模块所在的目录。这些目录一定会被搜索,因此不需要添加到PYTHONPATH
,或者下一节介绍的.pth
文件中。
1.4 .pth
文件目录
最后,Python会搜索适当目录中后缀名为.pth
文本文件,当其中每一行所列的目录存在时,会把目录从头到尾添加到模块搜索路径的最后。它提供了一种PYTHONPATH
的代替方案。
路径文件在第三方库中经常使用,通常会在site-packages
目录安装一个.pth
文件,从而不需要用户设置第三方库需要的路径。
2 编译
遍历模块搜索路径,并找到符合import
语句的源文件后,如果需要,Python会将其编译为字节码文件(.pyc
文件)。
Python会检查该源文件的时间戳,如果字节码文件比源文件旧,则会在导入时重新生成字节码文件。如果字节码文件不比源文件旧,则会跳过编译步骤。
如果搜索路径上只有字节码文件,没有源文件,Python会直接加载字节码文件。因此,程序发布时,可以只发布字节码文件。
注意:当模块导入时,会进行编译。因此,通常不会看见顶层脚本文件的字节码文件,除非该文件被其它模块导入:只有被导入的文件才会在机器上留下字节码文件。顶层脚本文件的字节码在内部使用后就被丢弃了。
3 运行
导入操作的最后一个步骤是执行该模块的字节码。文件中所有语句会从头到尾依次执行,其中所有对变量名的赋值运算,都会成为模块的属性。例如,def
语句会创建函数,并将这些函数赋值给模块内的属性。
参考资料:
- Python学习手册(第四版)