编程的一个小麻烦是Microsoft Windows在文件夹名称之间使用反斜杠字符,而几乎所有其他计算机都使用正斜杠:
Windows filenames:
C:\some_folder\some_file.txt
Most other operating systems:
/some_folder/some_file.txt
这是1980年代早期的计算机历史事故。MS-DOS的第一个版本使用正斜杠字符指定命令行选项。当Microsoft在MS-DOS 2.0中添加对文件夹的支持时,正斜杠字符已被占用,因此他们使用反斜杠代替。三十五年后,我们仍然坚持这种不相容性。
如果您希望Python代码可以在Windows和Mac / Linux上运行,则需要处理这些特定于平台的问题。幸运的是,Python 3有一个名为pathlib的新模块,可以轻松处理文件。
让我们快速浏览处理文件名路径的不同方法,看看pathlib如何让您的生活更美好!
错误的解决方案:手工构建文件路径
假设您有一个数据文件夹,其中包含您要在Python程序中打开的文件:
这是用Python编写代码的错误方法:
data_folder = "source_data/text_files/"
file_to_open = data_folder + "raw_data.txt"
f = open(file_to_open)
print(f.read())
请注意,由于我在Mac上,因此我使用Unix式正斜杠硬编码路径。这将使Windows用户生气。
从技术上讲,这段代码仍然可以在Windows上运行,因为Python有一个hack,当你在Windows上调用open()时它会识别出任何一种斜杠。但即便如此,你也不应该依赖它。如果在错误的操作系统上使用错误的斜杠,并非所有Python库都能正常工作 - 特别是如果它们与外部程序或库接口。
Python对混合斜杠类型的支持是一种仅限Windows,它不能反向运行。在代码中使用反斜杠在Mac上完全失败:
data_folder = "source_data\\text_files\\"
file_to_open = data_folder + "raw_data.txt"
f = open(file_to_open)
print(f.read())
# On a Mac, this code will throw an exception:
# FileNotFoundError: [Errno 2] No such file or directory: 'source_data\\text_files\\raw_data.txt'
出于所有这些原因以及更多原因,使用硬编码路径字符串编写代码会让其他程序员怀疑地看着你。一般来说,你应该尽量避免它。
旧解决方案:Python的os.path模块
Python的os.path模块有许多工具可用于解决这些特定于操作系统的文件系统问题。
使用适合当前操作系统的斜杠构建路径字符串:
import os.path
data_folder = os.path.join("source_data", "text_files")
file_to_open = os.path.join(data_folder, "raw_data.txt")
f = open(file_to_open)
print(f.read())
此代码可在Windows或Mac上完美运行。问题是使用起来很痛苦。写出os.path.join()并将路径的每个部分作为单独的字符串传递是冗长且不直观的。
由于os.path模块中的大多数函数同样令人讨厌,因此开发人员通常会“忘记”使用它们,即使它们知道更好。这导致了许多跨平台的错误和愤怒的用户。
更好的解决方案:Python 3的路径库!
Python 3.4引入了一个新的标准库来处理名为pathlib的文件和路径- 它非常棒!
要使用它,只需使用正斜杠将路径或文件名传递给新的Path()对象,然后处理其余的:
from pathlib import Path
data_folder = Path("source_data/text_files/")
file_to_open = data_folder / "raw_data.txt"
f = open(file_to_open)
print(f.read())
请注意两件事:
- 您应该使用带有pathlib函数的正斜杠。该路径()对象将向前斜杠转换成正确的那种斜线的当前操作系统。太好了!
- 如果要添加到路径,可以直接在代码中使用/运算符。告别一遍又一遍地输入os.path.join(a,b)。
如果这就是所有pathlib所做的那样,那将是Python的一个很好的补充 - 但它确实做得更多!
例如,我们可以读取文本文件的内容,而无需打开和关闭文件:
from pathlib import Path
data_folder = Path("source_data/text_files/")
file_to_open = data_folder / "raw_data.txt"
print(file_to_open.read_text())
提示:前面的例子都是错误的,因为打开的文件从未关闭过。这种语法完全避免了这个bug。
实际上,pathlib使大多数标准文件操作变得简单快捷:
from pathlib import Path
filename = Path("source_data/text_files/raw_data.txt")
print(filename.name)
# prints "raw_data.txt"
print(filename.suffix)
# prints "txt"
print(filename.stem)
# prints "raw_data"
if not filename.exists():
print("Oops, file doesn't exist!")
else:
print("Yay, the file exists!")
您甚至可以使用pathlib将Unix路径显式转换为Windows格式的路径:
from pathlib import Path, PureWindowsPath
filename = Path("source_data/text_files/raw_data.txt")
# Convert path to Windows format
path_on_windows = PureWindowsPath(filename)
print(path_on_windows)
# prints "source_data\text_files\raw_data.txt"
如果您真的想安全地在代码中使用反斜杠,可以将路径声明为Windows格式,并且pathlib可以将其转换为在当前操作系统上工作:
from pathlib import Path, PureWindowsPath
# I've explicitly declared my path as being in Windows format, so I can use forward slashes in it.
filename = PureWindowsPath("source_data\\text_files\\raw_data.txt")
# Convert path to the right format for the current operating system
correct_path = Path(filename)
print(correct_path)
# prints "source_data/text_files/raw_data.txt" on Mac and Linux
# prints "source_data\text_files\raw_data.txt" on Windows
如果你想更高级一些,你甚至可以使用pathlib来解决相关文件路径,解析网络共享路径和生成file://urls。这是一个示例,它将在您的Web浏览器中打开一个本地文件,只需两行代码:
from pathlib import Path
import webbrowser
filename = Path("source_data/text_files/raw_data.txt")
webbrowser.open(filename.absolute().as_uri())
这只是pathlib的一个小峰值。它是许多不同文件相关功能的绝佳替代品,这些功能过去分散在不同的Python模块中。看看吧!