page 1-20
研究问题
- 为什么要分布式文件系统
- 建立DFS的基本机制
- 设计抉择以及它们的影响
3.1 Caching
3.2 Consistency
3.3 Naming
3.4 Authentication and Access Control
为什么要分布式文件系统
- 分布式文件系统的目的
文件运输在各个服务器之间,拥有一致性的命名空间。允许有权利的用户可以从任何服务器上获取到文件。 - DFS的优点
- 多用户共享数据
- 用户移动性,方便便捷
- 位置透明性
- Backups and centralized management(备份和集中管理)
- DFS提供了什么?
- 使用文件系统的接口访问存储在服务器上的数据。
- 那么什么是文件系统的接口
- Open a file, check status of a file, close a file
- Read data from a file
- Write data to a file
- Lock a file or part of a file
- List files in a directory, create/delete a directory
- Delete a file, rename a file, add a symlink to a file
- etc
- 挑战或问题
- Heterogeneity(异构性)
- Scale
- Security
- Failures
- Concurrency
我:什么是异构性??
不同硬件和操作系统之间的差异
实现
- client:应用程序获取远程文件和访问本地文件一样的方式
需要内核的支持 - 交互协议 :请求如何被发送到服务端
- server :如何服务从客户端过来的请求
VFS
VFS提供“可插拔”的文件系统
其中远程调用的标准过程
- 用户进程调用read()
- 内核调度 VOP_READ() 在VFS
- nfs_read()
- 核查本地缓存
- 递给rpc去请求远程服务
- 休眠
- 服务端交互由内核进程处理
- 必要时重新发送
- 将RPC响应转换为文件系统缓冲区
- 存储到本地缓存
- 唤醒用户进程
-
nfs_read() 将缓冲区字节拷贝到用户存储
VFS Interception
我:vfs接口现在作为一个分布式文件系统的接口,是一种标准。NFS服务端这边负责处理请求,rpc server stub负责对请求进行解组,nfs server将它们转换成vfs文件操作,随后将这些操作传递给vfs层,vfs实现真正的本地文件系统
这种模式的一个重要优点是NFS很大程度上独立于本地文件系统。它确实不关心客户或服务端的操作系统实现的是UNIX或WINDOWS,甚至更老的MS-DOS文件系统。所关心的是这些文件系统是否与NFS所提供的文件系统模型兼容。
一个简单的方法
What about failures?
Consider file descriptors and how they are used
What happens when servers fail?
What about client failures?
使用rpc
好处:远程调用就像运行在本地的文件系统一样
坏处:在于性能的糟糕。远程访问服务的时延通常高于访问本地存储
Remote Procedure Calls in NFS
- nfs从文件里读取数据
- Lookup方法查询 目录和文件名,拿到相关的文件句柄
服务端示例
mountd and nfsd
mountd:为导出的目录提供初始化的句柄
- 客户端发起nfs_mount 去获取句柄
- mountd检查路径名是否是目录,以及目录是否应该导出到客户端
nfsd:应答rpc调用,从本地文件系统获得结果,并将它通过rpc发送回去 - 通常监听2049端口
下面谈下AFS
AFS Goals
- Global distributed file system
- “One AFS”, like “one Internet”
- Why would you want more than one?
- LARGE numbers of clients, servers
- 1000 machines could cache a single file,
- Most local, some (very) remote
- Goal: Minimize/eliminate work per client operation
AFS(Andrew File System)文件系统主要用于管理分部在不同网络节点上的文件。AFS采用安全认证和灵活的访问控制提供一种分布式的文件和授权服务,该服务可以扩展到多个客户端。
AFS假想
- 不受信任的客户机
- 必须证明他们为特定用户行事
- 安全rpc层
- 匿名:"system:anyuser"
- 必须证明他们为特定用户行事
- 客户机有磁盘!!
- 可以长时间缓存整个文件
- 写入/写入和写入/读取共享是罕见的
- 大部分文件由一个用户一台机器更新
问:阅读/阅读分享怎么样? 为什么AFS对此没有任何假设? 因为它并不重要,并且不会造成一致性问题,文件本地缓存。
- 大部分文件由一个用户一台机器更新
AFS的 cell/volume结构体系
单元格对应的管理组
- /afs/andrew.cmu.edu is a cell
Cells被分成更小的volumes(卷)(微文件系统)
- 一个用户的文件,项目源码树,...
- 通常存储在一台服务器上
- 磁盘配额管理,备份的单位
客户端机器具有cell服务器数据库
- 保护服务器处理认证
- 卷位置服务器将卷映射到服务器
AFS是一种高安全性的文件系统。它通过鉴权数据库与ACL的配合为用户提供更高的安全性。用户使用AFS,首先需要验证身份,只有合法的AFS用户才能够访问相应的CELL(一个CELL就相当于一个AFS独立结构,该CELL具有AFS文件系统的全部功能);其次,用户还需要在保护数据库中读取相应的ACL列表,以确定他是否有权力读写某一个文件。因此,AFS提供了更高于传统UNIX系统的安全性能。