1. NFS中文件相关操作的rountine
const struct nfs_rpc_ops nfs_v4_clientops = {
.version = 4, /* protocol version */
.dentry_ops = &nfs4_dentry_operations,//dentry操作,如nfs_dentry_delete
.dir_inode_ops = &nfs4_dir_inode_operations,//dir的元数据操作,如nfs_create,nfs_lookup
.file_inode_ops = &nfs4_file_inode_operations,//file的元数据操作,如nfs_getattr,nfs_setattr
.file_ops = &nfs4_file_operations,//file非元数据操作,如nfs_file_read,nfs_file_write
1. 1 Read 准备工作
nfs4_do_open间接调用nfs_fhget
,在其中设置
//设置page cache相关函数
inode->i_data.a_ops = &nfs_file_aops; //for regular file
inode->i_data.a_ops = &nfs_dir_aops; //for dir
generic_file_read_iter()会调用a_ops中的函数,如readpage()等
2. Read操作
read() => sys_read() => file->f_op->read_iter(...) => nfs_file_read() => generic_file_read_iter() => nfs_readpages()
下面分析函数nfs_file_read()
- 如果有O_DIRECT参数,不管page cache是否失效,跳过缓存直接读。
- 调用
nfs_revalidate_mapping_protected
,做了如下事情:- 如果inode信息过期失效,则更新inode。
- 如果inode的
cache_validity
被标记NFS_INO_INVALID_DATA
,调用nfs_invalidate_mapping
将page cache标记为失效。
- 调用
generic_file_read_iter
。如果page cache被标记失效,则调用readpage相应函数。对于NFS来说,它是nfs_readpages
3. inode信息包括两个:
- nfs_inode上的一些值,如cache_validity等。
- NFS attribte,具体有哪些由server->attr_bitmask决定。
3.1 如何判断inode过期失效
static bool nfs_mapping_need_revalidate_inode(struct inode *inode)
{
if (nfs_have_delegated_attributes(inode))
return false;
return (NFS_I(inode)->cache_validity & NFS_INO_REVAL_PAGECACHE)
|| nfs_attribute_timeout(inode)
|| NFS_STALE(inode);
}
3.2 如何更新inode
由__nfs_revalidate_inode
实现。
- 发送GETATTR给server, 由
nfs4_proc_getattr
实现。 - 调用
nfs_refresh_inode
下面是kernel log,其中2428
是inode number
[183914.358438] NFS: nfs_update_inode(0:43/2428 fh_crc=0x104e0ee0 ct=1 info=0x427e7f)
3.3 NFS_INO_INVALID_DATA何时被设置
- nfs_zap_caches_locked
- nfs_zap_mapping
- nfs_update_inode中,inode->i_version和fattr->change_attr不相等情况下,或者文件大小变化时。
- update_changeattr,并强制更新dir->i_version
4. Attribute的Mask
- 发送SERVER_CAPS,由
nfs4_server_capabilities
实现。可以得到bitmask,被存在server->attr_bitmask。nfs4_server_capabilities是在mount时候被调用的。 - 以后每次发送GETATTR给server,都会发送这个mask。
5. change attribute
NFS的这个attribute,存储在inode->i_version。如果这个值变化,NFS协议认为所有attribute全部失效,同时page cache也失效。
6. NFS数据一致性的讨论
参看man nfs(5)的DATA AND METADATA COHERENCE
部分
总结一下有几点:
- Close-to-open cache consistency:close操作时候确保任何修改写进服务器。
- Attribute caching: 60s的timeout。在这之间,GETATTR直接返回,超过这个时间,发起IO获得所需的attribte。可以指定
noac
mount选项,表示timeout为0。 - Active/Active NFS提供的是弱一致性(Weak cache consistency)。对于NFS4来说,每次读之前发送GETATTR查询
change
属性。change
一般是个时间,如果发现这次获得的change
和上次不同,说明文件被修改,Client会发送READ请求。否则Client直接从本地cache获取。如果打开文件时指定O_DIRECT
参数,则每次都向Server发送READ请求,不走本地cache。 - Delegation分为读和写。
小实验:用nfs-ganesha搭建一个nfs server
- 先通过nfs read读取一个文件。
- 本地修改这个文件。
- 再发送nfs read读取这个文件,发现这个文件没有变化。这是因为change attribute没有失效,page cache也没有失效。
7. 其他
7.1 inode => nfs_inode
struct nfs_inode *nfsi = NFS_I(inode);
static inline struct nfs_inode *NFS_I(const struct inode *inode)
{
return container_of(inode, struct nfs_inode, vfs_inode);
}
inode => nfs_server
struct nfs_server = NFS_SERVER(inode);
static inline struct nfs_server *NFS_SB(const struct super_block *s)
{
return (struct nfs_server *)(s->s_fs_info);
}
static inline struct nfs_server *NFS_SERVER(const struct inode *inode)
{
return NFS_SB(inode->i_sb);
}
7.2 对inode进行某项操作
NFS_PROTO(inode)->getattr(...);
static inline const struct nfs_rpc_ops *NFS_PROTO(const struct inode *inode)
{
return NFS_SERVER(inode)->nfs_client->rpc_ops;
}