前言
内存管理其实是一个很基本的概念,但是真正能把linux内存管理梳理清楚的人很少,也看过网上很多关于内存管理的文章,但是总感觉他们其实也是照搬的一些概念,都不是很系统,看起来冰山一角,似懂非懂。那么今天就系统的结合linux源码来记录一下内存管理,希望能形成一套完整体系,对Linux内存有一个完整的了解。(文章后续的很多内存数字举例都是基于4GB物理内存大小的系统)。
关于内存管理一定要区分两个概念,内核空间内存管理及用户空间内存管理,Linux在这两个空间的内存管理方式非常不同,但也有一些相同点:1. 都有页表;2. 都是通过虚拟地址访问内存。主要的不同点:1. 内核中虚拟地址到物理地址基本是直接映射,分配连续的物理内存(也可以分配非连续的内存,比如vmalloc等,具体后续单独描述),而用户空间会基于进程各自的页表,分配非连续的物理内存;2. 物理内存中有一部分内存只能被内核访问的(具体见内核域划分)。所以内核空间会直接依赖物理内存的管理,而用户空间则需要多一层的虚拟地址空间到物理地址的转换。
linux内核一般将虚拟地址空间划分为会两部分,将底部比较大的部分用于用户进程,顶部专用于内核进程,在IA-32系统上比例为3:1,因此内核访问的地址一般是从0xC0000000开始。内核空间的内存管理相对要简单一些,因为内核空间信任自身,而没法信任用户程序。内核对于物理内存管理主要包括以下几个概念:分配大块内存的伙伴系统;分配非连续内存块的vmalloc机制及内存映射机制;分配小块内存的slab,slub和slob;该节主要讲的是内核物理内存的体系结构,对于伙伴系统,非连续内存分配及slab则会用单独的章节分析。
内存体系结构
1. UMA VS NUMA
有两种类型的计算机,分别以不同的方式管理物理内存:
1)UMA(uniform memory access)计算机,将内存以连续的方式组织起来。SMP系统中每个处理器都是访问同一块内存。
2)NUMA(non-uniform memory access)计算机,总是多处理器计算机,系统各个CPU有各自本地的内存访问,各个处理器之间的总线是连着的,可以访问其他CPU,但是要慢一些。
关于 UMA及NUMA的细节见 https://techdifferences.com/difference-between-uma-and-numa.html,简而言之,就是 UMA总线逻辑更简单,但是访问速度要慢,带宽低;NUMA总线逻辑更复杂,但是访问更高效,带宽高,也更容易伸缩。UMA更适合分时系统,NUMA更适合实时系统,UMA并行能力特别差。下面我们讲解的主要是NUMA系统,因为弄懂了NUMA系统的内存管理,UMA就特别容易理解了。
2. 内核空间-内存组织
- 内存划分为节点(pg_data_t),每个节点关联到系统中的一个处理器。
- 每个节点有划分成内存域(zone),目前内存域分为四种:(三个内核内存域,一个用户内存域)ZONE_DMA/ZONE_DMA32,ZONE_NORMAL,ZONE_HIGHMEM。通过划分内存域可以更好的管理,针对不同的场景进行更好的优化。
· ZONE_DMA标记适合DMA的内存域,在IA-32计算机上,一般的现在是16MB,该区域供I/O设备直接访问,不需要通过MMU管理,连续分配,具有更高的性能。
· ZONE_DMA32,标记了使用32位地址可寻址、适合DMA的内存域,显然只有64位系统上,才会有该内存域。
· ZONE_NORMAL,可以直接映射到内核段的普通内存域,这是所有体系机构上保证都会存在的唯一内存域,在IA-32系统上,该域可访问的最大内存不超过896MiB,超过该值的内存只能能通过高端内存寻址访问ZONE_HIGHMEM中的内存。
· ZONE_HIGHMEM,超出了内核段的物理内存。只有在可用物理内存多余可映射的内核内存时,才会访问该域,显然一般只有32位系统上才会有可能有该区域。通过kmap及kunmap将该域内存映射到内核虚拟地址空间。
· ZONE_MOVEABLE,这个区域主要是给用户空间分配使用。
前三个zone主要为内核所用到,最后一个主要被用户空间用到,内核空间内存域具体划分见下图:
由于内核核心不依赖于高端内存,所以一般优先分配高端内存,高端内存分配完毕后才会分配普通内存。
内存组织结构见下图:
数据结构如下:
enum zone_type {
#ifdef CONFIG_ZONE_DMA
ZONE_DMA,
#endif
#ifdef CONFIG_ZONE_DMA32
ZONE_DMA32,
#endif
ZONE_NORMAL,
#ifdef CONFIG_HIGHMEM
ZONE_HIGHMEM,
#endif
ZONE_MOVABLE,
#ifdef CONFIG_ZONE_DEVICE
ZONE_DEVICE,
#endif
__MAX_NR_ZONES
};
typedef struct pglist_data {
struct zone node_zones[MAX_NR_ZONES]; /*内存域*/
struct zonelist node_zonelists[MAX_ZONELISTS]; /* 备域(NUMA备用节点) */
int nr_zones; /* 内存域数目 */
#ifdef CONFIG_FLAT_NODE_MEM_MAP /* means !SPARSEMEM */
struct page *node_mem_map; /* 所有内存域中的页 */
#ifdef CONFIG_PAGE_EXTENSION
struct page_ext *node_page_ext; /* 内存页的更多描述信息*/
#endif
#endif
unsigned long node_start_pfn; /* 节点起始页帧编号(系统中的所有节点的页帧编号唯一) */
unsigned long node_present_pages; /* total number of physical pages */
unsigned long node_spanned_pages; /* total size of physical page
range, including holes */
int node_id;
wait_queue_head_t kswapd_wait; /* kswapd的等待队列*/
wait_queue_head_t pfmemalloc_wait;
struct task_struct *kswapd; /* Protected by
mem_hotplug_begin/end() */
int kswapd_order;
enum zone_type kswapd_classzone_idx;
int kswapd_failures; /* Number of 'reclaimed == 0' runs */
...
} pg_data_t;
struct zone {
/* zone watermarks, access with *_wmark_pages(zone) macros */
unsigned long _watermark[NR_WMARK]; /* min, low, high,不同内存水位代表内存有不同的压力,后续会详细介绍kswapd*/
unsigned long watermark_boost;
unsigned long nr_reserved_highatomic;
long lowmem_reserve[MAX_NR_ZONES]; /* 指定数量的内存页,用于无论如何都不能失败的关键性内存分配,不同的域有不同的计算方式*/
#ifdef CONFIG_NUMA
int node; /* 代表第n个节点*/
#endif
struct pglist_data *zone_pgdat; /* 所在的节点 */
struct per_cpu_pageset __percpu *pageset; /* 热/冷页帧列表,详情见下面的描述及slab分配器 */
#ifndef CONFIG_SPARSEMEM
... /* 高级新特性,后续研究完了再补一下*/
#endif
...
#ifdef CONFIG_MEMORY_ISOLATION
... /* 高级新特性,后续研究完了再补一下*/
#endif
#ifdef CONFIG_MEMORY_HOTPLUG
... /* 高级新特性,后续研究完了再补一下*/
#endif
int initialized;
/* Write-intensive fields used from the page allocator */
ZONE_PADDING(_pad1_) /* CPU高速缓存行,缓存填充,确保自旋锁处于自身的缓存行中*/
/* free areas of different sizes */
struct free_area free_area[MAX_ORDER]; /* 伙伴系统,负责实际页帧的分配 */
/* zone flags, see below */
unsigned long flags;
/* Primarily protects free_area */
spinlock_t lock;
/* Write-intensive fields used by compaction and vmstats. */
ZONE_PADDING(_pad2_)
unsigned long percpu_drift_mark;
...
ZONE_PADDING(_pad3_)
/* Zone statistics */
atomic_long_t vm_stat[NR_VM_ZONE_STAT_ITEMS];
atomic_long_t vm_numa_stat[NR_VM_NUMA_STAT_ITEMS];
} ____cacheline_internodealigned_in_smp /*最优高速缓存行对齐*/;
2.1 冷热页
冷热页主要是针对于CPU缓存的,热页就是已经加载入CPU缓存,相反冷页则说明页不在CPU高速缓存中,关于CPU高速缓存将在slab内存管理中统一描述。
struct per_cpu_pageset {
struct per_cpu_pages pcp;
...
};
struct per_cpu_pages {
int count; /* number of pages in the list */
int high; /* high watermark, emptying needed */
int batch; /* chunk size for buddy add/remove */
/* Lists of pages, one per migrate type stored on the pcp-lists */
struct list_head lists[MIGRATE_PCPTYPES];
};
2.2 页帧
页帧代表系统物理内存映射的最小单位,对应于struct page,IA-32系统中标准页的长度为4KiB。页帧被伙伴系统管理着,所以当一个或多个page被分配出来时,由伙伴系统管理page对应的元信息,page中的数据可能是匿名映射首页、slab缓存首页、伙伴页或者页表页。
具体数据结构如下:
struct page {
unsigned long flags; /* Atomic flags, some possibly
* updated asynchronously */
/*
* Five words (20/40 bytes) are available in this union.
* WARNING: bit 0 of the first word is used for PageTail(). That
* means the other users of this union MUST NOT use the bit to
* avoid collision and false-positive PageTail().
*/
union {
struct { /* Page cache and anonymous pages */
/**
* @lru: Pageout list, eg. active_list protected by
* zone_lru_lock. Sometimes used as a generic list
* by the page owner.
*/
struct list_head lru;
/* See page-flags.h for PAGE_MAPPING_FLAGS */
struct address_space *mapping;
pgoff_t index; /* Our offset within mapping. */
/**
* @private: Mapping-private opaque data.
* Usually used for buffer_heads if PagePrivate.
* Used for swp_entry_t if PageSwapCache.
* Indicates order in the buddy system if PageBuddy.
*/
unsigned long private;
};
struct { /* slab, slob and slub */
union {
struct list_head slab_list; /* uses lru */
struct { /* Partial pages */
struct page *next;
#ifdef CONFIG_64BIT
int pages; /* Nr of pages left */
int pobjects; /* Approximate count */
#else
short int pages;
short int pobjects;
#endif
};
};
struct kmem_cache *slab_cache; /* not slob */
/* Double-word boundary */
void *freelist; /* first free object */
union {
void *s_mem; /* slab: first object */
unsigned long counters; /* SLUB */
struct { /* SLUB */
unsigned inuse:16;
unsigned objects:15;
unsigned frozen:1;
};
};
};
struct { /* Tail pages of compound page */
unsigned long compound_head; /* Bit zero is set */
/* First tail page only */
unsigned char compound_dtor;
unsigned char compound_order;
atomic_t compound_mapcount;
};
struct { /* Second tail page of compound page */
unsigned long _compound_pad_1; /* compound_head */
unsigned long _compound_pad_2;
struct list_head deferred_list;
};
struct { /* Page table pages */
unsigned long _pt_pad_1; /* compound_head */
pgtable_t pmd_huge_pte; /* protected by page->ptl */
unsigned long _pt_pad_2; /* mapping */
union {
struct mm_struct *pt_mm; /* x86 pgds only */
atomic_t pt_frag_refcount; /* powerpc */
};
#if ALLOC_SPLIT_PTLOCKS
spinlock_t *ptl;
#else
spinlock_t ptl;
#endif
};
struct { /* ZONE_DEVICE pages */
/** @pgmap: Points to the hosting device page map. */
struct dev_pagemap *pgmap;
unsigned long hmm_data;
unsigned long _zd_pad_1; /* uses mapping */
};
/** @rcu_head: You can use this to free a page by RCU. */
struct rcu_head rcu_head;
};
union { /* This union is 4 bytes in size. */
/*
* If the page can be mapped to userspace, encodes the number
* of times this page is referenced by a page table.
*/
atomic_t _mapcount;
/*
* If the page is neither PageSlab nor mappable to userspace,
* the value stored here may help determine what this page
* is used for. See page-flags.h for a list of page types
* which are currently stored here.
*/
unsigned int page_type;
unsigned int active; /* SLAB */
int units; /* SLOB */
};
/* Usage count. *DO NOT USE DIRECTLY*. See page_ref.h */
atomic_t _refcount;
#ifdef CONFIG_MEMCG
struct mem_cgroup *mem_cgroup;
#endif
/*
* On machines where all RAM is mapped into kernel address space,
* we can simply calculate the virtual address. On machines with
* highmem some memory is mapped into kernel virtual memory
* dynamically, so we need a place to store that address.
* Note that this field could be 16 bits on x86 ... ;)
*
* Architectures with slow multiplication can define
* WANT_PAGE_VIRTUAL in asm/page.h
*/
#if defined(WANT_PAGE_VIRTUAL)
void *virtual; /* Kernel virtual address (NULL if
not kmapped, ie. highmem) */
#endif /* WANT_PAGE_VIRTUAL */
#ifdef LAST_CPUPID_NOT_IN_PAGE_FLAGS
int _last_cpupid;
#endif
} _struct_page_alignment;
2.3 页表
页表建立了虚拟地址到物理地址的映射关联。其通过radix tree来快速查找虚拟地址对应的物理地址,内核空间的映射基本是一致性映射。内核内存管理总是假定使用四级页表,但有些体系结构并不是采用四级页表,比如IA-32系统,只有2级页表,所以体系结构需要对于对于第三、第四级页表进行模拟处理。这里面比较复杂,先只考虑四级页表的情况。
内存地址分解
地址空间包括5个部分,前四个部分用于选择页,最后一个部分用于选择页内位置,BITS_PER_LONG用于表示地址空间长度,PGD:全局目录项;PUD:上层目录项;PMD:中间页目录项;PTE:直接页表项。
3. 初始化内存管理
setup_arch:初始化自举分配器;
setup_per_cpu_areas:在SMP系统中为每个CPU分配一些PER_CPU的静态宏变量的副本;
build_all_zonelists:构建各个节点和内存域,在NUMA计算机中,还会建立节点的备用节点;
mem_init: 特定于体系结构,将内存分配器从bootmem迁移到真实的内存分配函数。
setup_per_cpu_pageset:初始化高速缓存及slab分配器。
这里需要特殊说明的就是build_all_zonelists中的备用节点的建立,在UMA中will do nothing,但是在NUMA会建立起相关zonelist结构
arch_call_rest_init:做一些扫尾工作,其中最重要的就是会初始化各个pages并分配到伙伴系统中,具体到在伙伴系统相关知识中详细介绍。
typedef struct pglist_data {
...
struct zonelist node_zonelists[MAX_ZONELISTS];
...
}
struct zonelist {
struct zoneref _zonerefs[MAX_ZONES_PER_ZONELIST + 1];
};
struct zoneref {
struct zone *zone; /* Pointer to actual zone */
int zone_idx; /* zone_idx(zoneref->zone) */
};
void __ref build_all_zonelists(pg_data_t *pgdat)
{
if (system_state == SYSTEM_BOOTING) {
build_all_zonelists_init(); /* __build_all_zonelists(NULL); */
} else {
__build_all_zonelists(pgdat);
/* cpuset refresh routine should be here */
}
...
}
static void __build_all_zonelists(void *data)
{
...
if (self && !node_online(self->node_id)) { / * non-booting*/
build_zonelists(self);
} else { / * when booting, init all nodes*/
for_each_online_node(nid) {
pg_data_t *pgdat = NODE_DATA(nid); /* 根据node_id 查询pg_data_t*/
build_zonelists(pgdat);
}
...
}
...
}
static void build_zonelists(pg_data_t *pgdat)
{
static int node_order[MAX_NUMNODES]; /* 备用节点,按优先级排序,优先级的计算与节点的到当前节点的距离,节点的负载相关; 具体见find_next_best_node */
int node, load, nr_nodes = 0;
nodemask_t used_mask;
int local_node, prev_node;
/* NUMA-aware ordering of nodes */
local_node = pgdat->node_id;
load = nr_online_nodes; /* 可用的内存节点数 */
prev_node = local_node;
nodes_clear(used_mask);
memset(node_order, 0, sizeof(node_order));
while ((node = find_next_best_node(local_node, &used_mask)) >= 0) {
/*
* We don't want to pressure a particular node.
* So adding penalty to the first node in same
* distance group to make it round-robin.
*/
if (node_distance(local_node, node) !=
node_distance(local_node, prev_node))
node_load[node] = load;
node_order[nr_nodes++] = node;
prev_node = node;
load--;
}
build_zonelists_in_node_order(pgdat, node_order, nr_nodes);
build_thisnode_zonelists(pgdat);
}
static void build_zonelists_in_node_order(pg_data_t *pgdat, int *node_order,
unsigned nr_nodes)
{
struct zoneref *zonerefs;
int i;
zonerefs = pgdat->node_zonelists[ZONELIST_FALLBACK]._zonerefs;
for (i = 0; i < nr_nodes; i++) {
int nr_zones;
pg_data_t *node = NODE_DATA(node_order[i]);
nr_zones = build_zonerefs_node(node, zonerefs); // 分配了 nr_zones个zone,zonerefs需要向后移nr_zones
zonerefs += nr_zones;
}
zonerefs->zone = NULL;
zonerefs->zone_idx = 0;
}
static int build_zonerefs_node(pg_data_t *pgdat, struct zoneref *zonerefs)
{
struct zone *zone;
enum zone_type zone_type = MAX_NR_ZONES; // 内存域种类
int nr_zones = 0;
do {
zone_type--; // 内存域分配由廉价到昂贵
zone = pgdat->node_zones + zone_type;
if (managed_zone(zone)) { // 确保zone存在
zoneref_set_zone(zone, &zonerefs[nr_zones++]);
check_highest_zone(zone_type); // 检查并设置非moveable的最高的zone
}
} while (zone_type);
return nr_zones;
}
假设一个有四个节点的NUMA计算机其最终备用域的分配可能类似于下图:
linux内核起始段物理内存布局
该图给出了内核内存的前几兆字节,这些字节加载了内核进程的代码段,只读数据段,初始化数据段。第一个页帧主要供BIOS使用,后续的640Kib也基本不使用,用于映射各种ROM(系统BIOS和显卡ROM)。
在IA-32系统中一般是从0x100000开始加载内核代码。
该图给出了系统加载内核内存管理模块的流程。
paging_init负责初始化内核页表并启用内存分页;
最终分配完后的内核内存布局如图:
内核的普通内存(normalmem)大部分内存是直接直接映射的。前面说到内核地址只能通过直接映射使用前896MiB的数据,后续的128M被叫做高端内存(highmem),而高端内存有三种访问方式,vmalloc:可以在这个区域分配不连续的内存;持久映射:用于将高端内存中的非持久页映射到内核中;固定映射:与固定的内核物理地址关联,但具体关联的页帧可以自由选择。
内核初始化完成后,物理内存管理的管理基本是由伙伴系统承担,伙伴系统以一种非常简单而高效的方式伴随了linux40多年,结合了优秀内存分配器的特点:速度与效率。而内核还为内核提供了非连续分配内存及管理缓存及小额内存分配的slab,slub及slob,这些将后续一一描述。