1. NAT概述
NAT是(Network Address Translation)的缩写。
还有个名字叫NAPT(Network Address Port Translation),NAPT既支持地址转换也支持端口转换,并允许多台内网主机共享一个外网IP地址访问外网,因此NAPT可以有效的改善IP地址短缺现象。
如果没有做特殊说明,本文档中的NAT均是指NAPT方式的NAT。
NAT解决了什么问题?
随着网络应用的增多,IPv4地址枯竭的问题越来越严重。尽管IPv6可以从根本上解决IPv4地址空间不足问题,但目前众多网络设备和网络应用大多是基于IPv4的,因此在IPv6广泛应用之前,使用一些过渡技术(如CIDR、私网地址等)是解决这个问题的主要方式,NAT就是这众多过渡技术中的一种。
当私网用户访问公网的报文到达网关设备后,如果网关设备上部署了NAT功能,设备会将收到的IP数据报文头中的IP地址转换为另一个IP地址,端口号转换为另一个端口号之后转发给公网。在这个过程中,设备可以用同一个公网地址来转换多个私网用户发过来的报文,并通过端口号来区分不同的私网用户,从而达到地址复用的目的。
早期的NAT是指Basic NAT,Basic NAT在技术上实现比较简单,只支持地址转换,不支持端口转换。因此,Basic NAT只能解决私网主机访问公网问题,无法解决IPv4地址短缺问题。后期的NAT主要是指网络地址端口转换NAPT(Network Address Port Translation),NAPT既支持地址转换也支持端口转换,允许多台私网主机共享一个公网IP地址访问公网,因此NAPT才可以真正改善IP地址短缺问题。
1.1 Basic NAT
Basic NAT方式只转换IP地址,不转换TCP/UDP协议的端口号,属于一对一的转换,一个外网IP地址只能被一个内网用户使用。[图1]描述了Basic NAT的基本原理。
Basic NAT实现过程如下:
内网HostA访问外网Server,向Router发送一个源IP地址为10.1.1.1的报文。
当Router收到报文后,做Basic NAT转换。Router根据报文的源IP地址查找NAT转换关系表,看是否有相关的转换记录(10.1.1.1<->1.1.1.1)。如果有转换记录,则将报文的源IP地址10.1.1.1转换成1.1.1.1后,转发给外网Server;如果没有转换记录,在进行源IP地址转换的同时,还会在NAT转换关系表中新增一条该会话的转换记录(正反向)。
外网Server给内网HostA转换后的外网IP地址1.1.1.1发送回应报文。报文到达Router后,Router根据报文的目的IP地址查找NAT转换关系表,将报文的目的IP地址1.1.1.1转换成10.1.1.1后,转发给内网HostA。
内网HostB访问外网Server的转换过程和内网HostA访问外网Server的转换过程类似。由于Basic NAT不转换端口号,所以HostA和HostB分别用不同的外网IP地址访问Server。
1.2 NAPT
NAPT方式既转换IP地址,也转换TCP/UDP协议的端口号,属于多对一的转换。NAPT通过使用“IP地址+端口号”的形式,使多个内网用户共用一个外网IP地址访问外网,因此NAPT也可以称为“多对一地址转换”或“地址复用”。[图2]描述了NAPT的基本原理。
NAPT实现过程如下:
内网HostA访问外网Server,向Router发送一个源IP地址为10.1.1.1,端口号为10的报文。
Router收到报文后,做NAPT转换。Router根据报文的源IP地址和端口号查找NAT转换关系表,看是否有相关的转换记录(10.1.1.1:10<->1.1.1.1:30)。如果有转换记录,则将报文的源IP地址10.1.1.1转换成1.1.1.1,端口号10转换成30后,转发给外网Server;如果没有转换记录,在进行源IP地址和端口号转换的同时,还会在NAT转换关系表中新增一条该会话的转换记录(正反向)。
外网Server给内网HostA转换后的外网IP地址1.1.1.1发送回应报文。Router根据回应报文中的目的IP地址和端口号查找NAT转换关系表,将报文的目的IP地址1.1.1.1转换成10.1.1.1,端口号30转换成10后,转发给内网HostA。
内网HostB访问外网Server的转换过程和内网HostA访问外网Server的转换过程类似。由于NAPT可以转换端口号,所以HostA和HostB可以共用同一个外网IP地址1.1.1.1访问Server。
2. 我要上网 & SNAT
当VPC内的云主机需要访问公网,请求量大时,为了节省弹性公网IP资源并且避免云主机IP直接暴露在公网上,您可以使用公网NAT网关的SNAT功能。VPC中一个子网对应一条SNAT规则,一条SNAT规则可以配置多个弹性公网IP。公网NAT网关为您提供不同规格的连接数,根据业务规划,您可以通过创建多条SNAT规则,来实现共享弹性公网IP资源。
3. 我要提供服务 & DNAT
当VPC内的云主机需要面向公网提供服务时,可以使用公网NAT网关的DNAT功能。
DNAT功能绑定弹性公网IP,有两种映射方式(IP映射、端口映射)。可通过端口映射方式,当用户以指定的协议和端口访问该弹性公网IP时,公网NAT网关会将该请求转发到目标云主机实例的指定端口上。也可通过IP映射方式,为云主机配置了一个弹性公网IP,任何访问该弹性公网IP的请求都将转发到目标云主机实例上。使多个云主机共享弹性公网IP和带宽,精确的控制带宽资源。
一个云主机配置一条DNAT规则,如果有多个云主机需要为公网提供服务,可以通过配置多条DNAT规则来共享一个或多个弹性公网IP资源。
4. NAT副作用 & NAT-ALG
5. P2P & NAT穿越
典型的P2P场景:
- VoIP通话: QQ语音、微信语音、还有之前很流行的网络电话。
- 种子下载:下视频很快:)
5.1NAT设备类型
在[STUN]标准中,根据私网IP地址和端口到NAT出口的公网IP地址和端口的映射方式,把NAT分为如下四种类型,详见下图。
STUN中定义的NAT类型
-
Full Cone NAT(完全锥型NAT)
所有从同一个私网IP地址和端口(IP1:Port1)发送过来的请求都会被映射成同一个公网IP地址和端口(IP:Port)。并且,任何外部主机通过向映射的公网IP地址和端口发送报文,都可以实现和内部主机进行通信。
这是一种比较宽松的策略,只要建立了私网IP地址和端口与公网IP地址和端口的映射关系,所有的Internet上的主机都可以访问该NAT之后的主机。
-
Restricted Cone NAT(限制锥型NAT)
所有从同一个私网IP地址和端口(IP1:Port1)发送过来的请求都会被映射成同一个公网IP和端口号(IP:Port)。与完全锥型NAT不同的是,当且仅当内部主机之前已经向公网主机发送过报文,此时公网主机才能向私网主机发送报文。
-
Port Restricted Cone NAT(端口限制锥型NAT)
与限制锥型NAT很相似,只不过它包括端口号。也就是说,一台公网主机(IP2:Port2)想给私网主机发送报文,必须是这台私网主机先前已经给这个IP地址和端口发送过报文。
-
Symmetric NAT(对称NAT)
所有从同一个私网IP地址和端口发送到一个特定的目的IP地址和端口的请求,都会被映射到同一个IP地址和端口。如果同一台主机使用相同的源地址和端口号发送报文,但是发往不同的目的地,NAT将会使用不同的映射。此外,只有收到数据的公网主机才可以反过来向私网主机发送报文。
这和端口限制锥型NAT不同,端口限制锥型NAT是所有请求映射到相同的公网IP地址和端口,而对称NAT是不同的请求有不同的映射。
5.1 UDP穿越的方式
STUN
ICE
5.2对称NAT的穿越 & 端口预测
我在从服务器收到的端口上添加了1,因为如果我支持两个对称NAT,那么增量是1端口也是如此 . 查看示例:
连接到服务器和NAT A向S发送包含以下内容的数据包:45.89.66.125:58000
B连接到服务器,NAT B向S发送包含以下内容的数据包:144.85.1.18:45000
S将B的信息发送给A,将A的信息发送给B.
现在,如果A向B发送此信息,NAT A将创建此 Map :
INTERNAL_IP_A:58001-144.85.1.18:45001
对于此连接,NAT A应使用端口58001(最后一个端口1,它是对称NAT)
NAT B接收数据包但丢弃它 .
现在,如果B使用收到的信息向A发送数据包,NAT B将创建此映射:
INTERNAL_IP_B:45001-45.89.66.125:58001
现在NAT应该接受这个数据包,因为在它的表中有接收它的信息 .
6. Linux NAT实现
6.1 net filter & iptables
先上一张比较有名的图:
6.2 connection tracker(ct)
(CONNTRACK),顾名思义,就是跟踪并且记录连接状态。Linux为每一个经过网络堆栈的数据包,生成一个新的连接记录项 (Connection entry)。此后,所有属于此连接的数据包都被唯一地分配给这个连接,并标识连接的状态。连接跟踪是防火墙模块的状态检测的基础,同时也是地址转换中实 现SNAT和DNAT的前提。
那么Netfilter又是如何生成连接记录项的呢?每一个数据,都有“来源”与“目的”主机,发起连接的主机称为“来源”,响应“来源”的请求的主机即 为目的,所谓生成记录项,就是对每一个这样的连接的产生、传输及终止进行跟踪记录。由所有记录项产生的表,即称为连接跟踪表。
Conntrack状态表
连接跟踪子系统跟踪已看到的所有数据包流,运行“sudo conntrack -L”以查看其内容:
tcp 6 43184 ESTABLISHED src=192.168.2.5 dst=10.25.39.80 sport=5646 dport=443 src=10.25.39.80 dst=192.168.2.5 sport=443 dport=5646 [ASSURED] mark=0 use=1
tcp 6 26 SYN_SENT src=192.168.2.5 dst=192.168.2.10 sport=35684 dport=443 [UNREPLIED] src=192.168.2.10 dst=192.168.2.5 sport=443 dport=35684 mark=0 use=1
udp 17 29 src=192.168.8.1 dst=239.255.255.250 sport=48169 dport=1900 [UNREPLIED] src=239.255.255.250 dst=192.168.8.1 sport=1900 dport=48169 mark=0 use=1
每行显示一个连接跟踪条目。您可能会注意到,每行两次显示地址和端口号,甚至是反向的地址和端口对。这是因为每个条目两次插入到状态表中。第一个地址四元组(源地址和目标地址以及端口)是在原始方向上记录的地址,即发起方发送的地址。第二个四元组是conntrack希望在收到来自对等方的答复时看到的内容。这解决了两个问题:
如果NAT规则匹配(例如IP地址伪装),则将其记录在连接跟踪条目的答复部分中,然后可以自动将其应用于属于同一流的所有将来的数据包。
状态表中的查找将是成功的,即使它是对应用了任何形式的网络或端口地址转换的流的答复包。
原始的(第一个显示的)四元组永远不会改变:它是发起方发送的。NAT操作只会将回复(第二个)更改为四倍,因为这将是接收者看到的内容。对第一个四倍的更改将毫无意义:netfilter无法控制启动程序的状态,它只能影响数据包的接收/转发。当数据包未映射到现有条目时,conntrack可以为其添加新的状态条目。对于UDP,此操作会自动发生。对于TCP,conntrack可以配置为仅在TCP数据包设置了SYN位的情况下添加新条目。默认情况下,conntrack允许中流拾取不会对conntrack变为活动状态之前存在的流造成问题。
Conntrack状态表和NAT
如上一节所述,列出的答复元组包含NAT信息。可以过滤输出以仅显示应用了源或目标nat的条目。这样可以查看在给定流中哪种类型的NAT转换处于活动状态。“sudo conntrack -L -p tcp –src-nat”可能显示以下内容:
tcp 6 114 TIME_WAIT src=10.0.0.10 dst=10.8.2.12 sport=5536 dport=80 src=10.8.2.12 dst=192.168.1.2 sport=80 dport=5536 [ASSURED]
此项显示从10.0.0.10:5536到10.8.2.12:80的连接。但是,与前面的示例不同,答复方向不仅是原始的反向方向:源地址已更改。目标主机(10.8.2.12)将答复数据包发送到192.168.1.2,而不是10.0.0.10。每当10.0.0.10发送另一个数据包时,具有此条目的路由器将源地址替换为192.168.1.2。当10.8.2.12发送答复时,它将目的地更改回10.0.0.10。此源NAT是由于nft假装规则所致:
inet nat postrouting meta oifname "veth0" masquerade
其他类型的NAT规则,例如“dnat to”或“redirect to”,将以类似的方式显示,其回复元组的目的地不同于原始的。
Conntrack扩展
conntrack记帐和时间戳记是两个有用的扩展。“sudo sysctl net.netfilter.nf_conntrack_acct=1”使每个流的“sudo conntrack -L”跟踪字节和数据包计数器。
“sudo sysctl net.netfilter.nf_conntrack_timestamp=1”记录每个连接的“开始时间戳”。然后,“sudo conntrack -L”显示自第一次看到流以来经过的秒数。添加“–output ktimestamp”也可以查看绝对开始日期。
插入和更改条目
您可以将条目添加到状态表。例如:
sudo conntrack -I -s 192.168.7.10 -d 10.1.1.1 --protonum 17 --timeout 120 --sport 12345 --dport 80
conntrackd将此用于状态复制。活动防火墙的条目将复制到备用系统。这样,备用系统就可以接管而不会中断连接,即使建立的流量也是如此。Conntrack还可以存储与网上发送的数据包数据无关的元数据,例如conntrack标记和连接跟踪标签。使用“update”(-U)选项更改它们:
sudo conntrack -U -m 42 -p tcp
这会将所有tcp流的connmark更改为42。
删除条目
在某些情况下,您想从状态表中删除条目。例如,对NAT规则的更改不会影响属于表中流的数据包。对于寿命长的UDP会话(例如像VXLAN这样的隧道协议),删除条目可能很有意义,这样新的NAT转换才能生效。通过“sudo conntrack -D”删除条目,然后删除地址和端口信息的可选列表。下面的示例从表中删除给定的条目:
sudo conntrack -D -p udp --src 10.0.12.4 --dst 10.0.0.1 --sport 1234 --dport 53
7. 云场景下的NAT
云场景下的NAT的基本原理没有大的变化。但要考虑租户隔离与租户运维等问题。
7.1 多租户承载 & vxlan
VPC及VPC下的子网网段是用用户自管理的,因此就要解决在一个设备上为多个可能地址重叠的租户提供NAT能力。因此我们使用了vxlan隧道技术来解决这个问题。
云计算中,为了解决租户隔离的问题,一般每个用户子网都会对应分配一个vni(vxlan net identity)。
因此我们可以用vni来标识不同vpc下的nat实例。
上行流量区分(vm访问公网)
当从计算节点到达NAT网关主机时,如果vxlan报文的vni属于vpc1,那么我们就去vpc1下的nat实例中查找snat或dnat规则进行NAT转换及转发。下行流量区分(外网访问vm)
入云方向,目的IP是云上EIP。eip是绑定到nat实例上的,因此和vni是关联的,我们通过eip关联的vni可以查找到对应的nat实例,并在该实例下进行snat session匹配或dnat规则匹配及转发。
引用
华为云NAT介绍
https://support.huaweicloud.com/productdesc-natgateway/zh-cn_topic_0086739762.html
2.NAT映射和过滤:https://support.huawei.com/hedex/hdx.do?docid=EDOC1100087046&id=ZH-CN_TASK_0183934755&lang=zh
3.相关RFC (http://rfc-editor.org/rfc/rfc1918)
RFC1918: 私网地址定义。
RFC4787: UDP NAT行为要求。2007年
RFC5382:TCP NAT行为要求。2008年
RFC5508:ICMP NAT行为要求。2008年
RFC7857:NAT行为要求更新。2016年(运维开发实践中的问题澄清)