解决经过
起因是公司内开发过程中需要连接另一个内网的数据库
当时我的操作是这样的:
- 将同事给我的添加路由的命令执行一遍
- 挂上代理
- 开工打码
然而启动项目后却报数据库连接不上的错, 画风是这样的:
...
Caused by: com.mysql.cj.exceptions.CJCommunicationsException: Communications link failure
The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server.
...
重复几次均如此, 排除偶发原因, 猜想原因如下:
- 本地项目配置问题
- 网络连接问题
- 数据库问题
再三检查配置后确认配置无误, 于是检查网络, 先 telnet 一下数据库的主机和端口:
➜ telnet 192.168.41.106 3306
Trying 192.168.41.106...
telnet: connect to address 192.168.41.106: Network is unreachable
telnet: Unable to connect to remote host
问题已经确定了, 正是网络连接有问题
为什么我没有使用 ping 命令去 ping 远程主机呢
一是考虑到路由或主机可能会过滤 icmp 协议, 二是考虑到 ping 命令不能调试 3306 端口
已知 代理 的服务器地址是 172.31.41.253
已知上头给出的添加静态路由的命令是
sudo route -n add -net 192.168.41.0 -netmask 255.255.255.0 192.168.8.1
接下来话不多说, 直接查看路由表:
➜ netstat -nr
Routing tables
Internet:
Destination Gateway Flags Netif Expire
default 172.31.41.1 UGSc en0
default link#18 UCSI ppp0
1.0.0.1 192.168.8.3 UH ppp0
127 127.0.0.1 UCS lo0
127.0.0.1 127.0.0.1 UH lo0
169.254 link#4 UCS en0 !
169.254 link#7 UCSI en1 !
169.254.108.233/32 link#7 UCS en1 !
172.31.41/24 link#4 UCS en0 !
172.31.41.1/32 link#4 UCS en0 !
172.31.41.1 42:61:fb:bd:5e:a7 UHLWIir en0 1186
172.31.41.82/32 link#4 UCS en0 !
172.31.41.86 14:9d:99:7a:2d:2f UHLWI en0 1080
172.31.41.98 link#4 UHLWIi en0 !
172.31.41.99 14:9d:99:7a:27:ae UHLWI en0 1142
172.31.41.253 d4:5d:64:d7:0:d9 UHLWIi en0 1200
192.168.8 ppp0 USc ppp0
192.168.41 192.168.8.1 UGSc en0
...
再来看下网口:
~ ifconfig
en0: flags=8863<UP,BROADCAST,SMART,RUNNING,SIMPLEX,MULTICAST> mtu 1500
options=50b<RXCSUM,TXCSUM,VLAN_HWTAGGING,AV,CHANNEL_IO>
ether 68:5b:35:7c:6b:1c
inet6 fe80::1816:5698:e281:5b74%en0 prefixlen 64 secured scopeid 0x7
inet 172.31.41.82 netmask 0xffffff00 broadcast 172.31.41.255
nd6 options=201<PERFORMNUD,DAD>
media: autoselect (1000baseT <full-duplex>)
status: active
...
ppp0: flags=8051<UP,POINTOPOINT,RUNNING,MULTICAST> mtu 1280
inet 192.168.8.3 --> 1.0.0.1 netmask 0xffffff00
结合网口, 从路由表的最后两行路由可以看出问题了
公司的代理一般使用 ppp 协议, 当代理网络建立后, 会在系统注册一个虚拟网卡, 路由表倒数第二行的 ppp0 就是这个网卡(或 Net Interface, 网口)
路由表倒数第二行的路由信息表示访问 192.168.8 网段的数据包将走 ppp0 这个网口的 ppp0 网关进行传输
最后一行的地址是数据库所在内网的网段, 表示的是访问 192.168.41 网段的数据包将走 en0 网口的 192.168.8.1 这个网关传输
于是问题来了, en0 的内网地址是 172.31.41.82, 而 ppp0 地址是 192.168.8.3, 显然最后一行的路由是错的, 因为 en0 在 172 网段内, 根本没有办法找到 192.168.8.1 这个地址, 所以数据库当然连接不上了
解决方案: 删除错误的路由, 建立正确的路由
手动删除并添加:
$ sudo route delete 192.168.41.0
Password:
delete net 192.168.41.0
$ sudo route add 192.168.41.0/24 192.168.8.1
add net 192.168.41.0: gateway 192.168.8.1
再看看路由:
$ netstat -nr
Routing tables
Internet:
Destination Gateway Flags Netif Expire
default 172.31.41.1 UGSc en0
default link#18 UCSI ppp0
1.0.0.1 192.168.8.3 UH ppp0
127 127.0.0.1 UCS lo0
127.0.0.1 127.0.0.1 UH lo0
169.254 link#4 UCS en0 !
169.254 link#7 UCSI en1 !
169.254.108.233/32 link#7 UCS en1 !
169.254.193.72 f0:18:98:f3:f3:84 UHLSW en0 1057
172.31.41/24 link#4 UCS en0 !
172.31.41.1/32 link#4 UCS en0 !
172.31.41.1 42:61:fb:bd:5e:a7 UHLWIir en0 1191
172.31.41.82/32 link#4 UCS en0 !
172.31.41.83 f0:18:98:f3:f3:84 UHLWI en0 1062
172.31.41.84 0:e0:4c:73:12:8 UHLWI en0 1046
172.31.41.86 14:9d:99:7a:2d:2f UHLWI en0 1181
172.31.41.91 f0:18:98:f2:48:54 UHLWI en0 1146
172.31.41.98 68:5b:35:7c:6b:1c UHLWIi en0 320
172.31.41.99 14:9d:99:7a:27:ae UHLWI en0 1194
172.31.41.101 14:9d:99:7b:6:c0 UHLWI en0 746
172.31.41.253 d4:5d:64:d7:0:d9 UHLWIi en0 1198
192.168.8 ppp0 USc ppp0
192.168.41 192.168.8.1 UGSc ppp0
...
这个路由应该是正确了, 直接 telnet 看看:
$ telnet 192.168.41.106 3306
Trying 192.168.41.106...
Connected to 192.168.41.106.
Escape character is '^]'.
...
成功
问题回顾
问题是解决了, 可是为什么会出现呢?
回想了一下操作步骤, 发现了, 这个问题原来是开启代理和添加路由的顺序不对引发的
由于加路由时还没有开代理所以 ppp0 网口并不存在, 添加的路由没法找到 192.168.8 的网段, 所以直接绑定了 en0 网口
重复操作一遍,成功重现问题
真相大白, 这个问题要引以为戒, 保证操作网络的步骤顺序
另外上头给的添加静态路由的命令也过于复杂化了, 多了一些多余的参数
直接
sudo route add 192.168.41.0/24 192.168.8.1
就行了
如果网络中 ppp 协议只有一个网口(假设就叫 ppp0),也可以直接用
sudo route add 192.168.41.0/24 ppp0