大型网站 --- 排错思路

大型网站排错( 适用于网站访问不到,应用服务访问不到,设备宕机 等等 )

硬件级--系统级--应用服务级--网络级


服务器硬件问题:

1、网线故障--丢包--失联  ==> 更换网线      ethtool+网卡名

怎么样去判断一个服务器是否丢包 ???

登录服务器然后ping 网关。(1k - 5k 次)

网线线序:橙白 橙 绿白 蓝 蓝白 绿 棕白 棕 ---> 568B          568A ---> 1 3  2 6 对调

2、板载网卡故障--->更换主板

万兆网卡--外接的网卡--> 安装驱动(万兆网卡驱动)-->使用光纤+模块(无光对有光,有光对无光)

万兆网卡协商速率是 10000m/s

3、CPU (机器里有几个CPU) 1个CPU 机器宕机  2个CPU 报错( CPU1 error or  CPU2 error )

CPU 的右上角有一个三角形缺口,和服务器的CPU 的槽位相对应,防止CPU 放错

4、服务器品牌 DellR 710  IBM  HP  INSPUR  GD  Lenovo  [h3c]  广联达

5、内存报错MEM-( DIMM_A1 error  、 DIMM_B1 error ) 

内存如果出现故障会导致什么现象:自动重启。( 无缘无故自动重启,-- crontab ---> rc.local ---> 开机启动的脚本---> 看看内存  free -m )

现象2:卡在F1 界面要按F1 才能过去,进入系统。

解决方法:更换内存或者插拔内存 ( 同型号 同容量 )

6、电源问题-->1 单电  2 双电    --> 冗余工作方式 不同型号及品牌的服务器电源冗余工作方式是不一样的

电源1-->工作        电源1-->工作

电源2-->工作        电源2-->备用    1坏 2顶上(2需要启动时间,服务器会重新启动)

电源分为 500W   570W   650W   750W  瓦特

根据旧的型号去换。不能随便换。

判断电源故障:

1.外观 灯(绿)(红)(不亮)故障   

2.管理卡日志PSU1 error    PSU2 error(电源) 

3.开机自检报错

主板故障

现象:开机黑屏  开机死机

更换主板,不影响数据(这些操作由机房值守或厂家来做) 提前:a有值守    b服务器在报修期内(专业点:在保)

RAID 卡故障(阵列卡)

现象:无法显示硬盘(所有),及不能Ctrl+R 进入 raid 卡

解决方法:插拔raid卡 或者 更换raid卡。(先插后换)

硬盘背板故障

现象:硬盘灯全部不亮

解决方法:更换硬盘背板及SAS 线

如单个硬盘灯不亮或者为红:硬盘故障

风扇  现象:不转了

管理卡日志:fan1 error    fan3 error

解决方法:更换

-------------------------------------------------------------------

系统问题:

------>系统级别参数优化(系统优化)

(内核参数调优)

账号问题

升级内核失败(内核调参)

内核调参是系统优化里的东西

( 升级内核,不要删除其他内核,防止内核升级失败,可以用其他内核启动机器。)

网卡配置文件问题

解决方法:查看及修改和重启网络 (/etc/sysconfig/---)    ifcfg-eth0 --- ifcfg-eth3  是否有IP地址

网络层VLAN,系统(IP),本地都没有问题,就是ping不通服务器。

a 95%:机器没有路由,需要添加路由

b 5% :防火墙过滤规则,不允许你的IP 地址ping 服务器

添加路由的两种方法:

路由 route -n 添加默认路由或者静态路由(重启就没了)

防火墙(默认关闭)selinux(disabled)

1 临时添加及删除及查看本机路由

route add -net 10.18.45.0 netmask 255.255.255.0 gw 10.0.18.45.1    添加

route del -net 10.18.45.0 netmask 255.255.255.0 gw 10.0.18.45.1    删除

2 永久添加路由

cat /etc/rc.local

/sbin/route add -net 10.0.0.0/8 gw 172.168.23.1

如果做了bond,还要查看bond 配置文件及模块加载文件

系统丢失( 多发生于大批量自动安装系统,安装失败后 )

显示:DHCP....................................

解决方法:重装系统

文件系统损坏

现象:卡在 control +d  界面让你输入root 密码

解决方法:输入root 密码,如果没有请破解。输入密码后,执行fsck 修复命令  xfs_repire   fsck -y

---------------------------------------------------------------------------

应用级服务问题:

Apache  Nginx  MySQL  zabbix 等等...

      云服务器搭建如果遇到问题,查看进程及端口都没问题,但就是得不到想访问的页面,就是云厂商的安全策略问题,所有在云服务器上搭建的服务,必须放行端口。在后台安全策略中调整。

  在云服务器上搭建一些web服务(例如:公司网站)

a 正常搭建支持http 协议--->网站安全升级成加密支持https 协议--->这个时候你在baidu搜索你的公司,跳转页面还是http 而没有跳转到https 加密页面,是什么原因?

1、你配错了。

2、你公司的页面对于baidu来说就是一个网站快照,baidu没有更新baidu快照,所以导致用户不跳转,联系完baidu相关人员,问题马上解决。

  云服务器,在进行任何版本回滚,版本升级,数据库升级--迁移=====操作之前,切记:一定要先做快照,在操作。

1、查看进程-->重启服务:服务起不开 --> 80%

配置文件的问题(set list)--->进程用户--->查看系统日志

查看端口,查看端口是否被占用

如果还起不来,将所有包含服务的进程杀死

modb ng-gfs 3方模块

注意各个应用服务的启动顺序

最简单及最重要及最容易被忽略的问题:

搭建服务的环境问题及环境依赖包版本的问题。PHP(版本)

PHP版本如果过低会直接导致页面是代码。

在线上修改配置文件之前,一定要备份,包括网卡配置文件。

NFS--->网络共享存储出现问题--->如果是挂载页面代码,也访问不到.

mysql 遇到报错--->查看log日志。

部署集群服务-->明确环境(操作系统版本,应用服务版本)-->现场环境(物理机--或者云主机)-->明确集群关系-->画出拓扑图-->细节:IP地址 主机名称

内网IP地址如果不够用,联系网络工程师去划分新网段。

公网IP地址不够用,向公司申请花钱购买。

在公司里必须修改主机名称。

源码安装(rpm安装)

机器之间的连通性测试,解析地址,每个业务使用多少台机器,做什么架构,要根据你的业务量而定,没有死的规范。

a 企业中搭建负载均衡业务的服务器都是通过光纤+模块+万兆网卡  直连核心

b 负载均衡服务器必须有冗余(双数)。并且物理位置绝对不可以放到同一组机柜及同一个交换机下。

----------------------------------------------------------------------------

网络问题:

服务器ping不通网关,除了服务器硬件问题,一定是交换机端口VLAN 或者(端口没有开启)交换机本身问题,VLAN 仓库接入到核心的链路问题。

网关一般是:X.X.X.1  或者 129 (极少)

网络硬件问题及网络配置问题

网络硬件问题:

1 端口是否开启 noshutdown

2 是否划分正确的VLAN,每一个IP地址段都有自己的 VLAN ID 

192.168.31.X -------> VLAN ID 28

10.10.10.X     -------> VLAN ID 30

3 如果配置bond 是否交换机端口也进行绑定配置。

从本地ping 服务器 --->1 ping 通

                              --->2 ping 不通

A 意味着网络OK (交换机)

B 服务器系统 (包括路由,IP)OK

C 尝试ssh 登录 ----->1 能登录

                          ----->2 不能登录

a1 ssh登录服务器查看服务及端口占用情况

a2 远程管理卡登录或者机房现场登录都需要root密码,如果没有需要破解

登录机器后,【查看ssh服务(重启),让我们能够正常登录机器】

二 ping不通

现场登录或者管理卡登录,登录后

1、ifconfig | grep "inet"  查看IP地址

b1 有IP地址--->ping网关--->

c1 ping网关通了---意味着网络OK---一定是路由的问题,不是服务器ping 通网关,你在本地就一定能ping 通服务器的。剔除掉(防火墙规则)

c2 ping 网关不通---查看网口(网线)连接关系及交换机硬件及交换机端口问题

b2 没有IP地址

---网线是否插了,使用ethtool ent0

---查看及修改网卡配置文件并重启网络服务---网卡起不来(以外接网卡最多)外接网卡查看驱动。管理卡日志是在网页上查看。

云服务器:所有应用服务都是购买,自带高可用秒级恢复功能。遇到问题直接提工单,找阿里云(其他云供应商去解决)。

云服务器可以恢复快照,遇到重要数据丢失,请尽量联系客服恢复快照。

偶尔出现云服务器连不上,请检查本地网络,或者切换本地网络

1、自己访问下页面,确认不是别人本地网络问题

2、ping 服务器IP,看看是否能登录

2.1、不能登录-->现场是否有值守人员,是否有远程管理卡。

login 破解 -- ip a --- dns --- route -n  账号 ID  ping网关 --- 通或者不通

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,377评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,390评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,967评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,344评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,441评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,492评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,497评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,274评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,732评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,008评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,184评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,837评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,520评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,156评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,407评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,056评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,074评论 2 352