服务故障定位的一些浅谈

网站的并发量高，容易出现的问题各种各样，针对一些故障有些小技巧，谈不上什么。只是一些拙见。

现在很多网站的模式是：nginx+tomcat 前段nginx做转发（proxy） ——后面的tomcat （java程序）。在高并发的情况下容易出现：

1: 一种是java虚拟机的内存的溢存的现象——用户的体现大多数是：网站的访问速度响应过慢。这个时候java程序处于假死的状态；查看可以用如下命令：top -p pid(java的程序的pid) 查看的内存占用情况。然后和该java虚拟机的实际规定的内存参数进行比较即可，看出java程序是否出现溢存情况。

2：并发量高的情况还容易出现tcp链接过高导致大量的time-wait过高释放不了——表现服务响应过慢。可以用:netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}' 可以查看当前系统的tcp链接情况。其中的TIME-WAIT过高的情况。我一般处理的方法：

（1）前端转发连接到java程序的：重启java程序。

（2）一个是前端硬件的负载连接到本地服务器的转发：重启nginx

有的时候出现重启不能释放掉TIME-WAIT连接。一般处理的方法把前端的负载均衡对后面的转发的IP的把其中TIME-WAIT过高的服务器这个IP去掉，然后关掉nginx ，一般会解决这个问题。我相信很多网站多做了多个节点的部署（负载均衡）。然后把问题的服务器重新加入负载之中，启动nginx。

3：最近出现一个情况就是在机房网线出现问题。这几天很多人老是说调用服务出现比以往的超时很多。处理的方法：在不同的机器对该IP ping下大包查看下，看看是否出现丢包的情况：比如： ping 192.169.1.12 -s 10240 查看下ping的时候的丢包率，如果出现丢包再在问题服务器上: ping 127.0.0.1 -s 10240 看看该服务器的网卡是否有问题，然后判断问题的出现情况。

4：还有出现问题的时候，多想想该问题有几种可能造成这个现象。逐一排查下，一般的问题很容易解决。其中很多命令需要熟悉比如：top(很喜欢这个命令一目了然让你了解你的系统状况)、free -g 、df -h 、uptime 、iostat、netstat等等。说这么多，其实最重要还是监控做好,能够第一时间通知你故障以便做及时处理。还有做好冗余措施。如果一套系统挂掉可以及时切到备用系统上。以免影响提供服务。

--如果出现观点错误请大家，指正。