目录
最近在维护公司线上的服务器,排查了一些问题,所以做一个总结。有一段时间,线上环境变得很卡,客户端请求很多都报超时,因为线上没有良好的apm监控,所以只能通过流量高峰期和日志去排查问题。通过排查,发现数据库的慢查询日志在比之间的暴涨了十倍,然后发现,memcache服务器(8核)负载很高,cpu一直在50%的左右,原因就是memcache服务器内存用完,导致内存的淘汰十分频繁,这样就导致很多请求落到数据库。下面说下主要的排查思路和用到的工具
服务的性能主要看的就是四大件:cpu、内存、磁盘、网络。排查过程的重要程度也是有重到轻。
一、CPU和内存问题
我一般使用的就是最常见的top命令和htop命令,因为内存和cpu这个命令都有展示了所以就一起说了,而且内存也比较直观。htop比top更简单方便,现在也在慢慢开始用htop,因为在启动一些应用的时候很多时候命令行非常长,如果实在top命令中因为字符限制,这个命令就不全,不能找到启动这个应用的命令行,就无法定位到这个进程是什么应用,htop可以左右移动,可以完整的看到,我当初也是因为这个功能才用的它。因为两个命令差不多,所以只说下top。
top命令
常用参数: -H 打印具体的线程, -p 打印某个进程 进入后 按数字1 可以切换cpu的图形看有几个核
下面是我的测试环境shell:
top - 14:28:49 up 7 min,  3 users,  load average: 0.08, 0.26, 0.19 Tasks: 221 total,   2 running, 219 sleeping,   0 stopped,   0 zombie %Cpu(s):  5.1 us,  3.4 sy,  0.0 ni, 91.5 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st KiB Mem :   985856 total,    81736 free,   646360 used,   257760 buff/cache KiB Swap:  2094076 total,  1915196 free,   178880 used.   141592 avail Mem 我一般重点关注的指标有:
%Cpu(s): 5.1 us, 3.4 sy, 0.0 wa
这里可以非常直观的看到当前cpu的负载情况,us用户cpu占用时间,sy是系统调用cpu占用时间,wa是cpu等待io的时间,前面两个比较直观,但是第三个其实也很重要,如果wa很高,那么你就该重点关注下磁盘的负载了,尤其是像mysql这种服务器。
load average: 0.08, 0.26, 0.19
cpu任务队列的负载,这个队列包括正在运行的任务和等待运行的任务,三个数字分别是1分钟、5分钟和15分钟的平均值。这个和cpu占用率一般是正相关的,反应的是用户代码,如果超过了内核数,表示系统已经过载。也就是说如果你是8核,那么这个数字小于等于8的负载都是没问题的,我看网上的建议一般这个值不要超过ncpu*2-2为好。
KiB Mem : 985856 total, 81736 free, 646360 used, 257760 buff/cache
内存占用情况,total总内存,free空余内存, used已经分配内存,buff/cache块设备和缓冲区占用的内存,因为Linux的内存分配,如果有剩余内存,他就会将内存用于cache,这样可以较少磁盘的读写提高效率,如果有应用申请内存,buff/cache这部分内存也是可用的,所以正真的剩余内存应该是free+buff/cache
swap
线上服务器一般都是禁用状态,所以不用看这项。
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
这一栏主要是看进程的详情,重点是%CPU %MEM,之前看的是整个服务器的负载,这里是每个进程的负载。
vmstat命令
这个命令和top有很多重叠,其实很多命令之间都有重叠,这个命令我主要会看下system这一栏,in线程中断,cs线程上下文切换是否有异常,还有io这一栏。对top是一个非常好的补充。
root@ubuntu:~# vmstat 2 10 procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----  r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st  1  0 452352 195164  25648 365140   23  199   717   292  166  626  4  3 93  1  0  0  0 452352 195156  25648 365140    0    0     0     0   97  201  0  0 100  0  0  1  0 452352 195156  25648 365140    0    0     0     0   96  197  1  1 99  0  0free命令
查看内存使用状态,因为top命令中已经有了,所以很少使用。
典型问题
java应用出问题一般都是内存和cpu的问题,像cpu飙高,内存不够等是通过这些来发现。一般cpu问题,通过top定位到进程号,然后输入H切换到线程,记住具体的进程号,使用jstack打印java进程的线程栈,jstack输出为十六进制,需要将top的转换成十六进制的然后入找线程经常卡在哪个方法。如果是内存问题,则通过gc日志和jmap输出dump文件。
二、磁盘问题
磁盘问题在mysql服务器中非常常见,很多时候mysql服务器的CPU不高但是却出现慢查询日志飙升,就是因为磁盘出现了瓶颈。还有mysql的备份策略,如果没有监控磁盘空间,可能出现磁盘满了服务不可用的现象。
iostat命令
常用参数: -k 用kb为单位 -d 监控磁盘 -x显示详情 num count 每个几秒刷新 显示次数
这个是我查看磁盘负载的主要工具,也可以显示cpu的负载,不过我一般用iostat -kdx 2 10,下面是我测试环境执行情况:
root@ubuntu:~# iostat -kdx 2 10 Linux 4.13.0-38-generic (ubuntu)    11/18/2018  _x86_64_    (1 CPU) Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util sda              24.75   196.05  121.66    9.75  2481.33   961.29    52.40     0.44    3.33    1.12   30.95   0.51   6.71 scd0              0.00     0.00    0.02    0.00     0.08     0.00     7.00     0.00    0.25    0.25    0.00   0.25   0.00 我一般重点关注的指标有:
rkB/s和wkB/s
分别对应读写速度
avgqu-sz
读写队列的平均请求长度,可以类比top命令的load average
await r_await w_await
