线上服务器cpu很高怎么排查问题_CPU怎么放

线上服务器cpu很高怎么排查问题_CPU怎么放告警 正在开会,突然钉钉告警声响个不停,同时市场人员反馈客户在投诉系统登不进了,报504错误。查看钉钉上的告警信息,几台业务服务器节点全部报CPU超过告警阈值,达100%。 赶紧从会上下来,SSH登录

记一次线上服务CPU 100%的处理过程

告警

正在开会,突然钉钉告警声响个不停,同时市场人员反馈客户在投诉系统登不进了,报504错误。查看钉钉上的告警信息,几台业务服务器节点全部报CPU超过告警阈值,达100%。

赶紧从会上下来,SSH登录服务器,使用 top 命令查看,几个Java进程CPU占用达到180%,190%,这几个Java进程对应同一个业务服务的几个Pod(或容器)。

定位

  1. 使用 docker stats 命令查看本节点容器资源使用情况,对占用CPU很高的容器使用 docker exec -it <容器ID> bash 进入。

  2. 在容器内部执行 top 命令查看,定位到占用CPU高的进程ID,使用 top -Hp <进程ID> 定位到占用CPU高的线程ID。

  3. 使用 jstack <进程ID> > jstack.txt 将进程的线程栈打印输出。

  4. 退出容器, 使用 docker cp <容器ID>:/usr/local/tomcat/jstack.txt ./ 命令将jstack文件复制到宿主机,便于查看。获取到jstack信息后,赶紧重启服务让服务恢复可用。

  5. 将2中占用CPU高的线程ID使用 pringf "%x " <线程ID> 命令将线程ID转换为十六进制形式。假设线程ID为133,则得到十六进制85。在jstack.txt文件中定位到 nid=0x85的位置,该位置即为占用CPU高线程的执行栈信息。如下图所示,

jstack

  1. 与同事确认,该处为使用一个框架的excel导出功能,并且,导出excel时没有分页,没有限制!!!查看SQL查询记录,该导出功能一次导出50w条数据,并且每条数据都需要做转换计算,更为糟糕的是,操作者因为导出时久久没有响应,于是连续点击,几分钟内发起了10多次的导出请求。。。于是,CPU被打满,服务崩溃了,我也崩溃了。。

解决

对于此类耗资源的操作,一定要做好相应的限制。比如可以限制请求量,控制最大分页大小,同时可以限制访问频率,比如同一用户一分钟内最多请求多少次。

再发

服务重启后恢复。到了下午,又一台服务器节点CPU告警,依前面步骤定位到占用CPU高的线程,如下

"GC task thread#0 (ParallelGC)" os_prio=0 tid=0x00007fa114020800 nid=0x10 runnable 

"GC task thread#1 (ParallelGC)" os_prio=0 tid=0x00007fa114022000 nid=0x11 runnable 

代码100分

使用命令 jstat -gcutil <进程ID> 2000 10 查看GC情况,如图

jstat

发现Full GC次数达到1000多次,且还在不断增长,同时Eden区,Old区已经被占满(也可使用jmap -heap <进程ID>查看堆内存各区的占用情况),使用jmap将内存使用情况dump出来,

代码100分jmap -dump:format=b,file=./jmap.dump 13

退出容器,使用 docker cp <容器ID>:/usr/local/tomcat/jmap.dump ./ 将dump文件复制到宿主机目录,下载到本地,使用 MemoryAnalyzer(下载地址:https://www.eclipse.org/mat/downloads.php )打开,如图

jmap-mat

如果dump文件比较大,需要增大MemoryAnalyzer.ini配置文件中的-Xmx值

发现占用内存最多的是char[], String对象,通过右键可以查看引用对象,但点开貌似也看不出所以然来,进入内存泄露报告页面,如图

mat-leak-suspects

该页面统计了堆内存的占用情况,并且给出疑似泄露点,在上图中点开“see stacktrace”链接,进入线程栈页面,

mat-thread-stack

似曾熟悉的画面,还是跟excel导出有关,数据太多,导致内存溢出。。。于是GC频繁,于是CPU爆了。根源还是同一个。

总结

本文以处理一次线上服务CPU 100%的实战过程示例了在遇到Java服务造成服务器CPU消耗过高或内存溢出的一般处理方法,希望对大家定位线上类似问题提供参考。同时,开发实现功能时需要考虑的更深远一些,不能停留在解决当前的场景,需要考虑数据量不断增大时,你的实现是否还能适用。俗话说,初级程序员解决当前问题,中级程序员解决两年后的问题,高级程序员解决五年后的问题,_


[转载请注明出处]
作者:雨歌
欢迎关注作者公众号:半路雨歌,查看更多技术干货文章
qrcode

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/7476.html

(0)
上一篇 2023-03-19
下一篇 2023-03-19

相关推荐

  • 结束数据库会话期间(踢出用户)[亲测有效]

    结束数据库会话期间(踢出用户)[亲测有效]–可以使用这堆,查询出正在使用的会话期间,然后结束某个会话id USE master go SELECT * from sysprocesses where dbid in (select dbi…

    2023-02-15
    146
  • b+树原理_B+树的特点

    b+树原理_B+树的特点作为目前数据库引擎的两种主要数据结构,LSM-tree和B+-tree在业界已经有非常广泛的研究。相比B+-tree,LSM-tree牺牲一定的读性能以换取更小的写放大以及更低的存储成本,但这必须建立

    2023-05-21
    147
  • 优化数值计算:Python实现正弦函数的快速计算

    优化数值计算:Python实现正弦函数的快速计算在数值计算领域中,正弦函数是非常常见的一个函数,无论从理论研究还是实际应用中都具有重要意义。正弦函数的计算是一项基本任务,如何快速、准确地计算正弦函数一直是计算机领域的一大挑战。Python作为一门高级编程语言,在数学计算和科学计算方面具有广泛的应用和良好的性能表现。因此使用Python实现正弦函数的快速计算将会非常的有意义。

    2024-03-17
    86
  • 第09期:有关 MySQL 字符集的乱码问题「终于解决」

    第09期:有关 MySQL 字符集的乱码问题「终于解决」相信大家通过前几篇文章,已经了解了 MySQL 字符集使用相关注意事项。那么数据乱码问题在这儿显得就非常简单了,或许说可能不会出现这样的问题。 数据之所以会乱码,在 MySQL 里无非有以下几类情况…

    2023-03-25
    156
  • Python A Min:快速高效的数据分析工具

    Python A Min:快速高效的数据分析工具Python一直以来都是数据科学家、数据工程师和分析师的首选编程语言之一。它易于学习,支持大量的第三方包和库,而且最重要的是,Python能够以更快捷、更高效、更灵活的方式进行数据处理和分析。

    2024-03-01
    98
  • Python列表拼接操作详解

    Python列表拼接操作详解列表是Python中最常用的数据类型之一,它允许我们将多个元素组织在一起,用于存储和操作数据。而列表拼接操作则是对多个列表进行合并或添加操作的一种常见方式。本文将从多个方面对Python列表拼接操作进行详解。

    2024-05-14
    66
  • 618 Tech Talk|高并发场景下的数据访问速度如何保障?「终于解决」

    618 Tech Talk|高并发场景下的数据访问速度如何保障?「终于解决」云妹导读: 达达集团618迎来了“达达物流”和“京东到家”双平台业绩新高,京东智联云云缓存Redis保障了京东到家在大促期间高并发场景下的数据访问速度。那Redis是什么?云上缓存Redis概况?京…

    2023-03-15
    145
  • 「2021」高频前端面试题汇总之JavaScript篇(上)「终于解决」

    「2021」高频前端面试题汇总之JavaScript篇(上)「终于解决」2021 高频前端面试题汇总之JavaScript篇,前端面试题汇总系列文章的JavaScript篇,长期更新,欢迎收藏、点赞!

    2023-03-02
    122

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注