利用shell命令統(tǒng)計日志的方法詳解
前言
大家都知道,通過使用 shell 命令可以很方便地對日志進行統(tǒng)計和分析,當服務有異常的時候,需要去排查日志,那么掌握一種統(tǒng)計日志的技巧就是必不可少的了。
假設有一個包含下面內(nèi)容的日志文件 access.log。我們以統(tǒng)計這個文件的日志為例。
date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=something | status=200 | time=9.703 | bytes=129 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-" date=2017-09-23 00:00:00 | ip=100.109.222.3 | method=HEAD | url=/api/foo/healthcheck | status=200 | time=0.337 | bytes=10 | referrer="-" | user-agent="-" | cookie="-" date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=anything | status=200 | time=8.829 | bytes=466 | referrer="-" | user-agent="GuzzleHttp/6.2.0 curl/7.19.7 PHP/7.0.15" | cookie="-" date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=everything | status=200 | time=9.962 | bytes=129 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-" date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=nothing | status=200 | time=11.822 | bytes=121 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-"
不同的服務對應的日志可能不一樣,本文使用示例日志的格式是:
date | ip | method | url | status | time | bytes | referrer | user-agent | cookie
注意:mac 系統(tǒng)和 linux 系統(tǒng)中的命令行為可能不同,以下命令請在 linux 系統(tǒng)中使用
排除特殊日志
統(tǒng)計日志時,我們可能不關(guān)心 HEAD 請求,或者只關(guān)心 GET 請求,這里首先需要篩選日志,可以使用 grep 命令。-v 的含義是排除匹配的文本行。
grep GET access.log # 只統(tǒng)計 GET 請求 grep -v HEAD access.log # 不統(tǒng)計 HEAD 請求 grep -v 'HEAD\|POST' access.log # 不統(tǒng)計 HEAD 和 POST 請求
查看接口耗時情況
我們可以將每行的 time 匹配出來,然后做一個排序。使用 awk 的 match 方法可以匹配正則:
awk '{ match($0, /time=([0-9]+\.[0-9]+)/, result); print result[1]}' access.log
awk 命令使用方法如下:
awk '{pattern + action}' {filenames}
我們實際上只用到了 action:match($0, /time=([0-9]+\.[0-9]+)/, result); print result[1]
這一段。
match 方法接收三個參數(shù):需要匹配的文本、正則表達式、結(jié)果數(shù)組。$0 代表 awk 命令處理的每一行,結(jié)果數(shù)組是可選的,因為我們要拿到匹配結(jié)果所以這里傳入了一個 result 數(shù)組,用來存儲匹配后的結(jié)果。
注意這里的正則我沒有使用 \d 來表示數(shù)字,因為 awk 指令默認使用 “EREs",不支持 \d 的表示,具體請看 linux shell 正則表達式(BREs,EREs,PREs)差異比較。
result 數(shù)組實際上和 javascript 里的結(jié)果數(shù)組很像了,所以我們打印出第二個元素,即匹配到的內(nèi)容。執(zhí)行完這行命令后結(jié)果如下:
9.703 0.337 8.829 9.962 11.822
當然實際上一天的日志可能是成千上萬條,我們需要對日志進行排序,且只展示前 3 條。這里使用到 sort 命令。
sort 命令默認從小到大排序,且當作字符串排序。所以默認情況下使用 sort 命令之后 "11" 會排在 "8" 前面。那么需要使用 -n 指定按數(shù)字排序,-r 來按從大到小排序,然后我們查看前 3 條:
awk '{ match($0, /time=([0-9]+\.[0-9]+)/, result); print result[1]}' access.log | sort -rn | head -3
結(jié)果:
11.822 9.962 9.703
查看耗時最高的接口
當然我們一般不會只查看接口耗時情況,還需要把具體日志也打印出來,上面的命令就不能滿足要求了。
awk 的打印默認是按空格分隔的,意思是 2017-09-23 GET 這一行如果使用 awk '{print $1}' 會打印出 "2017-09-23",類似地,$2 會打印出 GET。
根據(jù)日志特征,我們可以使用 | 來作為分隔符,這樣就能打印出各個我們感興趣的值了。因為我們想找出耗時最高的接口,那么我們把 time、date 和 url 單獨找出來。
awk 的 -F 參數(shù)用來自定義分隔符。然后我們可以數(shù)一下三個部分按 | 分隔后分別是第幾個:time 是第 6 個、date 是第 1 個、url 是第 4 個。
awk -F '|' '{print $6 $1 $4}' access.log
這樣打出來結(jié)果為:
time=9.703 date=2017-09-23 13:32:50 url=/api/foo/bar?params=something time=0.337 date=2017-09-23 00:00:00 url=/api/foo/healthcheck time=8.829 date=2017-09-23 13:32:50 url=/api/foo/bar?params=anything time=9.962 date=2017-09-23 13:32:50 url=/api/foo/bar?params=everything time=11.822 date=2017-09-23 13:32:50 url=/api/foo/bar?params=nothing
因為我們想按 time 來排序,而 sort 可以按列來排序,而列是按空格分隔的,我們目前第一列是 time=xxx,是不能排序的,所以這里要想辦法把 time= 給去掉,因為我們很雞賊地把耗時放在了第一列,那么其實再通過 time= 進行分隔一下就行了。
awk -F '|' '{print $6 $1 $4}' access.log | awk -F 'time=' '{print $2}'
結(jié)果:
9.703 date=2017-09-23 13:32:50 url=/api/foo/bar?params=something 0.337 date=2017-09-23 00:00:00 url=/api/foo/healthcheck 8.829 date=2017-09-23 13:32:50 url=/api/foo/bar?params=anything 9.962 date=2017-09-23 13:32:50 url=/api/foo/bar?params=everything 11.822 date=2017-09-23 13:32:50 url=/api/foo/bar?params=nothing
使用 sort 的 -k 參數(shù)可以指定要排序的列,這里是第 1 列;再結(jié)合上面的排序,就能把耗時最高的日志打印出來了:
awk -F '|' '{print $6 $1 $4}' access.log | awk -F 'time=' '{print $2}' | sort -k1nr | head -3
結(jié)果:
11.822 date=2017-09-23 13:32:50 url=/api/foo/bar?params=nothing 9.962 date=2017-09-23 13:32:50 url=/api/foo/bar?params=everything 9.703 date=2017-09-23 13:32:50 url=/api/foo/bar?params=something
統(tǒng)計請求次數(shù)最多的接口
如果需要統(tǒng)計哪些接口每天請求量是最多的,只需要新引入 uniq 命令。
我們已經(jīng)可以通過 grep -v HEAD access.log | awk -F '|' '{print $4}'
來篩選出所有的 url,uniq 命令可以刪除 相鄰 的相同的行,而 -c 可以輸出每行出現(xiàn)的次數(shù)。
所以我們先把 url 排序以讓相同的 url 放在一起,然后使用 uniq -c 來統(tǒng)計出現(xiàn)的次數(shù):
grep -v HEAD access.log | awk -F '|' '{print $4}' | sort | uniq -c
因為示例日志數(shù)量太少,我們假設日志里有多條,那么結(jié)果應該類似下面:
1 url=/api/foo/bar?params=anything 19 url=/api/foo/bar?params=everything 4 url=/api/foo/bar?params=nothing 5 url=/api/foo/bar?params=something
接下來再 sort 即可:
grep -v HEAD access.log | awk -F '|' '{print $4}' | sort | uniq -c | sort -k1nr | head -10
總結(jié)
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學習或者工作能帶來一定的幫助,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。
相關(guān)文章
一天一個shell命令 linux文本操作系列-wc命令詳解
這篇文章主要介紹了一天一個shell命令 linux文本操作系列-wc命令詳解,需要的朋友可以參考下2016-06-06linux 中more、less 和 most 的區(qū)別
more 是一個老式的、基礎的終端分頁閱讀器,它可以用于打開指定的文件并進行交互式閱讀。這篇文章主要給大家介紹linux 中more、less 和 most 的區(qū)別,感興趣的朋友跟隨小編一起看看吧2018-11-11在Linux?中使用?pidstat?命令監(jiān)控進程性能?的操作方法
pidstat是Linux系統(tǒng)中一個用于監(jiān)控各種統(tǒng)計信息的命令行工具,它能夠幫助用戶了解系統(tǒng)中各個進程的資源使用情況,如CPU、內(nèi)存、I/O等,本文介紹了如何安裝pidstat,以及如何使用其不同的選項來監(jiān)控進程的各種性能指標,感興趣的朋友一起看看吧2024-09-09linux shell之控制臺打印各種顏色字體和背景的實現(xiàn)方法
今天小編就為大家分享一篇關(guān)于linux shell之控制臺打印各種顏色字體和背景的實現(xiàn)方法,小編覺得內(nèi)容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧2019-04-04