阿里云日志服務(wù)日志過濾器配置
日志收集流程
對于日志收集的客戶端,其work pipeline通常包括三個過程:Input,Process,Output。
- Input: 適配各類日志接入源,目前Logtail支持文本文件、Syslog(TCP流式)兩種形式數(shù)據(jù)寫入。
- Process:自定義日志處理邏輯,常見的有:日志切分、日志編碼轉(zhuǎn)換、日志結(jié)構(gòu)化解析、日志過濾等等。
- Output:定義日志輸出,例如Logtail以HTTP協(xié)議寫數(shù)據(jù)到日志服務(wù)。
今天要介紹Logtail在日志處理階段的兩個新功能:轉(zhuǎn)碼、過濾
日志轉(zhuǎn)碼
日志服務(wù)限制數(shù)據(jù)的字符編碼為UTF-8,這也是Logtail在發(fā)送數(shù)據(jù)階段對于字符編碼的要求。
但可能一些較老的應(yīng)用組件在處理中文的時候,會打印GBK編碼的數(shù)據(jù)到日志文件。
這種情況下,你可以在Logtail配置的高級選項中,選擇日志文件編碼為”GBK“。那么,Logtail在采集日志時,會對日志內(nèi)容先做GBK到UTF-8的編碼轉(zhuǎn)換,再進行后續(xù)處理。
Logtail目前支可以支持UTF-8和GBK兩種文件編碼格式。對于GBK格式,Logtail使用Linux系統(tǒng)的iconv API,編碼轉(zhuǎn)換過程中會額外消耗機器計算資源。
問:如何判斷我的GBK日志文件是否可以通過Logtail收集?
答:在Linux Shell下使用iconv命令進行轉(zhuǎn)碼測試,假設(shè)日志文件名為gbk.log,執(zhí)行命令:
iconv -f GBK -t UTF-8 gbk.log -o gbk_to_utf8.log
如果執(zhí)行成功則說明文件編碼是GBK;如執(zhí)行失?。愃苅conv: illegal input sequence at position 2743錯誤),則說明文件不是合法的GBK編碼,無法通過Logtail做編碼轉(zhuǎn)換,請嘗試調(diào)整應(yīng)用輸出的日志文件編碼格式為UTF-8。
日志過濾
舉一個web服務(wù)器的例子,Nginx每時每刻接收大量請求,并在access.log記錄這些請求:
10.200.98.220 - - [25/May/2016:14:55:42 +0800] "HEAD sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 200 37 "-" "aliyun-sdk-java" 13605 10.200.98.220 - - [25/May/2016:14:55:42 +0800] "POST sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 404 37 "-" "ali-log-logtail" 13608 10.200.98.220 - - [25/May/2016:14:55:42 +0800] "PUT sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 401 37 "-" "aliyun-sdk-java" 13609 10.200.98.220 - - [25/May/2016:14:55:42 +0800] "PUT sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 502 37 "-" "aliyun-sdk-java" 13610 10.200.98.220 - - [25/May/2016:14:55:42 +0800] "GET sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 401 37 "-" "cpp-sdk-0.6" 13612 10.200.98.220 - - [25/May/2016:14:55:42 +0800] "PUT sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 400 37 "-" "cpp-sdk-0.6" 13614 10.200.98.220 - - [25/May/2016:14:55:42 +0800] "POST sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 400 37 "-" "ali-log-logtail" 13615 10.200.98.220 - - [25/May/2016:14:55:42 +0800] "HEAD sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 200 37 "-" "cpp-sdk-0.6" 13616
對于問題調(diào)查的場景,HTTP 200請求的日志量通常是巨大的,如果我們希望降低日志存儲的成本,只上傳發(fā)生異常的請求日志,應(yīng)該怎么來做呢?
在今天,你可以打開Logtail配置的高級選項,設(shè)置過濾器來解決數(shù)據(jù)過濾的問題。
如上圖所示,分別對url字段和status字段設(shè)置了兩個過濾器。指定字段Key存在且Value符合正則表達式的日志會被保留。
定義多個過濾器的時候,判斷條件是“與”的關(guān)系,滿足所有過濾器設(shè)置的日志是合法的,否則被丟棄。
對于一條日志,當url字段與"(POSTs.)|(GETs.)"匹配成功且status字段與"[345]d+"匹配成功的時候(只采集POST、GET請求且狀態(tài)碼非200的日志),Logtail將該日志上傳至日志服務(wù),如下圖所示:
如果設(shè)置過濾器的字段名在日志里找不到,那么這條日志也是不合法的,需要被丟棄。默認情況下,用戶沒有任何過濾器設(shè)置的情況下,所有被Logtail讀取并解析成功的日志數(shù)據(jù)都會寫入日志服務(wù)。
實例配置:
只收集匹配到 topic 為 action 或者 plugin 的日志
更多關(guān)于阿里云日志服務(wù)日志過濾器配置技術(shù)文章請查看下面的相關(guān)鏈接
- 阿里云服務(wù)器ping不通解決辦法(云服務(wù)器搭建完環(huán)境訪問不了ip解決辦法)
- 阿里云LNMP 云服務(wù)器重啟后網(wǎng)站打不開解決方法
- 阿里云linux服務(wù)器下安裝Apache的簡單方法
- 阿里云主機Windows 2008服務(wù)器硬盤分區(qū)和格式化圖文教程
- 阿里云云服務(wù)器Windows 2008下IIS添加網(wǎng)站綁定域名圖文教程
- 阿里云云服務(wù)器Windows 2008中的FTP配置圖文教程
- 阿里云服務(wù)器CentOS服務(wù)器初始化設(shè)置步驟
- Linux使用scp遠程傳輸命令進行服務(wù)器文件互傳(阿里云服務(wù)器)
- 阿里云PHP SMS短信服務(wù)驗證碼發(fā)送方法
- 阿里云centos7服務(wù)器搭建nginx web服務(wù)經(jīng)驗示例
- 搭建阿里云ecs服務(wù)器之安裝圖形化界面的方法
- 阿里云服務(wù)器實現(xiàn)域名解析步驟(小白教程)
- .net core 使用阿里云分布式日志的配置方法
相關(guān)文章
DELL DOSA 6.X 服務(wù)器引導光盤Dell Systems Build and Update Utility I
戴爾系統(tǒng)構(gòu)建和更新實用程序是可引導的實用程序,適用于單一服務(wù)器操作系統(tǒng)安裝、預(yù)加載操作系統(tǒng)固件更新和預(yù)加載操作系統(tǒng)系統(tǒng)配置2016-04-04cwRsync 錯誤 uid/gid 4294967295 (-1) is impossible to set on
今天在同步文件的時候,因為用了4.3的新版本,出現(xiàn)了這個問題,cwRsync 錯誤 uid/gid 4294967295 (-1) is impossible to set on,后來參考下面的方法解決了,特分享一下方便需要的朋友2016-08-08Tornado Web服務(wù)器中處理空白字符的解決方案
這篇文章主要介紹了Tornado Web服務(wù)器中處理空白字符的解決方案,本文通過修改Tornado源碼解決這個問題,需要的朋友可以參考下2015-01-01