Elasticsearch寫入瓶頸導(dǎo)致skywalking大盤空白
前言
繼上次skywalking出故障《解析Arthas協(xié)助排查線上skywalking不可用問題》不到一個月,線上skywalking又出毛病了。又是大盤空白,trace列表最近的數(shù)據(jù)都查詢不出來,但是時間稍久的數(shù)據(jù)就能查詢出來,如一天前的數(shù)據(jù)有,一個小時前的數(shù)據(jù)就沒有,這個只是表象,最終查明癥結(jié)是ES的服務(wù)寫入瓶頸,導(dǎo)致寫入寫入數(shù)據(jù)的線程阻塞導(dǎo)致的。下面是排錯過程以及解決方案說明。
問題定位
工具還是那個工具Arthas,不了解的可以翻閱我之前的博文,這里不多說明Arthas。不過這次我們應(yīng)用了一個新的進(jìn)階指令thread,它可以查看當(dāng)前線程信息,查看線程的堆棧。當(dāng)skywalking大盤沒有數(shù)據(jù)時,使用如下指令:
thread -b
THREAD -B, 找出當(dāng)前阻塞其他線程的線程
有時候我們發(fā)現(xiàn)應(yīng)用卡住了, 通常是由于某個線程拿住了某個鎖, 并且其他線程都在等待這把鎖造成的。 為了排查這類問題, arthas提供了thread -b, 一鍵找出那個罪魁禍?zhǔn)住W詈蟮玫饺缦碌慕Y(jié)果:
如上圖,相信大家已經(jīng)看到問題所在了,重點(diǎn)在紅色字體箭頭指向的部分,不得不說Arthas做的太棒了。癥結(jié)就是ES的批量寫入失敗線程阻塞了。后從社區(qū)了解到是因為ES寫入瓶頸,導(dǎo)致skywalking在批量寫入索引的時候線程阻塞了。導(dǎo)致阻塞的那段時間的數(shù)據(jù)都沒有寫到ES,然后查詢是沒有問題的,表象就是skywalking的大盤空白也查詢不到近期的數(shù)據(jù)了。
解決方案
臨時方案,SKYWALKING參數(shù)調(diào)優(yōu)
skywalking寫入ES的操作是使用了ES的批量寫入接口。我們可以調(diào)整這些批量的維度。盡量降低ES索引的寫入頻率,如:
elasticsearch: clusterNodes: 192.168.20.221:9200 indexShardsNumber: 2 indexReplicasNumber: 0 # Batch process setting, refer to https://www.elastic.co/guide/en/elasticsearch/client/java-api/5.5/java-docs-bulk-processor.html bulkActions: 4000 # Execute the bulk every 2000 requests bulkSize: 40 # flush the bulk every 20mb flushInterval: 30 # flush the bulk every 10 seconds whatever the number of requests concurrentRequests: 2 # the number of concurrent requests receiver-register: default: receiver-trace: default: bufferPath: ../trace-buffer/ # Path to trace buffer files, suggest to use absolute path bufferOffsetMaxFileSize: 500 # Unit is MB bufferDataMaxFileSize: 1000 # Unit is MB bufferFileCleanWhenRestart: false
調(diào)整bulkActions默認(rèn)2000次請求批量寫入一次改到4000次。批量刷新從20M一次到40M一次。這種配置調(diào)優(yōu)確實(shí)生效了,重啟服務(wù)后兩三天了都沒有出現(xiàn)過ES寫入阻塞的問題。不過這種設(shè)置只是暫時的,你只能期望流量不突發(fā),或者應(yīng)用不增加。一旦遇到突發(fā)流量和應(yīng)用的增加,ES寫入瓶頸還是會凸顯出來。而且參數(shù)設(shè)置過大帶來了一個新的問題,就是數(shù)據(jù)寫入延時會比較大,一次服務(wù)交互發(fā)生的trace隔好久才能在skywalking頁面上查詢到。所以最終解決方案是優(yōu)化ES的寫入性能。
最終方案-優(yōu)化ES的寫入性能
如果是自建Elasticsearch服務(wù),在基礎(chǔ)大數(shù)據(jù)團(tuán)隊負(fù)責(zé)搜索引擎 Elasticsearch 優(yōu)化和開發(fā),博文里分享了很多可調(diào)優(yōu)配置的參數(shù)。不過我們這邊綜合運(yùn)維人力和支出方面的考慮,決定采用阿里云提供的Elasticsearch,不過這帶來了一個新的問題,阿里云的ES服務(wù)不論內(nèi)外網(wǎng)都需要Http Basic認(rèn)證,但是目前的skywalking并沒有提供這種支持。
結(jié)語
skywalking是一款非常不錯的開源apm產(chǎn)品,很多功能特性甚至可以和商業(yè)的apm產(chǎn)品一爭高下,比如trace查詢等功能。我們線上的skywalking沒有全面鋪開去接入應(yīng)用,但是問題還是發(fā)生了不少,希望這些線上的踩坑排坑經(jīng)驗?zāi)軒砀嗟膮⒖純r值。關(guān)于Elasticsearch 帶Http Basic 認(rèn)證skywalking不支持的問題,將在下文詳描述去解決
以上就是Elasticsearch寫入瓶頸導(dǎo)致skywalking大盤空白的詳細(xì)內(nèi)容,更多關(guān)于Elasticsearch寫入skywalking空白的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
ssh框架實(shí)現(xiàn)文件上傳下載實(shí)例代碼
本篇文章主要介紹了ssh框架文件上傳下載實(shí)例代碼,實(shí)例分析了Spring+struts+Hibernate的使用技巧,非常具有實(shí)用價值,需要的朋友可以參考下。2017-03-03MyBatis實(shí)現(xiàn)Mysql數(shù)據(jù)庫分庫分表操作和總結(jié)(推薦)
這篇文章主要介紹了MyBatis實(shí)現(xiàn)Mysql數(shù)據(jù)庫分庫分表操作和總結(jié),需要的朋友可以參考下2017-08-08關(guān)于SpringCloud的微服務(wù)以及組件詳解
這篇文章主要介紹了關(guān)于SpringCloud的微服務(wù)以及組件詳解,是一個更高層次的、 架構(gòu)視角的綜合性大型項目, 他的目標(biāo)是構(gòu)建一套標(biāo)準(zhǔn)化的微服務(wù)解決方案,需要的朋友可以參考下2023-05-05聊聊Spring data jpa @query使用原生SQl,需要注意的坑
這篇文章主要介紹了Spring data jpa@query使用原生SQl,需要注意的坑,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2021-08-08springboot 項目使用jasypt加密數(shù)據(jù)源的方法
Jasypt 是一個 Java 庫,它允許開發(fā)者以最小的努力為他/她的項目添加基本的加密功能,而且不需要對密碼學(xué)的工作原理有深刻的了解。接下來通過本文給大家介紹springboot 項目使用jasypt加密數(shù)據(jù)源的問題,一起看看吧2021-11-11