C++ 實現(xiàn)高性能HTTP客戶端
一、什么是Http Client
Http協(xié)議,是全互聯(lián)網(wǎng)共同的語言,而Http Client,可以說是我們需要從互聯(lián)網(wǎng)世界獲取數(shù)據(jù)的最基本方法,它本質(zhì)上是一個URL到一個網(wǎng)頁的轉(zhuǎn)換過程。而有了基本的Http客戶端功能,再搭配上我們想要的規(guī)則和策略,上至內(nèi)容檢索下至數(shù)據(jù)分析都可以實現(xiàn)了。
繼上一次介紹用Workflow可以10行C++代碼實現(xiàn)高性能HTTP服務(wù),今天繼續(xù)給大家用C++實現(xiàn)一個高性能的Http客戶端也同樣很簡單!
// [http_client.cc] #include "stdio.h" #include "workflow/HttpMessage.h" #include "workflow/WFTaskFactory.h" int main (int argc, char *argv[]) { const char *url = "https://github.com/sogou/workflow"; WFHttpTask *task = WFTaskFactory::create_http_task (url, 2, 3, [](WFHttpTask * task) { fprintf(stderr, "%s %s %s\r\n", task->get_resp()->get_http_version(), task->get_resp()->get_status_code(), task->get_resp()->get_reason_phrase()); }); task->start(); getchar(); // press "Enter" to end. return 0; }
只要安裝好了Workflow,以上代碼即可以通過以下命令編譯出一個簡單的http_client:
g++ -o http_client http_client.cc --std=c++11 -lworkflow -lssl -lcrypto -lpthread
根據(jù)Http協(xié)議,我們執(zhí)行這個可執(zhí)行程序 ./http_client
,就會得到以下內(nèi)容:
HTTP/1.1 200 OK
同理,我們還可以通過其他api來獲得返回的其他Http header和Http body,一切內(nèi)容都在這個 WFHttpTask
中。而因為Workflow是個異步調(diào)度框架,因此這個任務(wù)發(fā)出之后,不會阻塞當前線程,外加內(nèi)部自帶的連接復(fù)用,從根本上保證了我們的Http Client的高性能。
接下來給大家詳細講解一下原理~
二、請求的過程
1. 創(chuàng)建Http任務(wù)
上述demo可以看到,請求是通過發(fā)起一個Workflow的Http異步任務(wù)來實現(xiàn)的,創(chuàng)建任務(wù)的接口如下:
WFHttpTask *create_http_task(const std::string& url, int redirect_max, int retry_max, http_callback_t callback);
第一個參數(shù)就是我們要請求的URL。對應(yīng)的,在一開始的示例中,我們的重定向次數(shù)redirect_max是2次,而重試次數(shù)retry_max是3次。第四個參數(shù)是一個回調(diào)函數(shù),示例中我們用了一個lambda,由于Workflow的任務(wù)都是異步的,因此我們處理結(jié)果這件事情是被動通知我們的,結(jié)果回來就會調(diào)起這個回調(diào)函數(shù),格式如下:
using http_callback_t = std::function<void (WFHttpTask *)>;
2. 填寫header并發(fā)出
我們的網(wǎng)絡(luò)交互無非是請求-回復(fù),對應(yīng)到Http Client上,在我們創(chuàng)建好了task之后,我們有一些時機是處理請求的,在Http協(xié)議里,就是在header里填好協(xié)議相關(guān)的事情,比如我們可以通過Connection來指定希望得到建立Http的長連接,以節(jié)省下次建立連接的耗時,那么我們可以把Connection設(shè)置為Keep-Alive。示例如下:
protocol::HttpRequest *req = task->get_req(); req->add_header_pair("Connection", "Keep-Alive"); task->start();
最后我們會把設(shè)置好請求的任務(wù),通過 task->start();
發(fā)出。最開始的 http_client.cc
示例中,有一個 getchar();
語句,是因為我們的異步任務(wù)發(fā)出后是非阻塞的,當前線程不暫時停住就會退出,而我們希望等到回調(diào)函數(shù)回來,因此我們可以用多種暫停的方式。
3. 處理返回結(jié)果
一個返回結(jié)果,根據(jù)Http協(xié)議,會包含三部分:消息行、消息頭header、消息正文body。如果我們想要獲取body,可以這樣:
const void *body; size_t body_len; task->get_resp()->get_parsed_body(&body, &body_len);
三、高性能的基本保證
我們使用C++來寫Http Client,最香的就是可以利用其高性能。Workflow對高并發(fā)是如何保證的呢?其實就兩點:
純異步;
連接復(fù)用;
前者是對線程資源的重復(fù)利用、后者是對連接資源的重復(fù)利用,這些框架層級都為用戶管理好了,充分減少開發(fā)者的心智負擔(dān)。
1. 異步調(diào)度模式
同步和異步的模式直接決定了我們的Http Client可以有多大的并發(fā)度。為什么呢?通過下圖可以先看看同步框架發(fā)起三個Http任務(wù),線程模型是怎樣的:
網(wǎng)絡(luò)延遲往往非常大,如果我們在同步等待任務(wù)回來的話,線程就會一直被占用。這時候我們需要看看異步框架是如何實現(xiàn)的:
如圖所示,只要任務(wù)發(fā)出之后,線程即可做其他事情,我們傳入了一個回調(diào)函數(shù)做異步通知,因此等任務(wù)的網(wǎng)絡(luò)回復(fù)收完之后,再讓線程執(zhí)行這個回調(diào)函數(shù)即可拿到Http請求的結(jié)果,期間多個任務(wù)并發(fā)出去的時候,線程是可以復(fù)用的,輕松達到幾十萬的QPS并發(fā)度。
2. 連接復(fù)用
我們剛才有提到,只要我們建立了長連接,即可提高效率。為什么呢?因為框架對連接有復(fù)用。我們先來看看如果一個請求就建立一個連接,會是什么樣的情況:
很顯然,占用大量的連接是對系統(tǒng)資源的浪費,而且每次都要做connect以及close是非常耗時的,除了TCP常見的握手以外,許多應(yīng)用層協(xié)議建立連接的過程也會相對復(fù)雜。但使用Workflow就不會有這樣的煩惱,Workflow會在任務(wù)發(fā)出的時候自動查找當前可以復(fù)用的連接,如果沒有才會自動創(chuàng)建,完全不需要開發(fā)者關(guān)心連接如何復(fù)用的細節(jié):
3. 解鎖其他功能
當然,除了以上的高性能以外,一個高性能的Http Client往往還有許多其他的需求,這里可以結(jié)合實際情況與大家分享:
- 1.結(jié)合workflow的串并聯(lián)任務(wù)流,實現(xiàn)超大規(guī)模并行抓?。?/li>
- 2.按順序或者按指定速度請求某個站點的內(nèi)容,避免請求過猛被封禁;
- 3.Http Client遇到redirect可以自動幫我做跳轉(zhuǎn),一步到位請求到最終結(jié)果;
- 4.希望通過proxy代理訪問
HTTP
與HTTPS
資源;
以上這些需求,要求框架對于Http任務(wù)的編排有超高的靈活性,以及對實際需求(比如redirect、ssl代理等功能)有非常接地氣的支持,這些Workflow都已經(jīng)實現(xiàn)。
項目地址
https://github.com/sogou/workflow
到此這篇關(guān)于C++ 實現(xiàn)高性能HTTP客戶端的文章就介紹到這了,更多相關(guān)C++ 實現(xiàn)HTTP客戶端內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
C++11的future和promise、parkged_task使用
這篇文章主要介紹了C++11的future和promise、parkged_task使用,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-04-04C++時間戳轉(zhuǎn)化操作實例分析【涉及GMT與CST時區(qū)轉(zhuǎn)化】
這篇文章主要介紹了C++時間戳轉(zhuǎn)化操作,結(jié)合實例形式分析了C++時間戳轉(zhuǎn)換與顯示操作的原理與具體實現(xiàn)技巧,涉及GMT與CST時區(qū)轉(zhuǎn)化,需要的朋友可以參考下2017-05-05