Go語言并發(fā)爬蟲的具體實現(xiàn)
寫在前面
這篇文章主要讓大家明白
多線程爬蟲
,因為go語言實現(xiàn)并發(fā)是很容易的。
這次的服務端,是我們之前搭建的電子商城平臺,所以我們不擔心ip被封
之類的問題。
而實際生產(chǎn)環(huán)境中,其實我們都是用python
爬蟲的。python實現(xiàn)多線程也很簡單。
這次我們可以試試新玩法,試試go語言的并發(fā)爬蟲。
主要是爬取第一頁的商品,爬取十次,比較單線程和多線程的時間。
1. 單線程爬蟲
?定義一個用戶
var Client http.Client
主函數(shù)
func main() { url := "http://localhost:3000/api/v1/products" start := time.Now() for i := 0; i < 10; i++ { Spider(url, i) } elapsed := time.Since(start) fmt.Printf("Time %s", elapsed) }
爬取函數(shù)
func Spider(url string, i int) { reqSpider, err := http.NewRequest("GET", url, nil) if err != nil { log.Fatal(err) } reqSpider.Header.Set("content-length", "0") reqSpider.Header.Set("accept", "*/*") reqSpider.Header.Set("x-requested-with", "XMLHttpRequest") respSpider, err := Client.Do(reqSpider) if err != nil { log.Fatal(err) } bodyText, _ := ioutil.ReadAll(respSpider.Body) var result Result _ = json.Unmarshal(bodyText, &result) fmt.Println(i,result.Data) }
運行時間為:651.8207ms
2. 多線程爬蟲
2.1 channel main函數(shù)
我們構(gòu)造一個無緩沖的通道,來阻塞主進程,等待子進程的執(zhí)行。
func main() { url := "http://localhost:3000/api/v1/products" ch := make(chan bool) start := time.Now() for i := 0; i < 10; i++ { go Spider(url, ch, i) } for i := 0; i < 10; i++ { <-ch } elapsed := time.Since(start) fmt.Printf("Time %s", elapsed) }
最后記得在爬蟲的結(jié)束的時候,把值寫入到通道中,不然會一直阻塞主進程
運行時間:187.7921ms
比之前快了非常多。
2.2 sync.WaitGroup
定義一個進程組并加10個進程
var wg sync.WaitGroup wg.Add(10)
開辟十個goruntime
for i := 0; i < 10; i++ { go func(i int) { defer wg.Done() SpiderWaitGroup(url,i) }(i) }
阻塞主進程
wg.Wait()
結(jié)果:64.5246ms
3. 源碼地址
GitHub地址:https://github.com/CocaineCong/Go-Spider-Demo
NormalStart(url) // 單線程爬蟲 ChannelStart(url) // Channel多線程爬蟲 WaitGroupStart(url) // Wait 多線程爬蟲
其實多線程的兩種都差不多的,只是有時候會因為機器的原因而導致一些誤差。
到此這篇關于Go語言并發(fā)爬蟲的具體實現(xiàn)的文章就介紹到這了,更多相關Go語言并發(fā)爬蟲 內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
golang實現(xiàn)簡單工廠、方法工廠、抽象工廠三種設計模式
這篇文章介紹了golang實現(xiàn)簡單工廠、方法工廠、抽象工廠三種設計模式的方法,文中通過示例代碼介紹的非常詳細。對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2022-04-04