goquery可以避免操作復(fù)雜的正則表達(dá)式，它可以直接根據(jù)url獲取一個(gè)Document對(duì)象，然后根據(jù)標(biāo)簽選擇器、類選擇器和id選擇器獲取相應(yīng)的選擇對(duì)象，進(jìn)行自定義的操作，這篇文章主要介紹了Go爬蟲(http、goquery和colly),需要的朋友可以參考下

1、net/http爬蟲

net/http配合正則表達(dá)式爬蟲。

package main

import (
	"fmt"
	"io/ioutil"
	"log"
	"net/http"
	"os"
	"regexp"
	"strings"
	"sync"
)

// 負(fù)責(zé)抓取頁(yè)面的源代碼(html)
// 通過http包實(shí)現(xiàn)
func fetch(url string) string {

	// 得到一個(gè)客戶端
	client := &http.Client{}
	request, _ := http.NewRequest("GET", url, nil)

	request.Header.Set("User-Agent", "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Mobile Safari/537.36")
	request.Header.Add("Cookie", "test_cookie=CheckForPermission; expires=Tue, 30-Aug-2022 01:04:32 GMT; path=/; domain=.doubleclick.net; Secure; HttpOnly; SameSite=none")

	// 客戶端發(fā)送請(qǐng)求，并且獲取一個(gè)響應(yīng)
	response, err := client.Do(request)
	if err != nil {
		log.Println("Error: ", err)
		return ""
	}

	// 如果狀態(tài)碼不是200，就是響應(yīng)錯(cuò)誤
	if response.StatusCode != 200 {
		log.Println("Error: ", response.StatusCode)
		return ""
	}

	defer response.Body.Close() // 關(guān)閉

	// 讀取響應(yīng)體中的所有數(shù)據(jù)到body中，這就是需要的部分
	body, err := ioutil.ReadAll(response.Body)
	if err != nil {
		log.Println("Error: ", err)
		return ""
	}

	// 轉(zhuǎn)換為字符串(字節(jié)切片 --> 字符串)
	return string(body)
}

var waitGroup sync.WaitGroup

// 解析頁(yè)面源代碼
func parseURL(body string) {

	// 將body(響應(yīng)結(jié)果)中的換行替換掉，防止正則匹配出錯(cuò)
	html := strings.Replace(body, "\n", "", -1)
	// 正則匹配
	re_Img_div := regexp.MustCompile(`<div class="img_wrapper">(.*?)</div>`)

	img_div := re_Img_div.FindAllString(html, -1) // 得到<div><img/></div>

	for _, v := range img_div {

		// img正則
		re_link := regexp.MustCompile(`src="(.*?)"`)
		// 找到所有的圖片鏈接
		links := re_link.FindAllString(v, -1) // 得到所有圖片鏈接

		// 遍歷links，切掉不必要的部分src="和最后的"
		for _, v := range links {

			src := v[5 : len(v)-1]
			src = "http:" + src

			waitGroup.Add(1)
			go downLoad(src)
		}
	}

}

// 下載
func downLoad(src string) {

	fmt.Println("================================", src)

	// 取一個(gè)文件名
	filename := string(src[len(src)-8 : len(src)])
	fmt.Println(filename)

	response, _ := http.Get(src)
	picdata, _ := ioutil.ReadAll(response.Body)

	image, _ := os.Create("./files/" + filename)
	image.Write(picdata)

	defer func() {
		image.Close()
		waitGroup.Done()
	}()
}

func main() {

	url := "http://games.sina.com.cn/t/n/2021-01-15/kftpnnx7445951.shtml"

	body := fetch(url)
	// fmt.Println(body)
	parseURL(body)

	waitGroup.Wait()
}

2、goquery庫(kù)爬蟲

goquery可以避免操作復(fù)雜的正則表達(dá)式，它可以直接根據(jù)url獲取一個(gè)Document對(duì)象，然后根據(jù)標(biāo)簽選擇器、類選擇器和id選擇器獲取相應(yīng)的選擇對(duì)象，進(jìn)行自定義的操作。

goquery可以靈活的獲取頁(yè)面中的元素。

*** 一個(gè)簡(jiǎn)單的例子，引出goquery中的重要API

package main

import (
	"fmt"
	"strings"

	"github.com/PuerkitoBio/goquery"
)

func main() {

	url := "http://games.sina.com.cn/t/n/2021-01-15/kftpnnx7445951.shtml"

	// 得到頁(yè)面原文檔對(duì)象
	d, _ := goquery.NewDocument(url)

	// 根據(jù)文檔對(duì)象借助類選擇器獲取Selection對(duì)象，通過Each遍歷所有的適配類選擇器的對(duì)象
	// Each的參數(shù)是一個(gè)函數(shù)，里面是處理邏輯
	d.Find("img").Each(func(index int, s *goquery.Selection) {

		// 根據(jù)屬性名獲取屬性值   一個(gè)Selection對(duì)象 --> <img src="http://localhost:8080/images" > text </img>
		text, _ := s.Attr("src")

		// 只處理gif動(dòng)態(tài)圖片
		if strings.HasSuffix(text, ".gif") {
			text = "http:" + text
			fmt.Println(text)
		}

	})
}

*** 操作一、獲取html整個(gè)原文檔

分別是goquery.NewDocument(url string)、goquery.NewDocumentFromResponse(*http.Response)、goquery.NewDocumentFromReader(*io.Reader)。三種方式的第一種比較最為方便使用。

package main

import (
	"log"
	"net/http"
	"strings"

	"github.com/PuerkitoBio/goquery"
)

/*
	goquery得到Document對(duì)象的3種方式
*/

// 1、通過NewDocument傳入一個(gè)URL地址
func GetDocument_1(url string) string {

	document, _ := goquery.NewDocument(url)

	document.Find("href")

	return "document.Text()"
}

// 2、通過響應(yīng)獲取。第一種方式是第二種方式的封裝
func GetDocument_2(url string) string {

	client := &http.Client{}
	request, _ := http.NewRequest("GET", url, nil)

	response, _ := client.Do(request)
	document, err := goquery.NewDocumentFromResponse(response)

	if err != nil {
		log.Fatalln(err)
	}
	document.Find("")

	return ""
}

// 3、有一個(gè)html文本的情況下，讀取轉(zhuǎn)換為Document對(duì)象
func GetDocument_3(html string) string {

	document, _ := goquery.NewDocumentFromReader(strings.NewReader(html))
	document.Find("")

	return ""
}

*** 操作二、選擇器
同html的標(biāo)識(shí)方式，在Find函數(shù)中。

*** 操作三、Selection相關(guān)方法

*** 最后來完成net/http中的網(wǎng)頁(yè)爬蟲

package main

import (
	"fmt"
	"io/ioutil"
	"net/http"
	"os"
	"strings"
	"sync"

	"github.com/PuerkitoBio/goquery"
)

var lock sync.WaitGroup

func main() {

	url := "http://games.sina.com.cn/t/n/2021-01-15/kftpnnx7445951.shtml"

	// 得到頁(yè)面原文檔對(duì)象
	d, _ := goquery.NewDocument(url)

	// 根據(jù)文檔對(duì)象借助類選擇器獲取Selection對(duì)象，通過Each遍歷所有的適配類選擇器的對(duì)象
	// Each的參數(shù)是一個(gè)函數(shù)，里面是處理邏輯
	d.Find("img").Each(func(index int, s *goquery.Selection) {

		// 根據(jù)屬性名獲取屬性值   一個(gè)Selection對(duì)象 --> <img src="http://localhost:8080/images" > text </img>
		text, _ := s.Attr("src")

		// 只處理gif動(dòng)態(tài)圖片
		if strings.HasSuffix(text, ".gif") {
			lock.Add(1)

			http := "http:" + text

			// 得到圖片地址，開啟協(xié)程下載圖片
			go downLoading(http)
		}

	})

	lock.Wait()
}

func downLoading(src string) {

	fmt.Println("================================", src)

	// 取一個(gè)文件名
	filename := string(src[len(src)-8 : len(src)])
	fmt.Println(filename)

	response, _ := http.Get(src)
	picdata, _ := ioutil.ReadAll(response.Body)

	image, _ := os.Create("./files/" + filename)
	image.Write(picdata)

	defer func() {
		image.Close()
		lock.Done()
	}()
}

3、colly框架爬蟲

首先要獲取一個(gè)*colly.Collector對(duì)象；
然后注冊(cè)處理函數(shù)OnXxx函數(shù)；
之后就可以訪問url了。

*** OnXxx函數(shù)
主要操作都是由OnXxx函數(shù)的參數(shù)函數(shù)進(jìn)行處理的

*** 完成圖片的爬取

package main

import (
	"fmt"
	"io/ioutil"
	"net/http"
	"os"
	"strings"
	"sync"

	"github.com/gocolly/colly"
)

var locker sync.WaitGroup

func main() {

	col := colly.NewCollector()

	// 檢測(cè)請(qǐng)求
	col.OnRequest(func(req *colly.Request) {
		fmt.Println("檢測(cè)一個(gè)請(qǐng)求......")
	})

	// 檢測(cè)響應(yīng)
	col.OnResponse(func(r *colly.Response) {
		fmt.Println("檢測(cè)一個(gè)響應(yīng)......")
	})

	// 定位img標(biāo)簽。注冊(cè)該函數(shù)，框架內(nèi)部回調(diào)
	col.OnHTML("img", func(elem *colly.HTMLElement) {

		fmt.Println("ONXHTML")

		// 獲取標(biāo)簽對(duì)應(yīng)屬性的值。
		// 其他對(duì)標(biāo)簽的操作，可以查看對(duì)應(yīng)的API
		http := elem.Attr("src")

		if strings.HasSuffix(http, ".gif") {

			locker.Add(1)

			http := "http:" + http

			go DownLoad(http)
		}
	})

	col.Visit("http://games.sina.com.cn/t/n/2021-01-15/kftpnnx7445951.shtml")

	locker.Wait()
}

func DownLoad(src string) {

	fmt.Println("================================", src)

	// 取一個(gè)文件名
	filename := string(src[len(src)-8 : len(src)])
	fmt.Println(filename)

	response, _ := http.Get(src)
	picdata, _ := ioutil.ReadAll(response.Body)

	image, _ := os.Create("./files/" + filename)
	image.Write(picdata)

	defer func() {
		image.Close()
		locker.Done()
	}()
}