欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Go爬蟲(http、goquery和colly)詳解

 更新時(shí)間:2022年09月05日 15:08:03   作者:Golang-Study  
goquery可以避免操作復(fù)雜的正則表達(dá)式,它可以直接根據(jù)url獲取一個(gè)Document對(duì)象,然后根據(jù)標(biāo)簽選擇器、類選擇器和id選擇器獲取相應(yīng)的選擇對(duì)象,進(jìn)行自定義的操作,這篇文章主要介紹了Go爬蟲(http、goquery和colly),需要的朋友可以參考下

1、net/http爬蟲

net/http配合正則表達(dá)式爬蟲。

package main

import (
	"fmt"
	"io/ioutil"
	"log"
	"net/http"
	"os"
	"regexp"
	"strings"
	"sync"
)

// 負(fù)責(zé)抓取頁面的源代碼(html)
// 通過http包實(shí)現(xiàn)
func fetch(url string) string {

	// 得到一個(gè)客戶端
	client := &http.Client{}
	request, _ := http.NewRequest("GET", url, nil)

	request.Header.Set("User-Agent", "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Mobile Safari/537.36")
	request.Header.Add("Cookie", "test_cookie=CheckForPermission; expires=Tue, 30-Aug-2022 01:04:32 GMT; path=/; domain=.doubleclick.net; Secure; HttpOnly; SameSite=none")

	// 客戶端發(fā)送請(qǐng)求,并且獲取一個(gè)響應(yīng)
	response, err := client.Do(request)
	if err != nil {
		log.Println("Error: ", err)
		return ""
	}

	// 如果狀態(tài)碼不是200,就是響應(yīng)錯(cuò)誤
	if response.StatusCode != 200 {
		log.Println("Error: ", response.StatusCode)
		return ""
	}

	defer response.Body.Close() // 關(guān)閉

	// 讀取響應(yīng)體中的所有數(shù)據(jù)到body中,這就是需要的部分
	body, err := ioutil.ReadAll(response.Body)
	if err != nil {
		log.Println("Error: ", err)
		return ""
	}

	// 轉(zhuǎn)換為字符串(字節(jié)切片 --> 字符串)
	return string(body)
}

var waitGroup sync.WaitGroup

// 解析頁面源代碼
func parseURL(body string) {

	// 將body(響應(yīng)結(jié)果)中的換行替換掉,防止正則匹配出錯(cuò)
	html := strings.Replace(body, "\n", "", -1)
	// 正則匹配
	re_Img_div := regexp.MustCompile(`<div class="img_wrapper">(.*?)</div>`)

	img_div := re_Img_div.FindAllString(html, -1) // 得到<div><img/></div>

	for _, v := range img_div {

		// img正則
		re_link := regexp.MustCompile(`src="(.*?)"`)
		// 找到所有的圖片鏈接
		links := re_link.FindAllString(v, -1) // 得到所有圖片鏈接

		// 遍歷links,切掉不必要的部分src="和最后的"
		for _, v := range links {

			src := v[5 : len(v)-1]
			src = "http:" + src

			waitGroup.Add(1)
			go downLoad(src)
		}
	}

}

// 下載
func downLoad(src string) {

	fmt.Println("================================", src)

	// 取一個(gè)文件名
	filename := string(src[len(src)-8 : len(src)])
	fmt.Println(filename)

	response, _ := http.Get(src)
	picdata, _ := ioutil.ReadAll(response.Body)

	image, _ := os.Create("./files/" + filename)
	image.Write(picdata)

	defer func() {
		image.Close()
		waitGroup.Done()
	}()
}

func main() {

	url := "http://games.sina.com.cn/t/n/2021-01-15/kftpnnx7445951.shtml"

	body := fetch(url)
	// fmt.Println(body)
	parseURL(body)

	waitGroup.Wait()
}

2、goquery庫爬蟲

goquery可以避免操作復(fù)雜的正則表達(dá)式,它可以直接根據(jù)url獲取一個(gè)Document對(duì)象,然后根據(jù)標(biāo)簽選擇器、類選擇器和id選擇器獲取相應(yīng)的選擇對(duì)象,進(jìn)行自定義的操作。

goquery可以靈活的獲取頁面中的元素。

*** 一個(gè)簡單的例子,引出goquery中的重要API

package main

import (
	"fmt"
	"strings"

	"github.com/PuerkitoBio/goquery"
)

func main() {

	url := "http://games.sina.com.cn/t/n/2021-01-15/kftpnnx7445951.shtml"

	// 得到頁面原文檔對(duì)象
	d, _ := goquery.NewDocument(url)

	// 根據(jù)文檔對(duì)象借助類選擇器獲取Selection對(duì)象,通過Each遍歷所有的適配類選擇器的對(duì)象
	// Each的參數(shù)是一個(gè)函數(shù),里面是處理邏輯
	d.Find("img").Each(func(index int, s *goquery.Selection) {

		// 根據(jù)屬性名獲取屬性值   一個(gè)Selection對(duì)象 --> <img src="http://localhost:8080/images" > text </img>
		text, _ := s.Attr("src")

		// 只處理gif動(dòng)態(tài)圖片
		if strings.HasSuffix(text, ".gif") {
			text = "http:" + text
			fmt.Println(text)
		}

	})
}

*** 操作一、獲取html整個(gè)原文檔

分別是goquery.NewDocument(url string)、goquery.NewDocumentFromResponse(*http.Response)goquery.NewDocumentFromReader(*io.Reader)。三種方式的第一種比較最為方便使用。

package main

import (
	"log"
	"net/http"
	"strings"

	"github.com/PuerkitoBio/goquery"
)

/*
	goquery得到Document對(duì)象的3種方式
*/

// 1、通過NewDocument傳入一個(gè)URL地址
func GetDocument_1(url string) string {

	document, _ := goquery.NewDocument(url)

	document.Find("href")

	return "document.Text()"
}

// 2、通過響應(yīng)獲取。第一種方式是第二種方式的封裝
func GetDocument_2(url string) string {

	client := &http.Client{}
	request, _ := http.NewRequest("GET", url, nil)

	response, _ := client.Do(request)
	document, err := goquery.NewDocumentFromResponse(response)

	if err != nil {
		log.Fatalln(err)
	}
	document.Find("")

	return ""
}

// 3、有一個(gè)html文本的情況下,讀取轉(zhuǎn)換為Document對(duì)象
func GetDocument_3(html string) string {

	document, _ := goquery.NewDocumentFromReader(strings.NewReader(html))
	document.Find("")

	return ""
}

*** 操作二、選擇器
同html的標(biāo)識(shí)方式,在Find函數(shù)中。

*** 操作三、Selection相關(guān)方法

*** 最后來完成net/http中的網(wǎng)頁爬蟲

package main

import (
	"fmt"
	"io/ioutil"
	"net/http"
	"os"
	"strings"
	"sync"

	"github.com/PuerkitoBio/goquery"
)

var lock sync.WaitGroup

func main() {

	url := "http://games.sina.com.cn/t/n/2021-01-15/kftpnnx7445951.shtml"

	// 得到頁面原文檔對(duì)象
	d, _ := goquery.NewDocument(url)

	// 根據(jù)文檔對(duì)象借助類選擇器獲取Selection對(duì)象,通過Each遍歷所有的適配類選擇器的對(duì)象
	// Each的參數(shù)是一個(gè)函數(shù),里面是處理邏輯
	d.Find("img").Each(func(index int, s *goquery.Selection) {

		// 根據(jù)屬性名獲取屬性值   一個(gè)Selection對(duì)象 --> <img src="http://localhost:8080/images" > text </img>
		text, _ := s.Attr("src")

		// 只處理gif動(dòng)態(tài)圖片
		if strings.HasSuffix(text, ".gif") {
			lock.Add(1)

			http := "http:" + text

			// 得到圖片地址,開啟協(xié)程下載圖片
			go downLoading(http)
		}

	})

	lock.Wait()
}

func downLoading(src string) {

	fmt.Println("================================", src)

	// 取一個(gè)文件名
	filename := string(src[len(src)-8 : len(src)])
	fmt.Println(filename)

	response, _ := http.Get(src)
	picdata, _ := ioutil.ReadAll(response.Body)

	image, _ := os.Create("./files/" + filename)
	image.Write(picdata)

	defer func() {
		image.Close()
		lock.Done()
	}()
}

3、colly框架爬蟲

首先要獲取一個(gè)*colly.Collector對(duì)象;
然后注冊(cè)處理函數(shù)OnXxx函數(shù);
之后就可以訪問url了。

*** OnXxx函數(shù)
主要操作都是由OnXxx函數(shù)的參數(shù)函數(shù)進(jìn)行處理的

*** 完成圖片的爬取

package main

import (
	"fmt"
	"io/ioutil"
	"net/http"
	"os"
	"strings"
	"sync"

	"github.com/gocolly/colly"
)

var locker sync.WaitGroup

func main() {

	col := colly.NewCollector()

	// 檢測(cè)請(qǐng)求
	col.OnRequest(func(req *colly.Request) {
		fmt.Println("檢測(cè)一個(gè)請(qǐng)求......")
	})

	// 檢測(cè)響應(yīng)
	col.OnResponse(func(r *colly.Response) {
		fmt.Println("檢測(cè)一個(gè)響應(yīng)......")
	})

	// 定位img標(biāo)簽。注冊(cè)該函數(shù),框架內(nèi)部回調(diào)
	col.OnHTML("img", func(elem *colly.HTMLElement) {

		fmt.Println("ONXHTML")

		// 獲取標(biāo)簽對(duì)應(yīng)屬性的值。
		// 其他對(duì)標(biāo)簽的操作,可以查看對(duì)應(yīng)的API
		http := elem.Attr("src")

		if strings.HasSuffix(http, ".gif") {

			locker.Add(1)

			http := "http:" + http

			go DownLoad(http)
		}
	})

	col.Visit("http://games.sina.com.cn/t/n/2021-01-15/kftpnnx7445951.shtml")

	locker.Wait()
}

func DownLoad(src string) {

	fmt.Println("================================", src)

	// 取一個(gè)文件名
	filename := string(src[len(src)-8 : len(src)])
	fmt.Println(filename)

	response, _ := http.Get(src)
	picdata, _ := ioutil.ReadAll(response.Body)

	image, _ := os.Create("./files/" + filename)
	image.Write(picdata)

	defer func() {
		image.Close()
		locker.Done()
	}()
}

到此這篇關(guān)于Go爬蟲(http、goquery和colly)的文章就介紹到這了,更多相關(guān)Go爬蟲goquery和colly內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • go語言操作之nacos配置中心

    go語言操作之nacos配置中心

    這篇文章主要介紹了go語言操作之nacos配置中心,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-06-06
  • 詳解golang中發(fā)送http請(qǐng)求的幾種常見情況

    詳解golang中發(fā)送http請(qǐng)求的幾種常見情況

    這篇文章主要介紹了詳解golang中發(fā)送http請(qǐng)求的幾種常見情況,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-12-12
  • 詳解Go語言如何實(shí)現(xiàn)類似Python中的with上下文管理器

    詳解Go語言如何實(shí)現(xiàn)類似Python中的with上下文管理器

    熟悉?Python?的同學(xué)應(yīng)該知道?Python?中的上下文管理器非常好用,那么在?Go?中是否也能實(shí)現(xiàn)上下文管理器呢,下面小編就來和大家仔細(xì)講講吧
    2023-07-07
  • go語言中布隆過濾器低空間成本判斷元素是否存在方式

    go語言中布隆過濾器低空間成本判斷元素是否存在方式

    這篇文章主要為大家介紹了go語言中布隆過濾器低空間成本判斷元素是否存在方式詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-09-09
  • go使用net/url包來解析URL提取主機(jī)部分

    go使用net/url包來解析URL提取主機(jī)部分

    這篇文章主要為大家介紹了go使用net/url包來解析URL提取主機(jī)部分實(shí)例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2024-01-01
  • Golang實(shí)現(xiàn)gRPC的Proxy的原理解析

    Golang實(shí)現(xiàn)gRPC的Proxy的原理解析

    gRPC是Google開始的一個(gè)RPC服務(wù)框架, 是英文全名為Google Remote Procedure Call的簡稱,廣泛的應(yīng)用在有RPC場(chǎng)景的業(yè)務(wù)系統(tǒng)中,這篇文章主要介紹了Golang實(shí)現(xiàn)gRPC的Proxy的原理,需要的朋友可以參考下
    2021-09-09
  • go語言求任意類型切片的長度操作

    go語言求任意類型切片的長度操作

    這篇文章主要介紹了go語言求任意類型切片的長度操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2021-04-04
  • 詳解Go語言中關(guān)于包導(dǎo)入必學(xué)的 8 個(gè)知識(shí)點(diǎn)

    詳解Go語言中關(guān)于包導(dǎo)入必學(xué)的 8 個(gè)知識(shí)點(diǎn)

    這篇文章主要介紹了詳解Go語言中關(guān)于包導(dǎo)入必學(xué)的 8 個(gè)知識(shí)點(diǎn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-08-08
  • 深入Golang的接口interface

    深入Golang的接口interface

    這篇文章主要介紹了深入Golang的接口interface,go不要求類型顯示地聲明實(shí)現(xiàn)了哪個(gè)接口,只要實(shí)現(xiàn)了相關(guān)的方法即可,編譯器就能檢測(cè)到,接下來關(guān)于接口interface的相關(guān)介紹需要的朋友可以參考下面文章內(nèi)容
    2022-06-06
  • 再次探討go實(shí)現(xiàn)無限 buffer 的 channel方法

    再次探討go實(shí)現(xiàn)無限 buffer 的 channel方法

    我們知道go語言內(nèi)置的channel緩沖大小是有上限的,那么我們自己如何實(shí)現(xiàn)一個(gè)無限 buffer 的 channel呢?今天通過本文給大家分享go實(shí)現(xiàn)無限 buffer 的 channel方法,感興趣的朋友一起看看吧
    2021-06-06

最新評(píng)論