欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Go爬蟲(http、goquery和colly)詳解

 更新時間:2022年09月05日 15:08:03   作者:Golang-Study  
goquery可以避免操作復雜的正則表達式,它可以直接根據url獲取一個Document對象,然后根據標簽選擇器、類選擇器和id選擇器獲取相應的選擇對象,進行自定義的操作,這篇文章主要介紹了Go爬蟲(http、goquery和colly),需要的朋友可以參考下

1、net/http爬蟲

net/http配合正則表達式爬蟲。

package main

import (
	"fmt"
	"io/ioutil"
	"log"
	"net/http"
	"os"
	"regexp"
	"strings"
	"sync"
)

// 負責抓取頁面的源代碼(html)
// 通過http包實現
func fetch(url string) string {

	// 得到一個客戶端
	client := &http.Client{}
	request, _ := http.NewRequest("GET", url, nil)

	request.Header.Set("User-Agent", "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Mobile Safari/537.36")
	request.Header.Add("Cookie", "test_cookie=CheckForPermission; expires=Tue, 30-Aug-2022 01:04:32 GMT; path=/; domain=.doubleclick.net; Secure; HttpOnly; SameSite=none")

	// 客戶端發(fā)送請求,并且獲取一個響應
	response, err := client.Do(request)
	if err != nil {
		log.Println("Error: ", err)
		return ""
	}

	// 如果狀態(tài)碼不是200,就是響應錯誤
	if response.StatusCode != 200 {
		log.Println("Error: ", response.StatusCode)
		return ""
	}

	defer response.Body.Close() // 關閉

	// 讀取響應體中的所有數據到body中,這就是需要的部分
	body, err := ioutil.ReadAll(response.Body)
	if err != nil {
		log.Println("Error: ", err)
		return ""
	}

	// 轉換為字符串(字節(jié)切片 --> 字符串)
	return string(body)
}

var waitGroup sync.WaitGroup

// 解析頁面源代碼
func parseURL(body string) {

	// 將body(響應結果)中的換行替換掉,防止正則匹配出錯
	html := strings.Replace(body, "\n", "", -1)
	// 正則匹配
	re_Img_div := regexp.MustCompile(`<div class="img_wrapper">(.*?)</div>`)

	img_div := re_Img_div.FindAllString(html, -1) // 得到<div><img/></div>

	for _, v := range img_div {

		// img正則
		re_link := regexp.MustCompile(`src="(.*?)"`)
		// 找到所有的圖片鏈接
		links := re_link.FindAllString(v, -1) // 得到所有圖片鏈接

		// 遍歷links,切掉不必要的部分src="和最后的"
		for _, v := range links {

			src := v[5 : len(v)-1]
			src = "http:" + src

			waitGroup.Add(1)
			go downLoad(src)
		}
	}

}

// 下載
func downLoad(src string) {

	fmt.Println("================================", src)

	// 取一個文件名
	filename := string(src[len(src)-8 : len(src)])
	fmt.Println(filename)

	response, _ := http.Get(src)
	picdata, _ := ioutil.ReadAll(response.Body)

	image, _ := os.Create("./files/" + filename)
	image.Write(picdata)

	defer func() {
		image.Close()
		waitGroup.Done()
	}()
}

func main() {

	url := "http://games.sina.com.cn/t/n/2021-01-15/kftpnnx7445951.shtml"

	body := fetch(url)
	// fmt.Println(body)
	parseURL(body)

	waitGroup.Wait()
}

2、goquery庫爬蟲

goquery可以避免操作復雜的正則表達式,它可以直接根據url獲取一個Document對象,然后根據標簽選擇器、類選擇器和id選擇器獲取相應的選擇對象,進行自定義的操作。

goquery可以靈活的獲取頁面中的元素。

*** 一個簡單的例子,引出goquery中的重要API

package main

import (
	"fmt"
	"strings"

	"github.com/PuerkitoBio/goquery"
)

func main() {

	url := "http://games.sina.com.cn/t/n/2021-01-15/kftpnnx7445951.shtml"

	// 得到頁面原文檔對象
	d, _ := goquery.NewDocument(url)

	// 根據文檔對象借助類選擇器獲取Selection對象,通過Each遍歷所有的適配類選擇器的對象
	// Each的參數是一個函數,里面是處理邏輯
	d.Find("img").Each(func(index int, s *goquery.Selection) {

		// 根據屬性名獲取屬性值   一個Selection對象 --> <img src="http://localhost:8080/images" > text </img>
		text, _ := s.Attr("src")

		// 只處理gif動態(tài)圖片
		if strings.HasSuffix(text, ".gif") {
			text = "http:" + text
			fmt.Println(text)
		}

	})
}

*** 操作一、獲取html整個原文檔

分別是goquery.NewDocument(url string)、goquery.NewDocumentFromResponse(*http.Response)goquery.NewDocumentFromReader(*io.Reader)。三種方式的第一種比較最為方便使用。

package main

import (
	"log"
	"net/http"
	"strings"

	"github.com/PuerkitoBio/goquery"
)

/*
	goquery得到Document對象的3種方式
*/

// 1、通過NewDocument傳入一個URL地址
func GetDocument_1(url string) string {

	document, _ := goquery.NewDocument(url)

	document.Find("href")

	return "document.Text()"
}

// 2、通過響應獲取。第一種方式是第二種方式的封裝
func GetDocument_2(url string) string {

	client := &http.Client{}
	request, _ := http.NewRequest("GET", url, nil)

	response, _ := client.Do(request)
	document, err := goquery.NewDocumentFromResponse(response)

	if err != nil {
		log.Fatalln(err)
	}
	document.Find("")

	return ""
}

// 3、有一個html文本的情況下,讀取轉換為Document對象
func GetDocument_3(html string) string {

	document, _ := goquery.NewDocumentFromReader(strings.NewReader(html))
	document.Find("")

	return ""
}

*** 操作二、選擇器
同html的標識方式,在Find函數中。

*** 操作三、Selection相關方法

*** 最后來完成net/http中的網頁爬蟲

package main

import (
	"fmt"
	"io/ioutil"
	"net/http"
	"os"
	"strings"
	"sync"

	"github.com/PuerkitoBio/goquery"
)

var lock sync.WaitGroup

func main() {

	url := "http://games.sina.com.cn/t/n/2021-01-15/kftpnnx7445951.shtml"

	// 得到頁面原文檔對象
	d, _ := goquery.NewDocument(url)

	// 根據文檔對象借助類選擇器獲取Selection對象,通過Each遍歷所有的適配類選擇器的對象
	// Each的參數是一個函數,里面是處理邏輯
	d.Find("img").Each(func(index int, s *goquery.Selection) {

		// 根據屬性名獲取屬性值   一個Selection對象 --> <img src="http://localhost:8080/images" > text </img>
		text, _ := s.Attr("src")

		// 只處理gif動態(tài)圖片
		if strings.HasSuffix(text, ".gif") {
			lock.Add(1)

			http := "http:" + text

			// 得到圖片地址,開啟協程下載圖片
			go downLoading(http)
		}

	})

	lock.Wait()
}

func downLoading(src string) {

	fmt.Println("================================", src)

	// 取一個文件名
	filename := string(src[len(src)-8 : len(src)])
	fmt.Println(filename)

	response, _ := http.Get(src)
	picdata, _ := ioutil.ReadAll(response.Body)

	image, _ := os.Create("./files/" + filename)
	image.Write(picdata)

	defer func() {
		image.Close()
		lock.Done()
	}()
}

3、colly框架爬蟲

首先要獲取一個*colly.Collector對象;
然后注冊處理函數OnXxx函數;
之后就可以訪問url了。

*** OnXxx函數
主要操作都是由OnXxx函數的參數函數進行處理的

*** 完成圖片的爬取

package main

import (
	"fmt"
	"io/ioutil"
	"net/http"
	"os"
	"strings"
	"sync"

	"github.com/gocolly/colly"
)

var locker sync.WaitGroup

func main() {

	col := colly.NewCollector()

	// 檢測請求
	col.OnRequest(func(req *colly.Request) {
		fmt.Println("檢測一個請求......")
	})

	// 檢測響應
	col.OnResponse(func(r *colly.Response) {
		fmt.Println("檢測一個響應......")
	})

	// 定位img標簽。注冊該函數,框架內部回調
	col.OnHTML("img", func(elem *colly.HTMLElement) {

		fmt.Println("ONXHTML")

		// 獲取標簽對應屬性的值。
		// 其他對標簽的操作,可以查看對應的API
		http := elem.Attr("src")

		if strings.HasSuffix(http, ".gif") {

			locker.Add(1)

			http := "http:" + http

			go DownLoad(http)
		}
	})

	col.Visit("http://games.sina.com.cn/t/n/2021-01-15/kftpnnx7445951.shtml")

	locker.Wait()
}

func DownLoad(src string) {

	fmt.Println("================================", src)

	// 取一個文件名
	filename := string(src[len(src)-8 : len(src)])
	fmt.Println(filename)

	response, _ := http.Get(src)
	picdata, _ := ioutil.ReadAll(response.Body)

	image, _ := os.Create("./files/" + filename)
	image.Write(picdata)

	defer func() {
		image.Close()
		locker.Done()
	}()
}

到此這篇關于Go爬蟲(http、goquery和colly)的文章就介紹到這了,更多相關Go爬蟲goquery和colly內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • go語言操作之nacos配置中心

    go語言操作之nacos配置中心

    這篇文章主要介紹了go語言操作之nacos配置中心,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-06-06
  • 詳解golang中發(fā)送http請求的幾種常見情況

    詳解golang中發(fā)送http請求的幾種常見情況

    這篇文章主要介紹了詳解golang中發(fā)送http請求的幾種常見情況,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2019-12-12
  • 詳解Go語言如何實現類似Python中的with上下文管理器

    詳解Go語言如何實現類似Python中的with上下文管理器

    熟悉?Python?的同學應該知道?Python?中的上下文管理器非常好用,那么在?Go?中是否也能實現上下文管理器呢,下面小編就來和大家仔細講講吧
    2023-07-07
  • go語言中布隆過濾器低空間成本判斷元素是否存在方式

    go語言中布隆過濾器低空間成本判斷元素是否存在方式

    這篇文章主要為大家介紹了go語言中布隆過濾器低空間成本判斷元素是否存在方式詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2022-09-09
  • go使用net/url包來解析URL提取主機部分

    go使用net/url包來解析URL提取主機部分

    這篇文章主要為大家介紹了go使用net/url包來解析URL提取主機部分實例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2024-01-01
  • Golang實現gRPC的Proxy的原理解析

    Golang實現gRPC的Proxy的原理解析

    gRPC是Google開始的一個RPC服務框架, 是英文全名為Google Remote Procedure Call的簡稱,廣泛的應用在有RPC場景的業(yè)務系統中,這篇文章主要介紹了Golang實現gRPC的Proxy的原理,需要的朋友可以參考下
    2021-09-09
  • go語言求任意類型切片的長度操作

    go語言求任意類型切片的長度操作

    這篇文章主要介紹了go語言求任意類型切片的長度操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-04-04
  • 詳解Go語言中關于包導入必學的 8 個知識點

    詳解Go語言中關于包導入必學的 8 個知識點

    這篇文章主要介紹了詳解Go語言中關于包導入必學的 8 個知識點,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-08-08
  • 深入Golang的接口interface

    深入Golang的接口interface

    這篇文章主要介紹了深入Golang的接口interface,go不要求類型顯示地聲明實現了哪個接口,只要實現了相關的方法即可,編譯器就能檢測到,接下來關于接口interface的相關介紹需要的朋友可以參考下面文章內容
    2022-06-06
  • 再次探討go實現無限 buffer 的 channel方法

    再次探討go實現無限 buffer 的 channel方法

    我們知道go語言內置的channel緩沖大小是有上限的,那么我們自己如何實現一個無限 buffer 的 channel呢?今天通過本文給大家分享go實現無限 buffer 的 channel方法,感興趣的朋友一起看看吧
    2021-06-06

最新評論