golang抓取網(wǎng)頁(yè)并分析頁(yè)面包含的鏈接方法
1. 下載非標(biāo)準(zhǔn)的包,"golang.org/x/net/html"
2. 先安裝git,使用git命令下載
git clone https://github.com/golang/net
3. 將net包,放到GOROOT路徑下
比如:
我的是:GOROOT = E:\go\
所以最終目錄是:E:\go\src\golang.org\x\net
注意:如果沒(méi)有g(shù)olang.org和x文件夾,就創(chuàng)建
4. 創(chuàng)建fetch目錄,在其下創(chuàng)建main.go文件,main.go文件代碼內(nèi)容如下:
package main import ( "os" "net/http" "fmt" "io/ioutil" ) func main() { for _, url := range os.Args[1:] { resp, err := http.Get(url) if err != nil { fmt.Fprintf(os.Stderr, "fetch: %v\n", err) } b, err := ioutil.ReadAll(resp.Body) resp.Body.Close() if err != nil { fmt.Fprintf(os.Stderr, "fetch: reading %s: %v\n", url, err) os.Exit(1) } fmt.Printf("%s",b) } }
5. 編譯fetch
go build test.com\justin\demo\fetch
注意:test.com\justin\demo\ 是我的項(xiàng)目路徑,具體編譯根據(jù)自己項(xiàng)目路徑編譯。
6. 執(zhí)行fetch.exe 文件
fetch.exe https://www.qq.com
注意:https://www.qq.com是要爬的網(wǎng)址,配置正確的話,會(huì)打印出網(wǎng)址的HTML內(nèi)容。如果沒(méi)有,請(qǐng)檢查以上步驟是否正確。
7. 網(wǎng)頁(yè)已經(jīng)抓取了,那么剩下就分析頁(yè)面包含的鏈接了,創(chuàng)建findlinks目錄,在其下創(chuàng)建main.go文件,main.go文件代碼內(nèi)容如下:
package main import ( "os" "fmt" "golang.org/x/net/html" ) func main() { doc, err := html.Parse(os.Stdin) if err != nil { fmt.Fprint(os.Stderr, "findlinks: %v\n", err) os.Exit(1) } for _, link := range visit(nil, doc) { fmt.Println(link) } } func visit(links []string, n *html.Node) []string { if n.Type == html.ElementNode && n.Data == "a" { for _, a := range n.Attr { if a.Key == "href" { links = append(links, a.Val) } } } for c := n.FirstChild; c != nil; c = c.NextSibling { links = visit(links, c) } return links }
8. 編譯findlinks
go build test.com\justin\demo\findlinks
注意:test.com\justin\demo\ 是我的項(xiàng)目路徑,具體編譯根據(jù)自己項(xiàng)目路徑編譯。
9. 執(zhí)行findlinks.exe 文件
fetch.exe https://www.qq.com | findlinks.exe
> 10. 執(zhí)行后結(jié)果:獲取到各種不同形式的超鏈接
以上這篇golang抓取網(wǎng)頁(yè)并分析頁(yè)面包含的鏈接方法就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
Golang使用反射的動(dòng)態(tài)方法調(diào)用詳解
Go是一種靜態(tài)類型的語(yǔ)言,提供了大量的安全性和性能。這篇文章主要和大家介紹一下Golang使用反射的動(dòng)態(tài)方法調(diào)用,感興趣的小伙伴可以了解一下2023-03-03Go中時(shí)間與時(shí)區(qū)問(wèn)題的深入講解
go語(yǔ)言中如果不設(shè)置指定的時(shí)區(qū),通過(guò)time.Now()獲取到的就是本地時(shí)區(qū),下面這篇文章主要給大家介紹了關(guān)于Go中時(shí)間與時(shí)區(qū)問(wèn)題的相關(guān)資料,需要的朋友可以參考下2021-12-12Golang實(shí)現(xiàn)對(duì)map的并發(fā)讀寫(xiě)的方法示例
這篇文章主要介紹了Golang實(shí)現(xiàn)對(duì)map的并發(fā)讀寫(xiě)的方法示例,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2019-03-03Golang使用Apache PLC4X連接modbus的示例代碼
Modbus是一種串行通信協(xié)議,是Modicon公司于1979年為使用可編程邏輯控制器(PLC)通信而發(fā)表,這篇文章主要介紹了Golang使用Apache PLC4X連接modbus的示例代碼,需要的朋友可以參考下2024-07-07pytorch中的transforms.ToTensor和transforms.Normalize的實(shí)現(xiàn)
本文主要介紹了pytorch中的transforms.ToTensor和transforms.Normalize的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2022-04-04Go接口構(gòu)建可擴(kuò)展Go應(yīng)用示例詳解
本文深入探討了Go語(yǔ)言中接口的概念和實(shí)際應(yīng)用場(chǎng)景。從基礎(chǔ)知識(shí)如接口的定義和實(shí)現(xiàn),到更復(fù)雜的實(shí)戰(zhàn)應(yīng)用如解耦與抽象、多態(tài)、錯(cuò)誤處理、插件架構(gòu)以及資源管理,文章通過(guò)豐富的代碼示例和詳細(xì)的解釋,展示了Go接口在軟件開(kāi)發(fā)中的強(qiáng)大功能和靈活性2023-10-10