欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

利用node.js寫(xiě)一個(gè)爬取知乎妹紙圖的小爬蟲(chóng)

 更新時(shí)間:2017年05月03日 14:22:43   作者:qianlongo  
這篇文章主要給大家介紹了利用node.js寫(xiě)一個(gè)爬取知乎妹紙圖的小爬蟲(chóng),文中給出了詳細(xì)的示例代碼和介紹,對(duì)大家具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考學(xué)習(xí),下面來(lái)一起看看吧。

前言

說(shuō)起寫(xiě)node爬蟲(chóng)的原因,真是羞羞呀。一天,和往常一樣,晚上吃過(guò)飯便刷起知乎來(lái),首頁(yè)便是推薦的你見(jiàn)過(guò)最漂亮的女生長(zhǎng)什么樣?,點(diǎn)進(jìn)去各種漂亮的妹紙爆照?。?!!,看的我好想把這些好看的妹紙照片都存下來(lái)??!一張張點(diǎn)擊保存,就在第18張得時(shí)候,突然想起。我特么不是程序員么,這種手動(dòng)做的事,怎么能做,不行我不能丟程序員的臉了,于是便開(kāi)始這次爬蟲(chóng)之旅。

原理

初入爬蟲(chóng)的坑,沒(méi)有太多深?yuàn)W的理論知識(shí),要獲取知乎上帖子中的一張圖片,我把它歸結(jié)為以下幾步。

  • 準(zhǔn)備一個(gè)url(當(dāng)然是諸如你見(jiàn)過(guò)最漂亮的女生長(zhǎng)什么樣???)
  • 獲取這個(gè)url的html內(nèi)容,并分析其中的dom結(jié)構(gòu),遍歷找到這些漂亮的妹紙圖片url
  • 獲取圖片內(nèi)容
  • 將圖片內(nèi)容寫(xiě)入本地文件

開(kāi)始動(dòng)手

大概知道原理之后我們就可以開(kāi)干了

準(zhǔn)備一個(gè)url

這個(gè)最簡(jiǎn)單了,去知乎隨便一搜就是一大把,我們以

發(fā)一張你認(rèn)為很漂亮的美女照片?

為例子,先來(lái)分析一下這個(gè)頁(yè)面的dom結(jié)構(gòu),其實(shí)很簡(jiǎn)單,知乎的一個(gè)頁(yè)面中會(huì)包含很多種類(lèi)型的圖片,有頭像,用戶評(píng)價(jià)上傳的圖片啥的?;旧显趎oscript種都可以找到對(duì)應(yīng)的圖片地址。

獲取這個(gè)url的html內(nèi)容,并且拿到當(dāng)前頁(yè)面noscript中的img鏈接

這一步我們需要會(huì)點(diǎn)簡(jiǎn)單的nodejs的知識(shí),以及用到一個(gè)庫(kù)叫cheerio,這個(gè)庫(kù)具體是用來(lái)做什么的,詳細(xì)請(qǐng)移步cheerio

簡(jiǎn)單來(lái)說(shuō)就是可以在命令行中使用jQuery來(lái)搜索遍歷獲取相應(yīng)的元素。

那么怎樣才能獲取這個(gè)帖子的html呢

使用nodejs的https模塊

var https = require('https')
getAllHtml (url, callback) {
 let sHtml = '',
 _this = this;
 https.get(url, (res) => {
 res.on('data', (data) => {
 sHtml += data;
 });
 res.on('end', () => {
 callback.bind(_this, sHtml)();
 })
 }).on('error', (err) => {
 console.log(err);
 });
}

通過(guò)以上操作拿到網(wǎng)站的html之后,便是遍歷出我們需要的圖片地址來(lái)了

filterHtml (sHtml, filePath) {
 let $ = cheerio.load(sHtml), // 將上一步拿到的網(wǎng)站html傳入cheerio.load,便得到類(lèi)似于包裝過(guò)的jQuery對(duì)象,可以像jQuey的選擇器一樣來(lái)選擇元素
 $Imgs = $('noscript img'),
 imgData = [],
 _this = this;
 $Imgs.each((i, e) => {
 let imgUrl = $(e).attr('src'); //取出對(duì)應(yīng)的url
 imgData.push(imgUrl);
 // 將url傳入開(kāi)始下載
 _this.downloadImg(imgUrl, _this.filePath, 
 function (err) {
 console.log(imgUrl + 'has be down');
 });
 });
 console.log(imgData);
}

有了圖片的url,如何下載到本地呢?

我們需要使用request這個(gè)庫(kù),簡(jiǎn)單的調(diào)用一下api再結(jié)合node原生寫(xiě)文件的api。

downloadImg (imgUrl, filePath, callback) {
 let fileName = this.parseFileName(imgUrl);
 request(imgUrl).pipe(fs.createWriteStream('./' + filePath + '/'+fileName)).on('close', callback && callback);
 }

到這里就大功告成了,是不是很簡(jiǎn)單!!!已經(jīng)將源碼上傳,歡迎大家下載查看。

gitHub地址:https://github.com/qianlongo/node-small-crawler

本地下載地址:http://xiazai.jb51.net/201705/yuanma/node-small-crawler(jb51.net).rar

總結(jié)

以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家學(xué)習(xí)或者使用node.js能帶來(lái)一定的幫助,如果有疑問(wèn)大家可以留言交流,謝謝大家對(duì)腳本之家的支持。

相關(guān)文章

  • nodejs制作爬蟲(chóng)實(shí)現(xiàn)批量下載圖片

    nodejs制作爬蟲(chóng)實(shí)現(xiàn)批量下載圖片

    本文給大家分享的是作者使用nodejs制作爬蟲(chóng)來(lái)爬去圖片并批量下載的全過(guò)程,非常的細(xì)致,有需要的小伙伴可以參考下
    2017-05-05
  • Node.js利用js-xlsx處理Excel文件的方法詳解

    Node.js利用js-xlsx處理Excel文件的方法詳解

    這篇文章主要給大家介紹了關(guān)于Node.js利用js-xlsx處理Excel文件的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來(lái)一起看看吧。
    2017-07-07
  • socket.io與pm2(cluster)集群搭配的解決方案

    socket.io與pm2(cluster)集群搭配的解決方案

    這篇文章主要給大家介紹了關(guān)于socket.io與pm2(cluster)集群搭配的解決方案,文中介紹的非常詳細(xì),對(duì)大家具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面跟著小編一起來(lái)看看吧。
    2017-06-06
  • node.js中的http.response.addTrailers方法使用說(shuō)明

    node.js中的http.response.addTrailers方法使用說(shuō)明

    這篇文章主要介紹了node.js中的http.response.addTrailers方法使用說(shuō)明,本文介紹了http.response.addTrailers的方法說(shuō)明、語(yǔ)法、接收參數(shù)、使用實(shí)例和實(shí)現(xiàn)源碼,需要的朋友可以參考下
    2014-12-12
  • 淺談Node 調(diào)試工具入門(mén)教程

    淺談Node 調(diào)試工具入門(mén)教程

    這篇文章主要介紹了淺談Node 調(diào)試工具入門(mén)教程,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2018-03-03
  • nodejs做個(gè)爬蟲(chóng)爬取騰訊動(dòng)漫內(nèi)容簡(jiǎn)單實(shí)現(xiàn)

    nodejs做個(gè)爬蟲(chóng)爬取騰訊動(dòng)漫內(nèi)容簡(jiǎn)單實(shí)現(xiàn)

    這篇文章主要為大家介紹了nodejs做個(gè)爬蟲(chóng)爬取騰訊動(dòng)漫內(nèi)容簡(jiǎn)單實(shí)現(xiàn),有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2023-07-07
  • Nodejs異步流程框架async的方法

    Nodejs異步流程框架async的方法

    這篇文章主要介紹了Nodejs異步流程框架async的方法,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2019-06-06
  • Centos6.8下Node.js安裝教程

    Centos6.8下Node.js安裝教程

    這篇文章主要為大家詳細(xì)介紹了Centos6.8下Node.js安裝教程,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2017-05-05
  • npm報(bào)錯(cuò):npm?WARN?config?global?'--global',?'--local'?are?deprecated解決

    npm報(bào)錯(cuò):npm?WARN?config?global?'--global',?&apo

    這篇文章主要給大家介紹了關(guān)于npm報(bào)錯(cuò):npm?WARN?config?global?'--global',?'--local'?are?deprecated.?Use?`--location=global`?instead.的解決方法,文中通過(guò)實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-08-08
  • 純異步nodejs文件夾(目錄)復(fù)制功能

    純異步nodejs文件夾(目錄)復(fù)制功能

    這篇文章主要介紹了純異步nodejs文件夾(目錄)復(fù)制功能,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2019-09-09

最新評(píng)論