首選通過 http.get() 方法獲取頁面源碼
獲取到源碼，打印發(fā)現(xiàn)中文亂碼，查看發(fā)現(xiàn) charset = 'gbk'，需要進(jìn)行轉(zhuǎn)碼
使用 iconv-lite 模塊進(jìn)行轉(zhuǎn)碼，中文顯示正常后開始解析源碼，獲取需要的 URL，為了更方便地解析，需要引進(jìn) cheerio 模塊，cheerio 可以理解為運(yùn)行在后臺的 jQuery，用法與 jQuery 也十分相似，熟悉 jQuery 的同學(xué)可以很快的上手
將源碼加載進(jìn) cheerio，分析了源碼后得知所有章節(jié)信息都存于被 div 包裹的 a 標(biāo)簽中，通過 cheerio 取出符合條件的 a 標(biāo)簽組，進(jìn)行遍歷，獲取章節(jié)的 title 和 URL，保存為對象，存進(jìn)數(shù)組，(因?yàn)殒溄又写鎯Φ?URL 不完整，所以存儲時需要補(bǔ)齊)
將對象數(shù)組序列化，寫進(jìn) list.json 文件

var http = require("http")
var fs = require("fs")
var cheerio = require("cheerio")
var iconv = require("iconv-lite")
var url = 'http://www.17fa.com/files/article/html/90/90747/index.html'
http.get(url, function(res) { //資源請求
  var chunks = []
  res.on('data', function(chunk) {
    chunks.push(chunk)
  })
  res.on('end', function() {
    var html = iconv.decode(Buffer.concat(chunks), 'gb2312') //轉(zhuǎn)碼操作
    var $ = cheerio.load(html, {
      decodeEntities: false
    })
    var content = $("tbody")
    var links = []
    $('div').children('a').each(function(i, elem) {
      var link = new Object()
      link.title = $(this).text()
      link.link = 'http://www.17fa.com/files/article/html/90/90747/' + $(this).attr('href') //補(bǔ)齊 URL 信息
      if (i > 5) {
        links.push(link)
      }
    })
    fs.writeFile("list.json", JSON.stringify(links), function(err) {
      if (!err) {
        console.log("寫文件成功")
      }
    })
  }).on('error', function() {
    console.log("網(wǎng)頁訪問出錯")
  })
})

獲取的列表示例

[{
  "title": "3 法醫(yī)司白",
  "link": "http://www.17fa.com/files/article/html/90/90747/16548771.html"
}, {
  "title": "4 第1個夢 ",
  "link": "http://www.17fa.com/files/article/html/90/90747/16548772.html"
}, {
  "title": "5 刑警韓沉 ",
  "link": "http://www.17fa.com/files/article/html/90/90747/16548773.html"
}, {
  "title": "6 最初之戰(zhàn)",
  "link": "http://www.17fa.com/files/article/html/90/90747/16548774.html "
}]

獲取數(shù)據(jù)

有了 URLs 列表，接下來的工作就很機(jī)械了，遍歷 URLs 列表請求資源，獲取源碼，解析源碼，獲取小說，寫文件，但是，因?yàn)樽罱K將所有的章節(jié)保存入一個文件，要保證章節(jié)的順序，因此寫文件需要同步操作，實(shí)際上，我在編碼的時候所有的操作都改成了同步方式

獲取源碼

通過解析讀取的 list.json 文件，獲取到 URLs 列表，遍歷列表獲取資源，因?yàn)樾枰_保章節(jié)的順序，所以這里引進(jìn) sync-request 模塊進(jìn)行同步 request 請求資源，請求資源后照例轉(zhuǎn)碼

var http = require("http")
var fs = require("fs")
var cheerio = require("cheerio")
var iconv = require("iconv-lite")
var request = require('sync-request')
var urlList = JSON.parse(fs.readFileSync('list.json', 'utf8'))
function getContent(chapter) {
  var res = request('GET',chapter.link)
  var html = iconv.decode(res.body, 'gb2312') //獲取源碼
}
for (let i = 0; i < urlList.length; i++) {
  getContent(urlList[i])
}

解析源碼，獲取小說

還是通過 cheerio 模塊獲取小說內(nèi)容，避免影響觀感，寫操作之前去除內(nèi)容中的的 html 標(biāo)簽

function getContent(chapter) {
  var res = request('GET',chapter.link)
  var html = iconv.decode(res.body, 'gb2312')
  var $ = cheerio.load(html, {
    decodeEntities: false
  })
  var content = ($("div#r1c").text()).replace(/\&nbsp;/g, '')
}

保存小說

寫操作也需要同步操作，因此使用了同步寫函數(shù) fs.writeFileSync() 和同步添加函數(shù) fs.appendFileSync()，第一次寫使用寫函數(shù)，之后的內(nèi)容都是進(jìn)行 append 操作，為了改善閱讀體驗(yàn)，每個章節(jié)前添加標(biāo)題

也可以在內(nèi)容前添加拍 [TOC]，作為導(dǎo)航鏈接

var http = require("http")
var fs = require("fs")
var cheerio = require("cheerio")
var iconv = require("iconv-lite")
var path = require('path')
var urlList = JSON.parse(fs.readFileSync('list.json', 'utf8'))
function getContent(chapter) {
  console.log(chapter.link)
  http.get(chapter.link, function(res) {
    var chunks = []
    res.on('data', function(chunk) {
      chunks.push(chunk)
    })
    res.on('end', function() {
      var html = iconv.decode(Buffer.concat(chunks), 'gb2312')
      var $ = cheerio.load(html, {
        decodeEntities: false
      })
      var content = ($("div#r1c").text()).replace(/\&nbsp;/g, '')
      if (fs.existsSync('美人為餡.md')) {
        fs.appendFileSync('美人為餡.md', '### ' + chapter.title)
        fs.appendFileSync('美人為餡.md', content)
      } else {
        fs.writeFileSync('美人為餡.md', '### ' + chapter.title)
        fs.appendFileSync('美人為餡.md', content)
      }
    })
  }).on('error', function() {
    console.log("爬取" + chapter.link + "鏈接出錯！")
  })
}
for (let i = 0; i < urlList.length; i++) {
  console.log(urlList[i])
  getContent(urlList[i])
}

Markdown 轉(zhuǎn) PDF

我將小說保存在 Markdown 文件中，為了提升閱讀體驗(yàn)，可以將 Markdown 文件轉(zhuǎn)換成 PDF 文件，目前我較為喜歡的兩種方式，通過 Chrome 的打印功能以及 pandoc 轉(zhuǎn)換

Chrome 打印

SublimeText 有個插件 markdown preview ，可通過 Alt + m 快捷鍵在 Chrome 中預(yù)覽 Markdown，在 Chrome 頁面中右鍵，選擇打印，調(diào)整好參數(shù)后，選擇另存為 PDF，簡單，粗暴，深得我心

打印效果：

pandoc 轉(zhuǎn)換
pandoc 是十分強(qiáng)大的文件格式轉(zhuǎn)換工具，可以將 Markdown 文件轉(zhuǎn)換成多種格式，今晚在 windows10 下折騰了半天，始終檢索不到 pdflatex，關(guān)于 pandoc，后面會專門寫一篇總結(jié)。

PDF 已經(jīng)發(fā)給老大了，現(xiàn)在正在看

關(guān)于python、node、爬蟲

在之前很長的一段時間里，很想用 Python，很想寫爬蟲，更想用 Python 寫爬蟲，甚至成為了心里的一塊執(zhí)念，隨著接觸的知識更全面，執(zhí)念也逐漸淡去，少了很多“想”，遇事想著多去動手，實(shí)踐出真知。

以上就是本文的全部內(nèi)容，希望對大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章: