欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

node?puppeteer爬蟲爬取電影網(wǎng)站及生成pdf文檔示例

 更新時間:2023年07月24日 09:05:52   作者:小小蚊子  
這篇文章主要介紹了node?puppeteer爬蟲爬取電影網(wǎng)站及生成pdf文檔使用示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪

引言

利用空閑時間,學(xué)習(xí)了下puppeteer爬蟲,我也想爬取下網(wǎng)上的資源

部分api

  • puppeteer.launch(options)
參數(shù)名稱參數(shù)類型參數(shù)說明
ignoreHTTPSErrorsboolean在請求的過程中是否忽略 Https 報錯信息,默認(rèn)為 false
headlessboolean是否以“無頭”的模式運(yùn)行chrome,也就是不顯示UI,默認(rèn)為true
executablePathstring可執(zhí)行文件的路徑,Puppeteer 默認(rèn)是使用它自帶的 chrome webdriver, 如果你想指定一個自己的 webdriver 路徑,可以通過這個參數(shù)設(shè)置
slowMonumber使 Puppeteer 操作減速,單位是毫秒。如果你想看看 Puppeteer 的整個工作過程,這個參數(shù)將非常有用
argsArray(String)傳遞給 chrome 實(shí)例的其他參數(shù),比如你可以設(shè)置瀏覽器窗口大小具體參數(shù)
timeoutnumber等待chrome實(shí)例啟動的最長時間,默認(rèn)是3000ms,如果傳入0,則不限制時間
dumpioboolean是否將瀏覽器錦程stdout和stderr導(dǎo)入到process.stdout和process.stderr中,默認(rèn)為false
userDataDirstring設(shè)置用戶數(shù)據(jù)目錄,默認(rèn)linux是在~/.config目錄,window 默認(rèn)在 C:Users{USER}AppDataLocalGoogleChromeUser Data, 其中 {USER} 代表當(dāng)前登錄的用戶名
envObject指定對chromium可見的環(huán)境變量,默認(rèn)為process.env
devtoolsboolean是否為每個選項(xiàng)卡自動打開DevTools面板,這個選項(xiàng)只有當(dāng)headless設(shè)置為false的時候有效

設(shè)置瀏覽器窗口大小具體參數(shù)

browser對象

api

方法名說明
browser.close()返回一個promise對象,用于關(guān)閉瀏覽器
browser.newPage()返回一個promise對象,創(chuàng)建一個page實(shí)例

page對象

方法名說明
page.goto(url[, options])返回一個promise對象,url是目標(biāo)鏈接
page.waitForSelector()等待某個選擇器的元素加載之后,這個元素可以是異步加載的
page.evaluate(pageFunction[,args])返回一個可序列化的普通對象,pageFunction 表示要在頁面執(zhí)行的函數(shù), args 表示傳入給 pageFunction 的參數(shù)

爬取電影網(wǎng)站

const puppeteer = require('puppeteer');
/* 爬蟲的目標(biāo)鏈接地址: 豆瓣電影 */
const url = `https://movie.douban.com/tag/#/?sort=R&range=0,10&tags=`;
const sleep = time => new Promise(resolve => {
  setTimeout(resolve, time);
});
(async () => {
  console.log('crawler start to visit the target address');
  /* dumpio 是否將瀏覽器進(jìn)程stdout和stderr導(dǎo)入到process.stdout和process.stderr中 */
  const browser = await puppeteer.launch({
    args: ['--no-sandbox'],
    dumpio: false
  });
  const page = await browser.newPage();
  await page.goto(url, {
    waitUntil: 'networkidle2'
  });
  await sleep(3000);
  await page.waitForSelector('.more');
  for(let i = 0; i < 1; i++) {
    await sleep(3000);
    await page.click('.more');
  }
  const result = await page.evaluate(() => {
    let $ = window.$;
    let nodeItems = $('.list-wp a');
    let links = [];
    /* 獲取對應(yīng)的元素節(jié)點(diǎn) */
    if(nodeItems.length >= 1) {
      nodeItems.each((index, item) => {
        let elem = $(item);
        let movieId = elem.find('div').data('id');
        let title = elem.find('.title').text();
        let rate = Number(elem.find('.rate').text());
        let poster = elem.find('img').attr('src').replace('s_ratio_poster','l_ratio_poster');
        links.push({
          movieId,
          title,
          rate,
          poster,
        })
      })
    }
    return links;
  });
  browser.close();
  console.log(result)
})();

爬取網(wǎng)站內(nèi)容生成pdf文件

const puppeteer = require('puppeteer');
const url = 'https://cn.vuejs.org/v2/guide/';
(async () => {
    const browser = await puppeteer.launch();
    const page = await browser.newPage();
    await page.goto(url, { waitUntil: 'networkidle0' });
    /* 選擇你要輸出的那個PDF文件路徑,把爬取到的內(nèi)容輸出到PDF中,必須是存在的PDF,可以是空內(nèi)容,如果不是空的內(nèi)容PDF,那么會覆蓋內(nèi)容 */
    let pdfFilePath = './index.pdf';
    /* 根據(jù)你的配置選項(xiàng),我們這里選擇A4紙的規(guī)格輸出PDF,方便打印 */
    await page.pdf({
        path: pdfFilePath,
        format: 'A4',
        scale: 1,
        printBackground: true,
        landscape: false,
        displayHeaderFooter: false
    });
    browser.close();
})()

 正在努力學(xué)習(xí)中,希望你的學(xué)習(xí)有幫助

以上就是node puppeteer爬蟲爬取電影網(wǎng)站及生成pdf文檔示例的詳細(xì)內(nèi)容,更多關(guān)于node puppeteer爬蟲爬取的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • NodeJs入門教程之定時器和隊(duì)列

    NodeJs入門教程之定時器和隊(duì)列

    這篇文章主要給大家介紹了關(guān)于NodeJs入門教程之定時器和隊(duì)列的相關(guān)資料,文中通過示例代碼以及圖文介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-03-03
  • Koa2微信公眾號開發(fā)之本地開發(fā)調(diào)試環(huán)境搭建

    Koa2微信公眾號開發(fā)之本地開發(fā)調(diào)試環(huán)境搭建

    本篇文章主要介紹了Koa2微信公眾號開發(fā)之本地開發(fā)調(diào)試環(huán)境搭建,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2018-05-05
  • node.js express cors解決跨域的示例代碼

    node.js express cors解決跨域的示例代碼

    在Web開發(fā)中,當(dāng)一個網(wǎng)頁的源與另一個網(wǎng)頁的源不同時,就發(fā)生了跨域,本文就來介紹一下node.js express cors解決跨域的示例代碼,具有一定的參考價值,感興趣的可以了解一下
    2023-12-12
  • node.js中的path.dirname方法使用說明

    node.js中的path.dirname方法使用說明

    這篇文章主要介紹了node.js中的path.dirname方法使用說明,本文介紹了path.dirname的方法說明、語法、使用實(shí)例和實(shí)現(xiàn)源碼,需要的朋友可以參考下
    2014-12-12
  • Nodejs Express 通過log4js寫日志到Logstash(ELK)

    Nodejs Express 通過log4js寫日志到Logstash(ELK)

    這篇文章主要介紹了Nodejs Express 通過log4js寫日志到Logstash(ELK),小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2018-08-08
  • node.js中的fs.write方法使用說明

    node.js中的fs.write方法使用說明

    這篇文章主要介紹了node.js中的fs.write方法使用說明,本文介紹了fs.write的方法說明、語法、接收參數(shù)、使用實(shí)例和實(shí)現(xiàn)源碼,需要的朋友可以參考下
    2014-12-12
  • CentOS7中源碼編譯安裝NodeJS的完整步驟

    CentOS7中源碼編譯安裝NodeJS的完整步驟

    這篇文章主要給大家介紹了關(guān)于CentOS7中源碼編譯安裝NodeJS的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對大家學(xué)習(xí)或者使用nodejs具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2018-10-10
  • Node.js API詳解之 dgram模塊用法實(shí)例分析

    Node.js API詳解之 dgram模塊用法實(shí)例分析

    這篇文章主要介紹了Node.js API詳解之 dgram模塊用法,結(jié)合實(shí)例形式分析了Node.js API中dgram模塊基本功能、函數(shù)、使用方法及操作注意事項(xiàng),需要的朋友可以參考下
    2020-06-06
  • 在Node.js中使用Express框架和Mongoose庫實(shí)現(xiàn)視頻評論功能

    在Node.js中使用Express框架和Mongoose庫實(shí)現(xiàn)視頻評論功能

    本文我們將詳細(xì)介紹如何在Node.js應(yīng)用中使用Express框架和Mongoose庫來實(shí)現(xiàn)一個視頻評論功能,這個功能允許用戶對視頻內(nèi)容添加評論,并將評論數(shù)實(shí)時更新,以下是逐步的實(shí)現(xiàn)過程,包括代碼示例和說明,需要的朋友可以參考下
    2024-04-04
  • npm、pnpm、yarn之間的區(qū)別小結(jié)

    npm、pnpm、yarn之間的區(qū)別小結(jié)

    平時在項(xiàng)目開發(fā)中,經(jīng)常用到npm、pnpm、yarn這些來安裝包,本文主要介紹了npm、pnpm、yarn之間的區(qū)別小結(jié),具有一定的參考價值,感興趣的可以了解一下
    2023-12-12

最新評論