欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python實(shí)戰(zhàn)爬蟲之女友欲買文胸不知何色更美

 更新時(shí)間:2021年09月30日 10:21:31   作者:Dream丶Killer  
實(shí)踐來源于理論,做爬蟲前肯定要先了解相關(guān)的規(guī)則和原理,網(wǎng)絡(luò)爬蟲又稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,更經(jīng)常的稱為網(wǎng)頁追逐者,是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。一句話概括就是網(wǎng)上信息搬運(yùn)工。本篇文章帶你深入了解,需要的朋友可以參考下

情景再現(xiàn)

今日天氣尚好,女友忽然欲買文胸,但不知何色更美,遂命吾剖析何色買者益眾,為點(diǎn)議,事后而獎(jiǎng)勵(lì)之。

本文關(guān)鍵詞

協(xié)程并發(fā)😊、IP被封😳、IP代理😏、代理被封😭、一種植物🌿

挑個(gè)“軟柿子”

打開京東,直接搜 【文胸】,挑個(gè)評(píng)論最多的

進(jìn)入詳情頁,往下滑,可以看到商品介紹啥的,同時(shí)商品評(píng)價(jià)也在這里。

在這里插入圖片描述

接下來重頭戲,F(xiàn)12 打開 開發(fā)者工具,選擇 Network,然后點(diǎn)擊全部評(píng)價(jià),抓取數(shù)據(jù)包。

請(qǐng)?zhí)砑訄D片描述

將 url 打開,發(fā)現(xiàn)確實(shí)是評(píng)論數(shù)據(jù)。

在這里插入圖片描述

單頁爬取

那我們先寫個(gè)小 demo 來嘗試爬取這頁的代碼,看看有沒有什么問題。

import requests
import pandas as pd

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.54 Safari/537.36'
}

params = {
    'callback':'fetchJSON_comment98',
    'productId':'35152509650',
    'score':'0',
    'sortType':'6',
    'page': '5',
    'pageSize':'10',
    'isShadowSku':'0',
    'rid':'0',
    'fold':'1'
}

url = 'https://club.jd.com/comment/productPageComments.action?'
page_text = requests.get(url=url, headers=headers, params=params).text
page_text

在這里插入圖片描述

數(shù)據(jù)處理

數(shù)據(jù)是獲取了,但前面多了一些沒用的字符(后面也有),很明顯不能直接轉(zhuǎn)成 json 格式,需要處理一下。

page_text = page_text[20: len(page_text) - 2]
data = json.loads(page_text)
data

在這里插入圖片描述

現(xiàn)在數(shù)據(jù)格式處理好了,可以上手解析數(shù)據(jù),提取我們所需要的部分。這里我們只提取 id(評(píng)論id)、color(產(chǎn)品顏色)、comment(評(píng)價(jià))、time(評(píng)價(jià)時(shí)間)。

import pandas as pd

df = pd.DataFrame({'id': [],
                   'color': [],
                   'comment': [],
                   'time': []})
for info in data['comments']:
    df = df.append({'id': info['id'],
                    'color': info['productColor'],
                    'comment': info['content'],
                    'time': info['creationTime']},
                   ignore_index=True)
df

在這里插入圖片描述

翻頁操作

那么接下來就要尋找翻頁的關(guān)鍵了,下面用同樣的方法獲取第二頁、第三頁的url,進(jìn)行對(duì)比。

在這里插入圖片描述

簡單分析一下,page 字段是頁數(shù),翻頁會(huì)用到,值得注意的是 sortType,字面意思是排序類型,猜測排序方式可能是:熱度、時(shí)間等。經(jīng)過測試發(fā)現(xiàn) sortType=5 肯定不是按時(shí)間排序的,應(yīng)該是熱度,我們要獲取按時(shí)間排序的,這樣后期比較好處理,然后試了幾個(gè)值,最后確定當(dāng) sortType=6 時(shí)是按評(píng)價(jià)時(shí)間排序。圖中最后還有個(gè) rid=0 ,不清楚什么作用,我爬取兩個(gè)相同的url(一個(gè)加 rid 一個(gè)不加),測試結(jié)果是相同的,所以不用管它。

擼代碼

先寫爬取結(jié)果:開始想爬 10000 條評(píng)價(jià),結(jié)果請(qǐng)求過多IP涼了,從IP池整了丶代理,也沒頂住,拼死拼活整了1000條,時(shí)間不夠,如果時(shí)間和IP充足,隨便爬。經(jīng)過測試發(fā)現(xiàn)這個(gè)IP封鎖時(shí)間不會(huì)超過一天,第二天我跑了一下也有數(shù)據(jù)。下面看看主要的代碼。

主調(diào)度函數(shù)

設(shè)置爬取的 url 列表,windows 環(huán)境下記得限制并發(fā)量,不然報(bào)錯(cuò),將爬取的任務(wù)添加到 tasks 中,掛起任務(wù)。

async def main(loop):
    # 獲取url列表
    page_list = list(range(0, 1000))
    # 限制并發(fā)量
    semaphore = asyncio.Semaphore(500)
    # 創(chuàng)建任務(wù)對(duì)象并添加到任務(wù)列表中
    tasks = [loop.create_task(get_page_text(page, semaphore)) for page in page_list]
    # 掛起任務(wù)列表
    await asyncio.wait(tasks)

頁面抓取函數(shù)

抓取方法和上面講述的基本一致,只不過換成 aiohttp 進(jìn)行請(qǐng)求,對(duì)于SSL證書的驗(yàn)證也已設(shè)置。程序執(zhí)行后直接進(jìn)行解析保存。

async def get_page_text(page, semaphore):
    async with semaphore:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.54 Safari/537.36'
        }
        params = {
            'callback': 'fetchJSON_comment98',
            'productId': '35152509650',
            'score': '0',
            'sortType': '6',
            'page': f'{page}',
            'pageSize': '10',
            'isShadowSku': '0',
            # 'rid': '0',
            'fold': '1'
        }
        url = 'https://club.jd.com/comment/productPageComments.action?'
        async with aiohttp.ClientSession(connector=aiohttp.TCPConnector(ssl=False), trust_env=True) as session:
            while True:
                try:
                    async with session.get(url=url, proxy='http://' + choice(proxy_list), headers=headers, params=params,
                                           timeout=4) as response:
                        # 遇到IO請(qǐng)求掛起當(dāng)前任務(wù),等IO操作完成執(zhí)行之后的代碼,當(dāng)協(xié)程掛起時(shí),事件循環(huán)可以去執(zhí)行其他任務(wù)。
                        page_text = await response.text()
                        # 未成功獲取數(shù)據(jù)時(shí),更換ip繼續(xù)請(qǐng)求
                        if response.status != 200:
                            continue
                        print(f"第{page}頁爬取完成!")
                        break
                except Exception as e:
                    print(e)
                    # 捕獲異常,繼續(xù)請(qǐng)求
                    continue
        return parse_page_text(page_text)

解析保存函數(shù)

將 json 數(shù)據(jù)解析以追加的形式保存到 csv 中。

def parse_page_text(page_text):
    page_text = page_text[20: len(page_text) - 2]
    data = json.loads(page_text)

    df = pd.DataFrame({'id': [],
                       'color': [],
                       'comment': [],
                       'time': []})
    for info in data['comments']:
        df = df.append({'id': info['id'],
                        'color': info['productColor'],
                        'comment': info['content'],
                        'time': info['creationTime']},
                       ignore_index=True)

    header = False if Path.exists(Path('評(píng)價(jià)信息.csv')) else True
    df.to_csv('評(píng)價(jià)信息.csv', index=False, mode='a', header=header)
    print('已保存')

可視化

顏色分布

排名前三分別是灰粉色、黑色、裸感膚色,多的不說,自己體會(huì)哈。

在這里插入圖片描述

評(píng)價(jià)詞云圖

可以看出評(píng)價(jià)的關(guān)鍵詞大多是對(duì)上身感覺的一些描述,穿著舒服當(dāng)然是第一位的~

在這里插入圖片描述

完結(jié)撒花,該向女朋友匯報(bào)工作了~

別忘記收藏哦~

在這里插入圖片描述

到此這篇關(guān)于Python實(shí)戰(zhàn)爬蟲之女友欲買文胸不知何色更美的文章就介紹到這了,更多相關(guān)Python 爬蟲文胸內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python中對(duì)數(shù)據(jù)進(jìn)行各種排序的方法

    python中對(duì)數(shù)據(jù)進(jìn)行各種排序的方法

    這篇文章主要介紹了python中對(duì)數(shù)據(jù)進(jìn)行各種排序的方法,本文給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值 ,需要的朋友可以參考下
    2019-07-07
  • 安裝python3.7編譯器后如何正確安裝opnecv的方法詳解

    安裝python3.7編譯器后如何正確安裝opnecv的方法詳解

    這篇文章主要介紹了安裝python3.7編譯器后如何正確安裝opnecv,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-06-06
  • Flask教程之重定向與錯(cuò)誤處理實(shí)例分析

    Flask教程之重定向與錯(cuò)誤處理實(shí)例分析

    這篇文章主要介紹了Flask教程之重定向與錯(cuò)誤處理,結(jié)合實(shí)例形式分析了flask框架重定向、狀態(tài)碼判斷及錯(cuò)誤處理相關(guān)操作技巧,需要的朋友可以參考下
    2019-08-08
  • Python中zip()函數(shù)的簡單用法舉例

    Python中zip()函數(shù)的簡單用法舉例

    這篇文章主要給大家介紹了關(guān)于Python中zip()函數(shù)的簡單用法,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家學(xué)習(xí)或者使用Python具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-09-09
  • python文件的讀取、寫入與刪除

    python文件的讀取、寫入與刪除

    文件是無處不在的,,無論我們使用哪種編程語言,處理文件對(duì)于每個(gè)程序員都是必不可少的,下面這篇文章主要給大家介紹了關(guān)于python文件的讀取、寫入與刪除的相關(guān)資料,文中通過實(shí)例代碼和圖文介紹的非常詳細(xì),需要的朋友可以參考下
    2023-06-06
  • python 處理數(shù)字,把大于上限的數(shù)字置零實(shí)現(xiàn)方法

    python 處理數(shù)字,把大于上限的數(shù)字置零實(shí)現(xiàn)方法

    今天小編就為大家分享一篇python 處理數(shù)字,把大于上限的數(shù)字置零實(shí)現(xiàn)方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01
  • Python中Generators教程的實(shí)現(xiàn)

    Python中Generators教程的實(shí)現(xiàn)

    本文主要介紹了Python中Generators教程的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-02-02
  • Python蒙特卡洛算法實(shí)現(xiàn)排列組合

    Python蒙特卡洛算法實(shí)現(xiàn)排列組合

    排列組合是數(shù)學(xué)中的基本概念,也是編程中常見的問題之一,本文主要介紹了Python蒙特卡洛算法實(shí)現(xiàn)排列組合,具有一定的參考價(jià)值,感興趣的可以了解一下
    2024-03-03
  • OpenCV+python手勢識(shí)別框架和實(shí)例講解

    OpenCV+python手勢識(shí)別框架和實(shí)例講解

    今天小編就為大家分享一篇OpenCV+python手勢識(shí)別框架和實(shí)例講解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2018-08-08
  • 用Python開發(fā)app后端有優(yōu)勢嗎

    用Python開發(fā)app后端有優(yōu)勢嗎

    在本篇文章里小編給大家整理的是關(guān)于app后端開發(fā)學(xué)PHP還是Python的先關(guān)問題內(nèi)容,需要的朋友們可以參考下。
    2020-06-06

最新評(píng)論