欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python 開心網(wǎng)和豆瓣日記爬取的小爬蟲

 更新時間:2021年05月28日 16:36:57   作者:aturret  
我本科有個很幽默風(fēng)趣的量子力學(xué)老師,他說了很多批話,跟個公知似的。他的很多文章都放在了開心網(wǎng)(kaixin001.com)上,為了留個紀(jì)念,用爬蟲保存下來

項目地址:

https://github.com/aturret/python-crawler-exercise

用到了BeautifulSoup4,請先安裝。

pip install beautifulsoup4

開心網(wǎng)日記爬取

kaixin001.py

使用

登錄開心網(wǎng),瀏覽器F12看http請求的header,獲取自己的cookie。

填寫cookie,要爬的日記的url,要爬的總次數(shù)。走你。

之后會生成HTML文件,格式是<:title>-<YYYYMMDDHHMMSS>

代碼

# -*- coding: utf-8 -*-
from urllib.request import urlopen
import urllib.request
import urllib.parse #為了獲取HTTP response
from bs4 import BeautifulSoup #BS4
import string # 為了去掉空白字符
import time # 防止被殺cookie
import unicodedata # 字符修正
# 在這里放第一個鏈接
urlx = '鏈接' #寫你想爬的文

def request(url):
    global urlx #引用外面的鏈接作為全局變量,后面還會取下一個進(jìn)行循環(huán)的


# 使用urllib庫提交cookie獲取http響應(yīng)
    headers = {
    'GET https':url,
    'Host':' www.kaixin001.com',
    'Connection':' keep-alive',
    'Upgrade-Insecure-Requests':' 1',
    'User-Agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36',
    'Accept':' application/json, text/javascript, */*; q=0.01',
    'Accept-Language':' zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
    'Cookie':' ', #改成自己的cookie,自己瀏覽器打開網(wǎng)站F12調(diào)試,自己找http請求的header
    }
    request = urllib.request.Request(url=url,headers=headers)
    response = urllib.request.urlopen(request)
    contents = response.read()

# 使用BS4獲得所有HTMLtag
    bsObj = BeautifulSoup(contents,"html.parser")

# 使用BS4的find函數(shù)得到想要的東西:標(biāo)題、發(fā)表時間和博客正文
    title = bsObj.find("b", attrs={"class":"f14"})
    titleT = bsObj.find("b", attrs={"class":"f14"}).get_text() #開心網(wǎng)日記的標(biāo)題是一個b標(biāo)簽,class屬性值是f14
    date = bsObj.find("span", attrs={"class":"c6"})
    dateT = bsObj.find("span", attrs={"class":"c6"}).get_text() #開心網(wǎng)日記的發(fā)表時間是一個span標(biāo)簽,class屬性值是c6
    text = bsObj.find("div", attrs={"class":"textCont"})
    textT = bsObj.find("div", attrs={"class":"textCont"}).get_text() #開心網(wǎng)日記的正文是一個div標(biāo)簽,class屬性值是textCont

  

# 測試輸出
    print(title)
    print(dateT)
    # print(text)
    
    
    

# 生成HTML文件。這里直接用file.open()和file.write()了,也可以用jinja2之類的框架生成。
    remove = string.whitespace+string.punctuation
    table = str.maketrans(':',':',remove)

    fileTitle=str(titleT).replace(':',':').replace('''"''','''“''')+'-'+str(dateT).translate(table).replace('發(fā)表','')+'.html'

    print(fileTitle) #測試輸出

    f = open(fileTitle,'w',encoding="utf-8") #注意用utf-8編碼寫入,不然會因為一些舊博文采用的gbk編碼不兼容而出問題。

# 寫入message
    message = """
    <html>
    <head></head>
    <body>
    <h1>%s</h1>
    <b>%s</b>
    <br></br>
    %s
    </body>
    </html>"""%(title.get_text(),date.get_text(),unicodedata.normalize('NFD',text.prettify()))
    f.write(message)
    f.close()
    # webbrowser.open(fileTitle,new = 1)
   

# 定位下一篇博文的URL

    nextUrl=bsObj.find("a",text="下一篇 >").attrs["href"] #下一篇是一個a標(biāo)簽,使用tag對象的attrs屬性取href屬性的值。開心網(wǎng)的日記系統(tǒng)里,如果到了最后一篇日記,下一篇的鏈接內(nèi)容是第一篇日記,所以不用擔(dān)心從哪篇日記開始爬。
    # print(nextUrl)
    urlx="http://www.kaixin001.com"+nextUrl
    print(urlx)


# 主循環(huán),給爺爬
num=328 #設(shè)定要爬多少次。其實也可以寫個數(shù)組檢測重復(fù)然后中止的啦,但我懶得弄了。
for a in range(num):
    request(urlx)    
    print('We get '+str(a+1)+' in '+str(num))
    time.sleep(1) # 慢點,慢點。測試過程中出現(xiàn)了沒有設(shè)置限制爬一半cookie失效了的情況,可能是太快了被搞了。

豆瓣日記爬取

douban.py

使用

登錄豆瓣,瀏覽器F12看http請求的header,獲取自己的cookie。

填寫變量COOKIE,要爬的日記頁的url。走你。

之后會生成HTML文件,格式是<:title>-<YYYYMMDDHHMMSS>

代碼

# -*- coding: utf-8 -*-
from urllib.request import urlopen
import urllib.request
import urllib.parse #為了獲取HTTP response
from bs4 import BeautifulSoup #BS4
import string # 為了去掉空白字符
import unicodedata # 字符修正
import re
# 在這里放鏈接
url = '' #寫你想爬的人 https://www.douban.com/people/xxx/notes 這樣
COOKIE = ''

def request(urlx):
    global url #引用外面的鏈接作為全局變量,后面還會取下一個進(jìn)行循環(huán)的
    global boolean
    global COOKIE
# 使用urllib庫提交cookie獲取http響應(yīng)
    headers = {
    'GET https':urlx,
    'Host':' www.douban.com',
    'Connection':' keep-alive',
    'Upgrade-Insecure-Requests':' 1',
    'User-Agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36',
    'Accept':' application/json, text/javascript, */*; q=0.01',
    'Accept-Language':' zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
    'Cookie':COOKIE, #改成自己的cookie,自己瀏覽器打開網(wǎng)站F12調(diào)試,自己找http請求的header
    }
    request = urllib.request.Request(url=urlx,headers=headers)
    response = urllib.request.urlopen(request)
    contents = response.read()

# 使用BS4獲得所有HTMLtag
    bsObj = BeautifulSoup(contents,"html.parser")

# 使用BS4的find函數(shù)獲取當(dāng)前頁面的所有日記鏈接
    article = bsObj.find("div", attrs={"class":"article"})
    titleSet = article.findAll("h3")
    # print(titleSet)
    for title in titleSet:
        titleText = title.findAll("a",attrs={"class":"j a_unfolder_n"})
        for link in titleText:
            noteUrl = str(link.attrs["href"])
            print(noteUrl)
            requestSinglePage(noteUrl)
    next = bsObj.find("a",text="后頁>")
    if next==None:
        print("結(jié)束了")
        boolean=1
    else:
        url = str(next.attrs["href"]).replace("&type=note","")
        print(url)

def requestSinglePage(urly):
    global COOKIE
    headers = {
        'GET https':urly,
        'Host':' www.douban.com',
        'Connection':' keep-alive',
        'Upgrade-Insecure-Requests':' 1',
        'User-Agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36',
        'Accept':' application/json, text/javascript, */*; q=0.01',
        'Accept-Language':' zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
        'Cookie':COOKIE, #改成自己的cookie,自己瀏覽器打開網(wǎng)站F12調(diào)試,自己找http請求的header
    }
    request = urllib.request.Request(url=urly,headers=headers)
    response = urllib.request.urlopen(request)
    contents = response.read()
    # 使用BS4獲得所有HTMLtag
    bsObj = BeautifulSoup(contents,"html.parser")

# 使用BS4的find函數(shù)得到想要的東西:標(biāo)題、發(fā)表時間和博客正文

    title = bsObj.find("h1").get_text()
    date = bsObj.find("span", attrs={"class":"pub-date"})
    dateT = bsObj.find("span", attrs={"class":"pub-date"}).get_text()
    text = bsObj.find("div", attrs={"id":"link-report"})
    # textT = bsObj.find("div", attrs={"class":"textCont"}).get_text()

# 測試輸出
    print(title)
    print(dateT)

    # 生成HTML文件。這里直接用file.open()和file.write()了,也可以用jinja2之類的框架生成。
    remove = string.whitespace+string.punctuation # 去掉日期的標(biāo)點符號
    table = str.maketrans(':',':',remove)

    fileTitle=str(title)+'-'+str(dateT).translate(table)+'.html'

    print(fileTitle) #測試輸出

    f = open(fileTitle,'w',encoding="utf-8") #注意用utf-8編碼寫入,不然會因為一些舊博文采用的gbk編碼不兼容而出問題。

    # 寫入message
    message = """
    <html>
    <head></head>
    <body>
    <h1>%s</h1>
    <b>%s</b>
    <br></br>
    %s
    </body>
    </html>"""%(title,dateT,unicodedata.normalize('NFD',text.prettify()))
    f.write(message)
    f.close()

# 主循環(huán),給爺爬

boolean=0
while(boolean==0):
    a=1
    request(url)
    print('We finished page '+str(a)+' .')
    a+=1

Roadmap

豆瓣四月份時候還有bug,手機(jī)端可以看到全部日記,半年隱藏?zé)o效。最近修好了。

不過現(xiàn)在的隱藏依然沒有針對到具體的日記,或許可以想辦法通過其他手段爬下來。

以上就是python 開心網(wǎng)日記爬取的示例步驟的詳細(xì)內(nèi)容,更多關(guān)于python 開心網(wǎng)日記爬取的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • ZABBIX3.2使用python腳本實現(xiàn)監(jiān)控報表的方法

    ZABBIX3.2使用python腳本實現(xiàn)監(jiān)控報表的方法

    今天小編就為大家分享一篇ZABBIX3.2使用python腳本實現(xiàn)監(jiān)控報表的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-07-07
  • Python中os.path.join函數(shù)的用法示例詳解

    Python中os.path.join函數(shù)的用法示例詳解

    這篇文章主要給大家介紹了關(guān)于Python中os.path.join函數(shù)用法的相關(guān)資料,os.path.join函數(shù)是Python標(biāo)準(zhǔn)庫中的一個函數(shù),用于將多個路徑組合成一個有效的路徑,文中通過代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2023-10-10
  • Pandas數(shù)據(jù)查詢的集中實現(xiàn)方法

    Pandas數(shù)據(jù)查詢的集中實現(xiàn)方法

    本文主要介紹了Pandas數(shù)據(jù)查詢的集中實現(xiàn)方法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-02-02
  • Linux下升級安裝python3.8并配置pip及yum的教程

    Linux下升級安裝python3.8并配置pip及yum的教程

    這篇文章主要介紹了Linux下升級安裝python3.8并配置pip及yum的教程,本文給大家介紹的非常詳細(xì),具有一定的參考借鑒價值,需要的朋友可以參考下
    2020-01-01
  • Python3中str、bytes、bytearray轉(zhuǎn)化

    Python3中str、bytes、bytearray轉(zhuǎn)化

    本文主要介紹了Python3中str、bytes、bytearray轉(zhuǎn)化,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-04-04
  • 零基礎(chǔ)寫python爬蟲之打包生成exe文件

    零基礎(chǔ)寫python爬蟲之打包生成exe文件

    本文介紹了通過pyinstaller和pywin32兩個插件在windows環(huán)境下,將py文件打包成exe文件,有需要的朋友可以參考下
    2014-11-11
  • Python使用OpenCV對彩色圖像進(jìn)行通道分離的項目實踐

    Python使用OpenCV對彩色圖像進(jìn)行通道分離的項目實踐

    通道分離是將彩色圖像的每個像素分解為三個通道(紅、綠、藍(lán))的過程,本文主要介紹了Python使用OpenCV對彩色圖像進(jìn)行通道分離的項目實踐,感興趣的可以了解一下
    2023-08-08
  • 使用Py2Exe for Python3創(chuàng)建自己的exe程序示例

    使用Py2Exe for Python3創(chuàng)建自己的exe程序示例

    今天小編就為大家分享一篇使用Py2Exe for Python3創(chuàng)建自己的exe程序示例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-10-10
  • 簡單且有用的Python數(shù)據(jù)分析和機(jī)器學(xué)習(xí)代碼

    簡單且有用的Python數(shù)據(jù)分析和機(jī)器學(xué)習(xí)代碼

    Python編程是一種通用的編程語言,開源、靈活、功能強(qiáng)大且易于使用,python最重要的特性之一是其用于數(shù)據(jù)處理和分析任務(wù)的豐富實用程序和庫集,這篇文章主要給大家介紹了一些簡單且有用的Python數(shù)據(jù)分析和機(jī)器學(xué)習(xí)代碼,需要的朋友可以參考下
    2021-07-07
  • Python解決爬蟲程序卡死問題

    Python解決爬蟲程序卡死問題

    這篇文章主要介紹了Python解決爬蟲程序卡死問題,文章圍繞主題展開詳細(xì)內(nèi)容介紹,具有一定的參考價值,需要的小伙伴可以參考一下
    2022-05-05

最新評論