欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

基于Python實(shí)現(xiàn)文章信息統(tǒng)計(jì)的小工具

 更新時(shí)間:2023年02月14日 14:08:55   作者:KoiC  
及時(shí)的統(tǒng)計(jì)可以更好的去分析讀者對(duì)于內(nèi)容的需求,了解文章內(nèi)容的價(jià)值,以及從側(cè)面認(rèn)識(shí)自己在知識(shí)創(chuàng)作方面的能力。本文就來用Python制作一個(gè)文章信息統(tǒng)計(jì)的小工具?,希望對(duì)大家有所幫助

前言

博客園在個(gè)人首頁有一個(gè)簡單的博客數(shù)據(jù)統(tǒng)計(jì),以博客園官方的首頁為例:

但是這些數(shù)據(jù)不足以分析更為細(xì)節(jié)的東西

起初我是想把博客園作為個(gè)人學(xué)習(xí)的云筆記,但在一點(diǎn)點(diǎn)的記錄中,我逐漸把博客園視為知識(shí)創(chuàng)作知識(shí)分享的平臺(tái)

所以從年后開始,就想著做一個(gè)類似 CSDN 里統(tǒng)計(jì)文章數(shù)據(jù)的工具

這樣的統(tǒng)計(jì)功能可以更好的去分析讀者對(duì)于內(nèi)容的需求,了解文章內(nèi)容的價(jià)值,以及從側(cè)面認(rèn)識(shí)自己在知識(shí)創(chuàng)作方面的能力

說了不少無關(guān)的話,下面直接進(jìn)入正題!

程序

這個(gè)程序是我昨天晚上一時(shí)興起,看到了一位博主的文章 Python爬蟲實(shí)戰(zhàn)-統(tǒng)計(jì)博客園閱讀量問題 ,對(duì)他的代碼做了一些補(bǔ)充和修改。因?yàn)橄胫鼮橹庇^的展示文章數(shù)據(jù),所以分了幾個(gè)模塊去寫,以方便后續(xù)增加和修改功能

程序目前只有三個(gè) .py 文件,爬取數(shù)據(jù)后解析并寫入到 txt 中(后續(xù)會(huì)使用更規(guī)范的方法做持久化處理)

主程序 main.py

from spider import spider
from store import write_data


# 設(shè)置博客名,例如我的博客地址為:https://www.cnblogs.com/KoiC,此處則填入KoiC
blog_name = 'KoiC'



if __name__ == '__main__':
    post_info = spider(blog_name)
    # print(post_info)
    write_data(post_info, blog_name)
    print('執(zhí)行完畢!')

爬蟲模塊 spider.py

import time
import requests
import re
from lxml import etree


def spider(blog_name):
    """
        爬取相關(guān)數(shù)據(jù)
    """
    
    # 設(shè)置UA和目標(biāo)博客url
    headers = {
        "User-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.41"
    }
    url = "https://www.cnblogs.com/" + blog_name + "/default.html?page=%d"
    
    # 測試訪問
    req = requests.get(url, headers)
    print('測試訪問狀態(tài):%d'%req.status_code)
    
    
    print('開始爬取數(shù)據(jù)...')
    
    post_info = [] # 全部博文信息
    
    #分頁爬取數(shù)據(jù)
    for page_num in range(1, 999):
        
        # 指向目標(biāo)url
        new_url = format(url%page_num)
        
        # 獲取頁面
        req = requests.get(url=new_url, headers=headers)
        # print(req.status_code)
        
        tree = etree.HTML(req.text)
        
        # 獲取目標(biāo)數(shù)據(jù)(各博文名稱和閱讀量)
        count_list = tree.xpath('//div[@class="forFlow"]/div/div[@class="postDesc"]/span[1]/text()')        
        title_list = tree.xpath('//div[@class="postTitle"]/a/span/text()')
        
        # 獲取該頁博文數(shù)量
        post_count = len(count_list)
        # 如果該頁沒有博文,跳出循環(huán)
        if post_count == 0:
            break
        
        # 解析目標(biāo)數(shù)據(jù)
        
        for i in range(post_count):
            # 對(duì)數(shù)據(jù)進(jìn)行處理
            post_title = title_list[i].strip() # 處理前后多余的空格、換行等
            post_view_count = re.findall('\d+', count_list[i]) # 正則表達(dá)式獲取閱讀量數(shù)據(jù)
            
            single_post_info = [post_title, post_view_count[0]] # 單篇博文數(shù)據(jù)
            
            post_info.append(single_post_info)
        
        time.sleep(0.8)
        
    return post_info  

持久化模塊 store.py

import os
import time


def write_data(post_info, blog_name):
    """
        對(duì)數(shù)據(jù)進(jìn)行持久化
    """
    
    print('開始寫入數(shù)據(jù)...')
    
    # 獲取時(shí)間
    now_time = time.localtime(time.time())
    select_date = time.strftime('%Y-%m-%d', now_time)
    select_time = time.strftime('%Y-%m-%d %H:%M:%S ', now_time)
    
    # 按日期創(chuàng)建文件路徑
    file_path = './{:s}/{:s}'.format(str(now_time.tm_year), str(now_time.tm_mon))
    
    try: 
        os.makedirs(file_path) # 該方法創(chuàng)建路徑時(shí),若路徑存在會(huì)報(bào)異常,使用 try catch 跳過異常
    except OSError:
        pass
    
    # 寫入數(shù)據(jù)  
    try:
        fp = open('{:s}/{:s}.txt'.format(file_path, select_date), 'a+', encoding = 'utf-8')

        fp.write('閱讀量\t\t 博文題目\n')

        view_count = 0 # 總閱讀量
        for single_post_info in post_info:
            view_count += int(single_post_info[1])
            fp.write('{:<12s}{:s}\n'.format(single_post_info[1], single_post_info[0]))
        
        fp.write('------博客名:{:s} 博文數(shù)量:{:d} 總閱讀量:{:d} 統(tǒng)計(jì)時(shí)間:{:s}\n\n'.format(blog_name, len(post_info), view_count, select_time))
        
        # 關(guān)閉資源
        fp.close()
    except FileNotFoundError:
        print('無法打開指定的文件')
    except LookupError:
        print('指定編碼錯(cuò)誤')
    except UnicodeDecodeError:
        print('讀取文件時(shí)解碼錯(cuò)誤')

執(zhí)行結(jié)果

程序會(huì)在目錄下按日期創(chuàng)建文件夾

進(jìn)入后可找到以日期命名的 txt 文件,以我自己的博客為例,得到以下統(tǒng)計(jì)信息:

可以將程序掛在服務(wù)器上,定時(shí)統(tǒng)計(jì)數(shù)據(jù),觀察閱讀量的漲幅。

到此這篇關(guān)于基于Python實(shí)現(xiàn)文章信息統(tǒng)計(jì)的小工具 的文章就介紹到這了,更多相關(guān)Python文章信息統(tǒng)計(jì)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python使用Requests請求網(wǎng)頁方式

    Python使用Requests請求網(wǎng)頁方式

    這篇文章主要介紹了Python使用Requests請求網(wǎng)頁方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-03-03
  • python實(shí)現(xiàn)從文件中讀取數(shù)據(jù)并繪制成 x y 軸圖形的方法

    python實(shí)現(xiàn)從文件中讀取數(shù)據(jù)并繪制成 x y 軸圖形的方法

    今天小編就為大家分享一篇python實(shí)現(xiàn)從文件中讀取數(shù)據(jù)并繪制成 x y 軸圖形的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2018-10-10
  • python mysql 字段與關(guān)鍵字沖突的解決方式

    python mysql 字段與關(guān)鍵字沖突的解決方式

    這篇文章主要介紹了python mysql 字段與關(guān)鍵字沖突的解決方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2020-03-03
  • Python并行計(jì)算庫Joblib高效使用指北

    Python并行計(jì)算庫Joblib高效使用指北

    Joblib是用于高效并行計(jì)算的Python開源庫,其提供了簡單易用的內(nèi)存映射和并行計(jì)算的工具,以將任務(wù)分發(fā)到多個(gè)工作進(jìn)程中,這篇文章主要介紹了Python并行計(jì)算庫Joblib使用指北,需要的朋友可以參考下
    2024-08-08
  • pytorch 修改預(yù)訓(xùn)練model實(shí)例

    pytorch 修改預(yù)訓(xùn)練model實(shí)例

    今天小編就為大家分享一篇pytorch 修改預(yù)訓(xùn)練model實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2020-01-01
  • python 破解加密zip文件的密碼

    python 破解加密zip文件的密碼

    這篇文章主要介紹了python 如何破解加密zip文件的密碼,幫助大家更好的理解和學(xué)習(xí)使用python,感興趣的朋友可以了解下
    2021-04-04
  • web.py 十分鐘創(chuàng)建簡易博客實(shí)現(xiàn)代碼

    web.py 十分鐘創(chuàng)建簡易博客實(shí)現(xiàn)代碼

    web.py是一款輕量級(jí)的Python web開發(fā)框架,簡單、高效、學(xué)習(xí)成本低,特別適合作為python web開發(fā)的入門框架
    2016-04-04
  • python同時(shí)遍歷數(shù)組的索引和值的實(shí)例

    python同時(shí)遍歷數(shù)組的索引和值的實(shí)例

    今天小編就為大家分享一篇python同時(shí)遍歷數(shù)組的索引和值的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2018-11-11
  • Python中DataFrame與內(nèi)置數(shù)據(jù)結(jié)構(gòu)相互轉(zhuǎn)換的實(shí)現(xiàn)

    Python中DataFrame與內(nèi)置數(shù)據(jù)結(jié)構(gòu)相互轉(zhuǎn)換的實(shí)現(xiàn)

    pandas?支持我們從?Excel、CSV、數(shù)據(jù)庫等不同數(shù)據(jù)源當(dāng)中讀取數(shù)據(jù),來構(gòu)建?DataFrame。但有時(shí)數(shù)據(jù)并不來自這些外部數(shù)據(jù)源,這就涉及到了?DataFrame?和?Python?內(nèi)置數(shù)據(jù)結(jié)構(gòu)之間的相互轉(zhuǎn)換,本文就來和大家詳細(xì)聊聊
    2023-02-02
  • Python 實(shí)現(xiàn) WebSocket 通信的過程詳解

    Python 實(shí)現(xiàn) WebSocket 通信的過程詳解

    WebSocket是一種在Web應(yīng)用程序中實(shí)現(xiàn)雙向通信的協(xié)議,與傳統(tǒng)的HTTP請求-響應(yīng)模型不同,WebSocket允許服務(wù)器主動(dòng)向客戶端推送數(shù)據(jù),實(shí)現(xiàn)實(shí)時(shí)性和互動(dòng)性,這篇文章主要介紹了Python 實(shí)現(xiàn) WebSocket 通信的過程詳解,需要的朋友可以參考下
    2024-06-06

最新評(píng)論