欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python數(shù)據(jù)處理詳情

 更新時(shí)間:2022年04月11日 18:42:15   作者:上進(jìn)小菜豬  
這篇文章主要介紹了python數(shù)據(jù)處理詳情,文章通過json文件的一個(gè)數(shù)據(jù)表展開對主題的詳細(xì)說明,具有一定的參考價(jià)值需要的小伙伴可以參考一下

一,前言

我們現(xiàn)在拿到了一個(gè)十分龐大的數(shù)據(jù)集。是json文件,里面存儲了將近十萬個(gè)數(shù)據(jù),現(xiàn)在要對其中的數(shù)據(jù)進(jìn)行清洗處理。

二,python模塊

import json
import jieba

我們需要用json模塊來處理json文件,和使用jieba庫來分析詞性,這樣可以實(shí)現(xiàn)我們的需求。

2.1,增加停用詞表

停用詞表.txt,把停用詞表存入stopwords,原因是:我們的目標(biāo)分析json里有一些標(biāo)點(diǎn)符號。

stopwords = [line.strip() for line in open("停用詞表.txt",encoding="utf-8").readlines()]

基本如圖所示:

a+str(b)+c這是文件名稱,a+b+c=./json/poet.song.0.json b遞增,實(shí)現(xiàn)動(dòng)態(tài)取值

with open(a+str(b)+c,'r',encoding='utf8')as fp:

因?yàn)橛袑⒔?00個(gè)json文件。每個(gè)文件里有好幾千組數(shù)據(jù),我現(xiàn)在盡力的優(yōu)化代碼,現(xiàn)在提取一次,把需要的數(shù)據(jù)存入文件里面差不多需要五分鐘。

2.2,順序讀取

  • 定義一個(gè)空的字符串,將json對象轉(zhuǎn)換為python對象。定義一個(gè)空的list存放詩句。
  • 循環(huán)json_data i為里面的每一個(gè)元素。
  • 新的追加到list_paragraphs列表
  • 循環(huán) j為里面的每一句。

代碼如圖所示:

使用jieba庫,分析str內(nèi)容的詞性【注意是名稱,動(dòng)詞。。。?!颗判休敵龆际莻z個(gè)字是巧合,沒有字?jǐn)?shù)限制

words = jieba.lcut(str_s)

現(xiàn)在words為分析完畢的詞性列表,遍歷。

排除特殊符號

for word in words:
? ? ? ? ? ? if word not in stopwords:
? ? ? ? ? ? ? ? if len(word) == 1:
? ? ? ? ? ? ? ? ? ? continue
? ? ? ? ? ? ? ? else:
? ? ? ? ? ? ? ? ? ? counts[word] = counts.get(word,0) + 1

出現(xiàn)頻率加一。

2.3,lambda函數(shù)

使用lambda函數(shù),sort快速排序,遍歷輸出頻率前50的詞性。

items.sort(key=lambda x:x[1], reverse=True)

之后賦值word, count。

word, count = items[i]
? ? print ("{:<10}{:>7}".format(word, count))

三,運(yùn)行

3.1,存入文件

f=open('towa.txt',"a",encoding='gb18030')
? ? ? ? ? ? f.writelines("題目:"+textxxx)
? ? ? ? ? ? f.writelines(word_ping)

到此這篇關(guān)于python數(shù)據(jù)處理詳情的文章就介紹到這了,更多相關(guān)python數(shù)據(jù)處理內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 在python3.9下如何安裝scrapy的方法

    在python3.9下如何安裝scrapy的方法

    這篇文章主要介紹了在python3.9下如何安裝scrapy的方法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2021-02-02
  • python元類編程的基本使用

    python元類編程的基本使用

    本文主要介紹了python元類編程的基本使用,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-02-02
  • Python入門基礎(chǔ)之import機(jī)制

    Python入門基礎(chǔ)之import機(jī)制

    這篇文章主要給大家介紹了關(guān)于Python入門基礎(chǔ)之import機(jī)制的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2021-03-03
  • Python實(shí)現(xiàn)自動(dòng)化處理Word文檔的方法詳解

    Python實(shí)現(xiàn)自動(dòng)化處理Word文檔的方法詳解

    本文主要介紹了如何使用Python實(shí)現(xiàn)Word文檔的自動(dòng)化處理,包括批量生成Word文檔、在Word文檔中批量進(jìn)行查找和替換、將Word文檔批量轉(zhuǎn)換成PDF等,希望對你有所幫助
    2022-08-08
  • python 獲取頁面表格數(shù)據(jù)存放到csv中的方法

    python 獲取頁面表格數(shù)據(jù)存放到csv中的方法

    今天小編就為大家分享一篇python 獲取頁面表格數(shù)據(jù)存放到csv中的方法,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-12-12
  • 在Python中實(shí)現(xiàn)shuffle給列表洗牌

    在Python中實(shí)現(xiàn)shuffle給列表洗牌

    今天小編就為大家分享一篇在Python中實(shí)現(xiàn)shuffle給列表洗牌,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-11-11
  • NumPy實(shí)現(xiàn)結(jié)構(gòu)化數(shù)組的示例代碼

    NumPy實(shí)現(xiàn)結(jié)構(gòu)化數(shù)組的示例代碼

    結(jié)構(gòu)化數(shù)組是 NumPy 中用于處理異質(zhì)數(shù)據(jù)的重要工具,通過定義復(fù)雜的數(shù)據(jù)類型,我們可以創(chuàng)建具有不同字段的數(shù)組,本文主要介紹了NumPy實(shí)現(xiàn)結(jié)構(gòu)化數(shù)組的示例代碼,具有一定的參考價(jià)值,感興趣的可以了解一下
    2024-01-01
  • 用Python調(diào)用win命令行提高工作效率的實(shí)例

    用Python調(diào)用win命令行提高工作效率的實(shí)例

    今天小編就為大家分享一篇用Python調(diào)用win命令行提高工作效率的實(shí)例,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-08-08
  • 使用selenium模擬登錄解決滑塊驗(yàn)證問題的實(shí)現(xiàn)

    使用selenium模擬登錄解決滑塊驗(yàn)證問題的實(shí)現(xiàn)

    這篇文章主要介紹了使用selenium模擬登錄解決滑塊驗(yàn)證問題的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-05-05
  • Python將多個(gè)圖像合并輸出的實(shí)現(xiàn)方法

    Python將多個(gè)圖像合并輸出的實(shí)現(xiàn)方法

    這篇文章主要介紹了Python將多個(gè)圖像合并輸出的實(shí)現(xiàn)方法,本文介紹了兩種將多個(gè)圖像合并為一個(gè)輸出的方法:使用PIL庫或使用OpenCV和NumPy,這些庫都可以使用Python中的簡單語法和少量的代碼來完成此任務(wù),需要的朋友可以參考下
    2023-06-06

最新評論