python數(shù)據(jù)處理詳情
一,前言
我們現(xiàn)在拿到了一個(gè)十分龐大的數(shù)據(jù)集。是json
文件,里面存儲了將近十萬個(gè)數(shù)據(jù),現(xiàn)在要對其中的數(shù)據(jù)進(jìn)行清洗處理。
二,python模塊
import json import jieba
我們需要用json模塊來處理json文件,和使用jieba庫來分析詞性,這樣可以實(shí)現(xiàn)我們的需求。
2.1,增加停用詞表
停用詞表.txt,把停用詞表存入stopwords
,原因是:我們的目標(biāo)分析json里有一些標(biāo)點(diǎn)符號。
stopwords = [line.strip() for line in open("停用詞表.txt",encoding="utf-8").readlines()]
基本如圖所示:
a+str(b)+c
這是文件名稱,a+b+c=./json/poet.song.0.json b
遞增,實(shí)現(xiàn)動(dòng)態(tài)取值
with open(a+str(b)+c,'r',encoding='utf8')as fp:
因?yàn)橛袑⒔?00個(gè)json文件。每個(gè)文件里有好幾千組數(shù)據(jù),我現(xiàn)在盡力的優(yōu)化代碼,現(xiàn)在提取一次,把需要的數(shù)據(jù)存入文件里面差不多需要五分鐘。
2.2,順序讀取
- 定義一個(gè)空的字符串,將json對象轉(zhuǎn)換為python對象。定義一個(gè)空的list存放詩句。
- 循環(huán)
json_data i
為里面的每一個(gè)元素。 - 新的追加到
list_paragraphs
列表 - 循環(huán) j為里面的每一句。
代碼如圖所示:
使用jieba庫,分析str內(nèi)容的詞性【注意是名稱,動(dòng)詞。。。?!颗判休敵龆际莻z個(gè)字是巧合,沒有字?jǐn)?shù)限制
words = jieba.lcut(str_s)
現(xiàn)在words為分析完畢的詞性列表,遍歷。
排除特殊符號
for word in words: ? ? ? ? ? ? if word not in stopwords: ? ? ? ? ? ? ? ? if len(word) == 1: ? ? ? ? ? ? ? ? ? ? continue ? ? ? ? ? ? ? ? else: ? ? ? ? ? ? ? ? ? ? counts[word] = counts.get(word,0) + 1
出現(xiàn)頻率加一。
2.3,lambda函數(shù)
使用lambda函數(shù),sort快速排序,遍歷輸出頻率前50的詞性。
items.sort(key=lambda x:x[1], reverse=True)
之后賦值word
, count
。
word, count = items[i] ? ? print ("{:<10}{:>7}".format(word, count))
三,運(yùn)行
3.1,存入文件
f=open('towa.txt',"a",encoding='gb18030') ? ? ? ? ? ? f.writelines("題目:"+textxxx) ? ? ? ? ? ? f.writelines(word_ping)
到此這篇關(guān)于python數(shù)據(jù)處理詳情的文章就介紹到這了,更多相關(guān)python數(shù)據(jù)處理內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- 進(jìn)行數(shù)據(jù)處理的6個(gè)?Python?代碼塊分享
- Python?Pandas讀取Excel日期數(shù)據(jù)的異常處理方法
- 教你在Excel中調(diào)用Python腳本實(shí)現(xiàn)數(shù)據(jù)自動(dòng)化處理的方法
- Python數(shù)據(jù)處理-導(dǎo)入導(dǎo)出excel數(shù)據(jù)
- 如何利用python處理原始音頻數(shù)據(jù)
- Python數(shù)據(jù)分析處理(三)--運(yùn)動(dòng)員信息的分組與聚合
- Python數(shù)據(jù)分析與處理(二)——處理中國地區(qū)信息
相關(guān)文章
Python實(shí)現(xiàn)自動(dòng)化處理Word文檔的方法詳解
本文主要介紹了如何使用Python實(shí)現(xiàn)Word文檔的自動(dòng)化處理,包括批量生成Word文檔、在Word文檔中批量進(jìn)行查找和替換、將Word文檔批量轉(zhuǎn)換成PDF等,希望對你有所幫助2022-08-08python 獲取頁面表格數(shù)據(jù)存放到csv中的方法
今天小編就為大家分享一篇python 獲取頁面表格數(shù)據(jù)存放到csv中的方法,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-12-12在Python中實(shí)現(xiàn)shuffle給列表洗牌
今天小編就為大家分享一篇在Python中實(shí)現(xiàn)shuffle給列表洗牌,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-11-11NumPy實(shí)現(xiàn)結(jié)構(gòu)化數(shù)組的示例代碼
結(jié)構(gòu)化數(shù)組是 NumPy 中用于處理異質(zhì)數(shù)據(jù)的重要工具,通過定義復(fù)雜的數(shù)據(jù)類型,我們可以創(chuàng)建具有不同字段的數(shù)組,本文主要介紹了NumPy實(shí)現(xiàn)結(jié)構(gòu)化數(shù)組的示例代碼,具有一定的參考價(jià)值,感興趣的可以了解一下2024-01-01用Python調(diào)用win命令行提高工作效率的實(shí)例
今天小編就為大家分享一篇用Python調(diào)用win命令行提高工作效率的實(shí)例,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-08-08使用selenium模擬登錄解決滑塊驗(yàn)證問題的實(shí)現(xiàn)
這篇文章主要介紹了使用selenium模擬登錄解決滑塊驗(yàn)證問題的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-05-05Python將多個(gè)圖像合并輸出的實(shí)現(xiàn)方法
這篇文章主要介紹了Python將多個(gè)圖像合并輸出的實(shí)現(xiàn)方法,本文介紹了兩種將多個(gè)圖像合并為一個(gè)輸出的方法:使用PIL庫或使用OpenCV和NumPy,這些庫都可以使用Python中的簡單語法和少量的代碼來完成此任務(wù),需要的朋友可以參考下2023-06-06