腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

軟件下載

android MAC 驅(qū)動(dòng)下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語(yǔ)言 Delphi Android

網(wǎng)絡(luò)編程

PHP ASP.NET ASP JavaScript

在線(xiàn)工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫(kù)

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國(guó)CMS WordPress

常用工具

PHP開(kāi)發(fā)工具 python Photoshop 必備軟件

python數(shù)據(jù)處理詳情

更新時(shí)間：2022年04月11日 18:42:15 作者：上進(jìn)小菜豬

這篇文章主要介紹了python數(shù)據(jù)處理詳情，文章通過(guò)json文件的一個(gè)數(shù)據(jù)表展開(kāi)對(duì)主題的詳細(xì)說(shuō)明，具有一定的參考價(jià)值需要的小伙伴可以參考一下

一，前言

我們現(xiàn)在拿到了一個(gè)十分龐大的數(shù)據(jù)集。是json文件，里面存儲(chǔ)了將近十萬(wàn)個(gè)數(shù)據(jù)，現(xiàn)在要對(duì)其中的數(shù)據(jù)進(jìn)行清洗處理。

二，python模塊

import json
import jieba

我們需要用json模塊來(lái)處理json文件，和使用jieba庫(kù)來(lái)分析詞性，這樣可以實(shí)現(xiàn)我們的需求。

2.1，增加停用詞表

停用詞表.txt，把停用詞表存入stopwords，原因是：我們的目標(biāo)分析json里有一些標(biāo)點(diǎn)符號(hào)。

stopwords = [line.strip() for line in open("停用詞表.txt",encoding="utf-8").readlines()]

基本如圖所示：

a+str(b)+c這是文件名稱(chēng)，a+b+c=./json/poet.song.0.json b遞增，實(shí)現(xiàn)動(dòng)態(tài)取值

with open(a+str(b)+c,'r',encoding='utf8')as fp:

因?yàn)橛袑⒔?00個(gè)json文件。每個(gè)文件里有好幾千組數(shù)據(jù)，我現(xiàn)在盡力的優(yōu)化代碼，現(xiàn)在提取一次，把需要的數(shù)據(jù)存入文件里面差不多需要五分鐘。

2.2，順序讀取

定義一個(gè)空的字符串，將json對(duì)象轉(zhuǎn)換為python對(duì)象。定義一個(gè)空的list存放詩(shī)句。
循環(huán)json_data i為里面的每一個(gè)元素。
新的追加到list_paragraphs列表
循環(huán) j為里面的每一句。

代碼如圖所示：

使用jieba庫(kù)，分析str內(nèi)容的詞性【注意是名稱(chēng)，動(dòng)詞。。。?！颗判休敵龆际莻z個(gè)字是巧合，沒(méi)有字?jǐn)?shù)限制

words = jieba.lcut(str_s)

現(xiàn)在words為分析完畢的詞性列表，遍歷。

排除特殊符號(hào)

for word in words:
? ? ? ? ? ? if word not in stopwords:
? ? ? ? ? ? ? ? if len(word) == 1:
? ? ? ? ? ? ? ? ? ? continue
? ? ? ? ? ? ? ? else:
? ? ? ? ? ? ? ? ? ? counts[word] = counts.get(word,0) + 1

出現(xiàn)頻率加一。

2.3，lambda函數(shù)

使用lambda函數(shù)，sort快速排序，遍歷輸出頻率前50的詞性。

items.sort(key=lambda x:x[1], reverse=True)

之后賦值word, count。

word, count = items[i]
? ? print ("{:<10}{:>7}".format(word, count))

三，運(yùn)行

3.1，存入文件

f=open('towa.txt',"a",encoding='gb18030')
? ? ? ? ? ? f.writelines("題目:"+textxxx)
? ? ? ? ? ? f.writelines(word_ping)

到此這篇關(guān)于python數(shù)據(jù)處理詳情的文章就介紹到這了,更多相關(guān)python數(shù)據(jù)處理內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

相關(guān)文章

在python3.9下如何安裝scrapy的方法
這篇文章主要介紹了在python3.9下如何安裝scrapy的方法，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2021-02-02
python元類(lèi)編程的基本使用
本文主要介紹了python元類(lèi)編程的基本使用，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2023-02-02
Python入門(mén)基礎(chǔ)之import機(jī)制
這篇文章主要給大家介紹了關(guān)于Python入門(mén)基礎(chǔ)之import機(jī)制的相關(guān)資料，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2021-03-03
Python實(shí)現(xiàn)自動(dòng)化處理Word文檔的方法詳解
本文主要介紹了如何使用Python實(shí)現(xiàn)Word文檔的自動(dòng)化處理，包括批量生成Word文檔、在Word文檔中批量進(jìn)行查找和替換、將Word文檔批量轉(zhuǎn)換成PDF等，希望對(duì)你有所幫助
2022-08-08
python 獲取頁(yè)面表格數(shù)據(jù)存放到csv中的方法
今天小編就為大家分享一篇python 獲取頁(yè)面表格數(shù)據(jù)存放到csv中的方法，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
2018-12-12
在Python中實(shí)現(xiàn)shuffle給列表洗牌
今天小編就為大家分享一篇在Python中實(shí)現(xiàn)shuffle給列表洗牌，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
2018-11-11
NumPy實(shí)現(xiàn)結(jié)構(gòu)化數(shù)組的示例代碼
結(jié)構(gòu)化數(shù)組是 NumPy 中用于處理異質(zhì)數(shù)據(jù)的重要工具,通過(guò)定義復(fù)雜的數(shù)據(jù)類(lèi)型,我們可以創(chuàng)建具有不同字段的數(shù)組,本文主要介紹了NumPy實(shí)現(xiàn)結(jié)構(gòu)化數(shù)組的示例代碼,具有一定的參考價(jià)值,感興趣的可以了解一下
2024-01-01
用Python調(diào)用win命令行提高工作效率的實(shí)例
今天小編就為大家分享一篇用Python調(diào)用win命令行提高工作效率的實(shí)例，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
2019-08-08
使用selenium模擬登錄解決滑塊驗(yàn)證問(wèn)題的實(shí)現(xiàn)
這篇文章主要介紹了使用selenium模擬登錄解決滑塊驗(yàn)證問(wèn)題的實(shí)現(xiàn)，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2019-05-05
Python將多個(gè)圖像合并輸出的實(shí)現(xiàn)方法
這篇文章主要介紹了Python將多個(gè)圖像合并輸出的實(shí)現(xiàn)方法,本文介紹了兩種將多個(gè)圖像合并為一個(gè)輸出的方法：使用PIL庫(kù)或使用OpenCV和NumPy，這些庫(kù)都可以使用Python中的簡(jiǎn)單語(yǔ)法和少量的代碼來(lái)完成此任務(wù)，需要的朋友可以參考下
2023-06-06