欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python 數(shù)據(jù)分析之逐塊讀取文本的實(shí)現(xiàn)

 更新時(shí)間:2020年12月14日 14:19:34   作者:畢小寶  
這篇文章主要介紹了Python 數(shù)據(jù)分析之逐塊讀取文本的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

背景

《利用Python進(jìn)行數(shù)據(jù)分析》,第 6 章的數(shù)據(jù)加載操作 read_xxx,有 chunksize 參數(shù)可以進(jìn)行逐塊加載。

經(jīng)測(cè)試,它的本質(zhì)就是將文本分成若干塊,每次處理 chunksize 行的數(shù)據(jù),最終返回一個(gè)TextParser 對(duì)象,對(duì)該對(duì)象進(jìn)行迭代遍歷,可以完成逐塊統(tǒng)計(jì)的合并處理。

示例代碼

文中的示例代碼分析如下:

from pandas import DataFrame,Series
import pandas as pd
 
path='D:/AStudy2018/pydata-book-2nd-edition/examples/ex6.csv'
# chunksize return TextParser
chunker=pd.read_csv(path,chunksize=1000)
 
# an array of Series
tot=Series([])
chunkercount=0
for piece in chunker:
	print '------------piece[key] value_counts start-----------'
	#piece is a DataFrame,lenth is chunksize=1000,and piece[key] is a Series ,key is int ,value is the key column
	print piece['key'].value_counts()
	print '------------piece[key] value_counts end-------------'
	#piece[key] value_counts is a Series ,key is the key column, and value is the key count
	tot=tot.add(piece['key'].value_counts(),fill_value=0)
	chunkercount+=1
 
#last order the series
tot=tot.order(ascending=False)
print chunkercount
print '--------------'

流程分析

首先,例子數(shù)據(jù) ex6.csv 文件總共有 10000 行數(shù)據(jù),使用 chunksize=1000 后,read_csv操作返回一個(gè) TextParser 對(duì)象,該對(duì)象總共有10個(gè)元素,遍歷過(guò)程中打印 chunkercount驗(yàn)證得到。

其次,每個(gè) piece 對(duì)象是一個(gè) DataFrame 對(duì)象,piece['key'] 得到的是一個(gè) Series 對(duì)象,默認(rèn)是數(shù)值索引,值為 csv 文件中的 key 列的值,即各個(gè)字符串。

將每個(gè) Series 的 value_counts 作為一個(gè)Series,與上一次統(tǒng)計(jì)的 tot 結(jié)果進(jìn)行 add 操作,最終得到所有塊數(shù)據(jù)中各個(gè) key 的累加值。

最后,對(duì) tot 進(jìn)行 order 排序,按降序得到各個(gè) key 的值在 csv 文件中出現(xiàn)的總次數(shù)。

這里很巧妙了使用 Series 對(duì)象的 add 操作,對(duì)兩個(gè) Series 執(zhí)行 add 操作,即合并相同key:key相同的記錄的值累加,key不存在的記錄設(shè)置填充值為0。

輸出結(jié)果為:

在這里插入圖片描述

到此這篇關(guān)于Python 數(shù)據(jù)分析之逐塊讀取文本的實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)Python 逐塊讀取文本內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python如何使用argparse模塊處理命令行參數(shù)

    Python如何使用argparse模塊處理命令行參數(shù)

    這篇文章主要介紹了Python如何使用argparse模塊處理命令行參數(shù),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-12-12
  • 解決python gdal投影坐標(biāo)系轉(zhuǎn)換的問(wèn)題

    解決python gdal投影坐標(biāo)系轉(zhuǎn)換的問(wèn)題

    今天小編就為大家分享一篇解決python gdal投影坐標(biāo)系轉(zhuǎn)換的問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2020-01-01
  • 淺析Python多線程下的變量問(wèn)題

    淺析Python多線程下的變量問(wèn)題

    這篇文章主要介紹了Python多線程下的變量問(wèn)題,由于GIL的存在,Python的多線程編程問(wèn)題一直是開(kāi)發(fā)者中的熱點(diǎn)話題,需要的朋友可以參考下
    2015-04-04
  • Python自動(dòng)化運(yùn)維和部署項(xiàng)目工具Fabric使用實(shí)例

    Python自動(dòng)化運(yùn)維和部署項(xiàng)目工具Fabric使用實(shí)例

    Fabric是一個(gè)Python庫(kù),只要目標(biāo)機(jī)器支持ssh訪問(wèn),就可以借助fabric來(lái)進(jìn)行遠(yuǎn)程操作(如在host1上對(duì)host2遠(yuǎn)程運(yùn)行shell命令),顯然,由于fabric是個(gè)Python package,故其它Python package都可以被import到fabric特有的fabfile.py腳本中
    2016-09-09
  • python SQLAlchemy的Mapping與Declarative詳解

    python SQLAlchemy的Mapping與Declarative詳解

    這篇文章主要介紹了python SQLAlchemy的Mapping與Declarative詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-07-07
  • python 打印出所有的對(duì)象/模塊的屬性(實(shí)例代碼)

    python 打印出所有的對(duì)象/模塊的屬性(實(shí)例代碼)

    下面小編就為大家?guī)?lái)一篇python 打印出所有的對(duì)象/模塊的屬性(實(shí)例代碼)。小編覺(jué)得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2016-09-09
  • Python使用gTTS庫(kù)實(shí)現(xiàn)文本轉(zhuǎn)換為語(yǔ)音的詳細(xì)步驟

    Python使用gTTS庫(kù)實(shí)現(xiàn)文本轉(zhuǎn)換為語(yǔ)音的詳細(xì)步驟

    文本轉(zhuǎn)換為語(yǔ)音(Text-to-Speech,簡(jiǎn)稱TTS)技術(shù)是人工智能的重要組成部分,廣泛應(yīng)用于智能助手、導(dǎo)航系統(tǒng)、讀屏軟件和智能家居等領(lǐng)域,TTS技術(shù)使得機(jī)器能夠?qū)嫖淖洲D(zhuǎn)換為自然流暢的語(yǔ)音,本文將介紹如何使用Python的gTTS庫(kù)實(shí)現(xiàn)簡(jiǎn)單的TTS功能,需要的朋友可以參考下
    2024-07-07
  • python中關(guān)于xmltodict的使用

    python中關(guān)于xmltodict的使用

    這篇文章主要介紹了python中關(guān)于xmltodict的使用,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-03-03
  • Python入門教程(二十六)Python的模塊

    Python入門教程(二十六)Python的模塊

    這篇文章主要介紹了Python入門教程(二十六)Python的模塊,Python是一門非常強(qiáng)大好用的語(yǔ)言,也有著易上手的特性,本文為入門教程,需要的朋友可以參考下
    2023-04-04
  • 用python實(shí)現(xiàn)彈球小游戲

    用python實(shí)現(xiàn)彈球小游戲

    大家好,本篇文章主要講的是用python實(shí)現(xiàn)彈球小游戲,感興趣的同學(xué)趕快來(lái)看一看吧,對(duì)你有幫助的話記得收藏一下
    2022-01-01

最新評(píng)論