python文本數(shù)據(jù)處理學(xué)習(xí)筆記詳解
最近越發(fā)感覺到限制我對(duì)Python運(yùn)用、以及讀懂別人代碼的地方,大多是在于對(duì)數(shù)據(jù)的處理能力。
其實(shí)編程本質(zhì)上就是數(shù)據(jù)處理,怎么把文本數(shù)據(jù)、圖像數(shù)據(jù),通過python讀入、切分等,變成一個(gè)N維矩陣,然后再帶入別人的模型,bingo~跑出來一個(gè)結(jié)果。結(jié)果當(dāng)然也是一個(gè)矩陣或向量的形式。
所以說,之所以對(duì)很多模型、代碼束手無策,其實(shí)還是沒有掌握好數(shù)據(jù)處理的“屠龍寶刀”,無法對(duì)海量數(shù)據(jù)進(jìn)行“庖丁解?!卑愕奶幚?。因此,我想以一個(gè)別人代碼中的一段為例,仔細(xì)琢磨文本數(shù)據(jù)處理的精妙之處,爭(zhēng)取能夠加深對(duì)這方面的運(yùn)用與理解。
1) 問題描述
數(shù)據(jù):某個(gè)區(qū)域181天內(nèi)的訪客數(shù)據(jù),格式如下,第一列代表訪客的名稱,第二列代表這位訪客在181天內(nèi)到達(dá)這片區(qū)域的時(shí)刻:
目的:將訪客數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并時(shí)間離散化,按照天 /周/小時(shí)處理為72624的三維矩陣。
也就是說,矩陣中的每一個(gè)值,代表該區(qū)域 周X、第幾周、幾點(diǎn) 的到訪人數(shù),如
[1,5,19]=100,代表第5周的周一晚上7點(diǎn)的人數(shù)為100。
2)難點(diǎn)
當(dāng)然是對(duì)我的難點(diǎn)。
2.1)怎么按行統(tǒng)計(jì)
2.2)怎么進(jìn)行時(shí)間離散化(存為天、周、時(shí)刻的矩陣)
3)代碼
import time import numpy as np import sys import datetime import pandas as pd import os #用字典查詢代替類型轉(zhuǎn)換,可以減少一部分計(jì)算時(shí)間 date2position = {} datestr2dateint = {} str2int = {} for i in range(182): date = datetime.date(day=1, month=10, year=2018)+datetime.timedelta(days=i) #print(i,":",date) date_int = int(date.__str__().replace("-", "")) date2position[date_int] = [i%7, i//7] datestr2dateint[str(date_int)] = date_int #print(datestr2dateint) # for i in range(24): str2int[str(i).zfill(2)] = i f=open("D:\BaiDuBigData19-URFC-master\\UrbanRegionFunctionClassification-master\data\\train_visit\\000000_008.txt") #table = pd.read_csv(f, header=None,error_bad_lines=False) table = pd.read_csv(f, header=None,sep='\t') #print(table.shape) #print(table.ix[1]) strings = table[1] #print(strings) init = np.zeros((7, 26, 24)) for string in strings: temp = [] for item in string.split(','): temp.append([item[0:8], item[9:].split("|")]) for date, visit_lst in temp: # x - 第幾周 # y - 第幾天 # z - 幾點(diǎn)鐘 # value - 到訪的總?cè)藬?shù) # print(visit_lst) print(date) x, y = date2position[datestr2dateint[date]] for visit in visit_lst: # 統(tǒng)計(jì)到訪的總?cè)藬?shù) init[x][y][str2int[visit]] += 1 #print(init[x][y][str2int[visit]])```
3.1)創(chuàng)建字典,時(shí)間離散化,節(jié)省時(shí)間
此處創(chuàng)建了三個(gè)字典,讓我們看一下代碼實(shí)現(xiàn)以及打印結(jié)果:
date2position = {} datestr2dateint = {} str2int = {} for i in range(182): date = datetime.date(day=1, month=10, year=2018)+datetime.timedelta(days=i) #print(i,":",date) date_int = int(date.__str__().replace("-", "")) date2position[date_int] = [i%7, i//7] datestr2dateint[str(date_int)] = date_int for i in range(24): str2int[str(i).zfill(2)] = i
打印一下 date2position:
打印一下 datestr2dateint:
打印str2int:
可以看出,datestr2dateint是將str的日期,轉(zhuǎn)換為了int的日期。
而date2position 才是計(jì)算出的每一個(gè)具體的日期,代表了第幾周、第幾天。
str2int代表了一天中的24個(gè)時(shí)刻。
3.2)讀取文件,按行獲取字符串
注意到文本的分隔符為\t(區(qū)分用戶名與到訪信息的分割),于是采用
f=open("D:\BaiDuBigData19-URFC-master\\UrbanRegionFunctionClassification-master\data\\train_visit\\000000_008.txt") #table = pd.read_csv(f, header=None,error_bad_lines=False) table = pd.read_csv(f, header=None,sep='\t')
然后用strings讀取到訪信息,也就是table的第二列:
strings = table[1]
3.3)切分字符串
首先,strings為:
可以看到每一行string,為一個(gè)用戶的到訪記錄,循環(huán)讀取。其中,不同日期的到訪是用“,”隔開,故要使用:
for string in strings: temp = [] for item in string.split(','):
item就可以分開每一個(gè)日期的到訪記錄了:
其后,使用temp列表,每一行存儲(chǔ)日期和時(shí)刻。
如第一個(gè)item為 20181221&09|10|11|12|13|14|15
日期為 item[0:8],
時(shí)刻之間使用分隔符“|”隔開,故可以通過item[9:].split("|")得到。
temp.append([item[0:8], item[9:].split("|")])
打印一下temp為:
所以需要用兩個(gè)數(shù)據(jù)分別存儲(chǔ)日期,以及時(shí)刻。
首先用來轉(zhuǎn)換成 周、天、時(shí)刻的72624矩陣(根據(jù)前面的轉(zhuǎn)換函數(shù))
其后根據(jù)這個(gè)矩陣,統(tǒng)計(jì)每一個(gè)位置的訪客數(shù)量
for date, visit_lst in temp: # x - 第幾周 # y - 第幾天 # z - 幾點(diǎn)鐘 # value - 到訪的總?cè)藬?shù) # print(visit_lst) #print(date) x, y = date2position[datestr2dateint[date]] for visit in visit_lst: # 統(tǒng)計(jì)到訪的總?cè)藬?shù) init[x][y][str2int[visit]] += 1
這一段代碼很短,但著實(shí)是整個(gè)時(shí)間離散化實(shí)現(xiàn)的精髓所在。
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Python對(duì)Excel兩列數(shù)據(jù)進(jìn)行運(yùn)算的示例代碼
本文介紹了如何使用Python中的pandas庫(kù)對(duì)Excel表格中的兩列數(shù)據(jù)進(jìn)行運(yùn)算,并提供了詳細(xì)的代碼示例,感興趣的朋友跟隨小編一起看看吧2024-04-04在keras中獲取某一層上的feature map實(shí)例
今天小編就為大家分享一篇在keras中獲取某一層上的feature map實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-01-01python?pygame實(shí)現(xiàn)五子棋雙人聯(lián)機(jī)
這篇文章主要為大家詳細(xì)介紹了python?pygame實(shí)現(xiàn)五子棋雙人聯(lián)機(jī),文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2022-05-05python OpenCV學(xué)習(xí)筆記之繪制直方圖的方法
本篇文章主要介紹了python OpenCV學(xué)習(xí)筆記之繪制直方圖的方法,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2018-02-02python3光學(xué)字符識(shí)別模塊tesserocr與pytesseract的使用詳解
這篇文章主要介紹了python3光學(xué)字符識(shí)別模塊tesserocr與pytesseract的使用詳解,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-02-02