欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python處理文本數(shù)據(jù)的方法詳解

 更新時間:2022年06月18日 14:09:42   作者:AC-Asteroid  
學(xué)習(xí)Python時,它總能讓人深刻體會到這款語言的魅力。今天小編為大家?guī)硪粋€有趣的項(xiàng)目,用Python處理文本數(shù)據(jù),一起來看看今天的問題吧

前言

HI,好久不見,今天是關(guān)閉朋友圈的第60天,我是野蠻成長的AC-Asteroid。

人生苦短,我用Python,通過短短兩周時間自學(xué),從基礎(chǔ)知識到項(xiàng)目實(shí)踐,在這個過程中深刻體會到這款語言的魅力,今天帶來一個有趣的項(xiàng)目,用Python處理文本數(shù)據(jù),一起來看看今天的問題吧。

用python處理文本數(shù)據(jù)

實(shí)驗(yàn)?zāi)康?/strong>

熟悉python的基本數(shù)據(jù)結(jié)構(gòu),以及文件的輸入與輸出。

實(shí)驗(yàn)數(shù)據(jù)

利用xxxx年xx機(jī)器學(xué)習(xí)會議的評測數(shù)據(jù)和評測任務(wù),數(shù)據(jù)包括訓(xùn)練集和測試集,評測任務(wù)為通過給定的訓(xùn)練數(shù)據(jù),預(yù)測測試集中的關(guān)系是正例還是負(fù)例,在每個樣本最后給出1或者0。

數(shù)據(jù)描述如下,第一列為關(guān)系類型,第二列和第三列為人名,第四列是標(biāo)題,第五列是關(guān)系為正例還是負(fù)例,1為正例,0為負(fù)例;第六列表示訓(xùn)練集。

事件人物1人物2標(biāo)題關(guān)系(0 or 1)訓(xùn)練集

測試集描述如下圖,格式基本與訓(xùn)練集類似,唯一不同的是第五列沒有關(guān)系是正例還是負(fù)例的標(biāo)記。

關(guān)系人物1人物2事件

實(shí)驗(yàn)內(nèi)容

對訓(xùn)練集數(shù)據(jù)進(jìn)行處理,只留下前面五列,輸出文本命名為exp1_1.txt。

在第一步得到的數(shù)據(jù)的基礎(chǔ)上對19類關(guān)系進(jìn)行分類,生成的文本存放在exp1_train文件夾下,按照關(guān)系類別出現(xiàn)的順序,第一個關(guān)系類別的數(shù)據(jù)存放在1.txt中,第二個關(guān)系類別存放在2.txt中,直到19.txt。

測試集按照訓(xùn)練集的19個類別的順序?qū)⒏鱾€樣本按照關(guān)系類別歸類,即相同關(guān)系類型的數(shù)據(jù)放到一個文本文件中,同樣生成19個類別的測試文件,格式仍舊和測試文件保持一致。存放在exp1_test文件夾下,每個類別的文件仍舊命名為1_test.txt,2_test.txt…同時對每個樣本在原測試集中出現(xiàn)的位置進(jìn)行記錄,和19個測試文件一一對應(yīng)起來。比如第一類“傳聞不和”的每個樣本在原文中處于第幾行,在索引文件中進(jìn)行記錄,保存在文件index1.txt,index2.txt….

解題思路

1.第一題是考察我們文件操作與列表的知識,主要考察的難點(diǎn)是對new文件的讀取,根據(jù)要求處理后在生成一個txt文件,讓我們看一下具體的代碼實(shí)現(xiàn):

import os
# 創(chuàng)建一個列表用來存儲新的內(nèi)容
list = []                                     
with open("task1.trainSentence.new", "r",encoding='xxx') as file_input: # 打開.new文件,xxx根據(jù)自己的編碼格式填寫
    with open("exp1_1.txt", "w", encoding='xxx') as file_output:        # 打開exp1_1.txt,xxx根據(jù)自己的編碼格式填寫文件如果沒有就創(chuàng)建一個
 
        for Line in file_input:                                         # 遍歷每一行的文件
            arr = Line.split('\t')                                      # 以\t為分隔符讀取
            if arr[0] not in list:                                      # if the word is not in the list
                list.append(arr[0])                                     # add the word to the list
            file_output.write(arr[0]+"\t"+arr[1]+"\t"+arr[2]+"\t"+arr[3]+"\t"+arr[4]+"\n")  # write the line to the file
file_input.close()                                                      #關(guān)閉.new文件
file_output.close()                                                     #關(guān)閉創(chuàng)建的txt文件       

2.第二題依舊考察了文件操作,在題目一生成的文件基礎(chǔ)上,按照同一類型的事件對事件進(jìn)行分類,是否能高效的分組需要利用循環(huán)條件來解決,我們來看看具體的

代碼實(shí)現(xiàn)

import os
file_1 = open("exp1_1.txt", encoding='xxx')             # 打開文件,xxx根據(jù)自己的編碼格式填寫
os.mkdir("exp1_train")                                  # 創(chuàng)建目錄
os.chdir("exp1_train")                                  # 修改進(jìn)程的工作目錄(使用該目錄)
a = file.readline()                                     # 按行讀取exp1_1.txt文件
arr = a.split("\t")                                     # 按\t間隔符作為分割
b = 1                                                   #設(shè)置分組文件的序列
file_2 = open("{}.txt".format(b), "w", encoding="xxx")  # 打開文件,xxx根據(jù)自己的編碼格式填寫
for line in file_1:                                     # 按行讀取文件
    arr_1 = line.split("\t")                            # 按\t間隔符作為分割
    if arr[0] != arr_1[0]:                              # 如果讀取文件的第一列內(nèi)容與存入新文件的第一列類型不同
        file_2.close()                                  # 關(guān)掉該文件
        b += 1                                          # 文件序列加一
        f_2 = open("{}.txt".format(b), "w", encoding="xxx") # 創(chuàng)建新文件,以另一種類型分類,xxx根據(jù)自己的編碼格式填寫
    arr = line.split("\t")                              # 按\t間隔符作為分割
    f_2.write(arr[0]+"\t"+arr[1]+"\t"+arr[2]+"\t"+arr[3]+"t"+arr[4]+"\t""\n") # 將相同類型的文件寫入
f_1.close()                                             # 關(guān)閉題目一創(chuàng)建的exp1_1.txt文件
f_2.close()                                             # 關(guān)閉創(chuàng)建的最后一個類型的文件

3.將訓(xùn)練集的19個類別按照人物的關(guān)系進(jìn)行進(jìn)一步的分類,我們可以通過字典對數(shù)據(jù)進(jìn)行遍歷,查找關(guān)系,把關(guān)系相同的內(nèi)容放到一個文件夾中,不同則新建一個。

import os

with open("exp1_1.txt", encoding='xxx') as file_in1: # 打開文件,xxx根據(jù)自己的編碼格式填寫
    i = 1                                            # 類型序列
    arr2 = {}                                        # 創(chuàng)建字典
    for line in file_in1:                            # 按行遍歷
        arr3 = line[0:2]                             # 讀取關(guān)系
        if arr3 not in arr2.keys():
            arr2[arr3] = i                           
            i += 1                                   # 類型+1
    file_in = open("task1.test.new")                 # 打開文件task1.test.new
    os.mkdir("exp1_test")                            # 創(chuàng)建目錄
    os.chdir("exp1_test")                            # 修改進(jìn)程的工作目錄(使用該目錄)
    for line in file_in:
        arr = line[0:2]
        with open("{}_test.txt".format(arr2[arr]), "a", encoding='xxx') as file_out:
            arr = line.split('\t')
            file_out.write(line)
    i = 1
    file_in.seek(0)
    os.mkdir("exp1_index")
    os.chdir("exp1_index")
    for line in file_in:
        arr = line[0:2]
        with open("index{}.txt".format(arr2[arr]), "a", encoding='xxx') as file_out:
            arr = line.split('\t')
            line = line[0:-1]
            file_out.write(line + '\t' + "{}".format(i) + "\n")
        i += 1

用python處理數(shù)值型數(shù)據(jù)

實(shí)驗(yàn)?zāi)康?/strong>

熟悉python的基本數(shù)據(jù)結(jié)構(gòu),以及文件的輸入與輸出。

實(shí)驗(yàn)數(shù)據(jù)

xxxx年xx天池大賽,也是中國高校第x屆大數(shù)據(jù)挑戰(zhàn)賽的數(shù)據(jù)。數(shù)據(jù)包括兩個表,分別是用戶行為表mars_tianchi_user_actions.csv和歌曲藝人表mars_tianchi_songs.csv。大賽開放抽樣的歌曲藝人數(shù)據(jù),以及和這些藝人相關(guān)的6個月內(nèi)(20150301-20150831)的用戶行為歷史記錄。選手需要預(yù)測藝人隨后2個月,即60天(20150901-20151030)的播放數(shù)據(jù)。

實(shí)驗(yàn)內(nèi)容

  • 對歌曲藝人數(shù)據(jù)mars_tianchi_songs進(jìn)行處理,統(tǒng)計(jì)出藝人的個數(shù)以及每個藝人的歌曲數(shù)量。輸出文件格式為exp2_1.csv,第一列為藝人的ID,第二列為該藝人的歌曲數(shù)目。最后一行輸出藝人的個數(shù)。
  • 將用戶行為表和歌曲藝人表以歌曲song_id作為關(guān)聯(lián),合并為一個大表。各列名稱為第一到第五列與用戶行為表的列名一致,第六到第十列為歌曲藝人表中的第二列到第六列的列名。輸出文件名為exp2_2.csv。
  • 按照藝人統(tǒng)計(jì)每個藝人每天所有歌曲的播放量,輸出文件為exp2_3.csv,各個列名為藝人id,日期Ds,歌曲播放總量。注意:這里只統(tǒng)計(jì)歌曲的播放量,不包括下載和收藏的數(shù)量。

解題思路:(利用pandas庫)

1.

(1)利用.drop_duplicates() 刪除重復(fù)值

(2)利用.loc[:,‘artist_id’].value_counts() 求出歌手重復(fù)次數(shù),即每個歌手的歌曲數(shù)目

(3)利用.loc[:,‘songs_id’].value_counts() 求出歌曲沒有重復(fù)

import pandas as pd
data = pd.read_csv(r"C:\mars_tianchi_songs.csv")       # 讀取數(shù)據(jù)
Newdata = data.drop_duplicates(subset=['artist_id'])   # 刪除重復(fù)值
artist_sum = Newdata['artist_id'].count()              
#artistChongFu_count = data.duplicated(subset=['artist_id']).count() artistChongFu_count = data.loc[:,'artist_id'].value_counts() 重復(fù)次數(shù),即每個歌手的歌曲數(shù)目
songChongFu_count = data.loc[:,'songs_id'].value_counts()  # 沒有重復(fù)(歌手)
artistChongFu_count.loc['artist_sum'] = artist_sum         # 沒有重復(fù)(歌曲)artistChongFu_count.to_csv('exp2_1.csv')                   # 輸出文件格式為exp2_1.csv

利用merge()合并兩個表

import pandas as pd import os

data = pd.read_csv(r"C:\mars_tianchi_songs.csv")
data_two = pd.read_csv(r"C:\mars_tianchi_user_actions.csv")
num=pd.merge(data_two, data) num.to_csv('exp2_2.csv')

利用groupby()[].sum()進(jìn)行重復(fù)性相加

import pandas as pd
data =pd.read_csv('exp2_2.csv')
DataCHongfu = data.groupby(['artist_id','Ds'])['gmt_create'].sum()#重復(fù)項(xiàng)相加DataCHongfu.to_csv('exp2_3.csv')

到此這篇關(guān)于Python處理文本數(shù)據(jù)的方法詳解的文章就介紹到這了,更多相關(guān)Python處理數(shù)據(jù)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python實(shí)現(xiàn)前向和反向自動微分的示例代碼

    Python實(shí)現(xiàn)前向和反向自動微分的示例代碼

    自動微分技術(shù)(稱為“automatic differentiation, autodiff”)是介于符號微分和數(shù)值微分的一種技術(shù),它是在計(jì)算效率和計(jì)算精度之間的一種折衷。本文主要介紹了Python如何實(shí)現(xiàn)前向和反向自動微分,需要的可以參考一下
    2022-12-12
  • Python之ThreadPoolExecutor線程池問題

    Python之ThreadPoolExecutor線程池問題

    這篇文章主要介紹了Python之ThreadPoolExecutor線程池問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-03-03
  • pandas實(shí)現(xiàn)按照多列排序-ascending

    pandas實(shí)現(xiàn)按照多列排序-ascending

    這篇文章主要介紹了pandas實(shí)現(xiàn)按照多列排序-ascending,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2022-05-05
  • 十個Python自動化常用操作,即拿即用

    十個Python自動化常用操作,即拿即用

    這篇文章主要介紹了十個Python自動化常用操作,即拿即用,文中有非常詳細(xì)的代碼示例,對正在學(xué)習(xí)python的小伙伴們有很好的幫助喲,需要的朋友可以參考下
    2021-05-05
  • Python串口通信的接收與發(fā)送的實(shí)現(xiàn)

    Python串口通信的接收與發(fā)送的實(shí)現(xiàn)

    串口通信是指通過串口進(jìn)行數(shù)據(jù)傳輸?shù)囊环N通信方式,本文就來介紹一下Python串口通信的接收與發(fā)送的實(shí)現(xiàn),具有一定的參考價值,感興趣的可以了解一下
    2023-11-11
  • Python實(shí)現(xiàn)圖書管理系統(tǒng)設(shè)計(jì)

    Python實(shí)現(xiàn)圖書管理系統(tǒng)設(shè)計(jì)

    這篇文章主要為大家詳細(xì)介紹了Python實(shí)現(xiàn)圖書管理系統(tǒng)設(shè)計(jì),文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2022-03-03
  • 如何在mac版pycharm選擇python版本

    如何在mac版pycharm選擇python版本

    這篇文章主要介紹了如何在mac版pycharm選擇python版本,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2020-07-07
  • Python特效之?dāng)?shù)字成像方法詳解

    Python特效之?dāng)?shù)字成像方法詳解

    所謂數(shù)字成像,即將原圖片經(jīng)過python處理后,生成完全由純數(shù)字組成的圖像。本文將具體為大家介紹一下這一效果如何實(shí)現(xiàn),需要的可以參考一下
    2022-01-01
  • 快速了解Python相對導(dǎo)入

    快速了解Python相對導(dǎo)入

    這篇文章主要介紹了快速了解Python相對導(dǎo)入,具有一定借鑒價值,需要的朋友可以參考下
    2018-01-01
  • Python:二維列表下標(biāo)互換方式(矩陣轉(zhuǎn)置)

    Python:二維列表下標(biāo)互換方式(矩陣轉(zhuǎn)置)

    今天小編就為大家分享一篇Python:二維列表下標(biāo)互換方式(矩陣轉(zhuǎn)置),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-12-12

最新評論