利用Python讀取Excel表內(nèi)容的詳細(xì)過(guò)程
用python讀取excel表中的數(shù)據(jù)
假如說(shuō)有如下一張存儲(chǔ)了數(shù)據(jù)的excel表,其中x1-x6是特征,y_label是特征對(duì)應(yīng)的類別標(biāo)簽。我們想要使用python對(duì)以下數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,那么第一步就要先把excel表中的數(shù)據(jù)讀取出來(lái)才行。這里我們主要使用到了python中的pandas庫(kù)。
首先確定excel表存放的路徑所在,比如我的路徑是 ‘E:\relate_code\svm\dataset\data.xlsx’.
import pandas as pd file_path = r'E:\relate_code\svm\dataset\data.xlsx' # r對(duì)路徑進(jìn)行轉(zhuǎn)義,windows需要 raw_data = pd.read_excel(file_path, header=0) # header=0表示第一行是表頭,就自動(dòng)去除了 print(raw_data)
這樣就可以取出數(shù)據(jù)了,輸出見下圖??梢钥闯?,這里就沒(méi)有表中的x1等表頭信息了。
但是,最左邊這里還有0-169這些行號(hào)額外信息,咱們可以用以下命令只要里面的有用信息,并保存到數(shù)組中。
data = raw_data.values # 只提取表中信息 print(data)
輸出結(jié)果:
這時(shí)候數(shù)據(jù)就都讀進(jìn)來(lái)了,并且存儲(chǔ)為了數(shù)組形式。咱們可以選擇想要的數(shù)據(jù),比如想把x和y分開,畢竟一個(gè)是特征,另一個(gè)是標(biāo)簽,這時(shí)候可以使用以下代碼。
features = data[:, 0:6] # 由于是二維數(shù)組,所以第一個(gè)冒號(hào)表示選擇所有行,之后0:6表示只要前六列的數(shù)據(jù) labels = data[:, -1] # 標(biāo)簽只要最后一列
1、還可以對(duì)特征進(jìn)行選擇,假如只要第四列的特征也可以使用:
feature_4 = data[: 3:4] # 這樣得出的數(shù)組依然是二維數(shù)組,便于后續(xù)特征操作
2、如果不想要第四個(gè)特征,其它都想要,也可以這樣使用,需要用到numpy庫(kù):
import numpy as np feature1_3 = data[:, 0:3] # 取前三列特征 feature5_6 = data[:, 4:6] # 取第5,第6列特征 feature_choose = np.hstack(feature1_3, feature5_6) # 對(duì)兩份特征進(jìn)行特征拼接
這里再多說(shuō)一下,np.hstack()函數(shù)和 np.vstack()函數(shù):
這里是np.vstack()函數(shù)。主要是進(jìn)行豎直堆疊,使用這個(gè)函數(shù)的時(shí)候要保證兩個(gè)數(shù)組列數(shù)是一致的(都是三列),得出的結(jié)果如下。
import numpy as np arr1 = np.array([[1, 2, 3], [4, 5, 6]]) arr2 = np.array([7, 8, 9]) print(np.vstack((arr1, arr2)))
下面是np.hstack()函數(shù),主要是進(jìn)行水平堆疊,使用這個(gè)函數(shù)的時(shí)候要保證行數(shù)是一致的(都是兩行)。
import numpy as np arr1 = np.array([[1, 2], [3, 4]]) arr2 = np.array([[7, 8, 9], [10, 11, 12]]) print(np.hstack((arr1, arr2)))
就先介紹到這里吧,下一篇文章介紹機(jī)器學(xué)習(xí)的代碼使用!
總結(jié)
到此這篇關(guān)于利用Python讀取Excel表內(nèi)容的文章就介紹到這了,更多相關(guān)Python讀取Excel表內(nèi)容內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python實(shí)現(xiàn)解壓當(dāng)天創(chuàng)建的ZIP文件到指定文件夾中
這篇文章主要為大家詳細(xì)介紹了Python如何實(shí)現(xiàn)解壓當(dāng)天創(chuàng)建的ZIP文件到指定文件夾中,文中的示例代碼講解詳細(xì),需要的小伙伴可以參考下2024-03-03python用ConfigObj讀寫配置文件的實(shí)現(xiàn)代碼
發(fā)現(xiàn)一個(gè)簡(jiǎn)單而又強(qiáng)大的讀寫配置文件的lib,個(gè)人覺(jué)得最大的亮點(diǎn)在于自帶的格式校驗(yàn)功能,并且支持復(fù)雜的嵌套格式,而且使用起來(lái)也相當(dāng)?shù)暮?jiǎn)便2013-03-03pandas series序列轉(zhuǎn)化為星期幾的實(shí)例
下面小編就為大家分享一篇pandas series序列轉(zhuǎn)化為星期幾的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-04-04Python中l(wèi)ogger模塊的使用場(chǎng)景分析
logger是python的內(nèi)置模塊,用以輸出代碼運(yùn)行過(guò)程中的運(yùn)行情況,極大的方便了我們的debug過(guò)程,本文通過(guò)實(shí)例代碼給大家介紹了Python中l(wèi)ogger模塊的使用教程,需要的朋友可以參考下2023-06-06Django實(shí)現(xiàn)文章詳情頁(yè)面跳轉(zhuǎn)代碼實(shí)例
這篇文章主要介紹了Django實(shí)現(xiàn)文章詳情頁(yè)面跳轉(zhuǎn)代碼實(shí)例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-09-09解決win7操作系統(tǒng)Python3.7.1安裝后啟動(dòng)提示缺少.dll文件問(wèn)題
這篇文章主要介紹了解決win7操作系統(tǒng)Python3.7.1安裝后啟動(dòng)提示缺少.dll文件問(wèn)題,本文給大家提供兩種解決方法,非常不錯(cuò),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2019-07-07