python按比例隨機(jī)切分?jǐn)?shù)據(jù)的實現(xiàn)
在機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)中,我們常常碰到一個問題是數(shù)據(jù)集的切分。比如在一個比賽中,舉辦方給我們的只是一個帶標(biāo)注的訓(xùn)練集和不帶標(biāo)注的測試集。其中訓(xùn)練集是用于訓(xùn)練,而測試集用于已訓(xùn)練模型上跑出一個結(jié)果,然后提交,然后舉辦方驗證結(jié)果給出一個分?jǐn)?shù)。但是我們在訓(xùn)練過程中,可能會出現(xiàn)過擬合等問題,會面臨著算法和模型的選擇,此時,驗證集就顯得很重要。通常,如果數(shù)據(jù)量充足,我們會從訓(xùn)練集中劃分出一定比例的數(shù)據(jù)來作為驗證集。
每次劃分?jǐn)?shù)據(jù)集都手動寫一個腳本,重復(fù)性太高,因此將此簡單的腳本放到自己的博客。代碼如下:
import random def split(full_list,shuffle=False,ratio=0.2): n_total = len(full_list) offset = int(n_total * ratio) if n_total==0 or offset<1: return [],full_list if shuffle: random.shuffle(full_list) sublist_1 = full_list[:offset] sublist_2 = full_list[offset:] return sublist_1,sublist_2 if __name__ == "__main__": li = range(5) sublist_1,sublist_2 = split(li,shuffle=True,ratio=0.2) print sublist_1,len(sublist_1) print sublist_2,len(sublist_2)
其中,main為測試代碼。假如訓(xùn)練集給出的是一個文件,我們先將文件讀到列表中,然后再調(diào)用split。
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
- 基于python實現(xiàn)對文件進(jìn)行切分行
- Python實現(xiàn)filter函數(shù)實現(xiàn)字符串切分
- Python 等分切分?jǐn)?shù)據(jù)及規(guī)則命名的實例代碼
- Python 最大概率法進(jìn)行漢語切分的方法
- 分享Python切分字符串的一個不錯方法
- python實現(xiàn)根據(jù)文件關(guān)鍵字進(jìn)行切分為多個文件的示例
- Python數(shù)據(jù)集切分實例
- 實例分析python3實現(xiàn)并發(fā)訪問水平切分表
- Ubuntu下使用Python實現(xiàn)游戲制作中的切分圖片功能
- python實現(xiàn)按行切分文本文件的方法
- Python自然語言處理之切分算法詳解
相關(guān)文章
Python中字符串轉(zhuǎn)換為列表的常用方法總結(jié)
本文將詳細(xì)介紹Python中將字符串轉(zhuǎn)換為列表的八種常用方法,每種方法都具有其獨特的用途和適用場景,文中的示例代碼講解詳細(xì),感興趣的可以了解下2023-11-11Python實現(xiàn)強(qiáng)制復(fù)制粘貼的示例詳解
下個文檔還要馬內(nèi)?還好我會Python,本文就來教大家來一手如何利用Python實現(xiàn)強(qiáng)制復(fù)制粘貼。文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解一下2022-12-12Python判斷和循環(huán)語句的分析與應(yīng)用
判斷語句是用來篩選條件,過濾條件的。循環(huán)語句是用來解決重復(fù)性代碼的問題,提高工作效率。今天的知識點不多,耐心看完吧2022-07-07Python爬取網(wǎng)易云歌曲評論實現(xiàn)詞云圖
這篇文章主要為大家介紹了Python爬取網(wǎng)易云歌曲評論實現(xiàn)詞云分析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-06-06python實現(xiàn)簡單飛機(jī)大戰(zhàn)小游戲
這篇文章主要為大家詳細(xì)介紹了python實現(xiàn)簡單飛機(jī)大戰(zhàn)小游戲,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下2022-05-05