python按比例隨機切分數(shù)據(jù)的實現(xiàn)
在機器學習或者深度學習中,我們常常碰到一個問題是數(shù)據(jù)集的切分。比如在一個比賽中,舉辦方給我們的只是一個帶標注的訓練集和不帶標注的測試集。其中訓練集是用于訓練,而測試集用于已訓練模型上跑出一個結(jié)果,然后提交,然后舉辦方驗證結(jié)果給出一個分數(shù)。但是我們在訓練過程中,可能會出現(xiàn)過擬合等問題,會面臨著算法和模型的選擇,此時,驗證集就顯得很重要。通常,如果數(shù)據(jù)量充足,我們會從訓練集中劃分出一定比例的數(shù)據(jù)來作為驗證集。
每次劃分數(shù)據(jù)集都手動寫一個腳本,重復性太高,因此將此簡單的腳本放到自己的博客。代碼如下:
import random def split(full_list,shuffle=False,ratio=0.2): n_total = len(full_list) offset = int(n_total * ratio) if n_total==0 or offset<1: return [],full_list if shuffle: random.shuffle(full_list) sublist_1 = full_list[:offset] sublist_2 = full_list[offset:] return sublist_1,sublist_2 if __name__ == "__main__": li = range(5) sublist_1,sublist_2 = split(li,shuffle=True,ratio=0.2) print sublist_1,len(sublist_1) print sublist_2,len(sublist_2)
其中,main為測試代碼。假如訓練集給出的是一個文件,我們先將文件讀到列表中,然后再調(diào)用split。
以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
- 基于python實現(xiàn)對文件進行切分行
- Python實現(xiàn)filter函數(shù)實現(xiàn)字符串切分
- Python 等分切分數(shù)據(jù)及規(guī)則命名的實例代碼
- Python 最大概率法進行漢語切分的方法
- 分享Python切分字符串的一個不錯方法
- python實現(xiàn)根據(jù)文件關(guān)鍵字進行切分為多個文件的示例
- Python數(shù)據(jù)集切分實例
- 實例分析python3實現(xiàn)并發(fā)訪問水平切分表
- Ubuntu下使用Python實現(xiàn)游戲制作中的切分圖片功能
- python實現(xiàn)按行切分文本文件的方法
- Python自然語言處理之切分算法詳解
相關(guān)文章
Python中字符串轉(zhuǎn)換為列表的常用方法總結(jié)
本文將詳細介紹Python中將字符串轉(zhuǎn)換為列表的八種常用方法,每種方法都具有其獨特的用途和適用場景,文中的示例代碼講解詳細,感興趣的可以了解下2023-11-11Python爬取網(wǎng)易云歌曲評論實現(xiàn)詞云圖
這篇文章主要為大家介紹了Python爬取網(wǎng)易云歌曲評論實現(xiàn)詞云分析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2022-06-06