python按比例隨機切分數(shù)據(jù)的實現(xiàn)
更新時間:2019年07月11日 09:49:38 作者:HOU_JUN
這篇文章主要介紹了python按比例隨機切分數(shù)據(jù)的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
在機器學習或者深度學習中,我們常常碰到一個問題是數(shù)據(jù)集的切分。比如在一個比賽中,舉辦方給我們的只是一個帶標注的訓練集和不帶標注的測試集。其中訓練集是用于訓練,而測試集用于已訓練模型上跑出一個結果,然后提交,然后舉辦方驗證結果給出一個分數(shù)。但是我們在訓練過程中,可能會出現(xiàn)過擬合等問題,會面臨著算法和模型的選擇,此時,驗證集就顯得很重要。通常,如果數(shù)據(jù)量充足,我們會從訓練集中劃分出一定比例的數(shù)據(jù)來作為驗證集。
每次劃分數(shù)據(jù)集都手動寫一個腳本,重復性太高,因此將此簡單的腳本放到自己的博客。代碼如下:
import random
def split(full_list,shuffle=False,ratio=0.2):
n_total = len(full_list)
offset = int(n_total * ratio)
if n_total==0 or offset<1:
return [],full_list
if shuffle:
random.shuffle(full_list)
sublist_1 = full_list[:offset]
sublist_2 = full_list[offset:]
return sublist_1,sublist_2
if __name__ == "__main__":
li = range(5)
sublist_1,sublist_2 = split(li,shuffle=True,ratio=0.2)
print sublist_1,len(sublist_1)
print sublist_2,len(sublist_2)
其中,main為測試代碼。假如訓練集給出的是一個文件,我們先將文件讀到列表中,然后再調用split。
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
您可能感興趣的文章:
- 基于python實現(xiàn)對文件進行切分行
- Python實現(xiàn)filter函數(shù)實現(xiàn)字符串切分
- Python 等分切分數(shù)據(jù)及規(guī)則命名的實例代碼
- Python 最大概率法進行漢語切分的方法
- 分享Python切分字符串的一個不錯方法
- python實現(xiàn)根據(jù)文件關鍵字進行切分為多個文件的示例
- Python數(shù)據(jù)集切分實例
- 實例分析python3實現(xiàn)并發(fā)訪問水平切分表
- Ubuntu下使用Python實現(xiàn)游戲制作中的切分圖片功能
- python實現(xiàn)按行切分文本文件的方法
- Python自然語言處理之切分算法詳解

