Pytorch中使用ImageFolder讀取數據集時忽略特定文件
一、使用ImageFolder讀取數據集時忽略特定文件
如果事先知道需要忽略哪些文件,當然直接從數據集里刪除就行了。但如果需要在程序運行時動態(tài)確認,或者篩選規(guī)則比較復雜,人工不好做,就需要讓ImageFolder
在讀取時使用自定義的篩選規(guī)則。
ImageFolder有一個可選參數為is_valid_file
,參數類型為可調用的函數,該函數傳入一個str參數,返回一個bool值。當返回值為True時保留該文件,否則忽略。
例如,讀取時想要忽略所有文件名帶‘invalid’的文件,
代碼如下:
import platform from torchvision.datasets import ImageFolder class Check(object): ? ? def __init__(self, ? ? ? ? ? ? ? ? ?key_word: str): ? ? ? ? self.key_word = key_word ? ? ? ? self.separator = '\\' if platform.system() == 'Windows' else '/' ? ? def __call__(self,? ? ? ?? ??? ??? ? file_name: str) -> bool: ? ? ? ? folders = file_name.split(self.separator) ? ? ? ? return folders[-1].find(self.key_word) < 0 dataset = ImageFolder('./data', is_valid_file=Check('invalid'))
這里定義了一個實現了__call__
方法的Check類,相比于直接定義函數的好處在于可以在構造函數里指定想要忽略的字符,并且能夠根據操作系統(tǒng)的不同把文件目錄分隔符給確定了。
更加復雜的功能可以自行修改代碼邏輯實現,但是要注意如果某個類別的所有文件都被篩選掉了,ImageFolder
會報FileNotFoundError
錯誤。
如果想要忽略整個類別可以使用下面方法?。?!
二、ImageFolder只讀取部分類別文件夾
直接繼承并且重寫ImageFolder
類的find_classes
方法即可
from torchvision.datasets.folder import * from typing import * class FilterableImageFolder(ImageFolder): ? ? def __init__( ? ? ? ? ? ? self, ? ? ? ? ? ? root: str, ? ? ? ? ? ? transform: Optional[Callable] = None, ? ? ? ? ? ? target_transform: Optional[Callable] = None, ? ? ? ? ? ? loader: Callable[[str], Any] = default_loader, ? ? ? ? ? ? is_valid_file: Optional[Callable[[str], bool]] = None, ? ? ? ? ? ? valid_classes: List = None ? ? ): ? ? ? ? self.valid_classes = valid_classes ? ? ? ? super(FilterableImageFolder, self).__init__(root, transform, target_transform, loader, is_valid_file) ? ? def find_classes(self, directory: str) -> Tuple[List[str], Dict[str, int]]: ? ? ? ? classes = sorted(entry.name for entry in os.scandir(directory) if entry.is_dir()) ? ? ? ? #增加了這下面這句 ? ? ? ? classes = [valid_class for valid_class in classes if valid_class in self.valid_classes] ? ? ? ? if not classes: ? ? ? ? ? ? raise FileNotFoundError(f"Couldn't find any class folder in {directory}.") ? ? ? ? class_to_idx = {cls_name: i for i, cls_name in enumerate(classes)} ? ? ? ? return classes, class_to_idx
使用時,例如有mouse
、cat
、dog
三個類別的數據集文件夾,只想讀取cat
和dog
,
代碼如下:
dataset = FilterableImageFolder('./data', valid_classes=['cat', 'dog'])
到此這篇關于Pytorch中使用ImageFolder讀取數據集時忽略特定文件的文章就介紹到這了,更多相關ImageFolder讀取數據集內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
django2+uwsgi+nginx上線部署到服務器Ubuntu16.04
這篇文章主要介紹了django2+uwsgi+nginx上線部署到服務器Ubuntu16.04,小編覺得挺不錯的,現在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2018-06-06Windows 平臺做 Python 開發(fā)的最佳組合(推薦)
在 Windows 上如何做 Python 開發(fā)呢?相信大神們都會有自己的解決方案,但本文希望介紹微軟官方發(fā)布的 Terminal 和 Visual Studio Code,希望它們能構建更流暢的 Windows 開發(fā)體驗,感興趣的朋友跟隨小編一起看看吧2020-07-07淺談django model的get和filter方法的區(qū)別(必看篇)
下面小編就為大家?guī)硪黄獪\談django model的get和filter方法的區(qū)別(必看篇)。小編覺得挺不錯的,現在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-05-05Python selenium環(huán)境搭建實現過程解析
這篇文章主要介紹了Python selenium環(huán)境搭建實現過程解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2020-09-09