欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python實現(xiàn)數(shù)據(jù)挖掘中分箱的示例代碼

 更新時間:2024年01月02日 09:25:39   作者:python收藏家  
數(shù)據(jù)分箱(英語:Data?binning)是一種數(shù)據(jù)預處理方法,用于最大限度地減少小觀測誤差的影響,本文主要為大家介紹了python實現(xiàn)數(shù)據(jù)分箱的相關知識,感興趣的可以了解下

數(shù)據(jù)分箱(英語:Data binning)是一種數(shù)據(jù)預處理方法,用于最大限度地減少小觀測誤差的影響。原始數(shù)據(jù)值被劃分為稱為bin的小區(qū)間,然后用為該bin計算的一般值替換它們。這對輸入數(shù)據(jù)具有平滑效果,并且在小數(shù)據(jù)集的情況下還可以減少過擬合的機會。

有兩種常見方法可以將數(shù)據(jù)劃分到箱中:

等頻分箱:分箱具有相等的頻率,每個區(qū)間包含大致相等的實例數(shù)量。

等寬分箱:分箱具有等寬,每個分箱的范圍被定義為[min + w],[min +2 w], [min + n w],

其中w = (max – min)/(箱數(shù))。

示例

等頻分箱

Input:[5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] 

Output:
[5, 10, 11, 13]
[15, 35, 50, 55]
[72, 92, 204, 215]

等寬分箱

Input: [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215]

Output:
[5, 10, 11, 13, 15, 35, 50, 55, 72]
[92]
[204, 215]

分箱方法的Python實現(xiàn)

# equal frequency 
def equifreq(arr1, m):	 
	a = len(arr1) 
	n = int(a / m) 
	for i in range(0, m): 
		arr = [] 
		for j in range(i * n, (i + 1) * n): 
			if j >= a: 
				break
			arr = arr + [arr1[j]] 
		print(arr) 

# equal width 
def equiwidth(arr1, m): 
	a = len(arr1) 
	w = int((max(arr1) - min(arr1)) / m) 
	min1 = min(arr1) 
	arr = [] 
	for i in range(0, m + 1): 
		arr = arr + [min1 + w * i] 
	arri=[] 
	
	for i in range(0, m): 
		temp = [] 
		for j in arr1: 
			if j >= arr[i] and j <= arr[i+1]: 
				temp += [j] 
		arri += [temp] 
	print(arri) 

# data to be binned 
data = [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] 

# no of bins 
m = 3

print("equal frequency binning") 
equifreq(data, m) 

print("\n\nequal width binning") 
equiwidth(data, 3) 

輸出

equal frequency binning
[5, 10, 11, 13]
[15, 35, 50, 55]
[72, 92, 204, 215]


equal width binning
[[5, 10, 11, 13, 15, 35, 50, 55, 72], [92], [204, 215]] 

優(yōu)缺點

等頻分箱

優(yōu)點:

能夠處理數(shù)據(jù)分布不均勻的情況,可以更好地利用數(shù)據(jù)的整體分布。

對于某些需要平衡數(shù)據(jù)分布的場景,等頻分箱可以更好地保證數(shù)據(jù)的代表性。

缺點:

對于某些數(shù)據(jù)范圍較大的特征,等頻分箱可能會導致一些箱子中的數(shù)據(jù)范圍過大或過小的問題。

等頻分箱需要更多的計算資源,因為需要對每個可能的值進行計數(shù),然后找到每個箱子中的中位數(shù)。

等寬分箱

優(yōu)點:

易于理解和實現(xiàn),根據(jù)業(yè)務理解,可快速對數(shù)據(jù)進行初步的劃分。

對于異常值,等寬分箱可以將其放入單獨的箱子,從而更好地保護數(shù)據(jù)隱私。

缺點:

對于數(shù)據(jù)分布不均勻的情況,可能會存在數(shù)據(jù)分布過于傾斜,導致某些箱子中的數(shù)據(jù)過多或過少的問題。

這種方法忽略了數(shù)據(jù)的具體取值范圍,可能導致一些重要的細節(jié)被忽略。

總的來說,選擇等頻分箱還是等寬分箱,需要根據(jù)實際的數(shù)據(jù)分布和業(yè)務需求來決定。

到此這篇關于python實現(xiàn)數(shù)據(jù)挖掘中分箱的示例代碼的文章就介紹到這了,更多相關python數(shù)據(jù)分箱內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • python mysql實現(xiàn)學生成績管理系統(tǒng)

    python mysql實現(xiàn)學生成績管理系統(tǒng)

    這篇文章主要為大家詳細介紹了python mysql實現(xiàn)學生成績管理系統(tǒng),文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-10-10
  • 詳解Python用三種方式統(tǒng)計詞頻的方法

    詳解Python用三種方式統(tǒng)計詞頻的方法

    這篇文章主要介紹了Python用三種方式統(tǒng)計詞頻,每種方法給大家介紹的非常詳細,需要的朋友可以參考下
    2019-07-07
  • Python實現(xiàn)字典按照value進行排序的方法分析

    Python實現(xiàn)字典按照value進行排序的方法分析

    這篇文章主要介紹了Python實現(xiàn)字典按照value進行排序的方法,結合實例形式分析了Python字典按照value進行排序的相關操作技巧,需要的朋友可以參考下
    2017-12-12
  • 使用PySpark實現(xiàn)數(shù)據(jù)清洗與JSON格式轉換的實踐詳解

    使用PySpark實現(xiàn)數(shù)據(jù)清洗與JSON格式轉換的實踐詳解

    在大數(shù)據(jù)處理中,PySpark?提供了強大的工具來處理海量數(shù)據(jù),特別是在數(shù)據(jù)清洗和轉換方面,本文將介紹如何使用?PySpark?進行數(shù)據(jù)清洗,并將數(shù)據(jù)格式轉換為?JSON?格式的實踐,感興趣的可以了解下
    2023-12-12
  • 對python pandas中 inplace 參數(shù)的理解

    對python pandas中 inplace 參數(shù)的理解

    這篇文章主要介紹了對python pandas中 inplace 參數(shù)的理解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-06-06
  • Python在Word文檔中插入圖片的三種方式

    Python在Word文檔中插入圖片的三種方式

    Word不僅僅是一個文字處理工具,它還為用戶提供了圖片插入功能,以增強文檔的表現(xiàn)力,一張好的圖片往往能夠起到畫龍點睛的作用,這篇博客將介紹使用Python在Word文檔中插入圖片的三種方式,需要的朋友可以參考下
    2025-02-02
  • 4款Python 類型檢查工具,你選擇哪個呢?

    4款Python 類型檢查工具,你選擇哪個呢?

    這篇文章主要介紹了4款Python 類型檢查工具的相關資料,幫助是及早檢查,提前發(fā)現(xiàn)類型的錯誤,增強代碼的一致性與可維護性。(還有防止脫發(fā),喵),感興趣的朋友可以了解下
    2020-10-10
  • keras建模的3種方式詳解

    keras建模的3種方式詳解

    這篇文章主要介紹了keras建模的3種方式詳解,keras是Google公司于2016年發(fā)布的以tensorflow為后端的用于深度學習網(wǎng)絡訓練的高階API,因接口設計非常人性化,深受程序員的喜愛,需要的朋友可以參考下
    2023-08-08
  • python實現(xiàn)按首字母分類查找功能

    python實現(xiàn)按首字母分類查找功能

    這篇文章主要介紹了python實現(xiàn)按首字母分類查找功能,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2019-10-10
  • Python實現(xiàn)PS圖像調整之對比度調整功能示例

    Python實現(xiàn)PS圖像調整之對比度調整功能示例

    這篇文章主要介紹了Python實現(xiàn)PS圖像調整之對比度調整功能,結合實例形式分析了Python實現(xiàn)PS圖像對比度調整的原理、實現(xiàn)方法及相關操作技巧,需要的朋友可以參考下
    2018-01-01

最新評論