import sklearn
from sklearn import datasets
import pandas as pd
dataset = datasets.load_iris()
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)

同樣，你可以用同樣的方式導入其他數(shù)據(jù)集。

2、數(shù)據(jù)拆分

Sklearn 提供了拆分數(shù)據(jù)集以進行訓練和測試的功能。拆分數(shù)據(jù)集對于預測性能的無偏見評估至關重要，可以定義訓練和測試數(shù)據(jù)集中的數(shù)據(jù)比例。

我們可以按如下方式拆分數(shù)據(jù)集：

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=2, random_state=4)

在train_test_split 的幫助下，我們對數(shù)據(jù)集進行了拆分，使得訓練集有 80% 的數(shù)據(jù)和測試集有 20% 的數(shù)據(jù)。

3、線性回歸

當輸出變量為連續(xù)變量且與因變量呈線性關系時，使用監(jiān)督機器學習模型，它可以通過分析前幾個月的銷售數(shù)據(jù)來預測未來幾個月的銷售。

借助sklearn，我們可以輕松實現(xiàn)線性回歸模型，如下所示：

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
regression_model = LinearRegression()
regression_model.fit(x_train, y_train)
y_predicted = regression_model.predict(x_test)
rmse = mean_squared_error(y_test, y_predicted)
r2 = r2_score(y_test, y_predicted)

首先LinerRegression()創(chuàng)建一個線性回歸的對象,然后我們在訓練集上擬合模型。最后，我們在測試數(shù)據(jù)集上預測了模型。 "rmse"和"r_score"可用于檢查模型的準確性。

4、邏輯回歸

邏輯回歸也是一種監(jiān)督回歸算法，就像線性回歸一樣。唯一的區(qū)別是輸出變量是分類的。它可用于預測患者是否患有心臟病。

借助 sklearn，我們可以輕松實現(xiàn) Logistic 回歸模型，如下所示：

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
logreg = LogisticRegression()
logreg.fit(x_train, y_train)
y_predicted = logreg.predict(x_test)
confusion_matrix = confusion_matrix(y_test, y_pred)
print(confusion_matrix)
print(classification_report(y_test, y_pred))

混淆矩陣和分類報告用于檢查分類模型的準確性。

5、決策樹

決策樹是一個強大的工具，可用于分類和回歸問題。它由根和節(jié)點組成，根代表分裂的決定，節(jié)點代表輸出變量值。當因變量與自變量不遵循線性關系時，決策樹很有用。

用于分類的決策樹實現(xiàn)：

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix
from sklearn.tree import export_graphviz
from sklearn.externals.six import StringIO?
from IPython.display import Image?
from pydot import graph_from_dot_data
dt = DecisionTreeClassifier()
dt.fit(x_train, y_train)
dot_data = StringIO()
export_graphviz(dt, out_file=dot_data, feature_names=iris.feature_names)
(graph, ) = graph_from_dot_data(dot_data.getvalue())
y_pred = dt.predict(x_test)

我們使用 DecisionTreeClassifier() 對象擬合模型，并使用進一步的代碼來可視化 Python 中的決策樹實現(xiàn)。

6、Bagging

Bagging是一種使用訓練集中的隨機樣本訓練相同類型的多個模型的技術。不同模型的輸入是相互獨立的。

對于前一種情況，可以使用多個決策樹進行預測，而不僅僅是一個被稱為隨機森林的決策樹。

7、Boosting

Boosting 多個模型的訓練方式是，一個模型的輸入取決于前一個模型的輸出。在 Boosting 中，對預測錯誤的數(shù)據(jù)給予更多的優(yōu)先權(quán)。

8、隨機森林

隨機森林是一種 bagging 技術，它使用成百上千的決策樹來構(gòu)建模型，用于分類和回歸問題。比如：貸款申請人分類、識別欺詐活動和預測疾病。

在 python 中實現(xiàn)如下：

from sklearn.ensemble import RandomForestClassifier
num_trees = 100
max_features = 3
clf = RandomForestClassifier(n_estimators=num_trees, max_features=max_features)
clf.fit(x_train,y_train)
y_pred=clf.predict(x_test)
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

9、XGBoost

XGBoost 是一種提升技術，可提供梯度提升決策樹的高性能實現(xiàn)。它可以自行處理丟失的數(shù)據(jù)，支持正則化并且通常比其他模型給出更準確的結(jié)果。

在 python 中實現(xiàn)如下：

from xgboost import XGBClassifier
from sklearn.metrics import mean_squared_error
xgb = XGBClassifier(colsample_bytree = 0.3, learning_rate = 0.1,max_depth = 5, alpha = 10, n_estimators = 10)
xgb.fit(x_train,y_train)
y_pred=xgb.predict(x_test)
rmse = np.sqrt(mean_squared_error(y_test, preds))
print("RMSE: %f" % (rmse))

10、支持向量機（SVM）

SVM是一種監(jiān)督機器學習算法，通過找到最好的超平面來進行分類，它通常被用于許多應用程序，例如人臉檢測、郵件分類等。

在 python 中實現(xiàn)為：

from sklearn import svm
from sklearn import metrics
clf = svm.SVC(kernel='linear')
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

11、混淆矩陣

混淆矩陣是用于描述分類模型性能的表格?；煜仃囈匀缦?項的幫助下進行分析：

真陽性（TF）

這意味著模型預測為正，實際上為正。

真陰性（TN）

這意味著模型預測為負，實際上為負。

誤報（FP）

這意味著模型預測為正，但實際上為負。

假陰性（FN）

這意味著模型預測為負，但實際上為正。

Python 可以實現(xiàn)

from sklearn.metrics import confusion_matrix
confusion_matrix = confusion_matrix(y_test, y_pred)
print(confusion_matrix)

12、K-均值聚類

K-Means 聚類是一種用于解決分類問題的無監(jiān)督機器學習算法。無監(jiān)督算法是數(shù)據(jù)集中沒有標簽或輸出變量的算法。

在聚類中，數(shù)據(jù)集根據(jù)特征分成不同的組，稱為集群。k-means 聚類有很多應用，例如市場分割、文檔聚類、圖像分割。

它可以在python中實現(xiàn)為：

from sklearn.cluster import KMeans
import statsmodels.api as sm
kmeans = KMeans(3)
means.fit(x)
identified_clusters = kmeans.fit_predict(x)

13、DBSCAN 聚類

DBSCAN 也是一種無監(jiān)督聚類算法，它根據(jù)數(shù)據(jù)點之間的相似性進行聚類。在 DBSCAN 中，只有當指定半徑的簇中的點數(shù)最少時，才會形成簇。

DBSCAN 的優(yōu)勢在于它對異常值具有魯棒性，即它可以自行處理異常值，這與 k 均值聚類不同。DBSCAN 算法用于創(chuàng)建熱圖、地理空間分析、溫度數(shù)據(jù)中的異常檢測。

它可以實現(xiàn)為：

from sklearn.cluster import DBSCAN
from sklearn import metrics
from sklearn.preprocessing import StandardScaler
db = DBSCAN(eps=0.3, min_samples=10).fit(X)
core_samples_mask = np.zeros_like(db.labels_, dtype=bool)
core_samples_mask[db.core_sample_indices_] = True
labels = db.labels_
n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)
print(labels)

14、標準化和規(guī)范化

標準化

標準化是一種縮放技術，我們將屬性的均值設為 0，將標準差設為 1，從而使值以具有單位標準差的均值為中心。它可以做為 X’= (X-μ)/σ

正?；?/h3>

歸一化是一種使值的范圍從 0 到 1 的技術，它也稱為最小-最大縮放。歸一化可以通過給定的公式 X= (X -Xmin)/(Xmax-Xmin) 來完成。

from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler

Python 提供了 StandardScaler 函數(shù)用于實現(xiàn)標準化，MinMaxScaler 函數(shù)用于規(guī)范化。

15、特征提取

特征提取是從數(shù)據(jù)中提取特征的方法。如果將數(shù)據(jù)轉(zhuǎn)換為數(shù)字格式，我們只能將數(shù)據(jù)傳遞給機器學習模型。Scikit-Learn 提供了將文本和圖像轉(zhuǎn)換為數(shù)字的功能。

Bag of Words 和 TF-IDF 是 scikit-learn 提供的自然語言處理中最常用的將單詞轉(zhuǎn)換為數(shù)字的方法。

概括：

這篇文章相信地介紹了scikit-learn 的15個最重要的特性以及 python 代碼實現(xiàn)。

到此這篇關于分享15 個python中的 Scikit-Learn 技能的文章就介紹到這了,更多相關 Scikit-Learn 技能內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

分享15?個python中的?Scikit-Learn?技能

目錄

1、數(shù)據(jù)集

2、數(shù)據(jù)拆分

3、線性回歸

4、邏輯回歸

5、決策樹

6、Bagging

7、Boosting

8、隨機森林

9、XGBoost

10、支持向量機（SVM）

11、混淆矩陣

12、K-均值聚類

13、DBSCAN 聚類

14、標準化和規(guī)范化

標準化

15、特征提取

相關文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

分享15?個python中的?Scikit-Learn?技能

目錄

1、數(shù)據(jù)集

2、數(shù)據(jù)拆分

3、線性回歸

4、邏輯回歸

5、決策樹

6、Bagging

7、Boosting

8、隨機森林

9、XGBoost

10、支持向量機（SVM）

11、混淆矩陣

12、K-均值聚類

13、DBSCAN 聚類

14、標準化和規(guī)范化

標準化

15、特征提取

相關文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

1、數(shù)據(jù)集

3、線性回歸

4、邏輯回歸

5、決策樹

6、Bagging

7、Boosting

8、隨機森林

9、XGBoost

12、K-均值聚類

13、DBSCAN 聚類