詳解如何在Pandas中刪除常量列

更新時間：2025年03月24日 08:42:58 作者：python收藏家

常數列不提供可變性,這意味著它們無助于區(qū)分不同的數據點,在許多機器學習模型中,這些列會引入冗余或不相關的數據,從而對性能產生負面影響,因此,通常必須刪除常量列,所以本文我們將探索如何使用Python識別和刪除Pandas DataFrame中的常量列,需要的朋友可以參考下

為什么要刪除常量列？

常數列不提供可變性，這意味著它們無助于區(qū)分不同的數據點。在許多機器學習模型中，這些列會引入冗余或不相關的數據，從而對性能產生負面影響。因此，通常必須刪除常量列，以便：

減少數據集的維數。
提高計算效率。
增強模型的可解釋性。

步驟1：在Pandas中識別常量列

Pandas提供了幾種識別和刪除常量列的方法。我們可以檢查唯一值的數量正好為1的列。

.nunique()函數在這方面特別有用，因為它返回每列中不同元素的數量。

import pandas as pd

# Sample DataFrame with constant and non-constant columns
data = {
    'A': [1, 1, 1, 1],
    'B': [2, 3, 4, 5],
    'C': ['X', 'X', 'X', 'X'],
    'D': [10, 11, 12, 13]
}

df = pd.DataFrame(data)

# Identify constant columns
constant_columns = [col for col in df.columns if df[col].nunique() == 1]

# Display constant columns
print("Constant columns:", constant_columns)

輸出

Constant columns: ['A', 'C']

在這種情況下，列A和列C被標識為常量，因為它們只有一個唯一值。

步驟2：刪除常量列

一旦我們確定了常量列，我們就可以使用Pandas中的.drop()函數輕松刪除它們。

# Drop constant columns
df_cleaned = df.drop(columns=constant_columns)

# Display the cleaned DataFrame
print(df_cleaned)

輸出

在這里，清理后的DataFrame已刪除常量列A和C。

步驟3：刪除較大數據集中的常量列

讓我們考慮一個更大的數據集，其中某些列可能具有常量值。

import numpy as np

# Create a DataFrame with random and constant columns
data = {
    'X1': np.random.randint(0, 100, size=100),
    'X2': [5] * 100,    # Constant column
    'X3': np.random.randint(0, 100, size=100),
    'X4': [3] * 100,    # Constant column
}

df_large = pd.DataFrame(data)

# Remove constant columns in the larger dataset
constant_columns = [col for col in df_large.columns if df_large[col].nunique() == 1]
df_large_cleaned = df_large.drop(columns=constant_columns)

print("Original DataFrame Shape:", df_large.shape)
print(df_large.head())

print("Cleaned DataFrame Shape:", df_large_cleaned.shape)
print(df_large_cleaned.head())

輸出