Python中列表和字符串常用的數(shù)據(jù)去重方法總結(jié)

更新時間：2023年11月23日 11:32:30 作者：蟲無涯

關(guān)于數(shù)據(jù)去重,咱們這里簡單理解下,就是刪除掉重復(fù)的數(shù)據(jù),應(yīng)用的場景比如某些產(chǎn)品產(chǎn)生的大數(shù)據(jù),有很多重復(fù)的數(shù)據(jù),為了不影響分析結(jié)果,我們可能需要對這些數(shù)據(jù)進行去重,所以本文給大家總結(jié)了Python中列表和字符串常用的數(shù)據(jù)去重方法,需要的朋友可以參考下

1 關(guān)于數(shù)據(jù)去重

關(guān)于數(shù)據(jù)去重，咱們這里簡單理解下，就是刪除掉重復(fù)的數(shù)據(jù)；
應(yīng)用的場景比如某些產(chǎn)品產(chǎn)生的大數(shù)據(jù)，有很多重復(fù)的數(shù)據(jù)，為了不影響分析結(jié)果，我們可能需要對這些數(shù)據(jù)進行去重，刪除重復(fù)的數(shù)據(jù)，提高分析效率等等。

2 字符串去重

2.1 for方法

基本思路是for循環(huán)先遍歷字符串；
遍歷的字符要是沒在結(jié)果字符串中，就添加到結(jié)果字符串即可。
代碼如下：

import unittest

class TestDeduplication(unittest.TestCase):
    @classmethod
    def setUpClass(cls) -> None:
        cls.char_date = "12344312abcdcbdaABCDDCBA張王李張"
        print(f"原始字符串為：{cls.char_date}")

    @classmethod
    def tearDownClass(cls) -> None:
        pass

    def test_char_for(self):
        char_date01 = ""
        for data in self.char_date:
            if data not in char_date01:
                char_date01 += data
        print(f"for方法去重后數(shù)據(jù):{char_date01}")
        
if __name__ == "__main__":
    unittest.main()

結(jié)果輸出為：

原始字符串為：12344312abcdcbdaABCDDCBA張王李張
for方法去重后數(shù)據(jù):1234abcdABCD張王李

2.2 while方法

思路和for差不多；
這里主要是通過通過索引的方式查找；
代碼如下：

import unittest

class TestDeduplication(unittest.TestCase):
    @classmethod
    def setUpClass(cls) -> None:
        cls.char_date = "12344312abcdcbdaABCDDCBA張王李張"
        print(f"原始字符串為：{cls.char_date}")

    @classmethod
    def tearDownClass(cls) -> None:
        pass

    def test_char_while(self):
        char_date02 = ""
        flag = len(self.char_date) - 1
        while True:
            if flag >= 0:
                if self.char_date[flag] not in char_date02:
                    char_date02 += self.char_date[flag]
                flag -= 1
            else:
                break
        print(f"while方法去重后數(shù)據(jù):{char_date02}")

if __name__ == "__main__":
    unittest.main()

輸出結(jié)果為：

原始字符串為：12344312abcdcbdaABCDDCBA張王李張
while方法去重后數(shù)據(jù):張李王ABCDadbc2134

2.3 列表方法

我們先把字符串轉(zhuǎn)為集合去重；
再將集合轉(zhuǎn)為列表；
將列表轉(zhuǎn)為字符串，最后排序進行輸出即可；
部分代碼如下，其他關(guān)于類的內(nèi)容和以上一樣：

    def test_char_list(self):
        char_date03 = set(self.char_date)
        char_date04 = list(char_date03)
        char_date04.sort(key=self.char_date.index)
        print(f"列表方法去重后數(shù)據(jù)：{''.join(char_date04)}")

輸出后為：

原始字符串為：12344312abcdcbdaABCDDCBA張王李張
列表方法去重后數(shù)據(jù)：1234abcdABCD張王李

2.4 直接刪除法

這個主要是直接對原字符串直接操作；
通過下標(biāo)以及字符串切片方法實現(xiàn)；
部分代碼如下：

    def test_char_delete(self):
        for data in self.char_date:
            if self.char_date[0] in self.char_date[1:len(self.char_date)]:
                self.char_date = self.char_date[1:len(self.char_date)]
            else:
                self.char_date = self.char_date[1:len(self.char_date)] + self.char_date[0]
        print(f"直接刪除方法去重后數(shù)據(jù)：{''.join(self.char_date)}")

輸出為：

原始字符串為：12344312abcdcbdaABCDDCBA張王李張
直接刪除方法去重后數(shù)據(jù)：4312cbdaDCBA王李張

2.5 fromkeys方法

直接使用fromkeys()方法，它的作用是從序列鍵和值設(shè)置為value來創(chuàng)建一個新的字典；
部分代碼如下：

    def test_char_fromkeys(self):
        char_date05 = {}
        char_date06 = char_date05.fromkeys(self.char_date)
        list_char = list(char_date06.keys())
        print(f"fromkeys方法去重后數(shù)據(jù):{''.join(list_char)}")

輸出為：

原始字符串為：12344312abcdcbdaABCDDCBA張王李張
fromkeys方法去重后數(shù)據(jù):1234abcdABCD張王李

3 列表去重

3.1 for方法

循環(huán)遍歷列表后添加到新的列表即可；
這個方法不會改變原來的順序；
代碼如下：

class TestDeduplication(unittest.TestCase):
    @classmethod
    def setUpClass(cls) -> None:
        cls.list_data = ["A", "B", "C", "D", "E", "C", "A", "B"]
        print(f"原始列表為：{cls.list_data}")

    @classmethod
    def tearDownClass(cls) -> None:
        pass
        
    def test_list_for(self):
        list_data01 = []
        for data in self.list_data:
            if data not in list_data01:
                list_data01.append(data)
        print(f"for方法:{list_data01} ")

if __name__ == "__main__":
    unittest.main()

輸出為：

原始列表為：['A', 'B', 'C', 'D', 'E', 'C', 'A', 'B']
for方法:['A', 'B', 'C', 'D', 'E']

3.2 set方法1

直接使用set方法后轉(zhuǎn)為列表即可；
這個方法會改變原來的順序；
部分代碼如下：

 def test_list_set(self):
        list_data02 = list(set(self.list_data))
        print(f"set方法1：{list_data02}")

輸出為：

原始列表為：['A', 'B', 'C', 'D', 'E', 'C', 'A', 'B']
set方法1：['D', 'C', 'B', 'E', 'A']

3.3 set方法2

直接使用set方法后轉(zhuǎn)為列表；
這個方法會改變原來的順序，可進行排序；
部分代碼：

 def test_list_set01(self):
        list_data03 = list(set(self.list_data))
        list_data03.sort(key=self.list_data.index)
        print(f"set方法2：{list_data03}")

輸出為：

原始列表為：['A', 'B', 'C', 'D', 'E', 'C', 'A', 'B']
set方法2：['A', 'B', 'C', 'D', 'E']

3.4 count方法

先對原序列進行排序；
循環(huán)遍歷列表后使用count()方法；
部分代碼：

    def test_list_count(self):
        self.list_data.sort()
        for data in self.list_data:
            while self.list_data.count(data) > 1:
                del self.list_data[self.list_data.index(data)]
        print(f"count方法：{self.list_data}")

輸出為：

原始列表為：['A', 'B', 'C', 'D', 'E', 'C', 'A', 'B']
count方法：['A', 'B', 'C', 'D', 'E']

3.5 轉(zhuǎn)字典法

直接把列表轉(zhuǎn)為字典方法即可；
部分代碼：

 def test_list_dict(self):
        list_data04 = {}
        list_data05 = list_data04.fromkeys(self.list_data).keys()
        list_data06 = list(list_data05)
        print(f"字典法：{list_data06}")

輸出為：

原始列表為：['A', 'B', 'C', 'D', 'E', 'C', 'A', 'B']
字典法：['A', 'B', 'C', 'D', 'E']

4 完整代碼

以下為列表和字符串常用的數(shù)據(jù)去重方法的完整代碼；
使用unittest中的TestCase類組織測試用例；
代碼如下：

# -*- coding:utf-8 -*-
# 作者：蟲無涯
# 日期：2023/11/22 
# 文件名稱：test_deduplication.py
# 作用：字符串和列表去重
# 聯(lián)系：VX(NoamaNelson)
# 博客：https://blog.csdn.net/NoamaNelson


import unittest


class TestDeduplication(unittest.TestCase):
    @classmethod
    def setUpClass(cls) -> None:
        cls.char_date = "12344312abcdcbdaABCDDCBA張王李張"
        cls.list_data = ["A", "B", "C", "D", "E", "C", "A", "B"]
        print(f"原始字符串為：{cls.char_date}")
        print(f"原始列表為：{cls.list_data}")

    @classmethod
    def tearDownClass(cls) -> None:
        pass

    def test_char_for(self):
        char_date01 = ""
        for data in self.char_date:
            if data not in char_date01:
                char_date01 += data
        print(f"for方法去重后數(shù)據(jù):{char_date01}")

    def test_char_while(self):
        char_date02 = ""
        flag = len(self.char_date) - 1
        while True:
            if flag >= 0:
                if self.char_date[flag] not in char_date02:
                    char_date02 += self.char_date[flag]
                flag -= 1
            else:
                break
        print(f"while方法去重后數(shù)據(jù):{char_date02}")

    def test_char_list(self):
        char_date03 = set(self.char_date)
        char_date04 = list(char_date03)
        char_date04.sort(key=self.char_date.index)
        print(f"列表方法去重后數(shù)據(jù)：{''.join(char_date04)}")

    def test_char_delete(self):
        for data in self.char_date:
            if self.char_date[0] in self.char_date[1:len(self.char_date)]:
                self.char_date = self.char_date[1:len(self.char_date)]
            else:
                self.char_date = self.char_date[1:len(self.char_date)] + self.char_date[0]
        print(f"直接刪除方法去重后數(shù)據(jù)：{''.join(self.char_date)}")

    def test_char_fromkeys(self):
        char_date05 = {}
        char_date06 = char_date05.fromkeys(self.char_date)
        list_char = list(char_date06.keys())
        print(f"fromkeys方法去重后數(shù)據(jù):{''.join(list_char)}")

    print("===============================================")

    def test_list_for(self):
        list_data01 = []
        for data in self.list_data:
            if data not in list_data01:
                list_data01.append(data)
        print(f"for方法:{list_data01} ")

    def test_list_set(self):
        list_data02 = list(set(self.list_data))
        print(f"set方法1：{list_data02}")

    def test_list_set01(self):
        list_data03 = list(set(self.list_data))
        list_data03.sort(key=self.list_data.index)
        print(f"set方法2：{list_data03}")

    def test_list_count(self):
        self.list_data.sort()
        for data in self.list_data:
            while self.list_data.count(data) > 1:
                del self.list_data[self.list_data.index(data)]
        print(f"count方法：{self.list_data}")

    def test_list_dict(self):
        list_data04 = {}
        list_data05 = list_data04.fromkeys(self.list_data).keys()
        list_data06 = list(list_data05)
        print(f"字典法：{list_data06}")
        
        
if __name__ == "__main__":
    unittest.main()

全部輸出為：

===============================================
原始字符串為：12344312abcdcbdaABCDDCBA張王李張
原始列表為：['A', 'B', 'C', 'D', 'E', 'C', 'A', 'B']

直接刪除方法去重后數(shù)據(jù)：4312cbdaDCBA王李張
for方法去重后數(shù)據(jù):1234abcdABCD張王李
fromkeys方法去重后數(shù)據(jù):1234abcdABCD張王李
列表方法去重后數(shù)據(jù)：1234abcdABCD張王李
while方法去重后數(shù)據(jù):張李王ABCDadbc2134
count方法：['A', 'B', 'C', 'D', 'E']
字典法：['A', 'B', 'C', 'D', 'E']
for方法:['A', 'B', 'C', 'D', 'E']
set方法1：['B', 'A', 'D', 'C', 'E']
set方法2：['A', 'B', 'C', 'D', 'E']

放一張圖吧（雖然用處不大，哈哈）：