腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

軟件下載

android MAC 驅(qū)動(dòng)下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語(yǔ)言 Delphi Android

網(wǎng)絡(luò)編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫(kù)

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國(guó)CMS WordPress

常用工具

PHP開(kāi)發(fā)工具 python Photoshop 必備軟件

Python Pandas兩個(gè)表格內(nèi)容模糊匹配的實(shí)現(xiàn)

更新時(shí)間：2021年11月11日 17:16:56 作者：迪迦瓦特曼

模糊查詢大家應(yīng)該都不會(huì)陌生,下面這篇文章主要給大家介紹了關(guān)于Python Pandas兩個(gè)表格內(nèi)容模糊匹配的實(shí)現(xiàn)方法,文中通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友可以參考下

一、方法2

此方法是兩個(gè)表構(gòu)建某一相同字段，然后全連接，在做匹配結(jié)果篩選，此方法針對(duì)數(shù)據(jù)量不大的時(shí)候，邏輯比較簡(jiǎn)單，但是內(nèi)存消耗較大

1. 導(dǎo)入庫(kù)

import pandas as pd
import numpy as np
import re

2. 構(gòu)建關(guān)鍵詞

#關(guān)鍵詞數(shù)據(jù)
df_keyword = pd.DataFrame({
    "keyid" : np.arange(5),
    "keyword" : ["numpy", "pandas", "matplotlib", "sklearn", "tensorflow"]
})
df_keyword

3. 構(gòu)建句子

df_sentence = pd.DataFrame({
    "senid" : np.arange(10,17),
    "sentence" : [
        "怎樣用pandas實(shí)現(xiàn)merge？",
        "Python之Numpy詳細(xì)教程",
        "怎么使用Pandas批量拆分與合并Excel文件？",
        "怎樣使用pandas的map和apply函數(shù)？",
        "深度學(xué)習(xí)之tensorflow簡(jiǎn)介",
        "tensorflow和numpy的關(guān)系",
        "基于sklearn的一些機(jī)器學(xué)習(xí)的代碼"
    ]
})
df_sentence

4. 建立統(tǒng)一索引

df_keyword['match'] = 1
df_sentence['match'] = 1

5. 表連接

df_merge = pd.merge(df_keyword, df_sentence)
df_merge

6. 關(guān)鍵詞匹配

def match_func(row):
    return re.search(row["keyword"], row["sentence"], re.IGNORECASE) is not None
df_merge[df_merge.apply(match_func, axis = 1)]

匹配結(jié)果如下

二、方法2

此方法對(duì)編程能力有要求，在大數(shù)據(jù)集上計(jì)算量較方法一小很多

1. 構(gòu)建字典

key_word_dict = {
    row.keyword : row.keyid
    for row in df_keyword.itertuples()
}
key_word_dict

{'numpy': 0, 'pandas': 1, 'matplotlib': 2, 'sklearn': 3, 'tensorflow': 4}

2. 關(guān)鍵詞匹配

def merge_func(row):
    #新增一列，表示可以匹配的keyid
    row["keyids"] = [
        keyid
        for key_word, keyid in key_word_dict.items()
        if re.search(key_word, row["sentence"], re.IGNORECASE)
    ]
    return row
df_merge = df_sentence.apply(merge_func, axis = 1)

3. 結(jié)果展示

df_merge

4. 匹配結(jié)果展開(kāi)

df_result = pd.merge(
left = df_merge.explode("keyids"),
right = df_keyword,
left_on = "keyids",
right_on = "keyid")
df_result

總結(jié)

到此這篇關(guān)于Python Pandas兩個(gè)表格內(nèi)容模糊匹配搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫(kù)

CMS

常用工具

Python Pandas兩個(gè)表格內(nèi)容模糊匹配的實(shí)現(xiàn)

目錄

一、方法2

1. 導(dǎo)入庫(kù)

2. 構(gòu)建關(guān)鍵詞

3. 構(gòu)建句子

4. 建立統(tǒng)一索引

5. 表連接

6. 關(guān)鍵詞匹配

二、方法2

1. 構(gòu)建字典

2. 關(guān)鍵詞匹配

3. 結(jié)果展示

4. 匹配結(jié)果展開(kāi)

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

Python Pandas兩個(gè)表格內(nèi)容模糊匹配的實(shí)現(xiàn)

目錄

一、方法2

1. 導(dǎo)入庫(kù)

2. 構(gòu)建關(guān)鍵詞

3. 構(gòu)建句子

4. 建立統(tǒng)一索引

5. 表連接

6. 關(guān)鍵詞匹配

二、方法2

1. 構(gòu)建字典

2. 關(guān)鍵詞匹配

3. 結(jié)果展示

4. 匹配結(jié)果展開(kāi)

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

二、方法2