欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python檢測兩個(gè)文本文件相似性的三種方法

 更新時(shí)間:2025年03月14日 08:45:40   作者:數(shù)據(jù)知道  
檢測兩個(gè)文本文件的相似性是一個(gè)常見的任務(wù),可以用于文本去重、抄襲檢測等場景,Python 提供了多種方法來實(shí)現(xiàn)這一功能,x下面小編就來簡單介紹一下吧

檢測兩個(gè)文本文件的相似性是一個(gè)常見的任務(wù),可以用于文本去重、抄襲檢測等場景。Python 提供了多種方法來實(shí)現(xiàn)這一功能,包括基于字符串匹配、詞頻統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的方法。以下是幾種常用的方法及其實(shí)現(xiàn)。

1. 基于字符串匹配的方法

1.1 Levenshtein 距離

原理:計(jì)算兩個(gè)字符串之間的編輯距離(插入、刪除、替換操作的次數(shù))。

優(yōu)點(diǎn):簡單直觀。

缺點(diǎn):計(jì)算復(fù)雜度較高,不適合長文本。

import Levenshtein

def similarity_levenshtein(text1, text2):
    distance = Levenshtein.distance(text1, text2)
    max_len = max(len(text1), len(text2))
    return 1 - (distance / max_len)

# 讀取文件
with open("file1.txt", "r") as f1, open("file2.txt", "r") as f2:
    text1 = f1.read()
    text2 = f2.read()

similarity = similarity_levenshtein(text1, text2)
print(f"Similarity (Levenshtein): {similarity:.2f}")

1.2 Jaccard 相似度

原理:計(jì)算兩個(gè)集合的交集與并集的比值。

優(yōu)點(diǎn):適合處理短文本或單詞級別的相似性。

缺點(diǎn):忽略詞序和語義。

案例1:

def similarity_jaccard(text1, text2):
    set1 = set(text1.split())
    set2 = set(text2.split())
    intersection = set1.intersection(set2)
    union = set1.union(set2)
    return len(intersection) / len(union)

# 讀取文件
with open("file1.txt", "r") as f1, open("file2.txt", "r") as f2:
    text1 = f1.read()
    text2 = f2.read()

similarity = similarity_jaccard(text1, text2)
print(f"Similarity (Jaccard): {similarity:.2f}")

案例2:

Jaccard 相似度通過比較兩個(gè)集合的交集與并集的比例來衡量相似性。對于文本,可以將文本中的詞看作集合元素。下面兩種方法分別從不同的角度衡量了文本的相似性,可以根據(jù)實(shí)際需求選擇合適的方法。記得將 file1.txt 和 file2.txt 替換為你實(shí)際要比較的文件路徑。

import Levenshtein

def compare_text_files_edit_distance(file1_path, file2_path):
    try:
        with open(file1_path, 'r', encoding='utf-8') as file1:
            text1 = file1.read()
        with open(file2_path, 'r', encoding='utf-8') as file2:
            text2 = file2.read()

        distance = Levenshtein.distance(text1, text2)
        max_length = max(len(text1), len(text2))
        similarity = 1 - (distance / max_length)
        return similarity
    except FileNotFoundError:
        print("錯(cuò)誤: 文件未找到!")
    except Exception as e:
        print(f"錯(cuò)誤: 發(fā)生了一個(gè)未知錯(cuò)誤: {e}")
    return None

if __name__ == "__main__":
    file1_path = 'file1.txt'
    file2_path = 'file2.txt'
    similarity = compare_text_files_edit_distance(file1_path, file2_path)
    if similarity is not None:
        print(f"兩個(gè)文件基于編輯距離的相似度為: {similarity:.2f}")
    

2. 基于詞頻統(tǒng)計(jì)的方法

2.1 余弦相似度

原理:將文本表示為詞頻向量,計(jì)算向量之間的余弦相似度。

優(yōu)點(diǎn):適合處理長文本,考慮詞頻信息。

缺點(diǎn):忽略詞序和語義。

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def similarity_cosine(text1, text2):
    vectorizer = CountVectorizer().fit_transform([text1, text2])
    vectors = vectorizer.toarray()
    return cosine_similarity([vectors[0]], [vectors[1]])[0][0]

# 讀取文件
with open("file1.txt", "r") as f1, open("file2.txt", "r") as f2:
    text1 = f1.read()
    text2 = f2.read()

similarity = similarity_cosine(text1, text2)
print(f"Similarity (Cosine): {similarity:.2f}")

2.2 TF-IDF 相似度

原理:將文本表示為 TF-IDF 向量,計(jì)算向量之間的余弦相似度。

優(yōu)點(diǎn):考慮詞的重要性,適合處理長文本。

缺點(diǎn):忽略詞序和語義。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def similarity_tfidf(text1, text2):
    vectorizer = TfidfVectorizer().fit_transform([text1, text2])
    vectors = vectorizer.toarray()
    return cosine_similarity([vectors[0]], [vectors[1]])[0][0]

# 讀取文件
with open("file1.txt", "r") as f1, open("file2.txt", "r") as f2:
    text1 = f1.read()
    text2 = f2.read()

similarity = similarity_tfidf(text1, text2)
print(f"Similarity (TF-IDF): {similarity:.2f}")

3. 基于語義的方法

3.1 Word2Vec + 余弦相似度

原理:將文本表示為詞向量的平均值,計(jì)算向量之間的余弦相似度。

優(yōu)點(diǎn):考慮語義信息。

缺點(diǎn):需要預(yù)訓(xùn)練的詞向量模型。

from gensim.models import KeyedVectors
import numpy as np

# 加載預(yù)訓(xùn)練的詞向量模型
word2vec_model = KeyedVectors.load_word2vec_format("path/to/word2vec.bin", binary=True)

def text_to_vector(text):
    words = text.split()
    vectors = [word2vec_model[word] for word in words if word in word2vec_model]
    return np.mean(vectors, axis=0) if vectors else np.zeros(word2vec_model.vector_size)

def similarity_word2vec(text1, text2):
    vec1 = text_to_vector(text1)
    vec2 = text_to_vector(text2)
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

# 讀取文件
with open("file1.txt", "r") as f1, open("file2.txt", "r") as f2:
    text1 = f1.read()
    text2 = f2.read()

similarity = similarity_word2vec(text1, text2)
print(f"Similarity (Word2Vec): {similarity:.2f}")

3.2 BERT + 余弦相似度

原理:使用預(yù)訓(xùn)練的 BERT 模型將文本表示為向量,計(jì)算向量之間的余弦相似度。

優(yōu)點(diǎn):考慮上下文語義信息。

缺點(diǎn):計(jì)算復(fù)雜度高,需要 GPU 加速。

from transformers import BertTokenizer, BertModel
import torch
import numpy as np

# 加載預(yù)訓(xùn)練的 BERT 模型和分詞器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

def text_to_bert_vector(text):
    inputs = tokenizer(text, return_tensors='pt', truncation=True, padding=True)
    outputs = model(**inputs)
    return outputs.last_hidden_state.mean(dim=1).detach().numpy()

def similarity_bert(text1, text2):
    vec1 = text_to_bert_vector(text1)
    vec2 = text_to_bert_vector(text2)
    return np.dot(vec1, vec2.T) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

# 讀取文件
with open("file1.txt", "r") as f1, open("file2.txt", "r") as f2:
    text1 = f1.read()
    text2 = f2.read()

similarity = similarity_bert(text1, text2)
print(f"Similarity (BERT): {similarity:.2f}")

4. 總結(jié)

根據(jù)需求選擇合適的方法:

如果需要快速計(jì)算短文本的相似性,可以使用 Levenshtein 距離 或 Jaccard 相似度。

如果需要處理長文本并考慮詞頻信息,可以使用 余弦相似度 或 TF-IDF 相似度。

如果需要考慮語義信息,可以使用 Word2Vec 或 BERT。

到此這篇關(guān)于Python檢測兩個(gè)文本文件相似性的三種方法的文章就介紹到這了,更多相關(guān)Python檢測文本相似性內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python爬蟲之獲取心知天氣API實(shí)時(shí)天氣數(shù)據(jù)并彈窗提醒

    Python爬蟲之獲取心知天氣API實(shí)時(shí)天氣數(shù)據(jù)并彈窗提醒

    今天我們來學(xué)習(xí)如何獲取心知天氣API實(shí)時(shí)天氣數(shù)據(jù),制作彈窗提醒,并設(shè)置成自啟動(dòng)項(xiàng)目.文中有非常詳細(xì)的代碼示例及介紹,對正在學(xué)習(xí)python的小伙伴們有非常好的幫助,需要的朋友可以參考下
    2021-05-05
  • 關(guān)于Pytorch中模型的保存與遷移問題

    關(guān)于Pytorch中模型的保存與遷移問題

    在本篇文章中,筆者首先介紹了模型復(fù)用的幾種典型場景;然后介紹了如何查看Pytorch模型中的相關(guān)參數(shù)信息;接著介紹了如何載入模型、如何進(jìn)行追加訓(xùn)練以及進(jìn)行模型的遷移學(xué)習(xí)等,需要的朋友可以參考下
    2021-10-10
  • python神經(jīng)網(wǎng)絡(luò)使用Keras構(gòu)建RNN訓(xùn)練

    python神經(jīng)網(wǎng)絡(luò)使用Keras構(gòu)建RNN訓(xùn)練

    這篇文章主要為大家介紹了python神經(jīng)網(wǎng)絡(luò)使用Keras構(gòu)建RNN網(wǎng)絡(luò)訓(xùn)練,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪<BR>
    2022-05-05
  • 如何使用Python優(yōu)雅的合并兩個(gè)字典Dict

    如何使用Python優(yōu)雅的合并兩個(gè)字典Dict

    字典是Python語言中唯一的映射類型,在我們?nèi)粘9ぷ髦薪?jīng)常會(huì)遇到,下面這篇文章主要給大家介紹了關(guān)于如何使用Python優(yōu)雅的合并兩個(gè)字典Dict的相關(guān)資料,需要的朋友可以參考下
    2023-05-05
  • python基礎(chǔ)教程之csv格式文件的寫入與讀取

    python基礎(chǔ)教程之csv格式文件的寫入與讀取

    逗號分隔值(Comma-Separated Values,CSV,也稱為字符分隔值,分隔字符也可以不是逗號),新這篇文章主要給大家介紹了關(guān)于python基礎(chǔ)教程之csv格式文件的寫入與讀取的相關(guān)資料,需要的朋友可以參考下
    2022-03-03
  • Flask中app.route裝飾器參數(shù)的使用

    Flask中app.route裝飾器參數(shù)的使用

    app.route()是Flask框架中用于定義路由的裝飾器函數(shù),本文主要介紹了Flask中app.route裝飾器參數(shù)的使用,具有一定的參考價(jià)值,感興趣的可以了解一下
    2023-11-11
  • Caffe卷積神經(jīng)網(wǎng)絡(luò)solver及其配置詳解

    Caffe卷積神經(jīng)網(wǎng)絡(luò)solver及其配置詳解

    這篇文章主要為大家介紹了Caffe卷積神經(jīng)網(wǎng)絡(luò)solver及其配置詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-06-06
  • Django Model層F,Q對象和聚合函數(shù)原理解析

    Django Model層F,Q對象和聚合函數(shù)原理解析

    這篇文章主要介紹了Django Model層F,Q對象和聚合函數(shù)原理解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-11-11
  • Python基礎(chǔ)之Numpy的基本用法詳解

    Python基礎(chǔ)之Numpy的基本用法詳解

    這篇文章主要介紹了Python基礎(chǔ)之Numpy的基本用法詳解,文中有非常詳細(xì)的代碼示例,對正在學(xué)習(xí)python基礎(chǔ)的小伙伴們有非常好的幫助,需要的朋友可以參考下
    2021-05-05
  • Python使用jpype的踩坑記錄

    Python使用jpype的踩坑記錄

    Pype是一個(gè)能夠讓 python 代碼方便地調(diào)用 Java 代碼的工具,這篇文章主要來和大家分享一下Python使用jpype會(huì)踩的一些坑,希望對大家有所幫助
    2023-06-06

最新評論