欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

論文查重python文本相似性計算simhash源碼

 更新時間:2022年02月10日 14:26:07   作者:別None了  
這篇文章主要為大家介紹了python文本相似性計算simhash源碼來實現論文的查重,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步

場景:

1.計算SimHash值,及Hamming距離。
2.SimHash適用于較長文本(大于三五百字)的相似性比較,文本越短誤判率越高。

Python實現:

代碼如下

# -*- encoding:utf-8 -*-
import math
import jieba
import jieba.analyse
class SimHash(object):
    def getBinStr(self, source):
        if source == "":
            return 0
        else:
            x = ord(source[0]) << 7
            m = 1000003
            mask = 2 ** 128 - 1
            for c in source:
                x = ((x * m) ^ ord(c)) & mask
            x ^= len(source)
            if x == -1:
                x = -2
            x = bin(x).replace('0b', '').zfill(64)[-64:]
            return str(x)
    def getWeight(self, source):
        return ord(source)
    def unwrap_weight(self, arr):
        ret = ""
        for item in arr:
            tmp = 0
            if int(item) > 0:
                tmp = 1
            ret += str(tmp)
        return ret
    def sim_hash(self, rawstr):
        seg = jieba.cut(rawstr)
        keywords = jieba.analyse.extract_tags("|".join(seg), topK=100, withWeight=True)
        ret = []
        for keyword, weight in keywords:
            binstr = self.getBinStr(keyword)
            keylist = []
            for c in binstr:
                weight = math.ceil(weight)
                if c == "1":
                    keylist.append(int(weight))
                else:
                    keylist.append(-int(weight))
            ret.append(keylist)
        # 降維
        rows = len(ret)
        cols = len(ret[0])
        result = []
        for i in range(cols):
            tmp = 0
            for j in range(rows):
                tmp += int(ret[j][i])
            if tmp > 0:
                tmp = "1"
            elif tmp <= 0:
                tmp = "0"
            result.append(tmp)
        return "".join(result)
    def distince(self, hashstr1, hashstr2):
        length = 0
        for index, char in enumerate(hashstr1):
            if char == hashstr2[index]:
                continue
            else:
                length += 1
        return length
if __name__ == "__main__":
    simhash = SimHash()
    str1 = '咱哥倆誰跟誰啊'
    str2 = '咱們倆誰跟誰啊'
    hash1 = simhash.sim_hash(str1)
    print(hash1)
    hash2 = simhash.sim_hash(str2)
    distince = simhash.distince(hash1, hash2)
    value = 5
    print("simhash", distince, "距離:", value, "是否相似:", distince<=value)

以上就是論文查重python文本相似性計算simhash源碼的詳細內容,更多關于python文本相似性計算simhash的資料請關注腳本之家其它相關文章!

相關文章

  • python顯示天氣預報

    python顯示天氣預報

    這篇文章主要介紹了python顯示天氣預報功能,python2.7運行通過,需要的朋友可以參考下
    2014-03-03
  • python2.7使用plotly繪制本地散點圖和折線圖

    python2.7使用plotly繪制本地散點圖和折線圖

    這篇文章主要為大家詳細介紹了python2.7使用plotly繪制本地散點圖和折線圖實例,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2019-04-04
  • 基于Python編寫一個簡單的服務注冊發(fā)現服務器

    基于Python編寫一個簡單的服務注冊發(fā)現服務器

    我們都知道有很多的非常著名的注冊服務器,例如:?Consul、ZooKeeper、etcd,甚至借助于redis完成服務注冊發(fā)現。但是本篇文章我們將使用python?socket寫一個非常簡單的服務注冊發(fā)現服務器,感興趣的可以了解一下
    2023-04-04
  • python函數存儲在模塊的優(yōu)點及用法總結

    python函數存儲在模塊的優(yōu)點及用法總結

    在本篇文章里小編給大家整理了一篇關于python函數存儲在模塊的優(yōu)點及用法相關內容,有興趣的朋友們可以跟著學習下。
    2021-10-10
  • Python Numpy 自然數填充數組的實現

    Python Numpy 自然數填充數組的實現

    今天小編就為大家分享一篇Python Numpy 自然數填充數組的實現,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-11-11
  • Python實現簡單遺傳算法(SGA)

    Python實現簡單遺傳算法(SGA)

    這篇文章主要為大家詳細介紹了Python實現簡單遺傳算法SGA,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-01-01
  • Python破解BiliBili滑塊驗證碼的思路詳解(完美避開人機識別)

    Python破解BiliBili滑塊驗證碼的思路詳解(完美避開人機識別)

    這篇文章主要介紹了Python破解BiliBili滑塊驗證碼的思路,本文通過實例代碼給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下
    2020-02-02
  • 詳解python tkinter模塊安裝過程

    詳解python tkinter模塊安裝過程

    tkinter其實是Python調用tcl程序的標準Python程序,可以通過這個interface調用tcl的程序,因為在大多數的unix系統(tǒng)中都內置了很多的tcl程序和命令。這篇文章主要介紹了python tkinter模塊安裝,需要的朋友可以參考下
    2020-01-01
  • python接口自動化之ConfigParser配置文件的使用詳解

    python接口自動化之ConfigParser配置文件的使用詳解

    這篇文章主要介紹了python接口自動化之ConfigParser配置文件的使用,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2020-08-08
  • 解決項目pycharm能運行,在終端卻無法運行的問題

    解決項目pycharm能運行,在終端卻無法運行的問題

    今天小編就為大家分享一篇解決項目pycharm能運行,在終端卻無法運行的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01

最新評論