基于Python實現(xiàn)搶注大詞的提詞工具
假設(shè)通過爬蟲獲得了一個自媒體.txt
想要從這些關(guān)鍵詞中提取流量最大的關(guān)鍵詞
可以通過如下算法實現(xiàn):
from smoothnlp.algorithm.phrase import extract_phrase import re class_name = '自媒體' class_name_low = class_name.lower() top_k = 100 with open('%s.txt' % class_name,'r',encoding='utf-8') as file: data_str = file.read() keyword_list = data_str.split('\n') with open('dont.txt','r',encoding='utf-8') as file: dont_set = set(file.read().split('\n')) word_count_dict = dict() new_word_list = extract_phrase(keyword_list,top_k=top_k) for new_word in new_word_list: if new_word in dont_set: continue new_word_low = new_word.lower() if class_name_low in new_word_low or class_name_low == new_word_low: word_count_dict[new_word] = len(re.findall(new_word_low,data_str)) continue add_l = re.findall('%s%s' % (class_name_low,new_word_low),data_str) add_r = re.findall('%s%s' % (new_word_low,class_name_low),data_str) if len(add_l) >= len(add_r): word_count_dict['%s%s' % (class_name,new_word)] = len(add_l) else: word_count_dict['%s%s' % (new_word,class_name)] = len(add_r) for word,count in word_count_dict.items(): print('%s\t%s' % (word,count))
其中:
自媒體.txt
就是需要的關(guān)鍵詞庫
dont.txt
就是過濾掉一些沒有用的詞匯
獲得的結(jié)果如下,下面的這些詞就是流量很大的詞匯 可以用于注冊賬號去獲取流量
自媒體領(lǐng)域 702
自媒體軟件 502
自媒體身份證 68
自媒體推薦 450
自媒體研究 199
自媒體素材 378
自媒體原創(chuàng) 1147
自媒體審核 417
瀏覽器自媒體 110
自媒體閱讀量 378
自媒體app 346
自媒體工具 222
自媒體圖片 416
自媒體電腦 112
自媒體管理 824
自媒體內(nèi)容 1083
自媒體電視劇 48
自媒體申請 742
自媒體注冊 1597
百度自媒體 545
自媒體同步 89
自媒體電影片段 14
自媒體檢測 36
自媒體抄襲 130
自媒體選擇 215
自媒體產(chǎn)品 105
自媒體信息 355
自媒體粉絲 474
自媒體下載 173
企業(yè)自媒體 789
自媒體收益 1296
自媒體數(shù)據(jù) 317
淘寶自媒體 263
自媒體手機(jī) 568
自媒體剪輯 367
自媒體電影 380
自媒體服務(wù) 167
自媒體采集 234
自媒體變現(xiàn) 246
自媒體修改 65
自媒體風(fēng)險 43
中國自媒體 533
自媒體兼職 182
自媒體定位 143
自媒體英語 53
自媒體傳播 776
抖音自媒體 686
自媒體渠道 212
自媒體影響力 130
0萬粉絲自媒體 18
自媒體綁定 47
自媒體免費(fèi) 205
自媒體認(rèn)證 1662
自媒體流量 595
自媒體播放量 164
萬粉絲自媒體 42
自媒體評論 116
自媒體邀請碼 137
健康自媒體 96
自媒體問題 35
自媒體收入 826
自媒體垂直 129
自媒體招聘 665
自媒體獎勵 26
自媒體教程 312
自媒體盈利模式 140
自媒體熱點(diǎn) 104
自媒體標(biāo)題 561
自媒體經(jīng)營范圍 20
自媒體意識形態(tài) 13
自媒體ppt 70
自媒體品牌 219
自媒體競爭 45
自媒體社會 235
自媒體現(xiàn)狀 123
開通自媒體 219
2018自媒體 443
國外自媒體 350
自媒體公司 2862
自媒體介紹 311
自媒體生活 180
自媒體模式 56
自媒體故事 55
自媒體分析 168
自媒體策劃 244
自媒體版權(quán) 123
自媒體推廣 1893
自媒體考核 38
自媒體情況 32
自媒體搬運(yùn) 958
音樂自媒體 337
最后的所有項目代碼如下:
到此這篇關(guān)于基于Python實現(xiàn)搶注大詞的提詞工具的文章就介紹到這了,更多相關(guān)Python提詞工具內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python中利用ItsDangerous快捷實現(xiàn)數(shù)據(jù)加密
這篇文章主要介紹了Python中利用ItsDangerous快捷實現(xiàn)數(shù)據(jù)加密,通過使用Python庫ItsDangerous,我們就可以高效快捷地完成數(shù)據(jù)加密/解密的過程,本文結(jié)合實例代碼給大家講解的非常詳細(xì),需要的朋友可以參考下2022-11-11淺析python3字符串格式化format()函數(shù)的簡單用法
這篇文章主要介紹了python3字符串格式化format()函數(shù)的簡單用法,代碼簡單易懂,非常不錯,具有一定的參考借鑒價值,需要的朋友可以參考下2018-12-12Python學(xué)習(xí)之集合的常用方法總結(jié)
集合并不是一種數(shù)據(jù)處理類型,而是一種中間類型。集合(set)是一個無序、不重復(fù)的元素序列,經(jīng)常被用來處理兩個列表進(jìn)行交并差的處理性。本文將詳細(xì)講解集合的一些常用方法,感興趣的可以了解一下2022-03-03Python基于paramunittest模塊實現(xiàn)excl參數(shù)化
這篇文章主要介紹了Python基于paramunittest模塊實現(xiàn)excl參數(shù)化,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-04-04

解決pymongo連接數(shù)據(jù)庫報錯certificate verify failed:certific