欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

基于Python實現(xiàn)搶注大詞的提詞工具

 更新時間:2023年02月28日 14:22:56   作者:虛壞叔叔  
這篇文章主要為大家詳細(xì)介紹了如何利用Python語言實現(xiàn)搶注大詞的提詞工具,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下

假設(shè)通過爬蟲獲得了一個自媒體.txt

想要從這些關(guān)鍵詞中提取流量最大的關(guān)鍵詞

可以通過如下算法實現(xiàn):

from smoothnlp.algorithm.phrase import extract_phrase
import re

class_name = '自媒體'
class_name_low = class_name.lower()
top_k = 100

with open('%s.txt' % class_name,'r',encoding='utf-8') as file:
	data_str = file.read()
	keyword_list = data_str.split('\n')

with open('dont.txt','r',encoding='utf-8') as file:
	dont_set = set(file.read().split('\n'))

word_count_dict = dict()
new_word_list = extract_phrase(keyword_list,top_k=top_k)
for new_word in new_word_list:
	if new_word in dont_set:
		continue
		
	new_word_low = new_word.lower()

	if class_name_low in new_word_low or class_name_low == new_word_low:
		word_count_dict[new_word] = len(re.findall(new_word_low,data_str))
		continue

	add_l = re.findall('%s%s' % (class_name_low,new_word_low),data_str)
	add_r = re.findall('%s%s' % (new_word_low,class_name_low),data_str)
	if len(add_l) >= len(add_r):
		word_count_dict['%s%s' % (class_name,new_word)] = len(add_l)
	else:
		word_count_dict['%s%s' % (new_word,class_name)] = len(add_r)

for word,count in word_count_dict.items():
	print('%s\t%s' % (word,count))

其中:

自媒體.txt 就是需要的關(guān)鍵詞庫

dont.txt 就是過濾掉一些沒有用的詞匯

獲得的結(jié)果如下,下面的這些詞就是流量很大的詞匯 可以用于注冊賬號去獲取流量

自媒體領(lǐng)域    702
自媒體軟件    502
自媒體身份證    68
自媒體推薦    450
自媒體研究    199
自媒體素材    378
自媒體原創(chuàng)    1147
自媒體審核    417
瀏覽器自媒體    110
自媒體閱讀量    378
自媒體app    346
自媒體工具    222
自媒體圖片    416
自媒體電腦    112
自媒體管理    824
自媒體內(nèi)容    1083
自媒體電視劇    48
自媒體申請    742
自媒體注冊    1597
百度自媒體    545
自媒體同步    89
自媒體電影片段    14
自媒體檢測    36
自媒體抄襲    130
自媒體選擇    215
自媒體產(chǎn)品    105
自媒體信息    355
自媒體粉絲    474
自媒體下載    173
企業(yè)自媒體    789
自媒體收益    1296
自媒體數(shù)據(jù)    317
淘寶自媒體    263
自媒體手機(jī)    568
自媒體剪輯    367
自媒體電影    380
自媒體服務(wù)    167
自媒體采集    234
自媒體變現(xiàn)    246
自媒體修改    65
自媒體風(fēng)險    43
中國自媒體    533
自媒體兼職    182
自媒體定位    143
自媒體英語    53
自媒體傳播    776
抖音自媒體    686
自媒體渠道    212
自媒體影響力    130
0萬粉絲自媒體    18
自媒體綁定    47
自媒體免費(fèi)    205
自媒體認(rèn)證    1662
自媒體流量    595
自媒體播放量    164
萬粉絲自媒體    42
自媒體評論    116
自媒體邀請碼    137
健康自媒體    96
自媒體問題    35
自媒體收入    826
自媒體垂直    129
自媒體招聘    665
自媒體獎勵    26
自媒體教程    312
自媒體盈利模式    140
自媒體熱點(diǎn)    104
自媒體標(biāo)題    561
自媒體經(jīng)營范圍    20
自媒體意識形態(tài)    13
自媒體ppt    70
自媒體品牌    219
自媒體競爭    45
自媒體社會    235
自媒體現(xiàn)狀    123
開通自媒體    219
2018自媒體    443
國外自媒體    350
自媒體公司    2862
自媒體介紹    311
自媒體生活    180
自媒體模式    56
自媒體故事    55
自媒體分析    168
自媒體策劃    244
自媒體版權(quán)    123
自媒體推廣    1893
自媒體考核    38
自媒體情況    32
自媒體搬運(yùn)    958
音樂自媒體    337

最后的所有項目代碼如下:

到此這篇關(guān)于基于Python實現(xiàn)搶注大詞的提詞工具的文章就介紹到這了,更多相關(guān)Python提詞工具內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 解決pymongo連接數(shù)據(jù)庫報錯certificate verify failed:certificate has expired

    解決pymongo連接數(shù)據(jù)庫報錯certificate verify failed:certific

    這篇文章主要介紹了解決pymongo連接數(shù)據(jù)庫報錯certificate verify failed:certificate has expired問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2024-01-01
  • 最新評論