快捷導(dǎo)航

python使用jieba實(shí)現(xiàn)中文分詞去停用詞方法示例

更新時(shí)間：2018年03月11日 10:11:11 作者：circle元

jieba分詞,完全開源,有集成的python庫,簡單易用。下面這篇文章主要給大家介紹了關(guān)于python使用jieba實(shí)現(xiàn)中文分詞去停用詞的相關(guān)資料，文中通過示例代碼介紹的非常詳細(xì)，需要的朋友可以參考借鑒，下面來一起看看吧。

前言

jieba 基于Python的中文分詞工具，安裝使用非常方便，直接pip即可，2/3都可以，功能強(qiáng)悍，十分推薦。

中文分詞(Chinese Word Segmentation) 指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。

分詞模塊jieba，它是python比較好用的分詞模塊。待分詞的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建議直接輸入 GBK 字符串，可能無法預(yù)料地錯(cuò)誤解碼成 UTF-8

支持三種分詞模式

1 精確模式，試圖將句子最精確地切開，適合文本分析；

2 全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非?？?，但是不能解決歧義；

3 搜索引擎模式，在精確模式的基礎(chǔ)上，對(duì)長詞再次切分，提高召回率，適合用于搜索引擎分詞。

# 精確模式 seg_list = jieba.cut("我去過清華大學(xué)和北京大學(xué)。")

# 全模式 seg_list = jieba.cut("我去過清華大學(xué)和北京大學(xué)。", cut_all=True)

# 搜索引擎模式 seg_list = jieba.cut_for_search("我去過清華大學(xué)和北京大學(xué)。")

#精確模式: 我/ 去過/ 清華大學(xué)/ 和/ 北京大學(xué)/ 。

#全模式: 我/ 去過/ 清華/ 清華大學(xué)/ 華大/ 大學(xué)/ 和/ 北京/ 北京大學(xué)/ 大學(xué)/ /

#搜索引擎模式: 我/ 去過/ 清華/ 華大/ 大學(xué)/ 清華大學(xué)/ 和/ 北京/ 大學(xué)/ 北京大學(xué)/

#coding=utf-8
import jieba. analyse
stopwords=[]
for word in open('stopwords.txt','r'):
 stopwords.append(word.strip())
article=open('1.txt','r').read()
words=jieba.cut(article,cut_all=False)
stayed_line=""
for word in words:
 if word.encode("utf-8")not in stopwords:
  stayed_line+=word+" "
print stayed_line
w=open('2.txt','w')
w.write(stayed_line.encode('utf-8'))

總結(jié)

以上就是這篇文章的全部內(nèi)容了，希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，如果有疑問大家可以留言交流，謝謝大家對(duì)腳本之家的支持。

您可能感興趣的文章:

相關(guān)文章

python實(shí)現(xiàn)讀取類別頻數(shù)數(shù)據(jù)畫水平條形圖案例
這篇文章主要介紹了python實(shí)現(xiàn)讀取類別頻數(shù)數(shù)據(jù)畫水平條形圖案例，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
2020-04-04
用python的seaborn畫數(shù)值箱型圖
大家好，本篇文章主要講的是用python的seaborn畫數(shù)值箱型圖，感興趣的同學(xué)趕快來看一看吧，對(duì)你有幫助的話記得收藏一下
2022-01-01
Python項(xiàng)目打包成exe文件
大家好，本篇文章主要講的是Python項(xiàng)目打包成exe文件，感興趣的同學(xué)趕快來看一看吧，對(duì)你有幫助的話記得收藏一下，方便下次瀏覽
2021-12-12
在Django中Pyecharts生成圖表實(shí)現(xiàn)
pyecharts是支持python的一種可視化，那么在Django中Pyecharts如何生成圖表，主要有兩種方法，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2021-05-05
Django1.7+python 2.78+pycharm配置mysql數(shù)據(jù)庫教程
原本感覺在Django1.7+python 2.78+pycharm環(huán)境下配置mysql數(shù)據(jù)庫是件很容易的事情，結(jié)果具體操作的時(shí)候才發(fā)現(xiàn)，問題還是挺多的，這里記錄一下最終的配置結(jié)果，給需要的小伙伴參考下吧
2014-11-11
pyinstaller通過spec文件打包py程序的步驟
這篇文章主要介紹了pyinstaller通過spec文件打包py程序,本文通過實(shí)例代碼給大家介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值，需要的朋友可以參考下
2023-05-05
Python使用pyodbc訪問數(shù)據(jù)庫操作方法詳解
這篇文章主要介紹了Python使用pyodbc訪問數(shù)據(jù)庫操作方法,結(jié)合實(shí)例形式詳細(xì)分析了Python基于pyodbc針對(duì)數(shù)據(jù)庫的連接、查詢、插入、修改、刪除等操作技巧與注意事項(xiàng),需要的朋友可以參考下
2018-07-07
python 中[0]*2與0*2的區(qū)別說明
這篇文章主要介紹了python 中[0]*2與0*2的區(qū)別說明，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
2021-05-05
pytorch中的transforms模塊實(shí)例詳解
今天小編就為大家分享一篇pytorch中的transforms模塊實(shí)例詳解，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
2019-12-12
Python實(shí)現(xiàn)基于標(biāo)記的分水嶺分割算法
分水嶺技術(shù)是一種眾所周知的分割算法，特別適用于提取圖片中的相鄰或重疊對(duì)象。本文將用Python實(shí)現(xiàn)基于標(biāo)記的分水嶺分割算法，感興趣的可以了解一下
2022-07-07