欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python使用jieba實現中文分詞去停用詞方法示例

 更新時間:2018年03月11日 10:11:11   作者:circle元  
jieba分詞,完全開源,有集成的python庫,簡單易用。下面這篇文章主要給大家介紹了關于python使用jieba實現中文分詞去停用詞的相關資料,文中通過示例代碼介紹的非常詳細,需要的朋友可以參考借鑒,下面來一起看看吧。

前言

jieba 基于Python的中文分詞工具,安裝使用非常方便,直接pip即可,2/3都可以,功能強悍,十分推薦。

中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。

分詞模塊jieba,它是python比較好用的分詞模塊。待分詞的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建議直接輸入 GBK 字符串,可能無法預料地錯誤解碼成 UTF-8

支持三種分詞模式

      1 精確模式,試圖將句子最精確地切開,適合文本分析;

      2 全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非???,但是不能解決歧義;

      3 搜索引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。

# 精確模式 seg_list = jieba.cut("我去過清華大學和北京大學。")

# 全模式 seg_list = jieba.cut("我去過清華大學和北京大學。", cut_all=True)

# 搜索引擎模式 seg_list = jieba.cut_for_search("我去過清華大學和北京大學。")

#精確模式: 我/ 去過/ 清華大學/ 和/ 北京大學/ 。

#全模式: 我/ 去過/ 清華/ 清華大學/ 華大/ 大學/ 和/ 北京/ 北京大學/ 大學/ /

#搜索引擎模式: 我/ 去過/ 清華/ 華大/ 大學/ 清華大學/ 和/ 北京/ 大學/ 北京大學/

#coding=utf-8
import jieba. analyse
stopwords=[]
for word in open('stopwords.txt','r'):
 stopwords.append(word.strip())
article=open('1.txt','r').read()
words=jieba.cut(article,cut_all=False)
stayed_line=""
for word in words:
 if word.encode("utf-8")not in stopwords:
  stayed_line+=word+" "
print stayed_line
w=open('2.txt','w')
w.write(stayed_line.encode('utf-8'))

總結

以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。

相關文章

  • python實現讀取類別頻數數據畫水平條形圖案例

    python實現讀取類別頻數數據畫水平條形圖案例

    這篇文章主要介紹了python實現讀取類別頻數數據畫水平條形圖案例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-04-04
  • 用python的seaborn畫數值箱型圖

    用python的seaborn畫數值箱型圖

    大家好,本篇文章主要講的是用python的seaborn畫數值箱型圖,感興趣的同學趕快來看一看吧,對你有幫助的話記得收藏一下
    2022-01-01
  • Python項目打包成exe文件

    Python項目打包成exe文件

    大家好,本篇文章主要講的是Python項目打包成exe文件,感興趣的同學趕快來看一看吧,對你有幫助的話記得收藏一下,方便下次瀏覽
    2021-12-12
  • 在Django中Pyecharts生成圖表實現

    在Django中Pyecharts生成圖表實現

    pyecharts是支持python的一種可視化,那么在Django中Pyecharts如何生成圖表,主要有兩種方法,需要的朋友們下面隨著小編來一起學習學習吧
    2021-05-05
  • Django1.7+python 2.78+pycharm配置mysql數據庫教程

    Django1.7+python 2.78+pycharm配置mysql數據庫教程

    原本感覺在Django1.7+python 2.78+pycharm環(huán)境下配置mysql數據庫是件很容易的事情,結果具體操作的時候才發(fā)現,問題還是挺多的,這里記錄一下最終的配置結果,給需要的小伙伴參考下吧
    2014-11-11
  • pyinstaller通過spec文件打包py程序的步驟

    pyinstaller通過spec文件打包py程序的步驟

    這篇文章主要介紹了pyinstaller通過spec文件打包py程序,本文通過實例代碼給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2023-05-05
  • Python使用pyodbc訪問數據庫操作方法詳解

    Python使用pyodbc訪問數據庫操作方法詳解

    這篇文章主要介紹了Python使用pyodbc訪問數據庫操作方法,結合實例形式詳細分析了Python基于pyodbc針對數據庫的連接、查詢、插入、修改、刪除等操作技巧與注意事項,需要的朋友可以參考下
    2018-07-07
  • python 中[0]*2與0*2的區(qū)別說明

    python 中[0]*2與0*2的區(qū)別說明

    這篇文章主要介紹了python 中[0]*2與0*2的區(qū)別說明,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-05-05
  • pytorch中的transforms模塊實例詳解

    pytorch中的transforms模塊實例詳解

    今天小編就為大家分享一篇pytorch中的transforms模塊實例詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-12-12
  • Python實現基于標記的分水嶺分割算法

    Python實現基于標記的分水嶺分割算法

    分水嶺技術是一種眾所周知的分割算法,特別適用于提取圖片中的相鄰或重疊對象。本文將用Python實現基于標記的分水嶺分割算法,感興趣的可以了解一下
    2022-07-07

最新評論