快捷導(dǎo)航

如何用Python來理一理紅樓夢里的那些關(guān)系

更新時(shí)間：2019年08月14日 16:35:44 作者：周蘿卜

這篇文章主要介紹了用Python來理一理紅樓夢里的那些關(guān)系代碼實(shí)例,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下

前言

今天，一起用 Python 來理一理紅樓夢里的那些關(guān)系

不要問我為啥是紅樓夢，而不是水滸三國或西游，因?yàn)槲乙茶b定的認(rèn)為，紅樓才是無可爭議的中國古典小說只巔峰，且不接受反駁！而紅樓夢也是我多次反復(fù)品讀的為數(shù)不多的小說，對它的感情也是最深的。

好了，不酸了，開干。

數(shù)據(jù)準(zhǔn)備

紅樓夢 TXT 文件一份

金陵十二釵 + 賈寶玉人物名稱列表

人物列表內(nèi)容如下：

寶玉 nr
黛玉 nr
寶釵 nr
湘云 nr
鳳姐 nr
李紈 nr
元春 nr
迎春 nr
探春 nr
惜春 nr
妙玉 nr
巧姐 nr
秦氏 nr

這份列表，同時(shí)也是為了做分詞時(shí)使用，后面的 nr 就是人名的意思。

數(shù)據(jù)處理

讀取數(shù)據(jù)并加載詞典

  with open("紅樓夢.txt", encoding='gb18030') as f:
    honglou = f.readlines()
  jieba.load_userdict("renwu_forcut")
  renwu_data = pd.read_csv("renwu_forcut", header=-1)
  mylist = [k[0].split(" ")[0] for k in renwu_data.values.tolist()]

這樣，我們就把紅樓夢讀取到了 honglou 這個(gè)變量當(dāng)中，同時(shí)也通過 load_userdict 將我們自定義的詞典加載到了 jieba 庫中。

對文本進(jìn)行分詞處理并提取

tmpNames = []
  names = {}
  relationships = {}
  for h in honglou:
    h.replace("賈妃", "元春")
    h.replace("李宮裁", "李紈")
    poss = pseg.cut(h)
    tmpNames.append([])
    for w in poss:
      if w.flag != 'nr' or len(w.word) != 2 or w.word not in mylist:
        continue
      tmpNames[-1].append(w.word)
      if names.get(w.word) is None:
        names[w.word] = 0
      relationships[w.word] = {}
      names[w.word] += 1

首先，因?yàn)槲闹?賈妃", "元春"，"李宮裁", "李紈" 混用嚴(yán)重，所以這里直接做替換處理。
然后使用 jieba 庫提供的 pseg 工具來做分詞處理，會返回每個(gè)分詞的詞性。
之后做判斷，只有符合要求且在我們提供的字典列表里的分詞，才會保留。
一個(gè)人每出現(xiàn)一次，就會增加一，方便后面畫關(guān)系圖時(shí)，人物 node 大小的確定。
對于存在于我們自定義詞典的人名，保存到一個(gè)臨時(shí)變量當(dāng)中 tmpNames。

處理人物關(guān)系

  for name in tmpNames:
    for name1 in name:
      for name2 in name:
        if name1 == name2:
          continue
        if relationships[name1].get(name2) is None:
          relationships[name1][name2] = 1
        else:
          relationships[name1][name2] += 1

對于出現(xiàn)在同一個(gè)段落中的人物，我們認(rèn)為他們是關(guān)系緊密的，每同時(shí)出現(xiàn)一次，關(guān)系增加1.

保存到文件

  with open("relationship.csv", "w", encoding='utf-8') as f:
    f.write("Source,Target,Weight\n")
    for name, edges in relationships.items():
      for v, w in edges.items():
        f.write(name + "," + v + "," + str(w) + "\n")

  with open("NameNode.csv", "w", encoding='utf-8') as f:
    f.write("ID,Label,Weight\n")
    for name, times in names.items():
      f.write(name + "," + name + "," + str(times) + "\n")

文件1：人物關(guān)系表，包含首先出現(xiàn)的人物、之后出現(xiàn)的人物和一同出現(xiàn)次數(shù)
文件2：人物比重表，包含該人物總體出現(xiàn)次數(shù)，出現(xiàn)次數(shù)越多，認(rèn)為所占比重越大。

制作關(guān)系圖表

使用 pyecharts 作圖

def deal_graph():
  relationship_data = pd.read_csv('relationship.csv')
  namenode_data = pd.read_csv('NameNode.csv')
  relationship_data_list = relationship_data.values.tolist()
  namenode_data_list = namenode_data.values.tolist()

  nodes = []
  for node in namenode_data_list:
    if node[0] == "寶玉":
      node[2] = node[2]/3
    nodes.append({"name": node[0], "symbolSize": node[2]/30})
  links = []
  for link in relationship_data_list:
    links.append({"source": link[0], "target": link[1], "value": link[2]})

  g = (
    Graph()
    .add("", nodes, links, repulsion=8000)
    .set_global_opts(title_opts=opts.TitleOpts(title="紅樓人物關(guān)系"))
  )
  return g

首先把兩個(gè)文件讀取成列表形式

對于“寶玉”，由于其占比過大，如果統(tǒng)一進(jìn)行縮放，會導(dǎo)致其他人物的 node 過小，展示不美觀，所以這里先做了一次縮放

最后得出的關(guān)系圖

所有代碼已經(jīng)上傳至 Github

最后，我還準(zhǔn)備了一份更加全面的紅樓人物字典，可以在代碼倉庫中找到-“renwu_total”，感興趣的小伙伴也可以嘗試下，制作一個(gè)全人物的關(guān)系圖。

以上就是本文的全部內(nèi)容，希望對大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

Python海象運(yùn)算符代碼分析及知識點(diǎn)總結(jié)
在本篇內(nèi)容里小編給大家總結(jié)了關(guān)于Python海象運(yùn)算符的使用的相關(guān)內(nèi)容及代碼，有興趣的朋友們跟著學(xué)習(xí)下。
2022-11-11
selenium 安裝與chromedriver安裝的方法步驟
這篇文章主要介紹了selenium 安裝與chromedriver安裝的方法步驟，小編覺得挺不錯(cuò)的，現(xiàn)在分享給大家，也給大家做個(gè)參考。一起跟隨小編過來看看吧
2019-06-06
詳解Python中import機(jī)制
這篇文章主要介紹了Python中import機(jī)制的相關(guān)資料，幫助大家更好的理解和學(xué)習(xí)python，感興趣的朋友可以了解下
2020-09-09
Python實(shí)現(xiàn)的KMeans聚類算法實(shí)例分析
這篇文章主要介紹了Python實(shí)現(xiàn)的KMeans聚類算法,結(jié)合實(shí)例形式較為詳細(xì)的分析了KMeans聚類算法概念、原理、定義及使用相關(guān)操作技巧,需要的朋友可以參考下
2018-12-12
這篇文章主要介紹了Python基于class()實(shí)現(xiàn)面向?qū)ο笤碓斀?文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2020-03-03

Python將內(nèi)容進(jìn)行base64編碼與解碼實(shí)現(xiàn)

本文主要介紹了Python將內(nèi)容進(jìn)行base64編碼與解碼實(shí)現(xiàn)，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

2023-03-03

OpenCV半小時(shí)掌握基本操作之色彩空間

這篇文章主要介紹了OpenCV基本操作之色彩空間，本文給大家介紹的非常詳細(xì)，對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值，需要的朋友可以參考下

2021-09-09

總結(jié)幾個(gè)非常實(shí)用的Python庫

Python一直被自稱“batteries included”,就是因?yàn)閮?nèi)置了許多非常有用的模塊,無需額外安裝和配置,即可直接使用. 除了內(nèi)建的模塊外,Python還有大量的第三方模塊,直接使用pip安裝即可使用.下面給大家簡單介紹幾個(gè)Python非常實(shí)用的自帶庫和第三方庫,需要的朋友可以參考下

2021-06-06

python map比for循環(huán)快在哪

這篇文章主要介紹了python 為什么map比for循環(huán)快，幫助大家更好的理解和使用python，感興趣的朋友可以了解下

2020-09-09

Python如何使用內(nèi)置庫matplotlib繪制折線圖

這篇文章主要介紹了Python如何使用內(nèi)置庫matplotlib繪制折線圖,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下

2020-02-02

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

如何用Python來理一理紅樓夢里的那些關(guān)系

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具