关于红楼梦Python文本分析

2023-11-18

1. 获取小说文本读取文件

# 获取小说文本
# 读取文件
fn = open("prepare\\红楼梦_曹雪芹.txt", encoding="utf-8")
string_data = fn.read()  # 读出整个文件
fn.close()  # 关闭文件

2.对文本进行处理

# 文本预处理
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"')  # 定义正则表达式匹配模式
txt = re.sub(pattern, '', string_data)  # 将符合模式的字符去除
print('预处理完毕')


# 停词文档
def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
    return stopwords
stopwords = stopwordslist('D:\\Python studybag\\prepare\\tingyong.txt')
excludes = {'之','其','方','即','因','仍','故','尚','乃','呀','吗','咧','罢','咧','啊','罢','了','么',
            '或', ' 亦', '于', ' 皆', '的', '着', '一' , '不', '把', '让','向', '往', '是' , '在', '别',
            '好', '可', '便', '就',' 但','越','再','更', '比','很','偏',
            '那里','如今','一个','我们','你们','起来','姑娘','这里','二人','说道',
            '知道','如何','今日','什么','于是','还有','出来','他们','众人','奶奶',
            '自己','一面','太太','只见','怎么','两个','没有','不是','不知','这个',
            '听见','这样','进来','告诉','东西','咱们','就是','如此','回来','大家',
            '只是','老爷','只得','丫头','这些','不敢','出去','所以','不过','姐姐',
            '的话','不好','鸳鸯','一时','过来','不能','心里','银子','答应','几个'} # 排除的词汇

3. 词频

# 通过键值对的形式存储词语及其出现的次数
counts1 = {}  # 存放词性词频
counts2 = {}  # 存放人物词频
# # 生成词频词性文件
def getWordTimes1():
    cutFinal = pseg.cut(txt)

    for w in cutFinal:
        if w.word in stopwords or w.word == None:
            continue
        else:
            real_word = w.word + '_' + w.flag
        counts1[real_word] = counts1.get(real_word, 0) + 1


getWordTimes1()

items1 = list(counts1.items())
# 进行降序排列 根据词语出现的次数进行从大到小排序
items1.sort(key=lambda x: x[1], reverse=True)


# 导出数据
# 分词生成人物词频（写入文档）
def wordFreq1(filepath, topn1):
    with codecs.open(filepath, "w", "utf-8") as f:
        for i in range(topn1):
            word, count = items1[i]
            f.write("{}:{}\n".format(word, count))


# 生成词频文件
wordFreq1("output\\红楼梦词频词性.txt", 300)

# 将txt文本里的数据转换为字典形式
fr1 = open('output\\红楼梦词频词性.txt', 'r', encoding='utf-8')
dic1 = {}
keys1 = []  # 用来存储读取的顺序
for line in fr1:
    # 去空白,并用split()方法返回列表
    v1 = line.strip().split(':')
    dic1[v1[0]] = v1[1]
    keys1.append(v1[0])
fr1.close()

list_name1 = list(dic1.keys())  # 人名
list_name_times1 = list(dic1.values())  # 提取字典里的数据作为绘图数据
def create_wordproperties():
    bar1 = Bar()
    bar1.add_xaxis(list_name1[0:keshihuaTop])
    bar1.add_yaxis("词语出现次数", list_name_times1)
    bar1.set_global_opts(title_opts=opts.TitleOpts(title="词频词性可视化图", subtitle="词频词性top10"),
                         xaxis_opts=opts.AxisOpts(axislabel_opts={"rotate": 45}))
    bar1.set_series_opts(label_opts=opts.LabelOpts(position="top"))

    # 生成 html 文件
    bar1.render("\\output\\红楼梦词频词性可视化图.html")

4. 对人名进行分析

# 得到 分词和出现次数
def getWordTimes2():
    # 分词，返回词性
    poss = pseg.cut(txt)
    for w in poss:
        if w.flag != 'nr' or len(w.word) < 2 or w.word in excludes:
            continue  # 当分词长度小于2或该词词性不为nr（人名）时认为该词不为人名
        elif w.word == '宝哥哥' or w.word == '宝玉曰' or w.word == '宝二爷' or w.word == '绛洞花主' \
                or w.word == '怡红公子' or w.word == '宝兄弟' or w.word == '混世魔王' or w.word == '宝玉':
            real_word = '贾宝玉'
        elif w.word == '黛玉' or w.word == '颦儿' or w.word == '潇湘妃子' or w.word == '林姑娘' or \
                w.word == '林妹妹' or w.word == '黛玉曰' or w.word == '颦颦':
            real_word = '林黛玉'
        elif w.word == '宝钗' or w.word == '宝钗曰' or w.word == '宝丫头' or w.word == '宝姐姐' or w.word == '薛大姑娘':
            real_word = '林宝钗'
        elif w.word == '熙凤' or w.word == '熙凤曰' or w.word == '琏二奶奶' or w.word == '凤辣子' or w.word == '凤哥儿' \
                or w.word == '凤丫头' or w.word == '凤姐' or w.word == '凤姐儿' or w.word == '琏二嫂子':
            real_word = '王熙凤'
        elif w.word == '贾母' or w.word == '贾母曰' or w.word == '史太君' or w.word == '老祖宗' or w.word == '老太太' \
                or w.word == '老神仙':
            real_word = '贾母'
        elif w.word == '湘云' or w.word == '湘云曰' or w.word == '枕霞旧友' or w.word == '史大姑娘' or w.word == '云妹妹':
            real_word = '史湘云'
        elif w.word == '姨妈' or w.word == '姨妈曰' or w.word == '薛夫人' or w.word == '薛王氏' or w.word == '姨太太':
            real_word = '贾迎春'
        elif w.word == '探春' or w.word == '探春曰' or w.word == '玫瑰花' or w.word == '蕉下客':
            real_word = '贾探春'
        elif w.word == '贾珍' or w.word == '贾珍曰' or w.word == '珍老爷' or w.word == '大爷' or w.word == '大哥哥' :
            real_word = '贾珍'
        elif w.word == '贾琏' or w.word == '贾琏曰' or w.word == '琏二爷' or w.word == '二爷':
            real_word = '贾琏'
        elif w.word == '袭人' or w.word == '袭人曰' or w.word == '蕊珠' or w.word == '花珍珠':
            real_word = '袭人'
        elif w.word == '平儿' or w.word == '平儿曰' or w.word == '小平' or w.word == '平姑娘' or w.word == '平姐姐':
            real_word = '平儿'  # 把相同意思的名字归为一个人

        else:
            real_word = w.word
        counts2[real_word] = counts2.get(real_word, 0) + 1


getWordTimes2()
items2 = list(counts2.items())
# 进行降序排列 根据词语出现的次数进行从大到小排序
items2.sort(key=lambda x: x[1], reverse=True)


# 导出数据
# 分词生成人物词频（写入文档）
def wordFreq2(filepath, topn):
    with codecs.open(filepath, "w", "utf-8") as f:
        for i in range(topn):
            word, count = items2[i]
            f.write("{}:{}\n".format(word, count))


# 生成词频文件
wordFreq2("D:\\Python studybag\\output\\红楼梦词频_人名.txt", 300)

# 将txt文本里的数据转换为字典形式
fr = open('D:\\Python studybag\\output\\红楼梦词频_人名.txt', 'r', encoding='utf-8')
dic = {}
keys = []  # 用来存储读取的顺序
for line in fr:
    # 去空白,并用split()方法返回列表
    v = line.strip().split(':')
    dic[v[0]] = v[1]
    keys.append(v[0])
fr.close()
# 输出前几个的键值对
print("人物出现次数TOP", mainTop)
print(list(dic.items())[:mainTop])

# 　绘图
# 人名列表 (用于人物关系图,pyecharts人物出场次数图)
list_name = list(dic.keys())  # 人名
list_name_times = list(dic.values())  # 提取字典里的数据作为绘图数据


# 可视化人物出场次数
def creat_people_view():
    bar = Bar()
    bar.add_xaxis(list_name[0:keshihuaTop])
    bar.add_yaxis("人物出场次数", list_name_times)
    bar.set_global_opts(title_opts=opts.TitleOpts(title="人物出场次数可视化图", subtitle="红楼梦TOP10"),
                        xaxis_opts=opts.AxisOpts(axislabel_opts={"rotate": 45}))
    bar.set_series_opts(label_opts=opts.LabelOpts(position="top"))
    # bar.render_notebook()  # 在 notebook 中展示
    # make_snapshot(snapshot, bar.render(), "bar.png")
    # 生成 html 文件
    bar.render("D:\\Python studybag\\output\\红楼梦人物出场次数可视化图.html")

5.词云

# 使用pyecharts 的方法生成词云
def creat_wordcloud_pyecharts():
    wordsAndTimes = list(dic.items())
    (
        WordCloud()
        .add(series_name="人物次数", data_pair=wordsAndTimes,
             word_size_range=[20, 100], textstyle_opts=opts.TextStyleOpts(font_family="cursive"), )
        .set_global_opts(title_opts=opts.TitleOpts(title="红楼梦词云"))
        .render("D:\\Python studybag\\output\\红楼梦词云_人名.html")
    )


# 颜色生成
colorNum = len(list_name[0:peopleTop])


# print('颜色数',colorNum)
def randomcolor():
    colorArr = ['1', '2', '3', '4', '5', '6', '7', '8', '9', 'A', 'B', 'C', 'D', 'E', 'F']
    color = ""
    for i in range(6):
        color += colorArr[random.randint(0, 14)]
    return "#" + color


def color_list():
    colorList = []
    for i in range(colorNum):
        colorList.append(randomcolor())
    return colorList

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

开发语言

关于红楼梦Python文本分析的相关文章

Python BigQuery 存储。并行读取多个流

我有以下玩具代码 import pandas as pd from google cloud import bigquery storage v1beta1 import os import google auth os environ G
如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
DreamPie 不适用于 Python 3.2

我最喜欢的 Python shell 是DreamPie http dreampie sourceforge net 我想将它与 Python 3 2 一起使用我使用了添加解释器 DreamPie 应用程序并添加了 Python 3 2
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
__del__ 真的是析构函数吗？

我主要用 C 做事情其中析构函数方法实际上是为了销毁所获取的资源最近我开始使用python 这真的很有趣而且很棒我开始了解到它有像java一样的GC 因此没有过分强调对象所有权构造和销毁据我所知 init 方法对我来说在 py
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
IRichBolt 在storm-1.0.0 和 pyleus-0.3.0 上运行拓扑时出错

我正在运行风暴拓扑 pyleus verbose local xyz topology jar using storm 1 0 0 pyleus 0 3 0 centos 6 6并得到错误线程 main java lang NoClass
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
Python - 按月对日期进行分组

这是一个简单的问题起初我认为很简单而忽略了它一个小时过去了我不太确定所以我有一个Python列表datetime对象我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量也许一个例子可以更好地证明这
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
检查所有值是否作为字典中的键存在

我有一个值列表和一本字典我想确保列表中的每个值都作为字典中的键存在目前我正在使用两组来确定字典中是否存在任何值 unmapped set foo set bar keys 有没有更Pythonic的方法来测试这个感觉有点像黑客您的方
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar

随机推荐

python+Appium自动化：python多线程多并发启动appium服务

Python启动Appium 服务使用Dos命令或者bat批处理来手动启动appium服务启动效率低下如何将启动Appium服务也实现自动化呢这里需要使用subprocess模块该模块可以创建新的进程并且连接到进程的输入输出
数据可视化第五章

基于python的散点图实现 py import ggplot as gp import pandas as pd crime pd read csv crimeRatesByState2005 csv plot gp ggplot gp
有点钱怎么做副业？应该投资哪些副业？

有点钱怎么做副业应该投资哪些副业现在很多上班族失业族甚至连带孩子的妈妈们他们不满足现状给自己寻找赚钱的机会一个是为了丰富自己的业余生活再个就是能更加充实自己的钱包让自己更为独立也能自主现在有哪些小途径可以实现轻松赚钱呢
Lua中的定时器

Lua定时器 Cocos2d x C 中的定时器网上有很多也很容易找所以我就不写了直接Lua吧在Lua中用定时器的地方很多我是深有体会啊比如说我们需要一个函数每帧都执行那么就可以用定时器来解决啦旁白好哇好哇终于可以解决
搭建域控和添加本域辅域控，加入域（上）（精准扶小白）

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档安装环境操作系统 Windows2012 一什么是工作组域活动目录树林工作组处在同一个局域网中的用户他们也默认处于同一个工作组且加入工作组不需要信任过程
[PYTHON与CSP的姻缘]2023-3 LDAP

练习过程一开始一直以为set输出数字的时候是有序的扣了一天一直显示错误不知道哪跟哪大冤种无语了然后改了输出直接满分无语ing 主要注意要考虑到表达式的一些嵌套这样就可以参考题干中对语句的递归定义来写用递归进行对表达式的切分处
react有哪些性能优化的手段？

1 使用组件shouldComponentUpdate方法通过在组件爱你中实现shouldComponentUpdate方法可以手动控制组件的更新在该方法中可以根据组件的属性和状态进行比较判断是否需要进行更新避免不必要的更新可以
539. Minimum Time Difference

Given a list of 24 hour clock time points in Hour Minutes format find the minimum minutes difference between any two tim
数据库几种删除的区别delete，truncate，drop

delete from 表名 where 条件 gt 删除满足条件的记录 delete from test where id 1 delete from test gt 删除所有 commit gt 提交数据 rollback gt 回滚数
Java面试题大全（2021版）

发现网上很多Java面试题都没有答案所以花了很长时间搜集整理出来了这套Java面试题大全希望对大家有帮助哈本套Java面试题大全全的不能再全哈哈博主已将以下这些面试题整理成了一个Java面试手册是PDF版的关注博主的微信公众
用递归进行数组求和

记录一下zj提前批算法一面用递归进行数组求和算法马上就写出来了但是运行的时候一直报栈溢出我以为是我的递归逻辑出问题了就一直在改但是还是报错最终卡住了开局就GG 自己也慌得一批导致我第二道题也没做出来最初写的代码如下 au
Nginx 负载均衡模块 ngx_http_upstream_module 详述

译序截至发稿时止官方最新 ngx http upstream module 指令详述官方随时在更新请及时关注官网最新公布以下是官方原文 ngx http upstream module 模块用于定义可以被 proxy pass f
GBase 8a 问题处理-集群管理节点无法正常启动

问题版本 GBase 8a V8 6 2 43 R20 问题简述在进行迁移工作的数据导入之后启动集群所有管理节点一直不能正常启动通过命令service gcware stop 也不能停止报错信息 gcadmin 报错 Could n
MySQL索引优化（超详细）

Mysql索引优化 1 索引介绍 1 1 什么时MySQL的索引 MySQL官方对于索引的定义索引是帮助MySQL高效获取数据的数据结构 MySQL在存储数据之外数据库系统中还维护着满足特定查找算法的数据结构这些数据结构以某种引用指
CSDN竞赛-第六期

CSDN编程竞赛报名地址 https edu csdn net contest detail 16 前言背景不知不觉 CSDN编程竞赛已经进行六期了从我知道有这个竞赛的时候已经进行了两期所以我是从第三期开始的期间参与过三次成绩在
4，引擎初始化--（4）加载地图--2，创建world（学习资料来源于UE4游戏框架）

加载地图时创建完默认GameMode 就要创建world了首先读取到package 创建world 从这里可以看到地图是可以在初始化建立的 GameInstance是在运行起来后建立两者是独立的设为当前World 并设定为全局GW
leetcode：1905. 统计子岛屿

题目来源 leetcode 1905 统计子岛屿题目描述 class Solution public int countSubIslands vector
漏洞情报

点击上方订阅话题第一时间了解漏洞威胁 0x01 漏洞描述 WordPress ProfilePress 原 WP User Avatar 是一个轻量级会员插件可用于创建用户画像会员目录和用于用户注册登录密码重置及用户信息编辑的前
C++57个入门知识点_40 常成员函数（用于定义不可修改类内部成员变量的函数，一般用来修饰Get函数；常成员函数this指针：const T* const；常成员函数内部变量修改方法：强转/关键字）

前面我们已经学习了C 中重要的知识点特别是虚函数可能会有些懵逼但是需要我们在实践中不断的理解和尝试写代码是进步最快的方式接下来将会介绍一些简单但很重要的知识点本篇介绍常成员函数总结 1 常成员函数用于在程序中定义不可修改内部成
关于红楼梦Python文本分析

1 获取小说文本读取文件获取小说文本读取文件 fn open prepare 红楼梦曹雪芹 txt encoding utf 8 string data fn read 读出整个文件 fn close 关闭文件 2 对文本进行处理

关于红楼梦Python文本分析

关于红楼梦Python文本分析 的相关文章

随机推荐

热门标签

关于红楼梦Python文本分析的相关文章