Python基于词袋模型特征和TFIDF特征进行支持向量机模型中文邮件分类项目实战

2023-11-13

说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。

1.项目背景

随着互联网的发展，越来越多的用户通过互联网来交流，电子邮件成为人们日常生活交流的重要工具。用户每星期可能收到成百上千的电子邮件，但是大部分是垃圾邮件。据时代杂志估计，1994年人们发送了7760亿封电子邮件，1997年则是26000亿封，2000年更是达到了66000亿封。电子邮件特别是垃圾邮件的泛滥已经严重影响电子商务活动的正常开展。人们通常要花费很多时间对电子邮件进行处理，但效果却不明显，严重影响了正常的商务活动。对邮件进行合理的分类，为用户挑选出有意义的电子邮件是所有用户的迫切要求。

目前的邮件分类方法大多是将邮件分为垃圾邮件与非垃圾邮件，从而实现对邮件的自动过滤。本项目基于词袋模型特征和TFIDF特征进行支持向量机模型中文邮件分类，邮件类别分为正常邮件和垃圾邮件。

2.数据采集

本次建模数据来源于网络，数据项统计如下：

数据详情如下(部分展示)：

正常邮件：

垃圾邮件：

每一行代表一封邮件。

3.数据预处理

3.1查看数据
print("总的数据量:", len(labels))

corpus, labels = remove_empty_docs(corpus, labels)  # 移除空行

print('样本之一:', corpus[10])
print('样本的label:', labels[10])
label_name_map = ["垃圾邮件", "正常邮件"]
print('实际类型:', label_name_map[int(labels[10])])
结果如图所示：

4.特征工程

4.1数据集拆分

把数据集分为70%训练集和30%测试集。

4.2加载停用词

停用词列表如下，部分展示：

4.3分词
import jieba
tokens = jieba.lcut(text)
tokens = [token.strip() for token in tokens]
结果如图所示：

训练集分词展示：

测试集分词展示：

4.4移除特殊字符
pattern = re.compile('[{}]'.format(re.escape(string.punctuation)))  # re.escape就能自动处理所有的特殊符号
# string.punctuation返回所有标点符号
filtered_tokens = filter(None, [pattern.sub('', token) for token in tokens])
filtered_text = ' '.join(filtered_tokens)
4.5去停用词

4.6归整化

结果如图所示：

归整化后的训练集：

归整化后的测试集：

4.7词袋模型特征提取
# min_df：在构建词汇表时，忽略那些文档频率严格低于给定阈值的术语。
# ngram_range的(1,1)表示仅使用单字符
vectorizer = CountVectorizer(min_df=1, ngram_range=ngram_range)
features = vectorizer.fit_transform(corpus)  # 学习词汇表字典并返回文档术语矩阵
结果如图所示：

4.8 TFIDF特征提取

结果如图所示：

5.构建支持向量机分类模型

5.1基于词袋模型特征的支持向量机

5.2基于TFIDF特征的支持向量机
# 基于tfidf的支持向量机模型
print("基于tfidf的支持向量机模型")
svm_tfidf_predictions = train_predict_evaluate_model(classifier=svm,
                                                     train_features=tfidf_train_features,
                                                     train_labels=train_labels,
                                                     test_features=tfidf_test_features,
                                                     test_labels=test_labels)
6.模型评估

6.1评估指标及结果

评估指标主要包括准确率、查准率、查全率(召回率)、F1分值等等。

通过上表可以看到，两种特征提取的模型的准确率均为97%,F1分值均为0.97,说明模型效果良好。

6.2分类报告

结果如图所示：

基于词袋模型特征的分类报告：

类型为垃圾邮件的F1分值为0.97；类型为正常邮件的F1分值为0.97。

基于TFIDF特征的分类报告：

类型为垃圾邮件的F1分值为0.97；类型为正常邮件的F1分值为0.97。

6.3混淆矩阵
# 构建数据框
cm_matrix = pd.DataFrame(data=cm, columns=['Actual :0', 'Actual :1'],
                         index=['Predict :0', 'Predict :1'])

sns.heatmap(cm_matrix, annot=True, fmt='d', cmap='YlGnBu')  # 热力图展示
plt.show()  # 展示图片
结果如图所示：

基于词袋模型特征的分类报告：

从上图可以看到，预测为垃圾邮件实际为正常邮件的有91封；预测为正常邮件实际为垃圾邮件的有5封。

基于TFIDF特征的分类报告：

从上图可以看到，预测为垃圾邮件实际为正常邮件的有89封；预测为正常邮件实际为垃圾邮件的有6封。

7.模型预测展示

显示正确分类的邮件：

显示错误分类的邮件：

8.总结展望

本项目应用应用两种特征提取方法进行支持向量机模型中文邮件分类研究，通过数据预处理、特征工程、模型构建、模型评估等工作，最终模型的F1分值达到0.97，这在文本分类领域，是非常棒的效果，可以应用于实际工作中。

本次机器学习项目实战所需的资料，项目资源如下：

项目说明：
链接：https://pan.baidu.com/s/1dW3S1a6KGdUHK90W-lmA4w
提取码：bcbp

网盘如果失效，可以添加博主微信：zy10178083

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

词袋模型

中文分词

TFIDF特征

支持向量机

Python基于词袋模型特征和TFIDF特征进行支持向量机模型中文邮件分类项目实战的相关文章

项目：IRIS数据集项目

概述机器学习是人工智能的一个子部分涉及教导算法做出基于数据的决策并尝试像人类一样行事有许多数据集可用于针对不同任务训练这些算法例如 IRIS 数据集涵盖三类花 Versicolor Setosa 和 Virginica 每种花有四
Keras 3.0正式发布：可用于TensorFlow、JAX和PyTorch

经过 5 个月的更新迭代 Keras 3 0 终于来了大新闻我们刚刚发布了 Keras 3 0 版本 Keras 之父 Fran ois Chollet 在 X 上激动的表示现在你可以在 JAX TensorFlow 以及 PyTor
人工智能知识表示与推理：构建智能系统的认知引擎

导言人工智能知识表示与推理是构建智能系统认知引擎的关键组成部分本文将深入研究知识表示的方法和推理技术以及它们在解决现实问题和提升智能系统智能水平中的作用 1 知识表示方法符号表示法使用符号和逻辑关系来表示知识例如谓词逻辑连接主
【数学证明笔记01】证明常见的逻辑方法有哪些？

文章目录一声明二直接证明三反证法四数学归纳法五对证法六构造法七分情况讨论一声明本帖持续更新中如有纰漏望指正二直接证明原理通过一系列逻辑推理和推断来证明目标命
软件测试/测试开发/人工智能丨机器学习中特征的含义，什么是离散特征，什么是连续特征。

在机器学习中特征 Feature 是输入数据中的属性或变量用于描述样本或数据点特征对于机器学习模型而言是输入的一部分模型通过学习样本的特征与其对应的标签或输出之间的关系来做出预测或分类特征可以分为不同类型其中两个主要的类型是
软件测试/测试开发/人工智能丨分类，二分类和回归问题的对应场景与区别

分类二分类和回归问题是机器学习中常见的三种任务类型它们分别适用于不同的场景具有不同的目标和输出 1 分类问题 Classification 场景适用于将数据点分到不同的类别或标签中的问题每个类别代表一种离散的类别或状态例子判断
一网打尽目前常用的聚类方法，详细介绍了每一种聚类方法的基本概念、优点、缺点！！

目前常用的聚类方法 1 K 均值聚类 K Means Clustering 2 层次聚类 Hierarchical Clustering 3 DBSCAN聚类 DBSCAN Clustering 4 谱聚类 Spectral Cluster
机器学习之迁移学习（Transfer Learning）

概念迁移学习 Transfer Learning 是一种机器学习方法其核心思想是将从一个任务中学到的知识应用到另一个相关任务中传统的机器学习模型通常是从头开始训练使用特定于任务的数据集而迁移学习则通过利用已经在一个任务上学到的知识
基于生成式对抗网络的视频生成技术

随着人工智能的快速发展生成式对抗网络 GAN 作为一种强大的生成模型已经在多个领域展现出了惊人的能力其中基于GAN的视频生成技术更是引起了广泛的关注本文将介绍基于生成式对抗网络的视频生成技术的原理和应用探索其对电影游戏等领域带
基于BP神经网络结合自适应带宽核函数密度估计区间预测。BP-ABKDE区间概率预测，BP神经网络核密度估计下置信区间预测。区间预测(区间覆盖率PICP、区间平均宽度百分比PINAW，CRPS,CW

清空环境变量 warning off 关闭报警信息 close all 关闭开启的图窗 clear 清空变量 clc 清空命令行 res xlsread 数据集 xlsx num size 0 8 训练集占数据集比例 dataran 0 不
机器学习项目结构数据预测实验报告

需求我经过处理得到了测试值然后进一步得到预测和真实值的比较然后再把之前的所有相关的参数评估指标预测值比较结果都存入excel 另外我还打算做测试报告模板包括敏感性分析等您建议我这些功能如何封装这些功能哪些功能放到一个文件中
互操作性(Interoperability)如何影响着机器学习的发展？

互操作性 Interoperability 也称为互用性即两个系统之间有效沟通的能力是机器学习未来发展中的关键因素对于银行业医疗和其他生活服务行业我们期望那些用于信息交换的平台可以在我们需要时无缝沟通我们每个人都有成千上万个数据
互操作性(Interoperability)如何影响着机器学习的发展？

互操作性 Interoperability 也称为互用性即两个系统之间有效沟通的能力是机器学习未来发展中的关键因素对于银行业医疗和其他生活服务行业我们期望那些用于信息交换的平台可以在我们需要时无缝沟通我们每个人都有成千上万个数据
详解数据科学自动化与机器学习自动化

过去十年里人工智能 AI 构建自动化发展迅速并取得了多项成就在关于AI未来的讨论中您可能会经常听到人们交替使用数据科学自动化与机器学习自动化这两个术语事实上这些术语有着不同的定义如今的自动化机器学习即 AutoML 特指模型构
蒙牛×每日互动合作获评中国信通院2023“数据+”行业应用优秀案例

当前在数字营销领域品牌广告主越来越追求品效协同针对品牌主更注重营销转化的切实需求数据智能上市企业每日互动股票代码 300766 发挥自身数据和技术能力优势为垂直行业的品牌客户提供专业的数字化营销解决方案颇受行业认可就在不久前举
MIT_线性代数笔记：复习二

目录第二单元主要内容例题第二单元主要内容正交矩阵 Q 用矩阵形式描述正交性质投影矩阵 P 最小二乘法在方程无解时求最优解 Gram Schmidt 正交化从任意一组基得到标准正交基策略是从向量中减去投影到其它向量方向的分
【需求响应】改进连续时间控制方法用于分散式需求响应的恒温负荷研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Python代码及文章
机器学习算法实战案例：LSTM实现多变量多步负荷预测

文章目录 1 数据处理 1 1 数据集简介 1 2 数据集处理 2 模型训练与预测 2
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
自动驾驶离不开的仿真！Carla-Autoware联合仿真全栈教程

随着自动驾驶技术的不断发展研发技术人员开始面对一系列复杂挑战特别是在确保系统安全性处理复杂交通场景以及优化算法性能等方面这些挑战中尤其突出的是所谓的长尾问题即那些在实际道路测试中难以遇到的罕见或异常驾驶情况这些问题暴露了实车

随机推荐

体验css：repeat和grid

文章目录一 repeat 1 语法 2 auto fill和auto fit 3 专属尺寸 fr auto max content min content 二 grid 1 设置grid布局 2 设置列宽行高 3 设置间距 4 设置分区
【C++实现】数据库连接池

文章目录涉及知识为什么要弄连接池功能介绍成员变量讲解代码剖析 Connection h Connection cpp ConnectionPool h ConnectionPool cpp 性能测试难点总结涉及知识 MySQ
解一元二次方程——Java

解一元二次方程可以使用下面的公式求元二次方程ax x bx c 0的两个根 b b 4ac称作一元二次方程的判别式如果它是正值那么一元二次方程就有两个实数根如果它为0 方程式就只有一个根如果它是负值方程式无实数根编写程序提示
js中使用websocket

后端地址是http的 websocket地址 ws开头后端地址是https的 websocket地址wss开头对于websocket没有跨域的问题 import MessageBox from element ui let url ws
Linux学习笔记--8（文件权限）

文件权限与归属 Linux不同的字符来区分文件类型常见如下普通文件 d 目录文件 l 链接文件 b 块设备文件 c 字符设备文件 p 管道文件对应目录文件可读表示能够读取目录内的文件列表可写表示能够在目录内新增删除重命名文
Oracle : ORA-02290: 违反检查约束条件

背景一个oracle表有个字段开始被设置不为空后来我想测试把这个不为空去掉了然后保存就报错 om dtwave meteor connector common exception ConnectorException Writ
感知机原始形式、对偶形式的Python实现

2019独角兽企业重金招聘Python工程师标准 gt gt gt 感知机学习的目标就是求得一个能够将训练数据集中正负实例完全分开的分类超平面感知机原始形式 from future import division import rando
Rabbitmq延迟队列实现定时任务

场景开发中经常需要用到定时任务对于商城来说定时任务尤其多比如优惠券定时过期订单定时关闭微信支付2小时未支付关闭订单等等都需要用到定时任务但是定时任务本身有一个问题一般来说我们都是通过定时轮询查询数据库来判断是否有任务需要执
多态数组的简单代码教学

多态数组的简单代码教学 package com hspedu polrArr public class PloyArray public static void main String args Person persons new Per
基于github搭建自已的个人博客

昨天搭建了基于github 的个人博客在此记录搭建过程 1 环境准备 1 1 git 1 2 nodejs 1 3 hexo 1 安装命令 npm install hexo g 2 测试是否安装成功 hexo v 3 安装hexo依赖 n
vue 虚拟dom转换真实dom源码解析

当不断的通过JS修改DOM时不经意间会触发到渲染引擎的回流或者重绘这个性能开销是非常巨大的因此为了降低开销我们需要做的是尽可能减少DOM操作当我们想用JS脚本大批量进行DOM操作时会优先作用于Virtual DOM这个JS对象
TCP和UDP相关问题

目录一网络基础 1 OSI 七层模型划分为以下七层不实用 2 TCP IP五层或四层模型二 UDP与TCP的区别三如何基于UDP协议实现可靠传输实际想说的是TCP 四什么场景中适合使用TCP和UDP 一网络基础 1 O
java web系统设计思路_JavaWeb——实战入门，设计思路总结。

期末考试炸掉了关于此次期末考试题我一言难尽过后总结还是应该加强功底勤能补拙做一篇入门的设计思路总结巩固一下基础如讲解有误请多多包涵我的设计思路如下 1 在navicat mysql可视化上建立数据库 gt 建立数据表
实现计算机视觉——人脸检测

概述计算视觉是人工智能的一部分旨在设计能够像人类视觉一样进行观察的智能算法在本文中我们将介绍三个主要范围人脸检测物体检测面部识别对象跟踪在第一篇文章中我们将重点介绍计算机视觉以及基于 Python OpenCV 库的人
mybatis-plus 新增/修改实现自动填充指定字段

需要修改的字段在模型类上添加 TableField fill FieldFill xxx 注解 FieldFill的选项哪个字段在什么时候填充需要手动设置注解新建一个MetaObjectHandler的实现类MyMetaObjectHa
spyder debug

按钮作用 1 debug file 进入调试 2 run current line 运行当前行 3 step into function or method of current line 进入函数或方法内运行 4 run until cu
节点对于ip的重要性

网络节点是选择代理IP的主要标准那么你知道节点对代理IP质量有什么影响吗神龙IP为你解答浅析节点对代理IP的影响 1 代理IP的节点越多重复率越低全球IPv4网络非常有限国内IPv4网络也是如此各地区IPv4网络更加有限代
63. Unique Paths II

思路1 这个题目第一个思路还是用DFS 和第62题一样但是在递归的时候需要判断有无障碍物因为第62题用的DFS Leetcode提示Time Limit Exceeded 所以这道题没有尝试DFS的做法而是直接使用了DP 思路2 根据
Anaconda运行python文件

一打开Anaconda Prompt 二切换到要运行的python文件所在文件夹 1 先切换到该盘例我的是D盘 2 切换到该文件夹 cd A文件夹 cd A文件夹绝对路径三运行python文件例运行test py文件 pytho
Python基于词袋模型特征和TFIDF特征进行支持向量机模型中文邮件分类项目实战

说明这是一个机器学习实战项目附带数据代码文档视频讲解如需数据代码文档视频讲解可以直接到文章最后获取 1 项目背景随着互联网的发展越来越多的用户通过互联网来交流电子邮件成为人们日常生活交流的重要工具用户每星期可能收到

Python基于词袋模型特征和TFIDF特征进行支持向量机模型中文邮件分类项目实战

1.项目背景

2.数据采集

3.数据预处理

4.特征工程

5.构建支持向量机分类模型

6.模型评估

7.模型预测展示

8.总结展望

Python基于词袋模型特征和TFIDF特征进行支持向量机模型中文邮件分类项目实战 的相关文章

随机推荐

热门标签

Python基于词袋模型特征和TFIDF特征进行支持向量机模型中文邮件分类项目实战的相关文章