机器学习（SVM）文本分类

2023-10-27

训练

# -*- coding: utf-8 -*-
# @Project: company
# @Author: little fly
# @File name: 文本分类
# @Create time: 2020/10/31 9:48

# 导入必要的包
import jieba
import numpy as np
import pandas as pd
from gensim.models.word2vec import Word2Vec
import joblib
from sklearn.svm import SVC

# 读取两个类别的语料
pos = pd.read_csv('weather_pos.txt', encoding='UTF-8', header=None)
neg = pd.read_csv('weather_neg.txt', encoding='UTF-8', header=None)

# 进行分词处理
pos['words'] = pos[0].apply(lambda x: jieba.lcut(x))
neg['words'] = neg[0].apply(lambda x: jieba.lcut(x))

# 将正负语料进行合并成训练语料然后并打上标签，正语料打上标签1，负语料打上标签0
x = np.concatenate((pos['words'], neg['words']))
y = np.concatenate((np.ones(len(pos)), np.zeros(len(neg))))

# 训练词向量128维
word2vec = Word2Vec(x, size=128, window=3, min_count=5, sg=1, hs=1, iter=10, workers=25)
word2vec.save('word2vec.model')

# 封装词转换词向量的方法，list型
def total_vector(words):
    vec = np.zeros(128).reshape((1, 128))
    for word in words:
        try:
            vec += word2vec.wv[word].reshape((1, 128))
        except KeyError:
            continue
    return vec

# 对x所有词转换成词向量，即合成训练集
train_vec = np.concatenate([total_vector(words) for words in x])

# 开始训练分类模型
model = SVC(kernel='rbf', verbose=True)
model.fit(train_vec, y)

# 保存模型为pkl文件
joblib.dump(model, 'weather_svm.pkl')

测试

# -*- coding: utf-8 -*-
# @Project: company
# @Author: little fly
# @File name: test
# @Create time: 2020/10/31 9:51
import jieba
import numpy as np
from gensim.models.word2vec import Word2Vec
import joblib

# 加载词向量模型
word2vec = Word2Vec.load('word2vec.model')
# 加载svm分类模型
model = joblib.load('weather_svm.pkl')

# 封装词转换词向量的方法，list型
def total_vector(words):
    vec = np.zeros(128).reshape((1, 128))
    for word in words:
        try:
            vec += word2vec.wv[word].reshape((1, 128))
        except KeyError:
            continue
    return vec

# 封装预测方法
def svm_predict(query):
    words = jieba.lcut(str(query))
    words_vec = total_vector(words)
    result = model.predict(words_vec)
    if int(result) == 1:
        print('类别：天气')
    elif int(result) == 0:
        print('类别：其他')

# 调用预测
while 1:
    str_ = input('请输入：')
    svm_predict(str_)

结果

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

自然语言处理

NLP

机器学习

机器学习（SVM）文本分类的相关文章

Blenderbot 微调

我一直在尝试微调 HuggingFace 的对话模型 Blendebot 我已经尝试过官方拥抱脸网站上给出的传统方法该方法要求我们使用 trainer train 方法来完成此操作我使用 compile 方法尝试了它我尝试过使用 Py
将单引号替换为双引号并排除某些元素

我想用双引号替换字符串中的所有单引号但出现的情况除外例如 n t ll m 等 input the stackoverflow don t said hey what output the stackoverflow don t sai
否定句子的算法

我想知道是否有人熟悉算法句子否定的任何尝试例如给定一个句子这本书很好请提供任意数量的意思相反的替代句子例如这本书不好甚至这本书不好显然以高精度实现这一点可能超出了当前 NLP 的范围但我确信在这个主题上已经有了一些工作
将 python NLTK 解析树保存到图像文件[重复]

这个问题在这里已经有答案了这可能会复制这个 stackoverflowquestion https stackoverflow com questions 23429117 saving nltk drawn parse tree to
语音识别中如何处理同音词？

对于那些不熟悉什么是同音字 https en wikipedia org wiki Homophone是的我提供以下示例我们的是嗨和高到太二在使用时语音API https developer apple com docume
python中的语音识别持续时间设置问题

我有一个 Wav 格式的音频文件我想转录我的代码是 import speech recognition as sr harvard sr AudioFile speech file wav with harvard as source
SpaCy 模型“en_core_web_sm”的词汇量大小

我尝试在 SpaCy 小模型中查看词汇量 model name en core web sm nlpp spacy load model name len list nlpp vocab strings 只给了我 1185 个单词我也在同
将复数名词转换为单数名词

如何使用 R 将复数名词转换为单数名词我使用 tagPOS 函数来标记每个文本然后提取所有标记为 NNS 的复数名词但是如果我想将这些复数名词转换为单数该怎么办 library openNLP library tm acq o lt
如何对德语文本进行词形还原？

我有一篇德语文本我想对其应用词形还原如果不可能进行词形还原那么我也可以接受词干提取 Data 这是我的德语文本 mails Hallo Ich spielte am fr hen Morgen und ging dann zu ein
BERT 输出不确定

BERT 输出是不确定的当我输入相同的输入时我希望输出值是确定性的但我的 bert 模型的值正在变化听起来很尴尬同一个值返回两次一次也就是说一旦出现另一个值就会出现相同的值并重复如何使输出具有确定性让我展示我的代码片段
快速NLTK解析成语法树

我正在尝试将数百个句子解析为语法树我需要快速完成问题是如果我使用 NLTK 那么我需要定义一个语法而我不知道我只知道它会是英语我尝试使用this https github com emilmont pyStatParser统计解析器
NLTK 中的 wordnet lemmatizer 不适用于副词 [重复]

这个问题在这里已经有答案了 from nltk stem import WordNetLemmatizer x WordNetLemmatizer x lemmatize angrily pos r Out 41 angrily 这是 nl
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
缩短文本并仅保留重要句子

德国网站 nandoo net 提供了缩短新闻文章的可能性如果使用滑块更改百分比值文本会发生变化并且某些句子会被遗漏您可以在这里看到它的实际效果 http www nandoo net read article 299925 http
如何提取句子中的主语及其各自的从属短语？

我正在尝试在句子中进行主题提取以便我能够根据主题获得情感我在用nltk在 python2 7 中用于此目的以下面的句子为例 Donald Trump is the worst president of USA but Hillary
Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

我对 PyTorch 和 Huggingface transformers 比较陌生并对此尝试了 DistillBertForSequenceClassificationKaggle 数据集 https www kaggle com c
Python NLP 英式英语与美式英语

我目前正在用Python 进行NLP 工作然而在我的语料库中既有英式英语也有美式英语实现实现我正在考虑将英式英语转换为美式英语但是我没有找到一个好的工具包来做到这一点有什么建议么我也找不到包但试试这个请注意我必须
如何使用Bert进行长文本分类？

我们知道 BERT 有 token 的最大长度限制 512 因此如果一篇文章的长度远大于 512 例如文本中有 10000 个 token 如何使用 BERT 您基本上有三个选择您可以剪掉较长的文本并仅使用前 512 个令牌最初的 BE
如何改进 NLTK 中的荷兰语 NER 词块划分器

感谢这个伟大的答案我使用 NLTK 和 Conll2002 语料库训练自己的荷兰语 NE 词块划分器有了一个良好的开端 NLTK 荷兰语命名实体识别 https stackoverflow com questions 11293149
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问

随机推荐

Replication Manager 管理多个MySQL集群

Replication Manager 管理多集群 1 Replication Manager最新版本下载安装下载地址 vi etc yum repos d signal18 repo signal18 name Signal18 rep
【毕设选题】深度学习交通车辆流量分析 - 目标检测与跟踪 - python opencv

文章目录 0 前言 1 课题背景 2 实现效果 3 DeepSORT车辆跟踪 3 1 Deep SORT多目标跟踪算法 3 2 算法流程 4 YOLOV5算法 4 1 网络架构图 4 2 输入端 4 3 基准网络 4 4 Neck网络 4
【Vscode Remote】无法连接：Failed to set up socket for dynamic port forward to remote port

最近remote总是连接不上报错为Failed to set up socket for dynamic port forward to remote port 46327 Proxy connection timed out Is th
济南区块链产业核心技术研究取得重大突破，区块链产业链条基本健全

据济南市人民政府官网日前济南市人民政府办公厅正式印发济南市区块链产业创新发展行动计划以下简称行动计划行动计划提到到2022年济南市区块链产业核心技术研究取得重大突破区块链产业链条基本健全在经济社会重要行业领域的应用不断
卡尔曼滤波中状态协方差P的表示形式不同造成的影响

递推最小二乘法中我们在前面一篇文章中说了卡尔曼滤波是递推最小二乘法的一种特殊情况 P有以下三种形式第一个就是从原始的PK定义出发结合观测更新公式推得的第二个对第二种等式两边求逆再用矩阵反演定理求得第三个把对PK的迹求偏
Android实现APP版本自动更新功能

Android实现APP自动更新功能现在一般的android软件都是需要不断更新的当你打开某个app的时候如果有新的版本它会提示你有新版本需要更新该小程序实现的就是这个功能该小程序的特点是当有更新时会弹出一个提示框点击确定
Java中运行时的多态的含义及其作用

Java中运行时的多态的含义及其作用 1 多态含义同种类的多个对象在接收到同一个消息时却产生了不同的反应和效果 2 运行时多态的含义使用父类引用指向子类对象再调用某一父类中的方法时不同的子类会表现出不同的结果 3 运行时多态的作用
ES Doc ，增、删、改

删除 DELETE index doc id 修改 PUT index doc id
手把手教你如何在Innovus中解决local congestion问题

手把手教你如何在Innovus中解决local congestion问题文章右侧广告为官方硬广告与吾爱IC社区无关用户勿点点击进去后出现任何损失与社区无关吾爱 IC 社区吾爱 IC 社区 52 ic com 是一个专业交流和分享
cocos Lua与Java交互

简介 cocos2d为了使Android SDK的接入封装了LuaJavaBridge用于Java和Lua的相互调用 LuaJavaBridge从本质上来说是通过C 作为中介其调用流程为 Lua调用Java Lua gt C gt J
第二课你的第一个Python程序

要编写Python代码可以使用任意能编辑文本的编辑器比如你的笔记本 notepad 或者用其他工具平台比如vscode pycharm等等如下图就是vscode 默认情况下 python文件使用UTF 8字符编码 Python程序扩
Vue下载文件

this editValue是导出文件的内容 1 下载内容是text类型 downLoadSave const element document createElement a element setAttribute href data
Echarts的x轴调整间隔,可以用 xAxis数组子项的axisLabel.interval

Echarts的x轴调整间隔可以用 xAxis数组子项的axisLabel interval https echarts apache org zh option html xAxis axisLabel interval xAxis a
小程序微信支付实例配置详解

一开发前的准备开发步骤如果开发者已做过 JSAPI 或 JSSDK 调起微信支付接入小程序支付非常相似以下是三种接入方式的对比如此看来小程序要想集成支付功能倒是简单了阅读业务流程图本人强烈推荐阅读这个图示流程明确了
Android下安装Kali Linux

准备材料一部2GRAM 16GROM的安卓智能手机已经Root的Android系统 Linux Deploy BusyBox Pro JuiceSSH kali linux light 2017 1 armhf img PS 现在主流智
Opencv模板匹配

模板匹配模板匹配函数的方法公式模板匹配函数属性 minMaxLoc分析匹配结果不同模板函数对比多模板匹配匹配多个对象 numpy的切片模板匹配和卷积原理很像模板在原图像上从原点开始滑动计算模板与图像被模板覆盖的地方的差别
android instrumentation自动化测试,android基础知识12：android自动化测试06—Instrumentation 05 InstrumentationTestRunn...

在学习Android JUnit的过程中随着学习的深入发现相关的内容越来越多将这些类按照继承关系整理如下 Test TestCase AndroidTestCase Test TestCase InstrumentationTestC
计算机毕业设计---java+springboot宠物商城系统

一项目运行环境配置 Jdk1 8 Tomcat8 5 Mysql HBuilderX Webstorm也行 Eclispe IntelliJ IDEA Eclispe MyEclispe Sts都支持项目技术 Springboot M
关于评价指标的理解(TPR,FPR,TAR,FAR,FRR,ERR)

近期一直在做人脸识别方面的研究在阅读paper的时候发现对一些指标认识不足因此从新学习认识算法的评价指标非常感谢https blog csdn net liuweiyuxiang article details 81259492
机器学习（SVM）文本分类

训练 coding utf 8 Project company Author little fly File name 文本分类 Create time 2020 10 31 9 48 导入必要的包 import jieba import

机器学习（SVM）文本分类

训练

测试

结果

机器学习（SVM）文本分类 的相关文章

随机推荐

热门标签

机器学习（SVM）文本分类的相关文章