特征工程(二)TfidfVectorizer

2023-11-09


'''
将原始数据的word特征数字化为tfidf特征,并将结果保存到本地

article特征可做类似处理

'''
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import pickle
import time

t_start = time.time()

"""=====================================================================================================================
1 数据预处理
"""
df_train = pd.read_csv('train_set.csv')
df_test = pd.read_csv('test_set.csv')

df_train.drop(columns='article', inplace=True)   #article  word_seg
df_test.drop(columns='article', inplace=True)

df_all = pd.concat(objs=[df_train, df_test], axis=0, sort=True)
y_train = (df_train['class'] - 1).values  # 算法的分类预测结果是从0开始的,所以训练集的分类标签也要从0开始

"""=====================================================================================================================
2 特征工程
"""
vectorizer = TfidfVectorizer(ngram_range=(1, 2), min_df=3, max_df=0.9, sublinear_tf=True)
vectorizer.fit(df_all['word_seg'])
x_train = vectorizer.transform(df_train['word_seg'])
x_test = vectorizer.transform(df_test['word_seg'])

"""=====================================================================================================================
3 保存至本地
"""
data = (x_train, y_train, x_test)
with open('tfidf_word.pkl', 'wb') as f:
	pickle.dump(data, f)

t_end = time.time()
print("共耗时:{}min".format((t_end-t_start)/60))





本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

特征工程(二)TfidfVectorizer 的相关文章

  • Python小甲鱼学习笔记01-05

    01开始 一 IDLE 二 print 1 print 的作用是什么 print 会在输出窗口中显示一些文本 在这一讲中 输出窗口就是IDLE shell窗口 2 例子 print 5 2 print well water print go
  • C语言把分钟数转换成小时和分钟

    题目 编写一个程序 把用分钟表示的时间转换成用小时和分钟表示的时间 使用 define或const创建一个表示60的符号常量或const变量 通过while循环让用户重复输入值 直到用户输入小于或等于0的值才停止循环 参考答案 includ
  • 【c++】程序设计第四周作业

    程序设计第四周作业 筛选法找素数 选择排序 输出杨辉三角 矩阵鞍点 折半查找 字符串复制 计算矩阵的和 筛选法找素数 题目描述 用筛选法求n以内 含n n lt 1000 的素数 并逆序输出 每10个一行 输入 n 输出 逆序输出n以内的素
  • (20201126已解决)WSL运行virtualenv venv创建虚拟环境出错

    问题描述 如题 在VS Code WSL中运行virtualenv venv出现下属错误 FileNotFoundError Errno 2 No such file or directory c users name anaconda3
  • Augmenting Existing Data structure 总结

    动态集合是指大小不固定的集合 会增加新的元素和删除已有的元素 队列 堆栈 树 vector map 等都属于动态集合 实现主要就是2种方向 1 基于node的 一维的就是链表 二维的就是二叉树 2 基于数组的 当数组被填满或大于一定的fac
  • Python基础综合案例:折线图可视化

    Python学习 折线图可视化 目录 Python学习 折线图可视化 Json数据格式 pyecharts模块 数据处理 案例 美日印疫情数据折线图 Json数据格式 一种轻量级的数据交互格式 负责在不同编程语言中的数据传递和交互 一种字符
  • 面试题之MyBatis缓存

    MyBatis缓存 什么是MyBatis缓存 Mybatis中有一级缓存和二级缓存 一级缓存又被称为本地缓存 是Session会话级别的 一级缓存是MyBatis内部实现的一个特性 用户不能配置 默认情况下一级缓存是开启的 而且是不能关闭的
  • c++使用类(友元)

    友元 友元全局函数 友元类 友元成员函数 如果要访问类的私有成员变量 调用类的公有成员函数是唯一的办法 而类的私有成员函数则无法访问 友元提供了另一访问类的私有成员的方案 友元全局函数 将main函数定义为友元函数 则在main函数内可以访
  • 代码review总结

    Code Review应该是软件工程最最有价值的一个活动 之前 本站发表过 简单实用的Code Review工具 那些工具主要是用来帮助更有效地进行这个活动 这里的这篇文章 我们主要想和大家分享一下Code Review代码审查的一些心得
  • 10月6日 新基建专题

    10月5日 新基建专题 中秋国庆双节盛典 新基建 新型基础设施建设 简称 新基建 主要包括5G基站建设 特高压 城际高速铁路和城市轨道交通 新能源汽车充电桩 大数据中心 人工智能 工业互联网七大领域 涉及诸多产业链 是以新发展理念为引领 以
  • C++实现一个简单student类和重载运算符

    在学习了C 后 感觉到其面向对象的思想与 C 的面向程序的不同之处 在对象内部定义对其的操作 只提供接口供用户使用 其操作对用户隐藏 所以我也仿写了一个简单的类及几个运算符的重载 但是还存在一个问题 我一直也没解决 就是我的几个重载运算符想
  • iOS开发 非常全的三方库、插件、大牛博客等等

    用到的组件 1 通过CocoaPods安装项目名称项目信息AFNetworking网络请求组件FMDB本地数据库组件SDWebImage多个缩略图缓存组件UICKeyChainStore存放用户账号密码组件Reachability监测网络状

随机推荐

  • 俄罗斯黑客挑战美国国家网络安全

    据环球网报道 俄罗斯黑客组织 Killnet 向美国网络安全发起攻击 并导致美国14家机场网站出现故障 其中包括最为繁忙的洛杉矶国际机场 给不少乘客带去困扰 此外 美国奥黑尔国际机场也遭遇攻击 截止当前已中断运营超过16个小时 值得一提的是
  • 非科班出身的我 如何靠自学编程 毕业拿大厂20k x 16 offer 自学java路线总结 经验分享

    文章目录 前言 了解自己 前置学习 java基础 java高阶 微服务SpringBoot 软硬数据库 项目实战 前言 对于很多和我一样的 非科班出身的小白来说 对于编程应该是一种向往但不可及的状态吧 我记得自己大一时就是这样的 心里知道编
  • Sonarqube与Gitlab集成

    1 Docker安装Sonarqube docker compose yml version 3 services sonarqube image sonarqube 8 9 7 community depends on db enviro
  • 【CDC 系列】跨时钟域处理(一)同步器

    目录 同步器 两种同步场景 两级触发同步器 平均故障前时间 MTBF 三级触发同步器 同步来自发送时钟域的信号 将信号同步到接收时钟域 说明 同步器 在时钟域之间传递信号时 要问的一个重要问题是 我是否需要对从一个时钟域传递到另一个时钟域的
  • 数据结构题目-字符串

    目录 问题 AM 字符串变换 问题 AN 字符串求反 问题 AO 字符串转化为整数 附加代码模式 问题 AP 字符串匹配 朴素算法 附加代码模式 问题 AQ 求解最长首尾公共子串 附加代码模式 问题 AR 算法4 7 KMP算法中的模式串移
  • torch三维矩阵中求最后一个维度所有向量两两之间的余弦相似度

    场景 给定一个三维矩阵x batch seq len input size 最后需要得到一个余弦相似度矩阵e batch size seq len seq len 例如e 0 1 2 cos x 0 1 x 0 2 实现 x torch r
  • Python自学入门(五):函数和模块

    Python自学入门 一 环境安装 Python自学入门 二 数据类型和运算符 Python自学入门 三 数据类型详解 Python自学入门 四 流程控制 四 函数和模块 4 1 函数 函数是可重复利用的一段代码块 没有返回值的函数 def
  • 基于YOLOv5和U-NET的火灾检测与分割

    1 文章信息 本次介绍的文章是发表在EUSIPCO 2021的一篇基于计算机视觉的火灾检测文章 2 摘要 当今世界面临的环境危机是对人类的真正挑战 对人类和自然的一个显著危害是森林火灾的数量不断增加 由于传感器和技术以及计算机视觉算法的快速
  • vant避坑之---------overlay弹出层只可滚动不可滑动

    今天遇到一个bug 就是在vant的overlay弹出层只可以鼠标滚动但是不能滑动 解决方法
  • 226. Invert Binary Tree

    Definition for a binary tree node struct TreeNode int val TreeNode left TreeNode right TreeNode int x val x left NULL ri
  • 【技巧】Windows 命令行换行

    通常 在使用Windows命令行时 当输入一个命令后回车代表执行该命令 但是 有时命令过长或其他原因 我们想在命令中换行 怎么办呢 这时 可以在一行末尾加 号再回车 代表命令还要继续 比如 我要执行 cd 转到当前目录的上两级目录 但是我想
  • 如何成为杰出的程序员?金三银四我带你去BAT面试现场,搞懂这些直接来阿里入职

    越来越多的人在提 移动端的下半场 Android 开发的焦虑 之类的 也有人在喊 技术天天在变 学也学不完 昨天 Kotlin 今天 Flutter 其实我却认为 如果你技术达到了一定程度 你无需太过在意这些 移动端真正进入下半场了吗 于我
  • std::enable_shared_from_this

    std enable shared from this是一个模板类 能让一个对象 假设其名为 t 且已被一个 std shared ptr 对象 pt 管理 安全地生成其他额外的 std shared ptr 实例 假设名为 pt1 pt2
  • Centos7下添加新硬盘,分区及挂载(包含自动手动挂载)

    一 自动挂载 1 查看当前磁盘信息 fdisk l 可以看到除了当前的第一块硬盘外还有一块vdb的第二块硬盘 接下来需要进行分区 2 分区 fdisk dev vdb 3 初始化物理卷 虚拟组 逻辑卷 注 接下来如果找不到命令 需要安装lv
  • cc1: error: invalid option `abi=aapcs-linux' make[1]: *** [kernel/bounds.s] Error 1 make: *** [prep

    由于内核和busybox编译需要同一个交叉编译器 所以就用来arm linux gcc 3 4 1来编译内核 但是却出现了这样的错误 cc1 error invalid option abi aapcs linux make 1 kerne
  • 大家厚爱

    大家好 很高兴来到这里 希望大家多多交流啊
  • 算法设计与分析部分

    一 算法概述 算法性质 算法是由若干条指令组成的有穷序列 且满足下述4条性质 输入 有零个或多个由外部提供的量作为算法的输入 输出 算法产生至少一个量作为输出 确定性 组成算法的每条指令是清晰的 无歧义的 有限性 算法中每条指令的执行次数是
  • synchronized

    synchronized 1 锁分为类锁和对象锁 类锁的实现方式 1 方法前加 synchronized static 2 synchronized class 对象锁 1 synchronized 2 synchronized objec
  • 【机器学习】线性分类【上】广义线性模型

    有任何的书写错误 排版错误 概念错误等 希望大家包含指正 由于字数限制 分成两篇博客 机器学习 线性分类 上 广义线性模型 机器学习 线性分类 下 经典线性分类算法 1 线性模型 线性模型不仅包括线性回归模型 还包括方差分析模型等 但这里我
  • 特征工程(二)TfidfVectorizer

    将原始数据的word特征数字化为tfidf特征 并将结果保存到本地 article特征可做类似处理 import pandas as pd from sklearn feature extraction text import TfidfV