python卡方检验关键词,特征选择——卡方检验(使用Python sklearn进行实现)

2023-10-27

在看这篇文章之前,如果对卡方检验不熟悉,可以先参考:卡方检验

Python有包可以直接实现特征选择,也就是看自变量对因变量的相关性。今天我们先开看一下如何用卡方检验实现特征选择。

1. 首先import包和实验数据:

from sklearn.feature_selection import SelectKBest

from sklearn.feature_selection import chi2

from sklearn.datasets import load_iris

#导入IRIS数据集

iris = load_iris()

iris.data#查看数据结果输出:

array([[ 5.1, 3.5, 1.4, 0.2],

[ 4.9, 3. , 1.4, 0.2],

[ 4.7, 3.2, 1.3, 0.2],

[ 4.6, 3.1, 1.5, 0.2],

[ 5. , 3.6, 1.4, 0.2],

[ 5.4, 3.9, 1.7, 0.4],

[ 4.6, 3.4, 1.4, 0.3],

2. 使用卡方检验来选择特征

model1 = SelectKBest(chi2, k=2)#选择k个最佳特征

model1.fit_transform(iris.data, iris.target)#iris.data是特征数据,iris.target是标签数据,该函数可以选择出k个特征结果输出为:

array([[ 1.4, 0.2],

[ 1.4, 0.2],

[ 1.3, 0.2],

[ 1.5, 0.2],

[ 1.4, 0.2],

[ 1.7, 0.4],

[ 1.4, 0.3],

可以看出后使用卡方检验,选择出了后两个特征。如果我们还想查看卡方检验的p值和得分,可以使用第3步。

3. 查看p-values和scores

model1.scores_ #得分

得分输出为:

array([ 10.81782088, 3.59449902, 116.16984746, 67.24482759])

可以看出后两个特征得分最高,与我们第二步的结果一致;

model1.pvalues_ #p-values

p值输出为:

array([ 4.47651499e-03, 1.65754167e-01, 5.94344354e-26, 2.50017968e-15])

可以看出后两个特征的p值最小,置信度也最高,与前面的结果一致。

也可以参考官方的帮助文档:selectKbest帮助文档

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python卡方检验关键词,特征选择——卡方检验(使用Python sklearn进行实现) 的相关文章

  • 【AnyQ】百度开源 FAQ 问答系统—AnyQ介绍

    前言 近年来 随着人工智能技术的发展 人机对话技术得到越来越多的关注 人机对话产品也不断涌现 其中 智能客服作为人机对话的一个典型场景表现出极大的商业潜力和很强的研究价值 各企业也争先恐后的推出自己的智能客服产品 FAQ 问答技术作为智能客
  • Servlet初识

    servlet server applet 处理客户端请求 工作原理 tomcat容器 Servlet容器 服务器 Servlet框架 Servlet应用 1 首先客户端发起请求 2 服务器 tomcat Servlet容器 收到接收到来自
  • C指针之初始化(三)

    一 引言 C C 语言中引入了指针 使得程序能够直接访问内存地址 使得很多复杂的操作变得简单 同时也提高了程序的运行效率 指针即是地址 但是地址却是通过指针变量来存储的 因此我们通常所说的指针在很多时候说的都是指针变量 指针变量在使用之前必
  • 使用C#版Tesseract库

    上一篇介绍了Tesseract库的使用 OCR库Tesseract初探 文末提到了Tesseract是用c c 开发的 也有C 的开源版本 本篇介绍一下如何使用C 版的Tesseract C 版本源码下载地址 https github co
  • 用Python爬取英雄联盟(lol)全部皮肤

    首先 我们打开英雄联盟官网主页 网址为 https lol qq com main shtml 然后向下拉 可以看到英雄列表 如图所示 接着随意选一个英雄点击进入看一下 如图所示 再点击鼠标右键 接着选择检查 看一下皮肤的 URL 如图所示
  • Mysql连接数据库url的参数解析

    看之前各位看官可以不可以点个赞 呜呜呜 更正信息 错误 之前在url中使用 后面发现报错 要进行转义才行 amp 如果在springboot中使用 不需要转义 即把下面的 amp 改为 已经对下面url进行更正 大家直接拷贝粘贴就可以用 j
  • 数据结构_35

    一 线性表 排序 冒泡排序 选择排序 快速排序 归并排序 查找 二分查找 二 树 遍历 递归 前中后序 层次 排序 大根堆 小根堆 哈夫曼树 三 图 广度优先遍历 深度优先遍历 最小生成树 Prim算法 Kus算法 最短路径 Dij算法 一
  • 可视化理解卷积神经网络(CNN)

    大家好 我是Sonhhxg 柒 希望你看完之后 能对你有所帮助 不足请指正 共同学习交流 个人主页 Sonhhxg 柒的博客 CSDN博客 欢迎各位 点赞 收藏 留言 系列专栏 机器学习 ML 自然语言处理 NLP 深度学习 DL fore
  • 用Python做一个猜拳游戏

    import random while True player input 请出拳 石头 剪刀 布 玩家出拳 print 玩家出拳 player list 石头 剪刀 布 computer random choice list 电脑出拳 随
  • Maven打包项目为依赖包、及包引用

    Maven打包项目为依赖包 及包引用 一 maven配置 1 1 原配置 1 2 更改配置 二 jar包引用 2 1 引入maven仓库 2 2 手动引入 更方便 一 maven配置 1 1 原配置
  • ubuntu升级python版本_ubuntu升级python版本

    Ubunt16 04默认安装python2 7和3 5 注意 系统自带的python千万不能卸载 1 输入python 2 输入python3 3 输入命令sudo add apt repository ppa jonathonf pyth
  • 高级 IO(非阻塞、多路复用、异步、存储映射、文件锁)

    目录 非阻塞I O 阻塞I O 与非阻塞I O 读文件 阻塞I O 的优点 阻塞后进入休眠 交出cpu资源降低使用率 使用非阻塞I O实现并发读取 I O 多路复用 何为I O多路复用 select 函数 poll 函数 总结 异步IO 优
  • 正点原子STM32(基于HAL库)5

    目录 SRAM 实验 存储器简介 SRAM 方案简介 硬件设计 程序设计 程序流程图 程序解析 下载验证 内存管理实验 内存管理简介 硬件设计 程序设计 程序流程图 程序解析 下载验证 SD 卡实验 SD 卡简介 SD 物理结构 命令和响应
  • SimOTA的简单理解

    SimOTA simOTA的作用是为不同目标设定不同的正样本数量 例如蚂蚁和西瓜 传统的正样本分配方案常常为同一场景下的西瓜和蚂蚁分配同样的正样本数 那要么蚂蚁有很多低质量的正样本 要么西瓜仅仅只有一两个正样本 对于哪个分配方式都是不合适的
  • CNN中的底层、高层特征、上下文信息、多尺度

    一 CNN中的底层 高层特征 简短总结 分类要求特征有较多的高级信息 回归 定位 要求特征包含更多的细节信息 1 图像的低层特征 对定位任务帮助大 我们可以想想比如轮廓信息都不准那怎么去良好定位 图像底层特征指的是 轮廓 边缘 颜色 纹理
  • ValueError: Image size of 55600x96000 pixels is too large. It must be less than 2^16 in each directi

    ValueError Image size of 55600x96000 pixels is too large It must be less than 2 16 in each direction 问题介绍 在用pycharm做图像处理
  • 遍历指定目录获取当前目录下指定后缀(如txt和ini)的文件名

    bin bash 遍历指定目录获取当前目录下指定后缀 如txt和ini 的文件名
  • LabVIEW通过以太网(TCP)与S7-1200 PLC通信

    LabVIEW通过以太网 TCP 与S7 1200 PLC通信 laiping 20170901 摘要 本文介绍LabView采用以太网 TCP 方式与西门子S7 1200PLC通讯 关键字 LabView S7 1200 TCP PLC
  • python 调用 R,使用rpy2

    python 与 R 是当今数据分析的两大主流语言 作为一个统计系的学生 我最早接触的是R 后来才接触的python python是通用编程语言 科学计算 数据分析是其重要的组成部分 但并非全部 而R则更偏重于统计分析 毕竟R是统计学家发明

随机推荐