Hello, Weka

2023-05-16

转自http://dreamhead.blogbus.com/logs/16813833.html

Weka，是一个用Java编写的数据挖掘软件。数据挖掘，从字面上来看，它是一个从数据中找寻有用信息的过程，不过，它涉及的内容很多，所以，这里借用“分类”这一面来说事。
分类，从名称上来看，再简单不过了，给你一样东西，给它分个类。你如何知道怎么分类呢？显然，这是基于你已有的经验。对于计算机而言，这种经验从何而来呢？只有让人来告诉它，也就是说，我们要拿一批数据训练计算机，经过训练的计算机，便具备了一定的识别能力，就可以完成一些简单的分类工作。现实中，可以用到分类的机会有很多，比如我之前，曾经参与过的一个项目就是用这种方法来做车辆的识别。
下面便是一段使用Weka完成一段分类程序。
import weka.classifiers.Classifier;
import weka.classifiers.bayes.NaiveBayesMultinomial;
import weka.core.Attribute;
import weka.core.FastVector;
import weka.core.Instance;
import weka.core.Instances;
import weka.filters.Filter;
import weka.filters.unsupervised.attribute.StringToWordVector;
public class Main {
private static final String GOOD = "G";
private static final String BAD = "B";
private static final String CATEGORY = "category";
private static final String TEXT = "text";
private static final int INIT_CAPACITY = 100;
private static final String[][] TRAINING_DATA = {
    {"Good", GOOD},
    {"Wonderful", GOOD},
    {"Cool", GOOD},
    {"Bad", BAD},
    {"Disaster", BAD},
    {"Terrible", BAD}
};
private static final String TEST_DATA = "Good";
private static Filter filter = new StringToWordVector();
private static Classifier classifier = new NaiveBayesMultinomial();
public static void main(String[] args) throws Exception {
    FastVector categories = new FastVector();
    categories.addElement(GOOD);
    categories.addElement(BAD);
    FastVector attributes = new FastVector();
    attributes.addElement(new Attribute(TEXT, (FastVector)null));
    attributes.addElement(new Attribute(CATEGORY, categories));
    Instances instances = new Instances("Weka", attributes, INIT_CAPACITY);
    instances.setClassIndex(instances.numAttributes() - 1);
    for (String[] pair : TRAINING_DATA) {
      String text = pair[0];
      String category = pair[1];
      Instance instance = createInstanceByText(instances, text);
      instance.setClassValue(category);
      instances.add(instance);
    }
    filter.setInputFormat(instances);
    Instances filteredInstances = Filter.useFilter(instances, filter);
    classifier.buildClassifier(filteredInstances);
    // Test
    String testText = TEST_DATA;
    Instance testInstance = createTestInstance(instances.stringFreeStructure(), testText);
    double predicted = classifier.classifyInstance(testInstance);
    String category = instances.classAttribute().value((int)predicted);
    System.out.println(category);
}
private static Instance createInstanceByText(Instances data, String text) {
    Attribute textAtt = data.attribute(TEXT);
    int index = textAtt.addStringValue(text);
    Instance instance = new Instance(2);
    instance.setValue(textAtt, index);
    instance.setDataset(data);
    return instance;
}
private static Instance createTestInstance(Instances data, String text) throws Exception {
    Instance testInstance = createInstanceByText(data, text);
    filter.input(testInstance);
    return filter.output();
}
}
这个程序分成两个大部分，前半部分用以训练分类器，后半部分则是测试这个分类器。
训练分类器，我们要做的包括，选择分类算法和准备训练数据。在Weka中，每一种分类算法都是Classifier的一个子类，这样的话，就可以在不改变其它部分的情况下，很容易的修改分类算法。
其实，稍微了解一下这方面的知识的人，都会知道，分类算法固然重要，但真正决定一个分类器本事大小的，是用以训练的数据。想要得到一个好的分类器，少不了不断调整训练数据和不断的训练。这同人类认识问题是一样的，经得多，见得广，才有更好的分辨能力。

在Weka中，用以训练的数据就是Instances，顾名思义，这是Instance的复数，显而易见，单独的一个训练数据就是Instance，而Instances这个类的存在，可以把Instance的一些公共的属性放到一起。在这里，我们可以看到，为了用文本作为训练数据，我们会把文本转换为Instance。同样，测试分类器的时候，我们也会把文本转换为一个Instance，然后再进行分类。
除此之外，这里还有一个Filter的概念，同常见的filter概念类似，它给了我们一个进行正式处理之前，对数据进行处理的机会。在这里，主要是对Instance做一些相关的变换。
当我们得到一个分类器之后，就可以利用这个分类器进行分类了，其中，最关键的代码是
classifier.classifyInstance(testInstance);
这段代码返回的是根据分类算法计算结果得到的一个相似度，我们可以利用这个值来估计我们测试用的数据应该属于哪个分类。
从代码上来说，这段代码本身并不复杂。正如前面所说，一个好的分类器是需要让数据帮忙的。所以，换几个测试数据，你就会发现，这段代码中实现的分类器一点都不强大。如果希望它强大起来，扩展训练数据是一个必然的结果。不过，对于这篇blog而言，这不重要，因为我们只是要和Weka问个好，进一步的工作，还需要进一步的努力。

转载于:https://www.cnblogs.com/ysjxw/archive/2008/05/12/1193735.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hello

Weka

Hello, Weka 的相关文章

我的2017-搭建个人网站，hello PHP（2）

学习一门语言 xff0c 例行惯例 xff0c 先来个 hello world 搭建好了php环境 xff0c 然后就可以运行php了 xff0c 首先用一种最简单的方法 xff0c 在wamp安装位置 xff08 相应的文件夹 xff09
Phaser笔记-Hello World!

代码如下 xff1a lt DOCTYPE html gt lt html gt lt head gt lt script src 61 34 https cdn jsdelivr net npm phaser 64 3 15 1 dist
[python]输出“hello 姓名”

print 34 hello tianxinyao 34
PX4编译——搭建你的第一个应用（Hello Shy）

一编译环境 1 ubuntu20 04 2 px4 V2 二编写测试程序下载好px4code之后 xff0c 在src examples px4 simple app里面有cmakelist txt和px4 sample app cp
pybind11 的 Hello World

pybind11是一个轻量级的仅头文件库 xff0c 主要用于创建现有C 43 43 代码的Python绑定 Github地址 xff1a https github com pybind pybind11 官方文档 xff1a https
深入探讨Linux驱动开发：驱动介绍与hello驱动实例

文章目录前言一 Linux驱动介绍1 用户态和内核态2 内核功能介绍3 驱动程序介绍二驱动程序分类与注意事项1 驱动程序分类2 内核驱动开发注意事项三 hello驱动开发1 驱动模块2 模块加载和卸载函数3 编写hello模块4 M
Weka内置特征选择算法整理

属性评估方法 CfsSubsetEval 根据属性子集中每一个特征的预测能力以及它们之间的关联性进行评估 ChiSquaredAttributeEval 根据与分类有关的每一个属性的卡方值进行评估 ClassifierSubsetEval
具有非常大矩阵的 K 均值

我必须在一个非常大的矩阵大约 300 000x100 000 个值超过 100Gb 上执行 k 均值聚类我想知道我是否可以使用 R 软件或 weka 来执行此操作我的计算机是一台多处理器具有 8GB 内存和数百 GB 可用空间我
weka 中的 SMO 置信度测量

我正在使用以下方法编写分类代码smoweka 类但我还没有找到实例分类的置信度度量当以下情况时它总是返回 0 或 1distributionForInstance叫做我要分为两个类知道我怎样才能得到这个措施吗谢谢好吧我想出了
当已指定最大堆值时，是否有解决方法来解决“Java 堆空间”内存错误？

我在配备 8GB RAM 的最新一代 Macbook Pro 中运行 WEKA 分类器 J48 其输入 arff 文件由 3 个字段组成字段 1 有约 27k 个不同属性字段 2 有约 500k 个值我使用以下命令将 java 堆空间
如何在 Weka 中计算聚类评估的准确性

我们如何使用 Weka 计算集群的准确性我可以使用这个公式 Accuracy A tp tn Total samples 但我如何知道Weka工具中实验输出的真阳性假阳性真阴性和假阴性是什么 Weka中有几种不同的聚类模式使用训练集
Weka 标准化柱

我有一个包含 14 个数字列的 ARFF 文件我想分别对每列执行标准化即将每列的值修改为 actual value min this column max this column min this column 因此列中的所有值都将在
如何将文本文件转换为ARFF格式？

我正在使用 WEKA 工具进行文本分类并且必须将纯文本文件转换为 ARFF 格式但是我不知道该怎么做谁能帮我将文本文件转换为 ARFF 格式谢谢伦克劳夫的回复我不明白这些要点由于像记事本这样的文本编辑器只允许有限数量的列因此
.arff 文件与 scikit-learn 一起使用吗？

我想用一个属性关系文件格式 http www cs waikato ac nz ml weka arff html用 scikit learn 来做一些 NLP 任务这可能吗如何使用 arff文件与scikit learn 我真的推荐利
处理不平衡问题后，数据高度倾斜，准确性下降

在对数据进行预处理例如缺失值替换和异常值检测后我使用随机化方法对数据进行分区并使用 WEKA 删除百分比过滤器我的数据集是一个高度倾斜的数据集不平衡比为 6 1 对应于负类和正类如果我使用朴素贝叶斯分类器对数据进行分类而不处
导入weka.jar文件

我是佐治亚州亚特兰大当地一所大学的学生我正在寻找将 Weka jar 文件合并到我的班级项目的 Eclipse 中我已经多次尝试使用 Eclipse 将 weka 3 4 jar 文件合并到 java 项目中的 java 构建路径中每
如何使用java获取weka中的最近邻居

我一直在尝试使用与 weka 机器学习库一起使用的 Ibk 最近邻算法我知道如何对实例进行分类但我想实现协同过滤功能因此我需要实际获取最接近感兴趣对象的实际对象列表在 weka 中我实际上该如何使用它的 java API 来做到这一
如何使用 MATLAB 从 WEKA 检索类值

我正在尝试使用 MATLAB 和 WEKA API 从 WEKA 检索类一切看起来都很好但类始终为 0 有什么想法吗我的数据集有 241 个属性将 WEKA 应用于该数据集我得到了正确的结果创建第一个训练和测试对象然后构建分类器
WEKA 中监督重采样和无监督重采样有什么区别？

我想知道有什么区别weka filters supervised instance Resample and weka filters unsupervised instance Resample 在什么情况下我们应该使用每一种监督重采样
在java中使用朴素贝叶斯（weka）进行简单的文本分类

我尝试在我的java代码中使用朴素贝叶斯weka库进行文本分类但我认为分类的结果不正确我不知道问题是什么我使用 arff 文件作为输入这是我的训练数据 relation hamspam attribute text string a

随机推荐

控制变量行业年份回归时在STATA里怎么操作_stata 分年份回归

控制变量行业年份回归时在STATA里怎么操作 stata 分年份回归我希望做一个多元回归 xff0c 但需要控制年份和行业 xff08 1 xff09 年份有7年2006 2012 xff0c 听说STATA可以自动设置虚拟变量 xff0
虚拟机Linux----Ubuntu1404----root登录设置

说明 xff1a 在安装玩1404这个版本的ubuntu后 xff0c 默认也是看不到root登录的 xff0c 也需要修改配置文件 xff0c 但是修改的文件和1204不太一样 1 shell窗口 xff0c 普通用户首先登录 xff0c
Linux安装jdk的详细步骤

温馨提示 xff1a linux的使用过程中 xff0c 总是要使用jdk的 xff0c 有的linux系统自带的openjdk xff0c 总是不太好用 xff1b 本文以centos7为例 xff0c 安装jdk1 8版本一查看Li
配置服务器获取信息失败,获取配置服务器失败

获取配置服务器失败内容精选换一换当创建文件系统后 xff0c 您需要使用云服务器来挂载该文件系统 xff0c 以实现多个云服务器共享使用文件系统的目的本章节以Windows 2012版本操作系统为例进行CIFS类型的文件系统的挂载
试题（一）

C 试题解答一选择填空题 xff08 每空2分 xff0c 共60分 xff09 1 在对SQL Server 数据库操作时应选用 xff08 a xff09 a SQL Server NET Framework 数据提供程序 xff1
ubuntu下安装oracle

开源的世界挺有意思 xff0c 安装oracle如此复杂主要分为四个大步骤 xff1a Java的安装 Oracle安装前的准备 Oracle的安装环境配置安装Oracle 1 Java安装 xff08 略 xff09 这一步网上有好多
相机寻找最适合分辨率android,ARCore：获取相机的分辨率(ARCore : Get Camera's resolution)...

ARCore xff1a 获取相机的分辨率 ARCore Get Camera 39 s resolution 有没有办法获得相机的分辨率 xff1f 除非从头开始使用Android 我没有在session setDisplayGeomet
ASP.NET动态的修改主题

在有的网站上 xff0c 允许用户根据自己的喜好来更改皮肤 xff0c 这个功能利用ASP NET的主题机制可以方便的实现 xff0c 在C 代码中可以通过Page类的Theme属性改变页面的主题 xff0c 代码如下 xff1a Page
错误集锦（1）

下列软件包有未满足的依赖关系 xff1a sogoupinyin 依赖 fcitx gt 61 1 4 2 8 3 3 但是它还没有被安装依赖 fcitx frontend gtk2 但是它还没有被安装依赖 fcitx frontend
Python环境安装与基础语法（1）——计算机基础知识

Python安装 pip 包管理工具 pip install 安装包 pip list 查看包 IPython 增强的python shell xff0c 自动补全 xff0c 自动缩进 xff0c 支持shell xff0c 增加了很多函
Python环境安装与基础语法（2）——数据类型、标识符、语言分类

高级语言发展结构化语言 xff1a 以顺序 xff08 步骤化 xff09 xff0c 分支 xff0c 循环描述问题面向对象语言 xff1a 接近人类的认知 xff0c 万物抽象成对象 xff0c 对象间的关系抽象成类和继承程序 6
Python环境安装与基础语法（3）——进制、运算符和优先级、原码、补码

进制转十进制 xff1a 基本运算方法 xff08 权算方式 xff09 0b1111 gt 1 2 3 43 1 2 2 43 1 2 1 43 1 2 0 0x7F gt 7 16 1 43 F 16 0 转二进制 xff1a 0xF
Win7通过无线网卡共享本地网络，开启WiFi热点以及关闭WiFi热点

Win7通过WiFi共享本地网络 xff0c 开启WiFi热点以及关闭WiFi热点 Windows10上开启热点十分方便 xff0c 只要通过设置 gt 网络和internet gt 移动热点的路径 xff0c 到了移动热点的配置界面
mysql登录报错：mysql: error while loading shared libraries: libncurses.so.5: cannot open shared object fi...

系统是redhad8 xff0c binary方式安装完mysql之后 xff0c mysql命令登录不成功 xff0c 报错 xff1a mysql error while loading shared libraries libncur
网卡设置网卡的高级设置说明

网卡设置网卡的高级设置说明修改电脑网卡高级设置可以提高网络速度另外 xff0c 建议关闭在Realtek网卡高级设置中的以下其他选项 xff1a 流控制 FlowControl 巨型帧 Jumboframe 大量传送负载 Offloa
招聘笔试中常考的智力题（转自网络）

1 有一个没有刻度的长方形的塑料盒子 xff0c 没有盖子 xff0c 它的容积是1升 xff0c 请问如果只能使用这个盒子称量一次 xff0c 能够准确的量出多少升的水 xff08 B xff09 xff1f A 0 4升 B 0 5升
软件危机表现，原因及解决方法

表现 xff1a xff08 1 xff09 软件成本日益增长 xff08 2 xff09 开发进度难以控制 xff08 3 xff09 软件质量差 xff08 4 xff09 软件维护困难原因 xff1a xff08 1 xff09 用
C C++ 数字后面加 LL是什么意思

long long类型 xff0c 在赋初值的时候 xff0c 如果大于2的31次方 1 xff0c 那么后面需要加上LL 转载于 https www cnblogs com lxzbky p 10505135 html
暴雪战网服务器维护时间,炉石传说停机维护30小时暴雪与网易做了个艰难的决定...

原标题 xff1a 炉石传说停机维护30小时暴雪与网易做了个艰难的决定 1月20日 xff0c 随着补偿包陆续发放到相关玩家账号 xff0c 炉石传说的运营事故得到了初步解决从17日凌晨到18日晚间 xff0c 在超过30个小时的维护
Hello, Weka

转自http dreamhead blogbus com logs 16813833 html Weka xff0c 是一个用Java编写的数据挖掘软件数据挖掘 xff0c 从字面上来看 xff0c 它是一个从数据中找寻有用信息的过程 x

Hello, Weka

Hello, Weka 的相关文章

随机推荐

热门标签