使用 NLTK python 对使用示例数据或 Web 服务的句子进行情感分析?

2024-04-07

我正在着手一个用于情感分析的 NLP 项目。

我已经成功安装了Python的NLTK(看起来是一个很棒的软件)。但是,我无法理解如何使用它来完成我的任务。

这是我的任务:

  1. 我从一长条数据开始(假设来自他们的网络服务的数百条关于英国大选主题的推文)
  2. 我想将其分解为句子(或信息不超过 100 个左右字符)(我想我可以在 python 中做到这一点?)
  3. 然后在所有句子中搜索该句子中的特定实例,例如“大卫·卡梅伦”
  4. 然后我想检查每个句子中的积极/消极情绪并相应地计算它们

注意:我并不太担心准确性,因为我的数据集很大,而且也不太担心讽刺。

以下是我遇到的麻烦:

  1. 我能找到的所有数据集,例如NLTK附带的语料库电影评论数据不是Web服务格式。看起来这已经完成了一些处理。据我所知,处理(由斯坦福大学)是用 WEKA 完成的。 NLTK 自己不可能完成这一切吗?这里所有的数据集已经被组织成正/负,例如极性数据集http://www.cs.cornell.edu/People/pabo/movie-review-data/ http://www.cs.cornell.edu/People/pabo/movie-review-data/这是怎么做到的? (按情感来组织句子,肯定是WEKA?还是别的什么?)

  2. 我不确定我是否理解为什么 WEKA 和 NLTK 会一起使用。看起来他们做的事情几乎是一样的。如果我首先使用 WEKA 处理数据来寻找情绪,为什么我需要 NLTK?是否可以解释为什么这可能是必要的?

我发现一些脚本在某种程度上接近此任务,但所有脚本都使用相同的预处理数据。是否无法自己处理这些数据以查找句子中的情绪,而不是使用链接中给出的数据样本?

非常感谢任何帮助,这会节省我很多头发!

干杯柯


电影评论数据已经被人类标记为正面或负面(做出评论的人给电影评分,用于确定极性)。这些黄金标准标签允许您训练分类器,然后您可以将其用于其他电影评论。您可以使用该数据在 NLTK 中训练分类器,但将结果应用于选举推文可能不如随机猜测正面或负面准确。或者,您可以自己浏览数千条推文并将其标记为正面或负面,并将其用作您的训练集。

有关使用朴素贝叶斯通过 NLTK 进行情感分析的说明:http://streamhacker.com/2010/05/10/text-classification-sentiment-analysis-naive-bayes-classifier/ http://streamhacker.com/2010/05/10/text-classification-sentiment-analysis-naive-bayes-classifier/

然后在该代码中,不使用电影语料库,而是使用您自己的数据来计算字数(在word_feats方法)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 NLTK python 对使用示例数据或 Web 服务的句子进行情感分析? 的相关文章

  • 斯坦福 CoreNLP:使用部分现有注释

    我们正在尝试利用现有的 代币化 句子分割 和命名实体标记 同时我们希望使用斯坦福 CoreNlp 额外为我们提供 词性标注 词形还原 和解析 目前 我们正在尝试以下方式 1 为 pos lemma parse 创建一个注释器 Propert
  • 如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

    我正在尝试从树结构中获取扁平树 如下所示 我想将整个树放在一个字符串中 就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
  • nltk单词语料库不包含“okay”?

    NLTK单词语料库没有短语 okay ok Okay gt from nltk corpus import words gt words words contains check gt True gt words words contain
  • Weka J48 分类器:无法处理数字类?

    我现在尝试使用 Weka 在我的训练数据上构建 J48 C4 5 分类器模型 首先我这样做 这似乎很顺利 java Xmx10G cp weka weka jar weka core converters TextDirectoryLoad
  • 混淆矩阵不支持多标签指示符

    multilabel indicator is not supported是我在尝试运行时收到的错误消息 confusion matrix y test predictions y test is a DataFrame其形状为 Horse
  • 如何在 Python 中使这个随机文本生成器更加高效?

    我正在研究一个随机文本生成器 不使用马尔可夫链 目前它的工作没有太多问题 首先 这是我的代码流程 输入一个句子作为输入 这称为触发字符串 被分配给一个变量 获取触发字符串中最长的单词 在所有古腾堡计划数据库中搜索包含该单词的句子 无论大写还
  • Lucene 标准分析器与 Snowball

    刚刚开始使用 Lucene Net 我使用标准分析器索引了 100 000 行 运行了一些测试查询 并注意到如果原始术语是单数 则复数查询不会返回结果 我知道雪球分析器增加了词干支持 这听起来不错 不过 我想知道 超过标准的雪球锣是否有任何
  • Windows 上的 NLTK MEGAM Max Ent 算法

    我一直在 Python 上使用 NLTK 但无法使用 MEGAM Max Ent 算法 因为缺少任何版本的 MEGAM 库等于或高于 0 3 的 Windows 64 位可执行文件 需要包含 NLTK 的 nobias 选项工作 在 v 0
  • Java文本输出中的UTF-8编码问题

    我一直致力于测试高棉语 Unicode Wordbreaker 的各种解决方案 高棉语单词之间没有空格 这使得拼写检查和语法检查变得困难 以及从旧高棉语转换为高棉语 Unicode 我得到了一些源代码 现在在线 http www white
  • 如何对URL进行分类? URL 的特点是什么?如何从 URL 中选择和提取特征

    我刚刚开始研究分类问题 这是一个两类问题 我的训练模型 机器学习 必须决定 预测是允许 URL 还是阻止它 我的问题非常具体 如何对 URL 进行分类 我应该使用普通的文本分析方法吗 URL 的特点是什么 如何从URL中选择和提取特征 我假
  • 在 NLTK Python 的朴素贝叶斯分类器中使用文档长度

    我正在使用 Python 中的 NLTK 构建垃圾邮件过滤器 现在 我检查单词的出现情况并使用 NaiveBayesClassifier 其准确度为 0 98 垃圾邮件的 F 测量值为 0 92 非垃圾邮件的 F 测量值为 0 98 然而
  • 车辆分割和跟踪

    我已经从事一个项目一段时间了 目的是在无人机捕获的视频中检测和跟踪 移动 车辆 目前我正在使用 SVM 该 SVM 接受了从车辆和背景图像中提取的局部特征的特征袋表示的训练 然后 我使用滑动窗口检测方法来尝试定位图像中的车辆 然后我想要跟踪
  • 手动安装开放多语言世界网 (NLTK)

    我正在使用一台只能访问专用网络并且无法从命令行发送指令的计算机 因此 每当我必须安装 Python 包时 我都必须手动安装 我什至不能使用 Pypi 幸运的是 NLTK 允许我手动下载语料库 从here https www nltk org
  • 使用决策树

    我知道 tl dr 我将尝试解释我的问题 而不会用大量蹩脚的代码来打扰您 我正在做一项学校作业 我们有蓝精灵的图片 我们必须通过前景背景分析来找到它们 我有一个 Java 决策树 其中包含所有数据 HSV 直方图 1 一个节点 然后尝试找到
  • 敏感性特异性图 python

    我正在尝试重现类似于此的灵敏度特异性图 其中 X 轴是阈值 但我还没有找到如何做到这一点 一些 skalern 指标 如 ROC 曲线 会返回真阳性和假阳性 但我还没有找到任何选项来制作此图 我试图将概率与实际标签进行比较以保持计数 我得到
  • 文本摘要评估 - BLEU 与 ROUGE

    根据两个不同摘要系统 sys1 和 sys2 的结果和相同的参考摘要 我使用 BLEU 和 ROUGE 对它们进行了评估 问题是 sys1 的所有 ROUGE 分数均高于 sys2 ROUGE 1 ROUGE 2 ROUGE 3 ROUGE
  • 对法语文本进行词形还原[关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我有一些法语文本需要以某种方式进行处理 为此 我需要 首先 将文本标记为单词 然后对这些单词进行词形还原以避免多次处理相同的词根 据我
  • R 中带有变音符号的字符列表

    我试图将字符串中的电话 字符 出现次数制成表格 但变音符号单独作为字符制成表格 理想情况下 我有一个国际音标的单词列表 其中包含大量变音符号以及它们与基本字符的几种组合 我在这里给出了仅包含一个单词的 MWE 但对于单词列表和更多类型的组合
  • 使用 NLTK 生成字典以将推文分类为预定义类别

    我有一个 Twitter 用户 screen names 列表 我需要根据他们的兴趣领域将他们分为 7 个预定义类别 教育 艺术 体育 商业 政治 汽车 技术 我用 Python 提取了用户的最后 100 条推文 并在清理推文后为每个用户创
  • 在Python中表示语料库句子的一种热门编码

    我是 Python 和 Scikit learn 库的初学者 我目前需要从事一个 NLP 项目 该项目首先需要通过 One Hot Encoding 来表示一个大型语料库 我已经阅读了 Scikit learn 关于 preprocessi

随机推荐

  • Bootstrap 图标未显示在已发布的 ASP.NET MVC 应用程序中

    注意 请前往编辑 2 部分查看摘要 我有一个 ASP NET MVC 4 应用程序 我将 twitter Bootstrap 集成到其中 Bootstrap 工作正常 但当我发布应用程序时 图标无法正确显示 我尝试重新发布该应用程序 但没有
  • 在 XAML 中设置命令目标

    我很难理解 RoutedCommand 的 CommandTarget 属性 基本上 我有一些在用户控件 而不是窗口 中实现的静态命令 我在用户控件中创建命令绑定 如果我在用户控件中声明按钮 那么我就可以使用我的路由事件 但是 当按钮位于用
  • C++0x 右值引用和临时值

    我在 comp std c 上问了这个问题的变体 但没有得到答案 为什么调用f arg 在此代码中调用 const ref 重载f void f const std string less efficient void f std stri
  • 我不应该调用 HostingEnvironment.UnregisterObject 吗?

    在尝试在我的 ASP Net MVC 3 应用程序中通过 smtp 实现异步电子邮件时 我遇到了问题SO SmtpClient SendAsync 阻止我的 ASP NET MVC 请求 https stackoverflow com qu
  • 使用 dplyr 连接组内的所有行

    假设我有一个像这样的数据框 hand id card id card name card class A 1 p alpha A 2 q beta A 3 r theta B 2 q beta B 3 r theta B 4 s gamma
  • 在msbuild中过滤项目的元数据

    我想使用修改后的元数据创建一个新的项目集合 例如 更改 ClCompile AdditionalIncludeDirectories 的分隔符 为此 我首先从AdditionalIncludeDirectories 元数据创建一个项目集合
  • 如何更改 Scalatra 应用程序的“webapp”目录位置?

    默认情况下 Scalatra 期望 webapp 目录位于src main webapp 如何将其更改为 例如content doc root sbt 允许使用如下内容自定义其默认目录 scalaSource lt lt baseDirec
  • 获取 iPhone 上当前的系统音量级别

    有什么方法可以获取 iPhone 上当前的系统音量级别吗 我在想也许有一种方法可以制作MPVolumeView并从中获取价值 musicPlayer MPMusicPlayerController iPodMusicPlayer curre
  • 我如何知道我正在使用哪个版本的 OpenGL?

    我开始使用 GLFW 和 OpenGL 用 C 目前 编写程序 我的问题是 我如何知道我的程序将使用哪个版本的 OpenGL 我的笔记本电脑显示我的显卡支持 OpenGL 3 3 输入 glxinfo grep i opengl 返回 Op
  • 从现有虚拟机创建 docker 镜像

    我需要使用 CentOS 和 MySQL 创建 docker 基础镜像 但我已经有这样的虚拟机 没有docker 如何从现有的虚拟机创建基础 docker 镜像并在另一台带有 docker 的机器上使用它 虽然其他评论者正确地指出 将虚拟机
  • 如何获取 pandas .p​​lot(kind='kde') 的输出

    当我绘制我的 pandas 系列的密度分布时 我使用 plot kind kde 是否可以获得该图的输出值 如果是的话该怎么做 我需要绘制的值 plot kind kde https pandas pydata org docs refer
  • 确定选择哪个 JRadioButton 的最佳方法是什么?

    目前我正在以这种方式获取选定的按钮 但如果这是正确 最好的方法 我不会 也许有比这更简单或更面向对象的东西 private int getFilterType JRadioButton buttons for int i 0 n butto
  • 使用 Angular 将日期转换为东部时区

    我从服务器获取数据如下 2015 03 05T16 51 56 00 00 使用 Angular 我想将此日期 时间显示为东部时间日期 有没有办法用 Angular 指定不同的时区 我正在做类似的事情 myDate date medium
  • Android 持久内容观察者

    Android 中的内容观察者是否持久 如果我在活动中创建内容观察者 该观察者是否会继续运行 直到我删除该观察者 基本上 我正在创建一项短信服务 在接收和发送时 我将短信发布到网络服务 这样我就可以在没有手机的情况下检查我的消息 如果内容观
  • libAdIdAccess.a 位置?

    按照说明在 iOS 上将 IDFA 与 Google Analytics 结合使用 https developers google com analytics devguides collection ios v3 optional fea
  • Pandas groupby 多个字段然后 diff

    所以我的数据框看起来像这样 date site country score 0 2018 01 01 google us 100 1 2018 01 01 google ch 50 2 2018 01 02 google us 70 3 2
  • 如何使用 ConstraintLayout 让第一个 View 缩小以适应剩余空间?

    我有以下布局 注意Z位于下方Y 但限制在底部 之间有一个很好的间隙Y and Z 由多余的垂直空间提供 这是我的desired and actual当存在时的行为多余的垂直空间 但是 当显示键盘时 我用完了多余的垂直空间 期望的行为 没有多
  • 有没有办法*防止* ReSharper 并行运行程序集的单元测试?

    我在单元测试设置中看到一个选项 并行运行最多 1 2 个程序集 但将其设置为 1 似乎仍然并行执行单个程序集的测试 有没有办法完全禁用并行执行 这是 ReSharper 6 1 您可以尝试在此处查看堆栈溢出答案如何串行运行 NUnit 测试
  • 如何编写一个以可变参数函数作为参数的 Haskell 函数

    我正在尝试创建一个函数 该函数获取可变参数函数一个论点 i e func a gt gt a gt a 我怎样才能做到这一点 我读过关于多变量函数 https stackoverflow com questions 3467279 how
  • 使用 NLTK python 对使用示例数据或 Web 服务的句子进行情感分析?

    我正在着手一个用于情感分析的 NLP 项目 我已经成功安装了Python的NLTK 看起来是一个很棒的软件 但是 我无法理解如何使用它来完成我的任务 这是我的任务 我从一长条数据开始 假设来自他们的网络服务的数百条关于英国大选主题的推文 我