使用 NLTK python 对使用示例数据或 Web 服务的句子进行情感分析？

2024-04-07

我正在着手一个用于情感分析的 NLP 项目。

我已经成功安装了Python的NLTK（看起来是一个很棒的软件）。但是，我无法理解如何使用它来完成我的任务。

这是我的任务：

我从一长条数据开始（假设来自他们的网络服务的数百条关于英国大选主题的推文）
我想将其分解为句子（或信息不超过 100 个左右字符）（我想我可以在 python 中做到这一点？）
然后在所有句子中搜索该句子中的特定实例，例如“大卫·卡梅伦”
然后我想检查每个句子中的积极/消极情绪并相应地计算它们

注意：我并不太担心准确性，因为我的数据集很大，而且也不太担心讽刺。

以下是我遇到的麻烦：

我能找到的所有数据集，例如NLTK附带的语料库电影评论数据不是Web服务格式。看起来这已经完成了一些处理。据我所知，处理（由斯坦福大学）是用 WEKA 完成的。 NLTK 自己不可能完成这一切吗？这里所有的数据集已经被组织成正/负，例如极性数据集http://www.cs.cornell.edu/People/pabo/movie-review-data/ http://www.cs.cornell.edu/People/pabo/movie-review-data/这是怎么做到的？（按情感来组织句子，肯定是WEKA？还是别的什么？）
我不确定我是否理解为什么 WEKA 和 NLTK 会一起使用。看起来他们做的事情几乎是一样的。如果我首先使用 WEKA 处理数据来寻找情绪，为什么我需要 NLTK？是否可以解释为什么这可能是必要的？

我发现一些脚本在某种程度上接近此任务，但所有脚本都使用相同的预处理数据。是否无法自己处理这些数据以查找句子中的情绪，而不是使用链接中给出的数据样本？

非常感谢任何帮助，这会节省我很多头发！

干杯柯

电影评论数据已经被人类标记为正面或负面（做出评论的人给电影评分，用于确定极性）。这些黄金标准标签允许您训练分类器，然后您可以将其用于其他电影评论。您可以使用该数据在 NLTK 中训练分类器，但将结果应用于选举推文可能不如随机猜测正面或负面准确。或者，您可以自己浏览数千条推文并将其标记为正面或负面，并将其用作您的训练集。

有关使用朴素贝叶斯通过 NLTK 进行情感分析的说明：http://streamhacker.com/2010/05/10/text-classification-sentiment-analysis-naive-bayes-classifier/ http://streamhacker.com/2010/05/10/text-classification-sentiment-analysis-naive-bayes-classifier/

然后在该代码中，不使用电影语料库，而是使用您自己的数据来计算字数（在word_feats方法）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 NLTK python 对使用示例数据或 Web 服务的句子进行情感分析？的相关文章

斯坦福 CoreNLP：使用部分现有注释

我们正在尝试利用现有的代币化句子分割和命名实体标记同时我们希望使用斯坦福 CoreNlp 额外为我们提供词性标注词形还原和解析目前我们正在尝试以下方式 1 为 pos lemma parse 创建一个注释器 Propert
如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

我正在尝试从树结构中获取扁平树如下所示我想将整个树放在一个字符串中就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
nltk单词语料库不包含“okay”？

NLTK单词语料库没有短语 okay ok Okay gt from nltk corpus import words gt words words contains check gt True gt words words contain
Weka J48 分类器：无法处理数字类？

我现在尝试使用 Weka 在我的训练数据上构建 J48 C4 5 分类器模型首先我这样做这似乎很顺利 java Xmx10G cp weka weka jar weka core converters TextDirectoryLoad
混淆矩阵不支持多标签指示符

multilabel indicator is not supported是我在尝试运行时收到的错误消息 confusion matrix y test predictions y test is a DataFrame其形状为 Horse
如何在 Python 中使这个随机文本生成器更加高效？

我正在研究一个随机文本生成器不使用马尔可夫链目前它的工作没有太多问题首先这是我的代码流程输入一个句子作为输入这称为触发字符串被分配给一个变量获取触发字符串中最长的单词在所有古腾堡计划数据库中搜索包含该单词的句子无论大写还
Lucene 标准分析器与 Snowball

刚刚开始使用 Lucene Net 我使用标准分析器索引了 100 000 行运行了一些测试查询并注意到如果原始术语是单数则复数查询不会返回结果我知道雪球分析器增加了词干支持这听起来不错不过我想知道超过标准的雪球锣是否有任何
Windows 上的 NLTK MEGAM Max Ent 算法

我一直在 Python 上使用 NLTK 但无法使用 MEGAM Max Ent 算法因为缺少任何版本的 MEGAM 库等于或高于 0 3 的 Windows 64 位可执行文件需要包含 NLTK 的 nobias 选项工作在 v 0
Java文本输出中的UTF-8编码问题

我一直致力于测试高棉语 Unicode Wordbreaker 的各种解决方案高棉语单词之间没有空格这使得拼写检查和语法检查变得困难以及从旧高棉语转换为高棉语 Unicode 我得到了一些源代码现在在线 http www white
如何对URL进行分类？ URL 的特点是什么？如何从 URL 中选择和提取特征

我刚刚开始研究分类问题这是一个两类问题我的训练模型机器学习必须决定预测是允许 URL 还是阻止它我的问题非常具体如何对 URL 进行分类我应该使用普通的文本分析方法吗 URL 的特点是什么如何从URL中选择和提取特征我假
在 NLTK Python 的朴素贝叶斯分类器中使用文档长度

我正在使用 Python 中的 NLTK 构建垃圾邮件过滤器现在我检查单词的出现情况并使用 NaiveBayesClassifier 其准确度为 0 98 垃圾邮件的 F 测量值为 0 92 非垃圾邮件的 F 测量值为 0 98 然而
车辆分割和跟踪

我已经从事一个项目一段时间了目的是在无人机捕获的视频中检测和跟踪移动车辆目前我正在使用 SVM 该 SVM 接受了从车辆和背景图像中提取的局部特征的特征袋表示的训练然后我使用滑动窗口检测方法来尝试定位图像中的车辆然后我想要跟踪
手动安装开放多语言世界网 (NLTK)

我正在使用一台只能访问专用网络并且无法从命令行发送指令的计算机因此每当我必须安装 Python 包时我都必须手动安装我什至不能使用 Pypi 幸运的是 NLTK 允许我手动下载语料库从here https www nltk org
使用决策树

我知道 tl dr 我将尝试解释我的问题而不会用大量蹩脚的代码来打扰您我正在做一项学校作业我们有蓝精灵的图片我们必须通过前景背景分析来找到它们我有一个 Java 决策树其中包含所有数据 HSV 直方图 1 一个节点然后尝试找到
敏感性特异性图 python

我正在尝试重现类似于此的灵敏度特异性图其中 X 轴是阈值但我还没有找到如何做到这一点一些 skalern 指标如 ROC 曲线会返回真阳性和假阳性但我还没有找到任何选项来制作此图我试图将概率与实际标签进行比较以保持计数我得到
文本摘要评估 - BLEU 与 ROUGE

根据两个不同摘要系统 sys1 和 sys2 的结果和相同的参考摘要我使用 BLEU 和 ROUGE 对它们进行了评估问题是 sys1 的所有 ROUGE 分数均高于 sys2 ROUGE 1 ROUGE 2 ROUGE 3 ROUGE
对法语文本进行词形还原[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一些法语文本需要以某种方式进行处理为此我需要首先将文本标记为单词然后对这些单词进行词形还原以避免多次处理相同的词根据我
R 中带有变音符号的字符列表

我试图将字符串中的电话字符出现次数制成表格但变音符号单独作为字符制成表格理想情况下我有一个国际音标的单词列表其中包含大量变音符号以及它们与基本字符的几种组合我在这里给出了仅包含一个单词的 MWE 但对于单词列表和更多类型的组合
使用 NLTK 生成字典以将推文分类为预定义类别

我有一个 Twitter 用户 screen names 列表我需要根据他们的兴趣领域将他们分为 7 个预定义类别教育艺术体育商业政治汽车技术我用 Python 提取了用户的最后 100 条推文并在清理推文后为每个用户创
在Python中表示语料库句子的一种热门编码

我是 Python 和 Scikit learn 库的初学者我目前需要从事一个 NLP 项目该项目首先需要通过 One Hot Encoding 来表示一个大型语料库我已经阅读了 Scikit learn 关于 preprocessi

随机推荐

Bootstrap 图标未显示在已发布的 ASP.NET MVC 应用程序中

注意请前往编辑 2 部分查看摘要我有一个 ASP NET MVC 4 应用程序我将 twitter Bootstrap 集成到其中 Bootstrap 工作正常但当我发布应用程序时图标无法正确显示我尝试重新发布该应用程序但没有
在 XAML 中设置命令目标

我很难理解 RoutedCommand 的 CommandTarget 属性基本上我有一些在用户控件而不是窗口中实现的静态命令我在用户控件中创建命令绑定如果我在用户控件中声明按钮那么我就可以使用我的路由事件但是当按钮位于用
C++0x 右值引用和临时值

我在 comp std c 上问了这个问题的变体但没有得到答案为什么调用f arg 在此代码中调用 const ref 重载f void f const std string less efficient void f std stri
我不应该调用 HostingEnvironment.UnregisterObject 吗？

在尝试在我的 ASP Net MVC 3 应用程序中通过 smtp 实现异步电子邮件时我遇到了问题SO SmtpClient SendAsync 阻止我的 ASP NET MVC 请求 https stackoverflow com qu
使用 dplyr 连接组内的所有行

假设我有一个像这样的数据框 hand id card id card name card class A 1 p alpha A 2 q beta A 3 r theta B 2 q beta B 3 r theta B 4 s gamma
在msbuild中过滤项目的元数据

我想使用修改后的元数据创建一个新的项目集合例如更改 ClCompile AdditionalIncludeDirectories 的分隔符为此我首先从AdditionalIncludeDirectories 元数据创建一个项目集合
如何更改 Scalatra 应用程序的“webapp”目录位置？

默认情况下 Scalatra 期望 webapp 目录位于src main webapp 如何将其更改为例如content doc root sbt 允许使用如下内容自定义其默认目录 scalaSource lt lt baseDirec
获取 iPhone 上当前的系统音量级别

有什么方法可以获取 iPhone 上当前的系统音量级别吗我在想也许有一种方法可以制作MPVolumeView并从中获取价值 musicPlayer MPMusicPlayerController iPodMusicPlayer curre
我如何知道我正在使用哪个版本的 OpenGL？

我开始使用 GLFW 和 OpenGL 用 C 目前编写程序我的问题是我如何知道我的程序将使用哪个版本的 OpenGL 我的笔记本电脑显示我的显卡支持 OpenGL 3 3 输入 glxinfo grep i opengl 返回 Op
从现有虚拟机创建 docker 镜像

我需要使用 CentOS 和 MySQL 创建 docker 基础镜像但我已经有这样的虚拟机没有docker 如何从现有的虚拟机创建基础 docker 镜像并在另一台带有 docker 的机器上使用它虽然其他评论者正确地指出将虚拟机
如何获取 pandas .plot(kind='kde') 的输出

当我绘制我的 pandas 系列的密度分布时我使用 plot kind kde 是否可以获得该图的输出值如果是的话该怎么做我需要绘制的值 plot kind kde https pandas pydata org docs refer
确定选择哪个 JRadioButton 的最佳方法是什么？

目前我正在以这种方式获取选定的按钮但如果这是正确最好的方法我不会也许有比这更简单或更面向对象的东西 private int getFilterType JRadioButton buttons for int i 0 n butto
使用 Angular 将日期转换为东部时区

我从服务器获取数据如下 2015 03 05T16 51 56 00 00 使用 Angular 我想将此日期时间显示为东部时间日期有没有办法用 Angular 指定不同的时区我正在做类似的事情 myDate date medium
Android 持久内容观察者

Android 中的内容观察者是否持久如果我在活动中创建内容观察者该观察者是否会继续运行直到我删除该观察者基本上我正在创建一项短信服务在接收和发送时我将短信发布到网络服务这样我就可以在没有手机的情况下检查我的消息如果内容观
libAdIdAccess.a 位置？

按照说明在 iOS 上将 IDFA 与 Google Analytics 结合使用 https developers google com analytics devguides collection ios v3 optional fea
Pandas groupby 多个字段然后 diff

所以我的数据框看起来像这样 date site country score 0 2018 01 01 google us 100 1 2018 01 01 google ch 50 2 2018 01 02 google us 70 3 2
如何使用 ConstraintLayout 让第一个 View 缩小以适应剩余空间？

我有以下布局注意Z位于下方Y 但限制在底部之间有一个很好的间隙Y and Z 由多余的垂直空间提供这是我的desired and actual当存在时的行为多余的垂直空间但是当显示键盘时我用完了多余的垂直空间期望的行为没有多
有没有办法*防止* ReSharper 并行运行程序集的单元测试？

我在单元测试设置中看到一个选项并行运行最多 1 2 个程序集但将其设置为 1 似乎仍然并行执行单个程序集的测试有没有办法完全禁用并行执行这是 ReSharper 6 1 您可以尝试在此处查看堆栈溢出答案如何串行运行 NUnit 测试
如何编写一个以可变参数函数作为参数的 Haskell 函数

我正在尝试创建一个函数该函数获取可变参数函数一个论点 i e func a gt gt a gt a 我怎样才能做到这一点我读过关于多变量函数 https stackoverflow com questions 3467279 how
使用 NLTK python 对使用示例数据或 Web 服务的句子进行情感分析？

我正在着手一个用于情感分析的 NLP 项目我已经成功安装了Python的NLTK 看起来是一个很棒的软件但是我无法理解如何使用它来完成我的任务这是我的任务我从一长条数据开始假设来自他们的网络服务的数百条关于英国大选主题的推文我

使用 NLTK python 对使用示例数据或 Web 服务的句子进行情感分析？

使用 NLTK python 对使用示例数据或 Web 服务的句子进行情感分析？ 的相关文章

随机推荐

热门标签

使用 NLTK python 对使用示例数据或 Web 服务的句子进行情感分析？的相关文章