我正在着手一个用于情感分析的 NLP 项目。
我已经成功安装了Python的NLTK(看起来是一个很棒的软件)。但是,我无法理解如何使用它来完成我的任务。
这是我的任务:
- 我从一长条数据开始(假设来自他们的网络服务的数百条关于英国大选主题的推文)
- 我想将其分解为句子(或信息不超过 100 个左右字符)(我想我可以在 python 中做到这一点?)
- 然后在所有句子中搜索该句子中的特定实例,例如“大卫·卡梅伦”
- 然后我想检查每个句子中的积极/消极情绪并相应地计算它们
注意:我并不太担心准确性,因为我的数据集很大,而且也不太担心讽刺。
以下是我遇到的麻烦:
我能找到的所有数据集,例如NLTK附带的语料库电影评论数据不是Web服务格式。看起来这已经完成了一些处理。据我所知,处理(由斯坦福大学)是用 WEKA 完成的。 NLTK 自己不可能完成这一切吗?这里所有的数据集已经被组织成正/负,例如极性数据集http://www.cs.cornell.edu/People/pabo/movie-review-data/ http://www.cs.cornell.edu/People/pabo/movie-review-data/这是怎么做到的? (按情感来组织句子,肯定是WEKA?还是别的什么?)
我不确定我是否理解为什么 WEKA 和 NLTK 会一起使用。看起来他们做的事情几乎是一样的。如果我首先使用 WEKA 处理数据来寻找情绪,为什么我需要 NLTK?是否可以解释为什么这可能是必要的?
我发现一些脚本在某种程度上接近此任务,但所有脚本都使用相同的预处理数据。是否无法自己处理这些数据以查找句子中的情绪,而不是使用链接中给出的数据样本?
非常感谢任何帮助,这会节省我很多头发!
干杯柯
电影评论数据已经被人类标记为正面或负面(做出评论的人给电影评分,用于确定极性)。这些黄金标准标签允许您训练分类器,然后您可以将其用于其他电影评论。您可以使用该数据在 NLTK 中训练分类器,但将结果应用于选举推文可能不如随机猜测正面或负面准确。或者,您可以自己浏览数千条推文并将其标记为正面或负面,并将其用作您的训练集。
有关使用朴素贝叶斯通过 NLTK 进行情感分析的说明:http://streamhacker.com/2010/05/10/text-classification-sentiment-analysis-naive-bayes-classifier/ http://streamhacker.com/2010/05/10/text-classification-sentiment-analysis-naive-bayes-classifier/
然后在该代码中,不使用电影语料库,而是使用您自己的数据来计算字数(在word_feats
方法)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)