情感分析概述

2023-10-29

情感分析主要研究观点挖掘、倾向性分析等。

一,为什么需要观点挖掘和倾向性分析

文本信息主要包括两类:

  • 客观性事实
  • 主观性观点

但是已有的文本分析方法主要侧重在客观性文本内容的分析和挖掘。

二,什么是观点挖掘与倾向性分析

观点挖掘与倾向性分析就是从海量数据中挖掘观点信息,并分析观点信息的倾向性。

观点挖掘与倾向性分析的主要任务有:

  • 观点及倾向性识别:如情感识别。
  • 观点要素抽取:包括观点属性抽取和观点摘要。
  • 观点检索

1,情感识别

内容上可分为:

  • 观点识别:主观的还是客观的。
  • 极性分类:褒义、贬义还是中性的。
  • 情感强度识别:例如好、非常好等…

粒度等级上可分为:

  • 词级别:识别一个词的倾向性。
  • 特征级别(Aspect Level):识别一个Aspect的倾向性。如价格方面。
  • 句子级别:识别一个句子的观点倾向性。
  • 文档级别:识别一篇文本整体的倾向性。

2,观点属性抽取

  • 观点持有者抽取:通常为命名实体、名词性短语或者术语。
  • 观点目标抽取:通常为术语、事件、实体等

3,观点摘要

4,观点检索

根据用户的查询从文档中找出对于主题信息发表了观点的文档,主题相关并且具有主观倾向性。

三,典型方法

1,情感识别

(1)词级别

任务:识别词语的情感倾向性,构建词典资源。

基本思路:利用词之间的相似度进行扩展。

方法:基于词典的方法或者基于语料库的方法。

(2)句子级别

任务:识别句子的情感倾向性。

关键问题:如何进行特征表示。

分类:基于语料库的方法、基于词典的方法和融合方法。

与传统的基于话题的文本分类侧重于主题词特征相比,情感识别中表示倾向性的词语更加重要。

基于语料库的方法的步骤:

  1. 特征选择
  2. 极性迁移:多种语言现象造成的句子内部词的倾向性转移。例如“不是很漂亮”,其中“不是”就对“漂亮”这个词进行了倾向性的转移。
  3. 极性迁移的检测:可使用基于神经网络的方法。

(3)文档级别

任务:识别篇章整体观点倾向性。

绝大多数方法与句子级别方法类似:特征+分类器。

关键问题:多观点倾向性,即一篇商品评论中可能包含对于商品多方面的观点,每个观点的倾向性也可能不同,如何识别篇章整体的观点倾向性。

基于句子的划分的方法,因为篇章中的客观句对于篇章的整体观点倾向性没有意义,所以可以:

  1. 利用图算法从篇章中识别出观点句,剔除客观句。
  2. 只利用观点句来识别篇章整体的观点倾向性。

观点句抽取

然后考虑篇章中每个句子对于篇章整体倾向性的贡献:

  • 句子级倾向性和篇章级倾向性识别一体化。
  • 考虑句子的上下文特征。
  • 结构化CRFs模型。

结构化的CRFs

当然也可以使用基于深度学习的方法:

篇章级倾向性识别

主要问题:多观点混合问题,即篇章中局部观点与整体观点不一致。

(4)其他

  • 跨语言观点识别与分析。
  • 领域适应性。

2,观点挖掘

(1)观点对象抽取

任务:抽取观点评价的对象。

方法:利用属性词与评价词之间的依存句法关系。

(2)观点持有者抽取

基本思路:

  • 命名实体识别
  • 句法结构特征:卷积核
  • 分类或者序列标注:SVM、NB、CRFs
  • 指代消解

3,观点检测

任务:从海量文本中根据查询找到观点信息。

根据主题相关度与观点倾向性对于结果进行重排序。

  • 主题相关度:传统检索
  • 观点倾向性:观点识别

关键问题:找到主题相关度得分与观点倾向性得分的折中。

基于句子的观点检索:

  • BOW不能很好地表示文档中的观点信息。
  • 利用topic-sentiment pair表示每一个句子。
  • 采用窗口共现策略抽取pair。
  • 利用HITS算法来计算每个pair在篇章中的权重。

HITS

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

情感分析概述 的相关文章

  • Python趣味编程3则:李白买酒、猴子吃桃、宝塔上的琉璃灯

    1 李白买酒 问题描述 李白街上走 提壶去买酒 遇店加一倍 见花喝一斗 店不相邻开 花不成双长 三遇店和花 喝光壶中酒 请问此壶中 原有多少酒 简单分析 题目中加一倍是指再购买和壶中酒同样数量的酒 喝一斗是指喝掉壶中的一斗酒 根据描述 李白

随机推荐

  • 看完这篇 教你玩转渗透测试靶机vulnhub—Corrosion:2

    Vulnhub靶机Corrosion 2渗透测试详解 Vulnhub靶机介绍 Vulnhub靶机下载 Vulnhub靶机安装 Vulnhub靶机漏洞详解 信息收集 Tomcat msf 上传漏洞拿到shell look越权操作 sudo执行
  • 一个月的学习体会

    匆忙的一个月的学习已经结束了 感觉自己也从刚开始的冲劲满满开始有了疲惫感 特别是最近由于疫情经常半夜2 3点 56点做核酸 导致睡眠不足 上课就开始打瞌睡 头一次产生如此重的疲惫感 但是钱一个月的学习总的来说 收获还是挺大的 就自我感觉到的
  • 最大子数组和(Python)

    给一个整数数组 nums 请找出一个具有最大和的连续子数组 子数组最少包含一个元素 返回其最大和 子数组是数组中的一个连续部分 示例 1 输入 nums 2 1 3 4 1 2 1 5 4 输出 6 解释 连续子数组 4 1 2 1 的和最
  • chrome浏览器91版本SameSite by default cookies被移除后的解决方案,Chrome中跨域POST请求无法携带Cookie的解决方案

    周一早上一打开电脑准备开发项目时候 突然发现网站登录跳转有异常 怎么都登录不上一直跳回登录页 通过抓包排除了后端的原因后 发现后端的set cookie没有效果 突然想起Chrome禁用第三方Cookies的计划 打开Edge的更新记录发现
  • Ubuntu下自动启动终端并运行脚本或命令

    1 2 command填写示例 gnome terminal x home river startupRun sh 3 startupRun sh示例 date sleep 5 date gnome terminal mnt hgfs E
  • Druid关闭自动重试

    设置两个属性就可以了 来自druid GitHub connectionErrorRetryAttempts 0 breakAfterAcquireFailure true
  • 正大国际期货:恒指交易如何避免频繁止损?

    正大国际金融控股有限公司 简称 正大国际 成立于2019年11月4日 为香港证监会辖下之持牌法团 证监会中央编号 BOP620 从事第2类及第5类受规管活动及期货合约交易及就期货合约提供意见 主要从事商品期货经纪 金融期货经纪业务 致力于提
  • DATEDIFF() 函数——返回两个日期之间的时间

    定义和用法 DATEDIFF 函数返回两个日期之间的时间 语法 DATEDIFF datepart startdate enddate startdate 和 enddate 参数是合法的日期表达式 datepart 参数可以是下列的值 实
  • HarmonyOS开发:那些开发中常见的问题汇总(一)

    前言 本来这篇文章需要讲述静态共享包如何实现远程依赖和上传以及关于静态共享包私服的搭建 非常遗憾的告诉大家 由于组织管理申请迟迟未通过 和部分文档官方权限暂未开放 关于这方面的讲解需要延后了 大概需要等到2024年第一季度 也就是来年 毕竟
  • windows Server 2012 R2安装部署

    Windows Server 2012 R2 是基于Windows8 1 以及Windows RT 8 1 界面的新一代 Windows Server 操作系统 提供企业级数据中心和混合云解决方案 易于部署 具有成本效益 以应用程序为重点
  • Delphi 通过TNetHTTPClient访问http,最新解析快手无水印视频地址链接方法

    一 解析快手无水印视频链接原理 共分三个步骤 1 通过视频分享获得视频地址短链接 如 https www kuaishou com f X7tIV0jIivYUyTk 2 通过TNetHTTPClient重定向获得视频地址长链接 如 htt
  • 把桌面从C盘改到D盘,结果直接让D盘变成了桌面,改回去发现图标变少了

    昨天晚上我一时兴起想把我电脑桌面的位置改到D盘 然后我就打开了它的属性 把位置改了 点了 应用 后弹出来一个弹窗 询问我 是否要将所有文件从原位置移动到新位置 我点了 是 其实正常来讲只要你那个新位置是个文件夹就可以 但是我当时不知道 我没
  • JavaSHA-256加解密

    Java中可以使用java security MessageDigest类来进行SHA 256加密 以下是一个使用SHA 256加密字符串的示例代码 import java security MessageDigest public cla
  • IBM发布基于OpenStack的服务

    原文地址 http www csdn net article 2013 03 05 2814349 IBM lunch service based on OpenStack 时隔13年后 IBM再一次拥抱开源 这一次 是被称为21世纪Lin
  • spi设备驱动

    include
  • iOS第三方支付集成-微信支付

    序言 说来惭愧 终于有支付的需求给我做了 哇嘎嘎 开动 文章尽量写的详细点 从自身出发 希望能给大家一点帮助 欢迎大佬指正 支付流程 步骤1 用户在商户APP中选择商品 提交订单 选择微信支付 步骤2 商户后台收到用户支付单 调用微信支付统
  • hdlm 5.9在hacmp中的配置

    hdlm 5 9是hds多路径软件最新版本的 它与以前版本有不小的改进 比如以前一个ldev 如果有4个通道 那么在os上面可以看到4个hdisk 然后这个hdisk再组成一个dlmfdrv 在5 9中只有一个hdisk 没有dlmfdrv
  • 音视频编码类型

    H264 格式介绍 avcc 前四个字节表示nalu的size 大端 Annex B 0x000001或者0x00000001开始码 nalu针对0x000000 0x000001 0x000002和0x000003插入0x03防竞争字节
  • IDEA导入Eclipse项目步骤详解

    IDEA导入Eclipse项目步骤详解 文章目录 IDEA导入Eclipse项目步骤详解 首先在idea里file gt new gt Project from Existing Sources 选中到要导入的项目 这里我选用创建新的 Cl
  • 情感分析概述

    情感分析主要研究观点挖掘 倾向性分析等 一 为什么需要观点挖掘和倾向性分析 文本信息主要包括两类 客观性事实 主观性观点 但是已有的文本分析方法主要侧重在客观性文本内容的分析和挖掘 二 什么是观点挖掘与倾向性分析 观点挖掘与倾向性分析就是从