Task4 基于深度学习的文本分类

2023-11-10

fastText模型的输入是一个词的序列(一段文本或者一句话),输出是这个词序列属于不同类别的概率。在序列中的词和词组构成特征向量,特征向量通过线性变换映射到中间层,再由中间层映射到标签。fastText在预测标签时使用了非线性激活函数,但在中间层不使用非线性激活函数。

import pandas as pd
from sklearn.metrics import f1_score

#转换为FastText需要的格式
train_df=pd.read_csv('../input/train_set.csv',sep='\t',nrows=15000)
train_df['label_ft']='__label__'+train_df['label'].astype(str)
train_df[['text','label_ft']].iloc[:-5000].to_csv('train.csv',index=None,header=None,sep='\t')

import fasttext
model=fasttext.train_supervised('train.csv',lr=1.0,wordNgrams=2,verbose=2,
                                 minCount=1,epoch=25,loss="hs")
val_pred=[model.predict(x)[0][0].split('__')[-1] for x in train_df.iloc[-5000:]['text']]
print(f1_score(train_df['label'].values[-5000:].astype(str),val_pred,average='macro'))                                 

fastText和word2vec的区别

相似处:图模型结构很像,都是采用embedding向量的形式,得到word的隐向量表达。都采用很多相似的优化方法,比如使用Hierarchical softmax优化训练和预测中的打分速度。

不同处:模型的输出层:word2vec的输出层,对应的是每一个term,计算某term的概率最大;而fasttext的输出层对应的是 分类的label。不过不管输出层对应的是什么内容,起对应的vector都不会被保留和使用; 模型的输入层:word2vec的输出层,是 context window 内的term;而fasttext 对应的整个sentence的内容,包括term,也包括 n-gram的内容;两者本质的不同,体现在 h-softmax的使用:Wordvec的目的是得到词向量,该词向量 最终是在输入层得到,输出层对应的 h-softmax 也会生成一系列的向量,但最终都被抛弃,不会使用。fasttext则充分利用了h-softmax的分类功能,遍历分类树的所有叶节点,找到概率最大的label(一个或者N个)

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Task4 基于深度学习的文本分类 的相关文章

  • 词干函数错误:词干需要一个位置参数

    这里的stem函数显示错误 指出stem需要循环中的一个位置参数 如所讨论的 from nltk stem import PorterStemmer as ps text my name is pythonly and looking fo
  • Blenderbot 微调

    我一直在尝试微调 HuggingFace 的对话模型 Blendebot 我已经尝试过官方拥抱脸网站上给出的传统方法 该方法要求我们使用 trainer train 方法来完成此操作 我使用 compile 方法尝试了它 我尝试过使用 Py
  • 生成易于记忆的随机标识符

    与所有开发人员一样 我们在日常工作中不断处理某种标识符 大多数时候 它与错误或支持票有关 我们的软件在检测到错误后 会创建一个包 该包的名称由时间戳和版本号格式化 这是创建合理唯一标识符以避免混淆包的一种廉价方法 例子 错误报告 20101
  • 语音识别中如何处理同音词?

    对于那些不熟悉什么是同音字 https en wikipedia org wiki Homophone是的 我提供以下示例 我们的 是 嗨和高 到 太 二 在使用时语音API https developer apple com docume
  • 用于估计(一元)困惑度的 NLTK 包

    我正在尝试计算我所拥有的数据的困惑度 我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co
  • 实时跟踪每分钟/小时/天的前 100 个 Twitter 单词

    我最近遇到这样一个面试问题 Given a continuous twitter feed design an algorithm to return the 100 most frequent words used at this min
  • 举例解释bpe(字节对编码)?

    有人可以帮忙解释一下背后的基本概念吗BPE模型 除了这张纸 https arxiv org abs 1508 07909 目前还没有那么多解释 到目前为止我所知道的是 它通过将罕见和未知的单词编码为子词单元序列来实现开放词汇表上的 NMT
  • 管道:多个流消费者

    我编写了一个程序来计算语料库中 NGram 的频率 我已经有一个函数 它消耗一串令牌并生成一个订单的 NGram ngram Monad m gt Int gt Conduit t m t trigrams ngram 3 countFre
  • 如何使用动词时态/语气制作稀疏匹配器模式?

    我一直在尝试使用动词时态和情绪为 spacy 匹配器创建一个特定的模式 我发现了如何使用 model vocab morphology tag map token tag 访问使用 spacy 解析的单词的形态特征 当动词处于虚拟语气模式
  • 获取 NLTK 索引的所有结果

    我正在使用 NLTK 来查找单词的一致性 但我不知道如何获取所有结果并将它们放入list or set 例如 text concordance word 仅打印前 25 个结果 TL DR text concordance lines 10
  • Java文本输出中的UTF-8编码问题

    我一直致力于测试高棉语 Unicode Wordbreaker 的各种解决方案 高棉语单词之间没有空格 这使得拼写检查和语法检查变得困难 以及从旧高棉语转换为高棉语 Unicode 我得到了一些源代码 现在在线 http www white
  • 使用 OpenNLP 获取句子的解析树。陷入困境。

    OpenNLP 是一个关于自然语言处理的 Apache 项目 NLP 程序的目标之一是解析一个句子 并给出其语法结构的树 例如 天空是蓝色的 这句话 可能会被解析为 S NP VP The sky is blue where S是句子 NP
  • Java 中的自然语言处理 (NLP) [重复]

    这个问题在这里已经有答案了 可能的重复 Java 有没有好的自然语言处理库 https stackoverflow com questions 870460 java is there a good natural language pro
  • 计算机AI算法写句子?

    我正在寻找有关处理文本句子或在创建在正常人类语言 例如英语 中有效的句子时遵循结构的算法的信息 我想知道这个领域是否有我可以学习或开始使用的项目 例如 如果我给一个程序一个名词 为其提供同义词库 相关单词 和词性 以便它理解每个单词在句子中
  • FastText - 由于 C++ 扩展未能分配内存,无法加载 model.bin

    我正在尝试使用 FastText Python APIhttps pypi python org pypi fasttext https pypi python org pypi fasttext虽然 据我所知 此 API 无法加载较新的
  • Python NLP 英式英语与美式英语

    我目前正在用Python 进行NLP 工作 然而 在我的语料库中 既有英式英语也有美式英语 实现 实现 我正在考虑将英式英语转换为美式英语 但是 我没有找到一个好的工具 包来做到这一点 有什么建议么 我也找不到包 但试试这个 请注意 我必须
  • 使用自定义层运行 Keras 模型时出现问题

    我目前正在攻读学士学位论文FIIT STU https www fiit stuba sk en html page id 749 其主要目标是尝试复制和验证以下结果study http arxiv org abs 2006 00885 这
  • 如何使用WordNet或与wordnet相关的类别来实现基于类别的文本标记?

    如何使用wordnet按单词类别标记文本 java作为接口 Example 考虑以下句子 1 计算机需要键盘 显示器 CPU才能工作 2 汽车使用齿轮和离合器 现在我的目标是 例句必须标记为 第 1 句话 电脑 电子键盘 电子中央处理器 电
  • 使用 NLTK 生成字典以将推文分类为预定义类别

    我有一个 Twitter 用户 screen names 列表 我需要根据他们的兴趣领域将他们分为 7 个预定义类别 教育 艺术 体育 商业 政治 汽车 技术 我用 Python 提取了用户的最后 100 条推文 并在清理推文后为每个用户创
  • Spacy提取特定名词短语

    我可以在 python 中使用 spacy 来查找具有特定邻居的 NP 吗 我想要文本中前后都有动词的名词短语 您可以合并名词短语 这样它们就不会单独标记化 分析依存解析树 查看相邻标记的 POS gt gt gt import spacy

随机推荐

  • 2023-9-10 Nim游戏

    题目链接 Nim游戏 include
  • 正则数字和小数点_正则实践与详解

    一 关于数字 1 全为数字 d d 匹配数字 a 0或多次a a a开头 a a结尾 2 至少n位数字 d n a n a指定n次 a n a至少n次 a n m a指定n到m次 3 非零开头的数字 1 9 d xyz 字符集合 匹配其中任
  • java Web实现用户登录功能

    文章目录 一 纯JSP方式实现用户登录功能 一 实现思路 1 创建Web项目 2 创建登录页面 3 创建登录处理页面 4 创建登录成功页面 5 创建登录失败页面 6 编辑项目首页 三 测试结果 二 JSP Servlet方式实现用户登录功能
  • mysql清空表数据后如何让自增ID仍从1开始

    mysql清空表数据后如何让自增ID仍从1开始 也就是说如何重排auto increment 重排auto increment有2种方法 1 清空表时使用truncate命令 而不用delete命令 mysql gt truncate te
  • staruml怎么设置为中文_Ubuntu 系统设置为中文

    1 首先点击系统右上方倒三角 展开详细功能菜单 gt 点击 Settings gt 打开设置界面 2 设置界面左侧点击 Region Language 显示区域与语言设置面板 gt 点击 Manage Installed Languages
  • jenkins+allure,生成的allure报告打开空白

    问题 jenkins allure 生成的allure报告打开空白 分析过程 第一步 判断配置中的执行命令是否正确 命令行分析 cd auto INC MTISP CORE mtisp auto lqx 切换到我实际需要执行的包的路径下 D
  • K8S搭建以及使用

    组件 1 主机 Master 用于控制整个Kubernetes集群 2 节点 node 负责执行请求和分配所有任务的节点 3 容器集 Pod 部署在 node 节点上 且包至少含一个或多个容器 同一个容器集中的所有容器共享同一个IP地址 主
  • axes don‘t match array

    axis don t match array的问题 写一个神经网络进行图像分类 在读取数据的部分报错如下 1 numpy core exceptions UFuncTypeError Cannot cast ufunc subtract o
  • Linux(ubuntu)内容整理(常用命令)

    1 基础快捷键 命令 含义 ctrl c 强制停止 ctrl d 退出登出 histroy 查看历史命令 命令前缀 自动匹配上一个命令 ctrl r 搜索历史命令 ctrl a e 光标移动到命令开始或结束 ctrl 箭头 左右跳单词 ct
  • vue的学习与使用

    目录 基础语法 判断与循环v if v else for if for 事件 v on Vue双向绑定 Vue组件 计算属性 插槽 slot 自定义事件内容分发 创建一个vue程序 Webpack 什么是webpack 安装Webpack
  • 【VISIO安装问题】无法安装64位版本的office,因为在您的PC上找到以下32位程序

    无法安装64位版本的office 因为在您的PC上找到以下32位程序 当我们想要安装visio 64位程序的时候 我们的电脑提示这种错误 可能是我们电脑上32位 visio程序并未删除干净 直接卸载电脑上的32位visio程序有时候可能卸载
  • 严重: testWhileIdle is true, validationQuery not set ;使用连接池错误(无Spring框架,使用的JDK9,MYSQL8版本)

    在properties配置文件下添加一些配置 driverClassName com mysql cj jdbc Driver url jdbc mysql localhost 3306 javaweb userSSL true serve
  • C++ decltype用法详解

    1 什么是decltype decltype是C 11新增的一个关键字 和auto的功能一样 用来在编译时期进行自动类型推导 引入decltype是因为auto并不适用于所有的自动类型推导场景 在某些特殊情况下auto用起来很不方便 甚至压
  • Linux中grep函数的一些常见问题

    linux中grep 的详细用法已经有许多人介绍过了 本文是作者在学习过程中的总结和对原文中一些没有被提及或者含糊不清的概念的理解 一 grep概述 grep的全称是global regular expression print 即全局正则
  • 门子1200plc485 modbus rtu通讯,55条通讯,几百个数据,1s内完成

    门子1200plc485 modbus rtu通讯 55条通讯 几百个数据 1s内完成 最主要的是 别人的485要上升沿 还要写后面的完成和错误变量 又臭又长 我的 每条程序不用写上升沿 也不用管后面通讯的引脚 又快又省心 直接填写通讯地址
  • 云原生Kubernetes:pod基础与配置

    目录 一 理论 1 pod 2 pod容器分类 3 镜像拉取策略 4 pod 的重启策略 二 实验 1 Pod容器的分类 2 镜像拉取策略 三 问题 1 apiVersion 报错 2 pod v1版本资源未注册 3 格式错误 4 取行显示
  • Linux下安装Tomcat正常启动但是端口没有监听

    Linux下安装JDK1 7 然后安装Tomcat9 0 启动Tomcat端口没有监听 报错如下 Exception in thread main java lang UnsupportedClassVersionError org apa
  • 【火线解码】001.避免在finally语句块中使用return语句

    火线团队推出 火线解码 系列文章 每一篇解释一种不规范的代码写法 用较短的篇幅让大家快速的了解代码规范问题 001 避免在finally语句块中使用return语句 错误的代码示例 public class Bar public Strin
  •  Kaggle基本知识

    目录 Kaggle介绍 1 基本情况 2 含金量 部分Kaggle题目 kaggle的比赛类型选择 1 面向初学者 2 面向竞赛者 3 面向求职者 4 其他比较冷门的比赛类型 建议 申请Kaggle项目 1 项目导师背景 2 项目进阶分级
  • Task4 基于深度学习的文本分类

    fastText模型的输入是一个词的序列 一段文本或者一句话 输出是这个词序列属于不同类别的概率 在序列中的词和词组构成特征向量 特征向量通过线性变换映射到中间层 再由中间层映射到标签 fastText在预测标签时使用了非线性激活函数 但在