在 NLP 中训练 Unigram 标记器

2023-11-05

介绍

单个标记称为 unigram。Unigram 标记器是一种只需要一个单词来推断单词的词性标记器类型。它有一个单词的上下文。NLTK库为我们提供了UnigramTagger,并从NgramTagger继承而来。

在本文中,让我们了解 Unigram Tagger 在 NLP 中的训练过程。

Unigram Tagger及其使用NLTK的培训

加工

  • UnigramTagger继承自ContextTagger。实现了 context() 方法。上下文方法具有与 choose_tag() 相同的参数

  • 从 context() 方法中,将使用单词标记来创建模型。这个词用于寻找最好的标签。

  • UnigramTagger将创建一个带有上下文的模型。

蟒蛇实现

import nltk nltk.download('treebank') from nltk.tag import UnigramTagger from nltk.corpus import treebank as tb sentences_trained = treebank.tagged_sents()[:4000] uni_tagger = UnigramTagger(sentences_trained) print("Sample Sentence : ",tb.sents()[1]) print("Tag sample sentence : ", uni_tagger.tag(tb.sents()[1]))

输出

Sample Sentence :  ['Mr.', 'Vinken', 'is', 'chairman', 'of', 'Elsevier', 'N.V.', ',', 'the', 'Dutch', 'publishing', 'group', '.'] Tag sample sentence :  [('Mr.', 'NNP'), ('Vinken', 'NNP'), ('is', 'VBZ'), ('chairman', 'NN'), ('of', 'IN'), ('Elsevier', 'NNP'), ('N.V.', 'NNP'), (',', ','), ('the', 'DT'), ('Dutch', 'JJ'), ('publishing', 'NN'), ('group', 'NN'), ('.', '.')]

在上面的代码示例中,第一个 Unigram 标记器是在 Treebank 的前 4000 个句子上进行训练的。训练句子后,对任何句子使用相同的标记器对其进行标记。在上面的代码示例中,使用了句子 1。

下面的代码示例可用于测试Unigram标记器并对其进行评估。

from nltk.corpus import treebank as tb sentences_trained = treebank.tagged_sents()[:4000] uni_tagger = UnigramTagger(sentences_trained) sent_tested = treebank.tagged_sents()[3000:] print("Test score : ",uni_tagger.evaluate(sent_tested))

输出

Test score :  0.96

在上面的代码示例中,unigram 标记器经过训练和 4000 个句子,然后在最后 1000 个句子上进行评估。

平滑技术

在许多情况下,我们需要在NLP中构建统计模型,例如,可以根据训练数据或句子的自动完成来预测下一个单词。在如此多的单词组合或可能性的宇宙中,获得最准确的单词预测是必不可少的。在这种情况下,可以使用平滑。平滑是一种调整训练模型中概率的方法,以便它可以更准确地预测单词,甚至预测训练语料库中不存在的适当单词。

平滑的类型

拉普拉斯平滑

它也被称为加 1 一平滑,我们在分母中的字数上加 1,这样我们就不会产生 0 值或除以 0 条件

例如

Problaplace (wi | w(i-1)) = (count(wi w(i-1)) +1 ) / (count(w(i-1)) + N) N = total words in the training corpus Prob("He likes coffee") = Prob( I | <S>)* Prob( likes | I)* Prob( coffee | likes)* Prob(<E> | coffee) = ((1+1) / (4+6))   *  ((1+1) / (1+8))  *  ((0+1) / (1+5))  *  ((1+1) / (4+8)) = 0.00123

退避和插值

它涉及两个步骤

退库流程
  • 我们从 n-gram 开始,

  • 如果观察不充分,我们会检查 n-1 克

  • 如果我们有足够的观察,我们使用 n-2 克

插值过程
  • 我们使用不同 n 元语法模型的合并

例如,考虑到他去的句子xxx,我们可以说他去的三元语法已经出现过一次,如果单词是to,他去的单词的概率是1,对于所有其他单词都是0。

结论

UnigramTagger是一个有用的NLTK工具,用于训练一个标记器,该标记器可以仅使用单个单词作为上下文来确定句子的词性。UnigramTagger 在 NLTK 工具包中可用,该工具包使用 Ngarm Tagger a sits 父类。

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 NLP 中训练 Unigram 标记器 的相关文章

随机推荐

  • matlab的详细使用方法

    help命令 格式help 函数名 例 局部上 1 help plot 二维绘图 2 help elfun 基本函数 初等函数的帮助 3 help exp 指数函数的简单帮助 4 网页格式的帮助doc exp 5 Lookfor 模糊查询
  • vscode连接远程服务器+SFTP同步本地文件

    vscode连接远程服务器 SFTP同步本地文件 前言 准备工作 配置远程服务器 SFTP 前言 最近在做毕设 本来使用的是kaggle的gpu资源 但是上传数据 修改数据实在不方便 于是向实验室学长要了一个单卡服务器 下面介绍如何使用vs
  • Android使用SharedPreferences(sp)存储基本数据类型、List集合、Map集合、对象都在这了

    基于一些小伙伴说在取出对象的时候出现null 这个问题可能是因为你的对象没有序列化的原因 如果存在内部类的也需要进行序列化 看下面的例子 public class Test implements Serializable 内部类 publi
  • c语言蛇形填充数组,蛇形

    题目描述 蛇形矩阵是由1开始的自然数依次排列成的一个矩阵上三角形 例如 当输入5时 应该输出的三角形为 1 3 6 10 15 2 5 9 14 4 8 13 7 12 11 请注意本题含有多组样例输入 输入描述 输入正整数N N不大于10
  • vue中使用简单的回调函数

    使用场景 比如 多个新增接口一样 只是新增之后调用的列表接口不一致 this getTalkBy 列表接口的回调 调用 this getAddTalkLike this getTalkBy 新增接口 getAddTalkLike callb
  • 大神总结的图像处理学习路线

    图像处理 第一阶段 熟悉图像算法 推荐中科院研究生院刘定生老师的数字图像处理与分析 视频 配套的书籍 冈萨雷斯版数字图像处理 同时用matlab软件 仿真每一个图像算法案例 推荐 matlab宝典 第二阶段 认真学习C 推荐 C Prime
  • 基于Smack3.0.4+ Openfire3.10.2开发之Android 客户端之四

    我们在之前依次介绍openfire部署以及smack常用API的使用 这一节中我们着力介绍如何基于asmack开发一个Android的客户端 本篇的重点在实践 讲解和原理环节 大家可以参考前面我所发布的OpenFire和Smack的相关文章
  • 10.JavaWeb-logback日志

    1 日志的概念 日志是用于记录软件系统运行时状态和事件的重要工具 在软件开发中 日志是一种常用的调试和故障排查手段 同时也可以用于性能分析 用户行为追踪和系统监控等方面 1 1日志特点 灵活性 可以根据需要配置日志的级别和输出目标 方便在不
  • MCU和DSP区别

    1 概述 随着处理器技术的不断发展 目前来看CPU Central Processing Unit 逐渐出现三种分支 分别是DSP Digital Signal Processing Processor 数字信号处理 以及MCU Micro
  • 第四天笔记

    1 盒子模型 内边距 应用于所有边 padding 1em 上边下边 左边右边 padding 5 10 上边 左边右边 下边 padding 1em 2em 2em 上边 右边 下边 左边 padding 5px 1em 0 2em 全局
  • JavaScript给URL追加参数

    代码 appendQuery url key value gt var options key if typeof options string options options key value options param options
  • 傅里叶变换在图像处理中的应用

    目录 基本概念 超详细的图像中傅里叶理解及常用模板 请参考 https blog csdn net m0 37264397 article details 70186390 应用一 使用C opencv对图像进行傅里叶变换 再根据频谱图对原
  • STM32----IIC详解

    一 IIC简介 1 IIC总线概述 IIC总线是飞利浦公司研发的两线制串行通信总线 IIC两线制包括 串行时钟线 SCL 和串行数据线 SDA 串行时钟线 SCL 只能由主器件控制 串行数据线 SDA 实现双向数据传输 IIC通信属于同步
  • 在IE中使用ActiveX控件,需要使用HTML中的标志是

    在 中使用ActiveX控件 需要使用HTML中的标志是
  • 【C语言】二分查找(含图解)

    文章目录 1 二分查找思想 2 代码实现 2 1 未封装函数 2 2 封装函数 使用while循环 2 3 封装函数 使用递归 1 二分查找思想 二分法 二分查找算法是一种在有序数组中查找某一特定元素的搜索算法 其思想就是不断地将有序查找表
  • 5.2 可变参数

    5 2 可变参数 Lua函数可以接受可变数目的参数 和C语言类似在函数参数列表中使用三点 表示函数有可变的参数 Lua将函数的参数放在一个叫arg的表中 除了参数以外 arg表中还有一个域n表示参数的个数 例如 我们可以重写print函数
  • JAVA根据模板生成PDF文件并导出

    JAVA根据模板生成并导出PDF 实现功能 根据模板生成PDF文件 模板文件参数可配 可手动修改 一 PDF导出效果 先看一下导出的demo文件 具体样式可手动修改 下图为demo pdf ftl导出PDF文件 下图为list pdf ft
  • 图像分割之Unet解析及实现代码

    Unet解析及实现代码 论文连接 https arxiv org pdf 1505 04597 pdf 源码连接 https github com FENGShuanglang unet 图像分割 Unet网络结构详解 Unet网络结构 o
  • c++ auto关键字使用

    C 11 auto可以在声明变量的时候根据变量初始值的类型自动为此变量选择匹配的类型 类似的关键字还有decltype 举个例子 int a 10 auto au a a 自动类型推断 au a为int类型 cout lt lt typei
  • 在 NLP 中训练 Unigram 标记器

    介绍 单个标记称为 unigram Unigram 标记器是一种只需要一个单词来推断单词的词性标记器类型 它有一个单词的上下文 NLTK库为我们提供了UnigramTagger 并从NgramTagger继承而来 在本文中 让我们了解 Un