python:正向最大匹配法分词（以藏文为例）

2023-11-16

前段时间研究了如何用分词工具进行分词，但是分词中涉及的一些算法，不太了解，所以，准备这段时间专攻分词算法原理，大家有补充，或者建议，欢迎留言。

1. 最大匹配法(Maximum Matching)

最大匹配法是指以词典为依据，取词典中最长词长度作为第一次取字数量的长度，在词典中进行扫描。例如：词典中最长词为“中华人民共和国”共7个汉字，则最大匹配起始字数为7个汉字。然后逐字递减，在对应的词典中进行查找。

最大匹配法主要包括正向最大匹配法（FMM，Forward Maximum Matching）、反向最大匹配法（BMM, Backward Maximum Matching）和双向最大匹配法，均是基于词典的。

缺点：

需要给定词典，如果词典中记录不全，比如新词没在字典中，可能就识别不出来；
矛盾之处：词典中的词少的话，会影响准确率，词典中词多的话，会影响运行效率；
优化：

为提升扫描效率，还可以跟据字数多少设计多个字典，然后根据字数分别从不同字典中进行扫描。
1.1 正向最大匹配法
正向即从左往右取词，取词最大长度为词典中长词的长度，每次右边减一个字，直到词典中存在或剩下1个单字。
比如：ཁྱོད་སློབ་མ་སློབ་ཁང་ནང་དུ་སློབ་ཁྲིད་བྱས།

import copy
tibetdict = {'སློབ་མ', 'སློབ་ཁང', 'ནང་དུ', 'སློབ་ཁྲིད'}
s = 'ཁྱོད་སློབ་མ་སློབ་ཁང་ནང་དུ་སློབ་ཁྲིད་བྱས'


# print(s[:len(s)-1])
def TibetSplit(tibet):
    # print(tibet)
    temp = ''
    result = ''
    # return
    while len(tibet) > 0:
        tibet = tibet.strip('་')
        temp = copy.deepcopy(tibet)
        # print(tibet)

        while len(temp) > 0:
            if temp in tibetdict:
                result += temp + '/'
                tibet = tibet[len(temp):]
                # print(tibet,123)
                temp = ''
            else:

                if '་' not in temp:
                    result += temp + '/'
                    tibet = tibet[len(temp):]
                    temp = ''
                else:
                    temp = temp[:len(temp) - 1]
    print(result)
TibetSplit(s)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

开发语言

python:正向最大匹配法分词（以藏文为例）的相关文章

在 Python 中解析 TCL 列表

我需要在双括号上拆分以空格分隔的 TCL 列表例如 OUTPUT 172 25 50 10 01 01 Ethernet 172 25 50 10 01 02 Ethernet Traffic Item 1 172 25 50 10 01
Python 类型提示 Dict 语法错误可变默认值是不允许的。使用“默认工厂”

我不知道为什么解释器会抱怨这个类型的字典对于这两个实例我得到一个不允许可变默认值使用默认工厂语法错误我使用的是 python 3 7 3 from dataclasses import dataclass from typing
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
打印数字时添加千位分隔符[重复]

这个问题在这里已经有答案了我真的不知道这个问题的名称所以它可能是一个不正确的标题但问题很简单如果我有一个数字例如 number 23543 second 68471243 我想要它使print 像这样 23 54368 471
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
嵌套作用域和 Lambda

def funct x 4 action lambda n x n return action x funct print x 2 prints 16 我不太明白为什么2会自动分配给n n是返回的匿名函数的参数funct 完全等价的定义fu
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

【Spring】AOP实例—日志模块的实现

AOP实例日志模块 AOP能够使系统服务例如日志模块安全模块事务管理模块化并以声明的方式将它们应用到它们需要影响的组件中去使业务组件会具有更高的内聚性并且会更加关注自身的业务完全不需要了解涉及系统服务所带来复杂性日志模块
Java BufferImage图片处理（获取宽高、图片截取、转换灰度图）

Java BufferImage图片处理获取宽高截取转换灰度图 1 效果图 2 源码参考这篇博客将介绍如何使用Java读取图片为byte 数组或者BufferedImage及互相转换并进行了转换图片为灰度图截取部分区域等 1
电脑win+r命令大全

0 osk 打开键盘 1 msconfig 关闭系统开机启动项 2 ipconfig all ipconfig release ipconfig renew 3 convert g fs ntfs 盘符格式转换 g代表U盘符 4 gpedi
DSS部署-完整版

文章目录 DSS部署流程第一部分背景第二部分准备虚拟机环境初始化 1 准备虚拟机 2 环境初始化关闭防火墙关闭selinux 关闭swap 根据规划设置主机名在master添加hosts 将桥接的IPv4流量传递到iptab
现在机器人是用什么语言编程

现在机器人是用什么语言编程对于很多的家长们来说孩子的学习一直都是他们非常关心和重视的一件事情很多的家长在培养孩子的学习方面也可以说是相当的认真的他们会给孩子选择一些能够有利于孩子成长的课程就拿现在很多的家长想要孩子去学习机器人编程
【搜索引擎Solr】Apache Solr 神经搜索

Sease 1 与 Alessandro Benedetti Apache Lucene Solr PMC 成员和提交者和 Elia Porciani Sease 研发软件工程师共同为开源社区贡献了 Apache Solr 中神经搜索的
【开发】前端工程——ReactJS

前置知识 JavaScript ES6 ReactJS 前端开发的四个阶段 1 静态页面阶段在第一个阶段中前端页面都是静态的所有前端代码和前端数据都是后端生成的前端纯粹只是增加一些特殊效果后端MVC模式 Model 模型层提供保
删除重复字符排序字符串（python3）

问题描述编写一个程序从键盘接收一个字符串然后按照字符顺序从小到大进行排序并删除重复的字符输入形式从键盘输入一个字符串以回车结束输入要求程序可以处理含有空格的字符串输出形式程序接收此字符串然后将其按照字符ASCII码值从
vue阶段思维导图
springboot 打印请求路径到日志控制台

文章目录 application properties 添加 logging level org springframework web servlet mvc method annotation RequestMappingHandler
安装双系统后，将windows设置为默认启动选项的方法

原先的电脑只有windows系统后来加装了ubuntu系统但由于大部分时间仍然需要使用windows 但是默认启动项为ubuntu 难免会带来一些不便将windows设为默认第一启动项的方法很简单打开终端查看grub的配置文件 s
VC++实用宏定义

前言在日常的编程工作中常常定义一些实用的宏方便调用该文章将收集一些常用的宏供大家参考欢迎大家讨论和添加指针释放最常用的就是指针的安全释放对应new的释放 ifndef ReleasePtr define ReleasePtr
File Processing by Python

Go through all the file in destination path import os import sys def GetFileList dir fileList newDir dir if os path isfi
【计算机网络】TCP协议

实验目的应用所学知识 1 熟悉 TCP 的协议格式 2 理解 TCP 对序列号和确认号的使用 3 理解 TCP 的流量控制算法和拥塞控制算法实验步骤与结果 1 任务一将Alice txt上传到服务器使用wireshark捕获数据包
Windows平台的SDK、DDK与WDK

尽管Windows平台的SDK DDK与WDK都包含了WinDBG工具包但是用户获取WinDBG工具包的最主要方式还是从微软网站自由下载因为这样获得的版本最新最近尝试去了解WINDOWS下的驱动开发现在总结一下最近看到的资料 1 首
下采样与上采样

一下采样概念下采样 subsampled 又称为降采样 downsampled 可以通俗地理解为缩小图像减少矩阵的采样点数方法 1 最常用隔位取值每行每列每隔k个点取一个点 2 合并区域每 row k col k 窗口内所有像
python selenium 键盘操作常用

键盘事件前面的 send keys 方法用来模拟键盘输入 keys 类提供了键盘上几乎所有按键的方法组合键也是可以的常用的键盘操作如下 send keys Keys BACK SPACE 删除键 BackSpace send keys
三十、纯虚函数、抽象类、多态、简单工厂模式

一纯虚函数虚函数是多态是实现多态的前提如果我们需要在基类中定义共同的结构那么接口就需要定义成虚函数但是很多情况下基类的接口是无法实现的比如形状类Shape 定义一个Draw方法很明显这个方法没法实现因为我们可以画出圆正方形
乾坤微服务子项目图片资源加载失败

一背景子项目单独运行时正常放在乾坤上 img 加载图片时失败二分析原因假设乾坤项目域名为 http www aaa com 子项目域名为 http www bbb com 项目实际运行时图片的 html 写法为 img src
python:正向最大匹配法分词（以藏文为例）

前段时间研究了如何用分词工具进行分词但是分词中涉及的一些算法不太了解所以准备这段时间专攻分词算法原理大家有补充或者建议欢迎留言 1 最大匹配法 Maximum Matching 最大匹配法是指以词典为依据取词典中最长词长度作

python:正向最大匹配法分词（以藏文为例）

1. 最大匹配法(Maximum Matching)

python:正向最大匹配法分词（以藏文为例） 的相关文章

随机推荐

热门标签

python:正向最大匹配法分词（以藏文为例）的相关文章