识别人名与字典单词

2024-01-02

有什么方法可以识别一个单词可能是/不可能是一个人的名字吗？

因此，如果我看到“understanding”这个词，我会得到 0.01 的概率，而“Johnson”这个词会返回 0.99 的概率，而像 Smith 这样的词会返回 0.75，而像 Apple 这样的词会返回 0.15。

有什么办法可以做到这一点吗？

目标是，如果有人搜索，比如说Charles Darwin galapagos，搜索引擎猜测它应该搜索作者字段Charles and Darwin以及标题和摘要字段galapagos.

我的快速技巧是这样的：

从人口普查局获取按受欢迎程度排列的姓名列表，该列表是免费提供的。为每个名称指定一个标准化的受欢迎程度得分（1.0 = 最受欢迎，0.0 = 最不受欢迎）。

然后，获取一本开源词典，并进行一些研究以汇总每个单词的频率得分。你可以找到一个在这里，在维基词典 http://en.wiktionary.org/wiki/Wiktionary:Frequency_lists#English。为每个单词分配一个流行度分数，1.0 到 0.0。方便的是，如果您在频率列表中找不到某个单词，您就可以假设它是一个非常不常见的单词。

在两个列表中查找一个单词。如果仅在其中之一上，那么您就完成了。如果两者都存在，则使用公式计算加权概率...类似于（名称受欢迎度）/（名称受欢迎度 + 其他受欢迎度）。如果它不在任何一个列表中，那么它可能是一个名字。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

识别人名与字典单词的相关文章

重写修改后的 goto 语义的算法

我有一大堆使用旧的自行设计的脚本语言编写的遗留代码我们将它们编译翻译成 javascript 该语言有条件跳转跳转到标签与普通 goto 语句的区别在于不可能向后跳转该语言中没有嵌套的 if 语句或循环由于 javascrip
我应该对算法使用递归还是记忆化？

如果我可以选择使用递归或记忆来解决问题我应该使用哪一个换句话说如果它们都是可行的解决方案因为它们提供了正确的输出并且可以在我正在使用的代码中合理地表达那么我什么时候会使用其中一个而不是另一个它们并不相互排斥您可以同时使用它们
求先递增后递减列表的最大值和最小值

我尝试用谷歌搜索这个问题但没有取得太大成功我确信这个问题或类似问题有一个技术名称但我似乎找不到答案给定一个列表L整数即严格递增然后严格递减找到该列表的最大值和最小值例如 L可能 1 2 3 4 5 4 3 2 or 2 4
Python：计算字典的重复值

我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
无法理解Peterson算法的正确性

我在这里讨论彼得森算法的一个场景 flag 0 0 flag 1 0 turn P0 flag 0 1 turn 1 while flag 1 1 turn 1 busy wait
Laravel 搜索关系

我有两个相关的模型我正在尝试在产品中进行搜索并且仅显示实际搜索结果而不是找到该产品的类别的所有产品我不想搜索任何类别因为无论搜索什么或找到什么类别都会始终显示 Example I have the following categ
在一个区域中拟合二维多边形的算法？

这有标准吗算法名称说我有 10 个不同大小的多边形我有一个特定大小的区域我想知道如何填充该区域中的最多多边形以及它们是如何拟合的笔记多边形可以根据限制集进行旋转一个可能的名称是包装问题 http en wikipedia
排序矩阵的选择算法

这是谷歌面试问题给定一个 N N 矩阵所有行均已排序所有列均已排序找到矩阵的第 K 个最大元素在 n 2 中执行它很简单我们可以使用堆或合并排序 n lg n 对它进行排序然后得到它但是有没有更好的方法比 n lg n 更
当满足动态条件时退出递归函数

使用来自的函数生成汉明距离 t 内的所有比特序列 https stackoverflow com questions 40813022 generate all sequences of bits within hamming distan
python nltk从句子中提取关键字

我们要做的第一件事就是杀掉所有律师威廉莎士比亚鉴于上面的引用我想退出 kill and lawyers 作为两个突出的关键词来描述句子的整体含义我提取了以下名词动词 POS 标签 First NNP thing NN do V
你能用 C# 编写一个同样优雅的排列函数吗？

我非常喜欢这个 6 行解决方案并尝试在 C 中复制它基本上它会排列数组的元素 def permute xs pre if len xs 0 yield pre for i x in enumerate xs for y in perm
大 ר 符号到底代表什么？

我真的很困惑大 O 大 Omega 和大 Theta 表示法之间的区别我知道大 O 是上限大 Omega 是下限但是大 theta 到底代表什么我读过这意味着紧束缚但是这是什么意思首先我们来了解一下什么是大O 大Theta和大
Java 中查看 ArrayList 是否包含对象的最有效方法

我有一个 Java 对象的 ArrayList 这些对象有四个字段我用其中两个字段来将对象视为与另一个对象相等我正在寻找最有效的方法给定这两个字段以查看数组是否包含该对象问题在于这些类是基于 XSD 对象生成的因此我无法修改类本
有选择地设置 iskeyword

通常我需要搜索大型 xml 模式文件以查找光标下单词的下一个出现位置但如果它是一个标签或结束标签则最好不要搜索在下面的示例中是光标所在的位置使用 or 与 iskeyword 不包括 gt or lt 将在之间移动
在 Python 中从 Excel 复制 YEARFRAC() 函数

因此我使用 python 来自动执行一些必须在 Excel 中执行的重复任务我需要做的计算之一需要使用yearfrac 这在Python中被复制了吗 I found this https lists oasis open org arc
有向未加权图中的最长非循环路径

什么算法可用于找到未加权有向无环图中的最长路径动态规划 http en wikipedia org wiki Dynamic programming 它也被引用于最长路径问题 http en wikipedia org wiki Long
过滤两次 Lambda Java

我有一个清单如下 1 2 3 4 5 6 7 和预期结果必须是 1 2 3 4 5 6 7 我知道怎么做才能到7点我的结果 1 2 3 4 5 6 我也想知道如何输入 7 我添加了i gt i objList size 1到我的过滤器
从列表中选择项目以求和

我有一个包含数值的项目列表我需要使用这些项目求和我需要你的帮助来构建这样的算法下面是一个用 C 编写的示例描述了我的问题 int sum 21 List

随机推荐

Qt/C++：如何获取远程PC（通信对端）MAC地址？

我在 Windows 7 上使用 Qt5 在我的应用程序中 TCP服务器我目前正在使用 QTcpSocket 类中的一些方法 QAbstractSocket peerAddress 为了得到对等地址 QAbstractSocket pee
在Entity Framework4中捕获Sql异常？最佳实践是什么？

您在数据层中使用什么实践来捕获 sql 异常有人编写了一个通用 Sql 异常处理程序来捕获最常见的错误吗你是怎么做到的有什么例子吗 Thanks 仅由底层处理意外异常数据层在本例中为实体框架的异常应仅由业务层处理然后业务层可
如何在 TypeScript 中通过导入使用命名空间

我在两个单独的文件中有两个类一个从另一个文件扩展基类包含一些import使用节点模块的语句我不清楚为什么派生类位于单独的文件中无法识别基类有人可以澄清一下吗 UtilBase ts
如何让 ZK webfragment 与嵌入式 Jetty 9 一起工作？

这个最小的嵌入式 Jetty 项目可以正确启动扫描注释并查找并映射带注释的 TestServlet 项目结构 src main java test Test java webapp test zul pom xml 测试 java pac
为什么 IIS 不支持分块传输编码？

我正在与 IIS Web 服务器建立 HTTP 连接并使用使用 Transfer Encoding chunked 编码的数据发送 POST 请求当我这样做时 IIS 只是关闭连接没有错误消息或状态代码根据HTTP 1 1 规范 h
当应用程序部署到 JBoss 时显示一条消息

当我通过 JBoss AS 7 1 1 部署应用程序时如何显示消息来提醒用户我正在使用的技术四郎1 2 3 莫贾拉2 1 7 PrimeFaces 5 1 JDK 1 7 JBoss 7 1 1 在 JBoss AS 前面放置一个准系
java中什么时候应该使用finalize()方法？

我们什么时候应该真正使用java中的finalize 方法如果我们想在finalize 方法中关闭连接那么最好使用下面的代码因为等待GC调用finalize 方法然后释放连接是没有意义的 try Connection creation
GWT 设计器不适用于 Maven-GWT 项目

我刚刚启动了一个 GWT 项目环境如下日食赫利俄斯 Eclipse 3 6 的谷歌插件 eclipse 的 maven2 插件 Eclipse 3 6 的 Gwt 设计器该项目是由 gwt maven plugin 创建的该项目可以
如何在Android中为长度不超过屏幕尺寸的较小文本创建跑马灯效果？

我一直试图在我的应用程序中为 HELLO 一词提供选框效果但 Android 不允许这样做除非文本的长度超过屏幕尺寸有解决办法吗 PS 这看起来很简单我还没有得到任何解决方案我使用了我在早期 Android 时代开发的简单的轻量级
我可以为我的 RDS 实例使用 Amazon ELB 来实现负载均衡吗？

我有两个问题我可以在 RDS 实例上使用 ELB 来实现负载均衡吗我可以在 EC2 实例上安装多个服务器并为所有服务器运行单个 ELB 实例吗 1 如果您的意思是只有一个 RDS 实例那么在它前面的负载均衡请求就没有意义如果您的意思
django mysql 强制使用索引

我正在使用 django orm 和 mysql 由于某种原因 mysql 使用了错误的索引我想手动覆盖使用的索引我看到 django 团队出于跨平台原因决定阻止使用 with hints 扩展来强制建立索引有没有人有任何解决方案建
在 ggplot 上显示两个平行轴 (R)

假设我们有以下类型的简单情节 library ggplot2 df data frame y c 0 1 1 2 3 3 1 2 9 5 8 6 7 4 8 2 9 1 x seq 1 100 length out 10 ggplot df
Java 中的复选框列表？ [复制]

这个问题在这里已经有答案了我正在设计一个用户界面我想让用户可以选择为特定课程选择一名或多名培训师有没有这样的事情Checkboxlist在Java中我正在使用 Netbeans 您推荐什么作为最佳 UI 解决方案发现这个 http
Django 邮递员不工作

我尝试实施Django postman用于用户到用户的消息传递系统我克隆了存储库并在我的settings py and URLs py文件也 In URLs py我包含的主文件 re path r messages include pos
selenium.common.exceptions.InvalidArgumentException：消息：使用 Selenium Python 从文本文件读取的 url 调用 get() 时出现无效参数错误

我在 txt 文件中有一个 URL 列表我想使用 selenium 运行它假设文件名为 b txt 其中包含 2 个 url 格式如下 https www google com https www bing com https www
使用 Roslyn 查找所有不继承 C# 类并更改为从基础对象继承（类似 java）

我正在开发一个小型 Roslyn 项目其中包括更改解析树并将更改写回文件我从独立的代码分析器开始希望将其构建为命令行应用程序不过我遇到了挑战与以下人员合作使用 Roslyn 查找从特定基类派生的类 https stackove
我必须将 Pandas DataFrame 的每一行的数据与其余行的数据进行比较，有没有办法加快计算速度？

假设我有一个具有以下结构的 pandas DataFrame 从 csv 文件加载 var 和 err 列的数量不固定并且因文件而异 var 0 var 1 var 2 32 9 41 47 22 41 15 12 32 3 4 4 10
如何在 VB6 中复制打开的文件？ [复制]

这个问题在这里已经有答案了使用VB6 当文件被其他人打开时如何将文件从另一台计算机复制到我的计算机如果尝试对当前打开的文件使用 FileCopy 语句则会发生错误但是 FileSystemObject 的 CopyFile 函数没
oct2py 没有看到 OCTAVE_EXECUTABLE 环境变量 (Windows)

所以我尝试在 Windows 上使用 oct2py 如下所示 from oct2py import octave 这实际上是我重现错误所需的唯一代码当我执行这个时我得到OSError Octave Executable not fou
识别人名与字典单词

有什么方法可以识别一个单词可能是不可能是一个人的名字吗因此如果我看到 understanding 这个词我会得到 0 01 的概率而 Johnson 这个词会返回 0 99 的概率而像 Smith 这样的词会返回 0 75 而像

识别人名与字典单词

识别人名与字典单词 的相关文章

随机推荐

热门标签

识别人名与字典单词的相关文章