如何使用 DBpedia 属性构建主题层次结构？

2024-02-19

我试图通过遵循下面提到的两个 DBpedia 属性来构建主题层次结构。

skos：更广泛的财产
dcterms:主题属性

我的目的是给这个词确定它的主题。例如，给出这个词； “支持向量机”，我想从中识别主题，例如分类算法、机器学习等。

然而，有时我对如何构建主题层次结构感到有点困惑，因为我获得了超过 5 个主题 URI 和许多更广泛属性的 URI。有没有办法测量强度或其他东西并减少我从 DBpedia 获得的额外 URI 并仅分配最高可能的 URI？

似乎有两个问题。

如何限制 DBpedia Spotlight 结果的数量。
如何限制特定结果的主题和类别数量。

我当前的代码如下。

from SPARQLWrapper import SPARQLWrapper, JSON
import requests
import urllib.parse

## initial consts
BASE_URL = 'http://api.dbpedia-spotlight.org/en/annotate?text={text}&confidence={confidence}&support={support}'
TEXT = 'First documented in the 13th century, Berlin was the capital of the Kingdom of Prussia (1701–1918), the German Empire (1871–1918), the Weimar Republic (1919–33) and the Third Reich (1933–45). Berlin in the 1920s was the third largest municipality in the world. After World War II, the city became divided into East Berlin -- the capital of East Germany -- and West Berlin, a West German exclave surrounded by the Berlin Wall from 1961–89. Following German reunification in 1990, the city regained its status as the capital of Germany, hosting 147 foreign embassies.'
CONFIDENCE = '0.5'
SUPPORT = '120'
REQUEST = BASE_URL.format(
    text=urllib.parse.quote_plus(TEXT), 
    confidence=CONFIDENCE, 
    support=SUPPORT
)
HEADERS = {'Accept': 'application/json'}
sparql = SPARQLWrapper("http://dbpedia.org/sparql")
all_urls = []

r = requests.get(url=REQUEST, headers=HEADERS)
response = r.json()
resources = response['Resources']

for res in resources:
    all_urls.append(res['@URI'])

for url in all_urls:
    sparql.setQuery("""
        SELECT * WHERE {<"""
             +url+
            """>skos:broader|dct:subject ?resource 
            }
    """)

    sparql.setReturnFormat(JSON)
    results = sparql.query().convert()

    for result in results["results"]["bindings"]:
        print('resource ---- ', result['resource']['value'])

如果需要，我很乐意提供更多示例。

您似乎正在尝试检索与给定段落相关的维基百科类别。

小建议

首先，我建议您执行单个请求，将 DBpedia Spotlight 结果收集到VALUES https://www.w3.org/TR/sparql11-query/#inline-data，例如，这样：

values = '(<{0}>)'.format('>) (<'.join(all_urls))

其次，如果你谈论的是主题等级制度，你应该使用SPARQL 1.1属性路径 https://www.w3.org/TR/sparql11-query/#propertypaths.

这两个建议有些不相容。当查询包含多个起点（即VALUES）和任意长度的路径（即* and +运营商）。

下面我使用的是dct:subject/skos:broader属性路径，即检索“下一级”类别。

方法一

第一种方法是根据资源的普遍受欢迎程度对资源进行排序，例如。 G。他们的PageRank http://people.aifb.kit.edu/ath/#DBpedia_PageRank:

values = '(<{0}>)'.format('>) (<'.join(all_urls))

sparql.setQuery(
    """PREFIX vrank:<http://purl.org/voc/vrank#>
       SELECT DISTINCT ?resource ?rank
       FROM <http://dbpedia.org> 
       FROM <http://people.aifb.kit.edu/ath/#DBpedia_PageRank>
       WHERE {
           VALUES (?s) {""" + values + 
    """    }
       ?s dct:subject/skos:broader ?resource .
       ?resource vrank:hasRank/vrank:rankValue ?rank.
       } ORDER BY DESC(?rank)
         LIMIT 10
    """)

结果是：

dbc:Member_states_of_the_United_Nations
dbc:Country_subdivisions_of_Europe
dbc:Republics
dbc:Demography
dbc:Population
dbc:Countries_in_Europe
dbc:Third-level_administrative_country_subdivisions
dbc:International_law
dbc:Former_countries_in_Europe
dbc:History_of_the_Soviet_Union_and_Soviet_Russia

方法2

第二种方法是计算给定文本的类别频率......

values = '(<{0}>)'.format('>) (<'.join(all_urls))

sparql.setQuery(
    """SELECT ?resource count(?resource) AS ?count WHERE {
           VALUES (?s) {""" + values + 
    """    }
       ?s dct:subject ?resource
       } GROUP BY ?resource
         # https://github.com/openlink/virtuoso-opensource/issues/254
         HAVING (count(?resource) > 1)
         ORDER BY DESC(count(?resource))
         LIMIT 10
    """)

结果是：

dbc:Wars_by_country
dbc:Wars_involving_the_states_and_peoples_of_Europe
dbc:Wars_involving_the_states_and_peoples_of_Asia
dbc:Wars_involving_the_states_and_peoples_of_North_America
dbc:20th_century_in_Germany
dbc:Modern_history_of_Germany
dbc:Wars_involving_the_Balkans
dbc:Decades_in_Germany
dbc:Modern_Europe
dbc:Wars_involving_the_states_and_peoples_of_South_America

With dct:subject代替dct:subject/skos:broader，结果更好：

dbc:Former_polities_of_the_Cold_War
dbc:Former_republics
dbc:States_and_territories_established_in_1949
dbc:20th_century_in_Germany_by_period
dbc:1930s_in_Germany
dbc:Modern_history_of_Germany
dbc:1990_disestablishments_in_West_Germany
dbc:1933_disestablishments_in_Germany
dbc:1949_establishments_in_West_Germany
dbc:1949_establishments_in_Germany

结论

结果不太好。我认为有两个原因：DBpedia 类别相当随意，工具相当原始。结合方法1和方法2也许可以取得更好的结果。无论如何，需要用大语料库进行实验。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

semanticweb

dbpedia

topicmodeling

spotlightdbpedia

如何使用 DBpedia 属性构建主题层次结构？的相关文章

如何将dbpedia导入neo4j？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我需要将 dbpedia 导入 neo4j 我从这里下载 dbpedia http wiki dbpedia org Download
快速 shell 命令删除文本文件中的停用词

我有一个 2GB 的文本文件我正在尝试从此文件中删除经常出现的英语停用词我有 stopwords txt 包含这样的 a an the for and I 使用 shell 命令例如 tr sed 或 awk 执行此操作的快速方法是什
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
AttributeError：类型对象“Word2Vec”没有属性“load_word2vec_format”

我正在尝试实现 word2vec 模型并收到属性错误 AttributeError 类型对象 Word2Vec 没有属性 load word2vec format 下面是代码 wv Word2Vec load word2vec format
缩短文本并仅保留重要句子

德国网站 nandoo net 提供了缩短新闻文章的可能性如果使用滑块更改百分比值文本会发生变化并且某些句子会被遗漏您可以在这里看到它的实际效果 http www nandoo net read article 299925 http
如何在R中使用OpenNLP获取POS标签？

这是 R 代码 library NLP library openNLP tagPOS lt function x s lt as String x word token annotator lt Maxent Word Token Anno
将 SWRL 与 Jena 和 Pellet 结合使用

我无法找到一些使用 SWRL 和 Jena 的简单代码示例佩莱或者至少使用 SWRL 我研究了 Pellet 文档中的一些示例但没有关于使用 SWRL 的示例网络上的大多数示例都不完整且令人困惑我找到的唯一解决方案是使用 Jess
用于词性标记的优秀 Java 库是什么？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
使用“自然”语言编写代码更好吗？

我最近看到一种编程语言叫做超新星 http supernova sourceforge net 他们在网页上说超新星编程语言是现代脚本语言和第一个提出了概念用直接虚构进行编程描述使用纯人类语言的清晰子集你可以编写如下代码 i
给定文档，选择相关片段

当我在这里提出问题时自动搜索返回的问题的工具提示给出了问题的前一点但其中相当一部分没有给出任何比理解问题更有用的文本标题有谁知道如何制作一个过滤器来删除问题中无用的部分我的第一个想法是修剪仅包含某个列表中的单词的任何前导句子例如
LDA 主题建模 - 训练和测试

我读过 LDA 并且了解当输入一组文档时如何生成主题的数学原理参考文献称 LDA 是一种算法只要给定一个文档集合无需任何监督就可以揭示该集合中的文档所表达的主题因此通过使用 LDA 算法和吉布斯采样器或变分贝叶斯我可以输入
获取 NLTK 索引的所有结果

我正在使用 NLTK 来查找单词的一致性但我不知道如何获取所有结果并将它们放入list or set 例如 text concordance word 仅打印前 25 个结果 TL DR text concordance lines 10
如何使用FeatureUnion转换PipeLine中的多个特征？

我有一个 pandas 数据框其中包含有关用户发送的消息的信息对于我的模型我感兴趣的是预测消息的缺失收件人即给定消息的收件人 A B C 我想预测还有谁应该成为收件人的一部分我正在使用 OneVsRestClassifier 和
从 R 主题模型中的 DocumentTermMatrix 中删除空文档？

我正在使用 R 中的 topicmodels 包进行主题建模我正在创建一个 Corpus 对象进行一些基本的预处理然后创建一个 DocumentTermMatrix corpus lt Corpus VectorSource vec
文本摘要评估 - BLEU 与 ROUGE

根据两个不同摘要系统 sys1 和 sys2 的结果和相同的参考摘要我使用 BLEU 和 ROUGE 对它们进行了评估问题是 sys1 的所有 ROUGE 分数均高于 sys2 ROUGE 1 ROUGE 2 ROUGE 3 ROUGE
如何将句子或文档转换为向量？

我们有将单词转换为向量的模型例如 word2vec 模型是否存在类似的模型可以使用为单个单词学习的向量将句子文档转换为向量 1 跳克法以及使用它的工具谷歌 word2vec https code google com p wor
如何使用Bert进行长文本分类？

我们知道 BERT 有 token 的最大长度限制 512 因此如果一篇文章的长度远大于 512 例如文本中有 10000 个 token 如何使用 BERT 您基本上有三个选择您可以剪掉较长的文本并仅使用前 512 个令牌最初的 BE
使用 Huggingface 变压器仅保存最佳权重

目前我正在使用 Huggingface transformers 构建一个新的基于 Transformer 的模型其中注意力层与原始模型不同我用了run glue py检查我的模型在 GLUE 基准测试上的性能但是我发现huggi
使用印度名字训练 Spacy NER

我正在尝试自定义 Spacy 的 NER 来识别印度名字遵循本指南https spacy io usage training https spacy io usage training这是我正在使用的数据集https gist githu
如何在 bertopic 建模中获取每个主题的所有文档

我有一个数据集并尝试使用 berTopic 建模将其转换为主题但问题是我无法获取主题的所有文档 berTopic 每个主题仅返回 3 个文档 topic model BERTopic verbose True embedding mod

随机推荐

为什么输入错误值后输出是三行消息而不是一行？

输入的代码是 import java io IOException public class A public void fn throws IOException char ch do System out println Press C
由于 MIME 类型不匹配，IE9 脚本响应被阻止

我使用以下代码片段将 google fusion 表中的数据加载为 json var fileref document createElement script fileref setAttribute type text javascri
Visual Studio 2010 中的文本覆盖

这里真的很愚蠢的问题在 Visual Studio 2010 中文本光标已从闪烁的线更改为字符周围闪烁的灰色框当我输入时会覆盖前面的文本我不知道如何去掉这个这就像当您在 Microsoft Word 中按插入键并打开覆盖模式时会发
证书验证失败：证书已过期 (_ssl.c:1108)

当尝试运行我的 Discord 机器人时我收到此错误 raise ClientConnectorCertificateError aiohttp client exceptions ClientConnectorCertificateEr
如何在 Windows 启动时启动 python 文件？

我有一个 python 文件并且正在运行该文件如果 Windows 关闭并再次启动我如何在每次 Windows 启动时运行该文件根据脚本正在执行的操作您可以将其打包成服务然后安装该服务将其添加到 Windows 注册表 HKC
我想在启动画面中播放lottie动画React Native

在 React Native 中在应用程序启动之前我们可以看到白屏我想在单击应用程序图标时立即加载启动屏幕我想避免白色背景 Using 反应本机启动画面 https github com crazycodeboy react nat
使用远程 couchbase 和 AWS ec2 时超时

出于开发目的我想将本地计算机连接到安装在远程 ec2 上的 couchbase 我成功建立连接但当我尝试访问数据时出现超时我搜索了问题并发现here https stackoverflow com questions 12117746
Java 的 varargs 性能

编码我来检查 Java 的 vararg 性能我编写以下测试代码 public class T public static void main String args int n 100000000 String s1 new Stri
PHP 全局常量是一种良好的现代开发实践吗？

我正在开发一个具有相当大的 PHP 代码库的新项目该应用程序使用了相当多的 PHP 常量 define FOO bar 特别是对于数据库连接参数之类的事情这些常量都定义在一个配置文件中该文件是require once 基本上应用程序中
连接两个时间序列的最有效方法

想象一下我有一张这样的表 CREATE TABLE time series snapshot date DATE sales INTEGER PRIMARY KEY snapshot date 具有这样的值 INSERT INTO time
运行查询时“不支持使用USE语句在数据库之间切换”

尝试使用以下命令选择数据库时出现以下错误php s标准mssql select db功能 USE statement is not supported to switch between databases Use a new connec
Linux内核设备驱动程序以DMA方式进入内核空间

LDD3 p 453 演示dma map single使用作为参数传入的缓冲区 bus addr dma map single dev gt pci dev gt dev buffer count dev gt dma dir Q1 这个缓
装箱/拆箱和可为空？

我知道装箱和拆箱是关于强制转换真实类型到对象对象到真实类型但我不明白 MSDN 对 Nullable 的说法这是我不明白的文字当可空类型被装箱时公共语言运行时会自动装箱 Nullable 对象的基础值而不是 Nullable
无法读取未定义的属性“client_secret”

我尝试按照 Node js 的说明创建一个示例程序https developers google com google apps activity v1 quickstart nodejs https developers google c
无法将 Json 解析为 NSDictionary

我有一个 Web 服务它返回以下 Json String password 1234 user andreas 我调用网络服务并尝试解析返回的数据例如 NSURLConnection sendAsynchronousRequest re
找不到模块：无法解析“F:\React\react-complete-guide\src\Component”中的“../axios”

我在我的中遇到这个编译错误React我尝试发送的项目GET要求 src Component Form js Module not found Can t resolve axios in F React react complete gui
是一个PrintWriter和BufferedWriter

基本上我想知道 PrintWriter 是否是缓冲写入器我见过这样的代码PrintWriter pw new PrintWriter new BufferedWriter new FileWriter file 然而从这个javadoc
如何用C语言制作ppm文件的黑白图片？

嘿我的代码需要一些帮助我读取了 ppm 文件将颜色更改为黑色和白色并希望将其保存到新文件中我可以读取文件的标题并将其写入新文件但我在更改颜色方面遇到了困难我知道我可以用以下公式得到灰度值 0 299 红色分量 0 587 绿色
从不同文件夹压缩文件，保留目录结构

我编写了一些非常有趣的代码来压缩多个文件和文件夹该脚本将采用参数列表文件和文件夹并将它们压缩为以日期时间作为名称的 zip 所以我需要一些在参数是文件时执行的代码该代码应将文件的目录结构添加到 zip 文件中 THE SCRIPT
如何使用 DBpedia 属性构建主题层次结构？

我试图通过遵循下面提到的两个 DBpedia 属性来构建主题层次结构 skos 更广泛的财产 dcterms 主题属性我的目的是给这个词确定它的主题例如给出这个词支持向量机我想从中识别主题例如分类算法机器学习等然而有时我对

如何使用 DBpedia 属性构建主题层次结构？

如何使用 DBpedia 属性构建主题层次结构？ 的相关文章

随机推荐

热门标签

如何使用 DBpedia 属性构建主题层次结构？的相关文章