wikipedia

在 7z 单文件存档中随机查找

是否可以对由 7zip 压缩的非常大的文件进行随机访问大量搜索原始文件非常大 999gb xml 我无法以解压格式存储它我没有那么多可用空间因此如果 7z 格式允许访问中间块而无需解压缩所选块之前的所有块我可以构建块开头和相应原

wikipedia 7zip Compression randomaccess

我在这里有点新我有一个项目我必须下载并使用维基百科进行 NLP 我面临的问题如下我的 RAM 只有 12 GB 但英文 wiki 转储压缩后的大小超过 15 GB 这会限制我对 wiki 的处理吗我不需要维基百科上的任何图片在处理

NLP wikipedia

我正在编写一些 Java 代码以便使用维基百科的文本实现 NLP 任务如何使用 JSoup 提取维基百科文章的所有文本例如http en wikipedia org wiki 波士顿 Document doc Jsoup connec

Java Parsing Jsoup wikipedia

我正在尝试编写一个小应用程序来从维基百科页面中提取内容当我第一次想到是否可以时我认为我可以只使用 XPath 来定位包含内容的 div 但在研究了 Wikipedia 如何构建他们的文章后我很快发现这并不是那么容易当我获取页面时分离

html xml xpath Web wikipedia

假设我需要从维基百科获取有关所有山脉的内容我的目标是显示初始段落和相应文章中的图像例如罗莎山 and 文森特金字塔我开始了解 dbpedia 并通过一些研究发现它直接提供对 wiki 数据库的实时查询我有两个问题 1 我发现很难如何

sparql wikipedia dbpedia wikipediaapi

我想在 lucene 项目中使用 WikipediaTokenizer http lucene apache org java 3 0 2 api contrib wikipedia org apache lucene wikipedia

Java Parsing programminglanguages Lucene wikipedia

我正在尝试使用 sparql 从 dbpedia 中提取包含人名等的实体字典 PREFIX owl

sparql owl wikipedia dbpedia foaf

好的这就是我需要的我们有维基百科文章的完整 XML 我们只需要信息框部分我尝试过各种方法但我的主要问题似乎是无法匹配内部花括号有什么想法或者您已经设法完成此任务的任何正则表达式吗对于那些不知道我在说什么的人这是我试图解析

php regex wikipedia wikipediaapi

我正在尝试抓取维基百科以获取一些用于文本挖掘的数据我正在使用 python 的 urllib2 和 Beautifulsoup 我的问题是有没有一种简单的方法可以从我阅读的文本中删除不必要的标签例如链接 a 或 span 对于这种情况

python html htmlparsing beautifulsoup wikipedia

R 是否有任何包允许查询维基百科最有可能使用 Mediawiki API 来获取与此类查询相关的可用文章列表以及导入选定的文章以进行文本挖掘有WikipediR R 中的 MediaWiki API 包装器 library devto

r wikipedia textmining wikipediaapi mediawikiapi

给定一个维基百科页面例如维基百科堆栈溢出通常会有信息框主要位于页面顶部的右侧截图示例 DBPedia 将所有这些属性列为 RDF 三元组您可以在以下位置查看示例DBPedia 堆栈溢出在那里你可以看到该房产dbpprop wik

mediawiki wikipedia sparql dbpedia

我很难弄清楚一项基本任务如何找到术语限制在特定类别我觉得 Wiki API 文档有点令人困惑我只想接收一个 JSON 文件作为输出其中包含与该术语相关的所有建议前任我搜索矩阵类别电影这样我就可以拥有黑客帝国 1 黑客帝

API wikipedia wikipediaapi

是否可以在 Wikipedia API 中查询包含特定模板的文章文档没有描述任何将搜索结果过滤到包含模板的页面的操作具体来说我正在寻找包含以下内容的页面Template Persondata 之后我希望能够检索该特定模板以便填充族

API wikipedia wikipediaapi

任务我们有维基百科英文页面需要检索俄语的相同页面地址我知道语义网解决方案使用 DbPedia 的简单查询但我很好奇是否有传统的解决方案我在中问过同样的问题语义溢出网站Toby Inkster 建议解析的地方http en wik

wikipedia wikipediaapi mediawikiapi

我正在尝试使用获取维基百科页面LWP 简单但他们不会回来了这段代码 usr bin perl use strict use LWP Simple print get http en wikipedia org wiki Stack ov

perl wikipedia lwp