Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
在 7z 单文件存档中随机查找
是否可以对由 7zip 压缩的非常大的文件进行随机访问 大量搜索 原始文件非常大 999gb xml 我无法以解压格式存储它 我没有那么多可用空间 因此 如果 7z 格式允许访问中间块而无需解压缩所选块之前的所有块 我可以构建块开头和相应原
wikipedia
7zip
Compression
randomaccess
我如何准备使用整个维基百科进行自然语言处理?
我在这里有点新 我有一个项目 我必须下载并使用维基百科进行 NLP 我面临的问题如下 我的 RAM 只有 12 GB 但英文 wiki 转储压缩后的大小超过 15 GB 这会限制我对 wiki 的处理吗 我不需要维基百科上的任何图片 在处理
NLP
wikipedia
jsoup - 从维基百科文章中提取文本
我正在编写一些 Java 代码 以便使用维基百科的文本实现 NLP 任务 如何使用 JSoup 提取维基百科文章的所有文本 例如http en wikipedia org wiki 波士顿 Document doc Jsoup connec
Java
Parsing
Jsoup
wikipedia
XPath 获取两个标题之间的标记
我正在尝试编写一个小应用程序来从维基百科页面中提取内容 当我第一次想到是否可以时 我认为我可以只使用 XPath 来定位包含内容的 div 但在研究了 Wikipedia 如何构建他们的文章后 我很快发现这并不是那么容易 当我获取页面时分离
html
xml
xpath
Web
wikipedia
如何形成 dbPedia iSPARQL 查询(针对维基百科内容)
假设我需要从维基百科获取有关所有山脉的内容 我的目标是显示初始段落和相应文章中的图像 例如罗莎山 and 文森特金字塔 我开始了解 dbpedia 并通过一些研究发现它直接提供对 wiki 数据库的实时查询 我有两个问题 1 我发现很难如何
sparql
wikipedia
dbpedia
wikipediaapi
在 Lucene 中使用 WikipediaTokenizer 的示例
我想在 lucene 项目中使用 WikipediaTokenizer http lucene apache org java 3 0 2 api contrib wikipedia org apache lucene wikipedia
Java
Parsing
programminglanguages
Lucene
wikipedia
dbpedia 获取英语以外语言的实体
我正在尝试使用 sparql 从 dbpedia 中提取包含人名等的实体字典 PREFIX owl
sparql
owl
wikipedia
dbpedia
foaf
维基百科信息框需要正则表达式
好的 这就是我需要的 我们有维基百科文章的完整 XML 我们只需要信息框部分 我尝试过各种方法 但我的主要问题似乎是无法匹配 内部 花括号 有什么想法 或者您已经设法完成此任务的任何正则表达式吗 对于那些不知道我在说什么的人 这是我试图解析
php
regex
wikipedia
wikipediaapi
使用python的urllib2和Beautifulsoup爬取维基百科时删除html标签
我正在尝试抓取维基百科以获取一些用于文本挖掘的数据 我正在使用 python 的 urllib2 和 Beautifulsoup 我的问题是 有没有一种简单的方法可以从我阅读的文本中删除不必要的标签 例如链接 a 或 span 对于这种情况
python
html
htmlparsing
beautifulsoup
wikipedia
如何从 R 访问维基百科?
R 是否有任何包允许查询维基百科 最有可能使用 Mediawiki API 来获取与此类查询相关的可用文章列表 以及导入选定的文章以进行文本挖掘 有WikipediR R 中的 MediaWiki API 包装器 library devto
r
wikipedia
textmining
wikipediaapi
mediawikiapi
获取所有维基百科信息框模板和使用它们的所有页面
给定一个维基百科页面 例如维基百科 堆栈溢出通常会有信息框 主要位于页面顶部的右侧 截图示例 DBPedia 将所有这些属性列为 RDF 三元组 您可以在以下位置查看示例DBPedia 堆栈溢出 在那里你可以看到该房产dbpprop wik
mediawiki
wikipedia
sparql
dbpedia
维基百科 API:如何搜索特定类别中的术语
我很难弄清楚一项基本任务 如何找到术语 限制在特定类别 我觉得 Wiki API 文档有点令人困惑 我只想接收一个 JSON 文件作为输出 其中包含与该术语相关的所有建议 前任 我搜索矩阵 类别 电影 这样我就可以拥有 黑客帝国 1 黑客帝
API
wikipedia
wikipediaapi
维基百科 API 是否支持搜索特定模板?
是否可以在 Wikipedia API 中查询包含特定模板的文章 文档没有描述任何将搜索结果过滤到包含模板的页面的操作 具体来说 我正在寻找包含以下内容的页面Template Persondata 之后 我希望能够检索该特定模板 以便填充族
API
wikipedia
wikipediaapi
检索维基百科页面的另一种语言
任务 我们有维基百科英文页面 需要检索俄语的相同页面地址 我知道语义网解决方案 使用 DbPedia 的简单查询 但我很好奇是否有传统的解决方案 我在中问过同样的问题语义溢出网站Toby Inkster 建议解析的地方http en wik
wikipedia
wikipediaapi
mediawikiapi
为什么我无法使用 LWP::Simple 获取维基百科页面?
我正在尝试使用获取维基百科页面LWP 简单 但他们不会回来了 这段代码 usr bin perl use strict use LWP Simple print get http en wikipedia org wiki Stack ov
perl
wikipedia
lwp
«
1
2
3