提取对于不同的人来说可能意味着不同的事情。能够处理所有乱七八糟的 HTML 是一回事,而 Beautiful Soup 显然是这个领域的赢家。但 BS 不会告诉你什么是粗品,什么是肉。
从计算语言学家的角度考虑内容提取时,事情看起来有所不同(而且丑陋)。在分析页面时,我只对具体内容页面的一部分,减去所有导航/广告/等。粗鲁的。除非你摆脱了这些麻烦,否则你无法开始做有趣的事情——共现分析、短语发现、加权属性向量生成等。
OP 引用的第一篇论文表明,这就是他们想要实现的目标——分析站点,确定整体结构,然后将其减去,瞧!你只有肉——但他们发现它比他们想象的要难。他们从改进的可访问性角度来解决这个问题,而我是一个早期的搜索引擎人员,但我们都得出了相同的结论:
将残渣与肉分开是很困难的。并且(在问题的字里行间阅读)即使删除了残渣,如果没有仔细应用语义标记,它也是如此极其很难确定文章的“作者意图”。从像 citeseer 这样的网站(干净且可预测地布局,具有非常高的信噪比)中获取信息是2或3个数量级比处理随机网页内容更容易。
顺便说一句,如果您正在处理较长的文档,您可能会对以下人员所做的工作特别感兴趣马蒂·赫斯特 http://people.ischool.berkeley.edu/~hearst/(现为加州大学伯克利分校教授)。她博士论文 http://people.ischool.berkeley.edu/~hearst/papers/phdthesis.pdf和其他关于在大型文档中进行子主题发现的论文让我对在较小的文档中做类似的事情有了很多见解(令人惊讶的是,这可能更难处理)。但只有在清除掉这些残骸之后才能做到这一点。
对于少数可能感兴趣的人,这里有一些背景故事(可能是题外话,但我今晚就是这样的心情):
在 80 年代和 90 年代,我们的客户大多是政府机构,他们的眼睛比预算更大,他们的梦想让迪士尼乐园显得单调。他们收集了所有他们能得到的东西,然后开始寻找一种银弹技术,以某种方式(巨大的手波)提取文档的“含义”。正确的。他们找到我们是因为我们是一家奇怪的小公司,在 1986 年进行“内容相似性搜索”。我们给了他们几个演示(真实的,不是伪造的),这吓坏了他们。
我们已经知道的一件事(他们花了很长时间才相信我们)是每个藏品都是不同的,需要它自己的特殊扫描仪来处理这些差异。例如,如果你所做的只是咀嚼报纸上的故事,生活就相当轻松了。标题主要告诉你一些有趣的事情,故事是用金字塔风格写的——第一段或第二段有谁/什么/何地/何时的内容,然后接下来的段落对此进行了扩展。就像我说的,这是很容易的事情。
杂志文章怎么样?天哪,别让我开始!标题几乎总是毫无意义,而且每本杂志的结构都不同,甚至杂志的一个章节到下一个章节的结构也各不相同。拿起一份《连线》杂志和一份《大西洋月刊》。查看一篇主要文章并尝试找出一个有意义的1 段总结文章的内容。现在尝试描述一个程序如何完成同样的事情。同一套规则是否适用于所有文章?甚至来自同一杂志的文章?不,他们没有。
抱歉,听起来像个脾气暴躁的人,但这个问题是真的很难.
奇怪的是,谷歌如此成功的一个重要原因(从搜索引擎的角度来看)是他们非常重视链接中和链接周围的单词来自另一个网站。该链接文本代表一种小型摘要由人类完成它链接到的网站/页面的名称,正是您搜索时想要的。它适用于几乎所有类型/布局风格的信息。这是一个非常精彩的见解,我希望我自己也有这样的见解。但这不会给我的客户带来任何好处,因为没有链接从昨晚的莫斯科电视节目到他们捕获的一些随机电传信息,或者是埃及报纸的一些 OCR 版本。
/迷你咆哮和绊倒记忆通道