德国网站 nandoo.net 提供了缩短新闻文章的可能性。如果使用滑块更改百分比值,文本会发生变化并且某些句子会被遗漏。
您可以在这里看到它的实际效果:
http://www.nandoo.net/read/article/299925/ http://www.nandoo.net/read/article/299925/
新闻文章位于左侧,并标记有标签。滑块位于第二列的顶部。将滑块向左移动得越多,文本就会变得越短。
你怎么能提供这样的东西呢?您可以使用任何算法来实现这一目标吗?
我的想法是他们的算法计算句子中标签和名词的数量。然后,具有最少标签/名词的句子将被省略。
这是真的吗?或者你还有别的想法吗?
我希望你可以帮助我。提前致谢!
这是计算语言学领域的一个热点研究课题。使用贝叶斯过滤的浅层方法不太可能产生完美的结果 - 但无论如何您可能不需要完美的结果。
在 CL 中,80-20 规则很快就会变成 95-5 规则,因此,如果您对通过浅层方法所能实现的目标感到满意,请跳过此答案。
如果您想看看是否可以改进您的结果,您可以尝试寻找一些更好的资源。您所指的任务在研究界称为“文本摘要”,它有自己的web page http://www.summarization.com/这已经过时了。可能是一个很好的概述(我自己没有读过),但也相当过时。最近的是马丁·哈塞尔斯论文 http://www.csc.kth.se/~xmartin/dlgate.php?file=phdthesis_mh_2007.pdf关于该主题,而且也非常详尽,包括与语言无关的(阅读:统计,即浅层)方法。
与往常一样,Google 也将能够为您提供帮助。只需搜索文本摘要 http://google.com/search?q=text+summarization.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)