给定文档，选择相关片段

2024-05-21

当我在这里提出问题时，自动搜索返回的问题的工具提示给出了问题的前一点，但其中相当一部分没有给出任何比理解问题更有用的文本。标题。有谁知道如何制作一个过滤器来删除问题中无用的部分？

我的第一个想法是修剪仅包含某个列表中的单词的任何前导句子（例如，停用词，加上标题中的单词，加上 SO 语料库中与标签相关性非常弱的单词，也就是说，它们同样可能出现在任何问题中，无论其标签如何）

自动文本摘要

听起来你有兴趣自动文本摘要 http://en.wikipedia.org/wiki/Automatic_summarization。要全面了解该问题、所涉及的问题以及可用的算法，请查看 Das 和 Martin 的论文自动文本摘要综述 http://www.cs.cmu.edu/~nasmith/LS2/das-martins.07.pdf (2007).

简单的算法

一种简单但相当有效的摘要算法是从原始文本中选择有限数量的包含最频繁内容词的句子（即最频繁的句子不包括停止列表 http://en.wikipedia.org/wiki/Stop_words字）。

Summarizer(originalText, maxSummarySize):
   // start with the raw freqs, e.g. [(10,'the'), (3,'language'), (8,'code')...]
   wordFrequences = getWordCounts(originalText)
   // filter, e.g. [(3, 'language'), (8, 'code')...]
   contentWordFrequences = filtStopWords(wordFrequences)
   // sort by freq & drop counts, e.g. ['code', 'language'...]
   contentWordsSortbyFreq = sortByFreqThenDropFreq(contentWordFrequences)

   // Split Sentences
   sentences = getSentences(originalText)

   // Select up to maxSummarySize sentences
   setSummarySentences = {}
   foreach word in contentWordsSortbyFreq:
      firstMatchingSentence = search(sentences, word)
      setSummarySentences.add(firstMatchingSentence)
      if setSummarySentences.size() = maxSummarySize:
         break

   // construct summary out of select sentences, preserving original ordering
   summary = ""
   foreach sentence in sentences:
     if sentence in setSummarySentences:
        summary = summary + " " + sentence

   return summary

使用此算法进行摘要的一些开源包是：

Classifier4J（Java）

如果您使用 Java，则可以使用分类器4J http://classifier4j.sourceforge.net/的模块简单摘要器 http://classifier4j.sourceforge.net/subprojects/core/apidocs/net/sf/classifier4J/summariser/SimpleSummariser.html.

使用发现的例子here http://classifier4j.sourceforge.net/usage.html#Using_ISummariser，我们假设原文是：

Classifier4J is a java package for working with text. Classifier4J includes a summariser. A Summariser allows the summary of text. A Summariser is really cool. I don't think there are any other java summarisers.

如以下代码片段所示，您可以轻松创建一个简单的一句话摘要：

// Request a 1 sentence summary
String summary = summariser.summarise(longOriginalText, 1);

使用上面的算法，这将产生Classifier4J includes a summariser..

N 分类器 (C#)

如果您使用 C#，则有一个 Classifier4J 到 C# 的端口，称为N分类器 http://nclassifier.sourceforge.net/

Tristan Havelick 的 NLTK 总结器 (Python)

Classifier4J 的摘要器有一个正在开发中的 Python 端口，使用 Python 构建自然语言工具包（NLTK） http://www.nltk.org/可用的here http://groups.google.com/group/nltk-dev/browse_thread/thread/a95f5ee53b020478?pli=1.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

给定文档，选择相关片段的相关文章

计算数据集列的百分位数

最亲爱的 R 专家为您快速介绍一下我正在做一项作业在这个练习中我被要求从数据中获取基本统计数据infert数据集它是内置的特别是其中的一列 infert age 对于不熟悉数据集的人 gt table ages Which is
获取 NLTK 索引的所有结果

我正在使用 NLTK 来查找单词的一致性但我不知道如何获取所有结果并将它们放入list or set 例如 text concordance word 仅打印前 25 个结果 TL DR text concordance lines 10
了解单目标迷宫的 A* 启发式

我有一个像下面这样的迷宫 P
字符串在哪些地方比 StringBuilder 更有用？

关于字符串和字符串生成器之间的差异已经提出了很多问题大多数人认为字符串生成器比字符串更快我很想知道字符串生成器是否太好了那么为什么字符串会存在呢此外有人可以给我一个例子其中字符串比字符串生成器更有用吗 StringBuilder
Python 删除额外的特殊 unicode 字符

我正在 python 中处理一些文本它内部已经采用 unicode 格式但我想删除一些特殊字符并用更标准的版本替换它们我目前有一条看起来像这样的线路但它变得越来越复杂我发现它最终会带来更多麻烦 tmp infile lower r
解释 survreg 中的威布尔参数

我正在尝试使用从 R 中的 survreg 估计的参数生成逆威布尔分布我的意思是对于给定的概率这将是在 MS Excel 中实现的小型模拟模型中的随机数返回使用我的参数预计出现故障的时间我理解逆威布尔分布的一般形式是 X b l
MySQL 将表的校验和存储在另一个表中

语境我们有包含大量表的大型数据库他们中的大多数 99 都使用innodb 我们希望有一个日常流程来监视哪个表已被修改当他们使用 innodb 的值时Update time from SHOW table STATUS from inf
将 R 中的时间数据绘制为各种分辨率（分钟、小时、秒等）

我有一些 CSV 数据例如 Timestamp Count 2009 07 20 16 30 45 10 2009 07 20 16 30 45 15 2009 07 20 16 30 46 8 2009 07 20 16 30 46 6
如何使用 ggplot2 对曲线下的区域进行着色

我一直在尝试使用 ggplot2 生成类似于此 R 图形的绘图 xv lt seq 0 4 0 01 yv lt dnorm xv 2 0 5 plot xv yv type l polygon c xv xv lt 1 5 1 5 c y
FastText - 由于 C++ 扩展未能分配内存，无法加载 model.bin

我正在尝试使用 FastText Python APIhttps pypi python org pypi fasttext https pypi python org pypi fasttext虽然据我所知此 API 无法加载较新的
模行为背后的数学

Preamble 这个问题与 P RNG 的行为无关rand 它是关于使用均匀分布的两个值的幂对模介绍我知道不应该使用模数将一个值从一个范围转换为另一个范围例如从 0 到 5 之间的值rand 功能会有偏差这里解释了https
估计幂律分布中的指数截止

当我进行一些社交网络分析时我偶然发现了在网络度上拟合概率分布的问题所以我有一个概率分布P X gt x 从目视观察它遵循具有指数截止的幂律而不是纯幂律直线因此假设具有指数截止的幂律分布方程为 f x x alpha exp
当尝试在随机数字数组中查找运行最大值时，会调用多少次更新最大值？

假设我们有一个包含 N 到 N 的整数的数组数组大小为 2N 1 我们首先对数组中的元素进行混洗然后尝试通过从第一个元素到最后一个元素迭代数组来找到最大整数代码示例是Java语言 int called 0 int max Intege
Python NLP 英式英语与美式英语

我目前正在用Python 进行NLP 工作然而在我的语料库中既有英式英语也有美式英语实现实现我正在考虑将英式英语转换为美式英语但是我没有找到一个好的工具包来做到这一点有什么建议么我也找不到包但试试这个请注意我必须
如何从Python中的阿拉伯字符串中删除英文文本？

我有一个带有英文文本和标点符号的阿拉伯字符串我需要过滤阿拉伯文本我尝试使用 sting 删除标点符号和英语单词但是我失去了阿拉伯语单词之间的空格我哪里错了 import string exclude set string punc
使用自定义层运行 Keras 模型时出现问题

我目前正在攻读学士学位论文FIIT STU https www fiit stuba sk en html page id 749 其主要目标是尝试复制和验证以下结果study http arxiv org abs 2006 00885 这
测试 PCA 图上簇的显着性

是否可以在 PCA 图上测试 2 个已知组之间聚类的显着性测试它们的接近程度或分布量方差以及簇之间的重叠量等这是一种定性方法使用ggplot 在簇周围绘制 95 置信椭圆注意stat ellipse 使用二元 t 分布 libr
如何在 scikit-learn 的 SVM 中使用非整数字符串标签？ Python

Scikit learn 具有相当用户友好的用于机器学习的 python 模块我正在尝试训练用于自然语言处理 NLP 的 SVM 标记器其中我的标签和输入数据是单词和注释例如词性标记而不是使用双精度整数数据作为输入元组 1 2
对数据进行分布拟合 - MATLAB

我正在尝试对从显微镜图像中收集的一些数据进行分布我们知道 152 左右的峰值是由于泊松过程造成的我想将分布拟合到图像中心的大密度同时忽略高强度数据我知道如何将正态分布拟合到数据红色曲线但它不能很好地捕获右侧的重尾尽管泊松分布应
python nltk从句子中提取关键字

我们要做的第一件事就是杀掉所有律师威廉莎士比亚鉴于上面的引用我想退出 kill and lawyers 作为两个突出的关键词来描述句子的整体含义我提取了以下名词动词 POS 标签 First NNP thing NN do V

随机推荐

查找总和为给定数字的值组合的函数

这个帖子查找提供的 Sum 值的组合 https stackoverflow com a 20194023 1561176呈现函数subsets with sum 它在数组中查找总和等于给定值的值的组合但由于这个帖子已经有6年多了我发这
Bootstrap 3 / 显示模式不适用于 javascript 方式

我用Modal http getbootstrap com javascript modalsBootstrap 3 0 的功能我有这个代码 a href myNestedContent Open the modal containing
如何为不同操作系统/Python 版本编译 Python C/C++ 扩展？

我注意到一些成熟的Python库已经为大多数架构 Win32 Win amd64 MacOS 和Python版本提供了预编译版本针对不同环境交叉编译扩展的标准方法是什么葡萄酒虚拟机众包我们使用虚拟机和Hudson http hud
在 VS2008 的 XAML 编辑器中禁用 Intellisense？

有没有办法在 Visual Studio 2008 的 XAML 编辑器中禁用 Intellisense 打字时通常会消耗很大的性能有时我会等待十秒或更长时间直到列表自动弹出似乎在选项 gt 文本编辑器 gt XAML 中 Inte
查询联系人 - 有时返回空游标

我正在尝试查询联系人的显示名称 Override public void onActivityResult int requestCode int resultCode Intent data switch requestCode case
Swing：创建可拖动组件...？

我在网上搜索了可拖动 Swing 组件的示例但我发现示例不完整或不起作用我需要的是一个摇摆组件那可以是dragged通过鼠标在另一个组件内被拖拽的时候应该已经改变它的位置而不仅仅是跳到目的地我很欣赏无需非标准 API 即
如何检查设备上是否安装了文本转语音 (TTS) 的特定语言数据？

我正在创建一个使用文本转语音的应用程序我希望用户能够离线使用它因此我检查设备上是否安装了 TTS 数据以下是执行此操作的代码 Check tts data is installed Intent checkTTSIntent new
RichFaces 应用程序，我应该使用 rich:dataTable 还是 jQGrid，优缺点吗？

继从here https stackoverflow com questions 3899649 ok to wrap jsf components generated html with own divs using jquery aft
如何调试 Gulp 任务？

如何调试我的中定义的 gulp 任务gulpfile js使用诸如 Google Chrome 调试器之类的调试器逐行单步执行任务的代码对于 Node js 6 3 版本您可以使用 inspect flag https nodejs o
在 javascript 中使用 xPath 解析具有默认命名空间的 XML

我需要创建一个 XML xPath 解析器所有解析都必须在客户端进行使用 JavaScript 我创建了一个 javascript 来执行此操作在默认名称空间发挥作用之前一切看起来都正常我根本无法查询具有默认命名空间的 XML 我
C++ Boost ASIO 简单的周期性定时器？

我想要一个非常简单的周期性计时器每 50 毫秒调用我的代码我可以创建一个始终休眠 50 毫秒的线程但这很痛苦我可以开始研究用于制作计时器的 Linux API 但它不可移植 I d like使用升压我只是不确定这是否可能 boost
ggplot2 的 fortify 函数出错

我在 ggplot2 中使用 fortify 方法时收到此错误 Error in function classes fdef mtable unable to find an inherited method for function pr
在门户中查看 Azure WebJob 计划？

我创建了一个简单的 Azure WebJob 并通过 Visual Studio 集成制定了每天运行一次的计划我已经部署了 WebJob 并看到它列在我在 Azure 上的应用程序中 schema http schemastore org
Apache Beam Pipeline 写表后查询表

我有一个 Apache Beam Dataflow 管道它将结果写入 BigQuery 表然后我想查询该表以获取管道的单独部分但是我似乎无法弄清楚如何正确设置此管道依赖性我编写的新表然后想要查询与一个单独的表连接以进行某些过滤
嵌入式二进制资源 - 如何枚举嵌入的图像文件？

我按照中的说明进行操作这本书 http www apress com book view 9781430225492 关于资源等的章节我不太明白的是如何替换它 images Add new BitmapImage new Uri Ima
以 Rails 形式处理 MongoMapper EmbeddedDocument

首先我对一般编程和 Rails 都是新手我选择 Rails 是因为它看起来是一种很容易上手的语言对于我的项目我将 MongoMapper 与 Rails 结合使用我正在尝试以与文档相同的形式处理嵌入文档我有以下模型 class
在 for 循环比较中使用集合大小

Java 中 Collections 的 size 方法是否有编译器优化考虑以下代码 for int i 0 i
根据列中的部分字符串匹配选择数据框行

我想根据列中字符串的部分匹配从数据框中选择行例如列 x 包含字符串 hsa 使用sqldf if它有一个like语法我会做类似的事情 select from lt gt where x like hsa 很遗憾 sqldf不支持该语法
小于或等于

使用暂停命令我发现错误位于此代码的第一行 if choice 1 if energy gt m2enc set a enemhp enemhp m1hpd earmr pause set a energy energy m1enc set
给定文档，选择相关片段

当我在这里提出问题时自动搜索返回的问题的工具提示给出了问题的前一点但其中相当一部分没有给出任何比理解问题更有用的文本标题有谁知道如何制作一个过滤器来删除问题中无用的部分我的第一个想法是修剪仅包含某个列表中的单词的任何前导句子例如

给定文档，选择相关片段

给定文档，选择相关片段 的相关文章

随机推荐

热门标签

给定文档，选择相关片段的相关文章