缩短文本并仅保留重要句子

2024-05-11

德国网站 nandoo.net 提供了缩短新闻文章的可能性。如果使用滑块更改百分比值，文本会发生变化并且某些句子会被遗漏。

您可以在这里看到它的实际效果：

http://www.nandoo.net/read/article/299925/ http://www.nandoo.net/read/article/299925/

新闻文章位于左侧，并标记有标签。滑块位于第二列的顶部。将滑块向左移动得越多，文本就会变得越短。

你怎么能提供这样的东西呢？您可以使用任何算法来实现这一目标吗？

我的想法是他们的算法计算句子中标签和名词的数量。然后，具有最少标签/名词的句子将被省略。

这是真的吗？或者你还有别的想法吗？

我希望你可以帮助我。提前致谢！

这是计算语言学领域的一个热点研究课题。使用贝叶斯过滤的浅层方法不太可能产生完美的结果 - 但无论如何您可能不需要完美的结果。

在 CL 中，80-20 规则很快就会变成 95-5 规则，因此，如果您对通过浅层方法所能实现的目标感到满意，请跳过此答案。

如果您想看看是否可以改进您的结果，您可以尝试寻找一些更好的资源。您所指的任务在研究界称为“文本摘要”，它有自己的web page http://www.summarization.com/这已经过时了。可能是一个很好的概述（我自己没有读过），但也相当过时。最近的是马丁·哈塞尔斯论文 http://www.csc.kth.se/~xmartin/dlgate.php?file=phdthesis_mh_2007.pdf关于该主题，而且也非常详尽，包括与语言无关的（阅读：统计，即浅层）方法。

与往常一样，Google 也将能够为您提供帮助。只需搜索文本摘要 http://google.com/search?q=text+summarization.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

缩短文本并仅保留重要句子的相关文章

序列和与 GCD

大约一个月前我在编程挑战中遇到了这个问题但社论尚未发布所以我在这里问有一个大小为 N 的数组 A 求 A 的 K 个长度子序列的总和 GCD Example 如果 A 1 2 3 且 K 2 1 2 3 总和 1 GCD 3 1 3
一种良好且简单的随机性测量方法

获取一长整数序列例如 100 000 个并返回序列随机性的测量值的最佳算法是什么该函数应返回单个结果如果序列并非完全随机则返回 0 如果完全随机则返回 1 如果序列有点随机它可以给出介于两者之间的东西例如0 95 可能是一个
Python Pandas：沿一列比较两个数据帧，并返回另一个数据帧中两个数据帧的行内容

我正在处理两个 csv 文件并作为数据框 df1 和 df2 导入 df1 有 50000 行 df2 有 150000 行我想将 df2 的时间与 df1 求时间差并返回所有列的值对应相似的行保存在df3中时间同步例如 35
如何在 bertopic 建模中获取每个主题的所有文档

我有一个数据集并尝试使用 berTopic 建模将其转换为主题但问题是我无法获取主题的所有文档 berTopic 每个主题仅返回 3 个文档 topic model BERTopic verbose True embedding mod
是否有一种算法可以在线性时间内计算数组反转？

我知道有多少倒转 en wikipedia org wiki Inversion 28discrete mathematics 29 in an n 元素数组可以在 O n log n 操作使用增强型归并排序 http www geeksf
有人可以简单解释一下自然语言处理的要素吗？

我是自然语言处理的新手对所使用的术语感到困惑什么是代币化 POS 标签实体识别标记化只是将文本分割成可以有意义的部分或为这些部分赋予含义以及含义当我确定某物是名词动词或形容词时它的名字是什么如果我想分为日期姓名货币呢
当给定块大小时反转单链表

有一个单连接链表并给出了块大小例如如果我的链表是1 gt 2 gt 3 gt 4 gt 5 gt 6 gt 7 gt 8 NULL我的块大小是4然后反转第一个4元素然后是第二个 4 个元素问题的输出应该是4 gt 3 gt 2 g
重写修改后的 goto 语义的算法

我有一大堆使用旧的自行设计的脚本语言编写的遗留代码我们将它们编译翻译成 javascript 该语言有条件跳转跳转到标签与普通 goto 语句的区别在于不可能向后跳转该语言中没有嵌套的 if 语句或循环由于 javascrip
为什么这个算法的Big-O复杂度是O(n^2)？

我知道这个算法的大O复杂度是O n 2 但我不明白为什么 int sum 0 int i 1 j n n while i lt j sum 即使我们设定了j n n一开始我们在每次迭代期间递增 i 并递减 j 因此最终的迭代次数不应该比n
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
删除近排序数组中未排序/离群元素

给定一个像这样的数组 15 14 12 3 10 4 2 1 我如何确定哪些元素乱序并删除它们在本例中为数字 3 我不想对列表进行排序而是检测异常值并将其删除另一个例子 13 12 4 9 8 6 7 3 2 我希望能够删除 4 和
如何使用 NLP 确定句子中的中心词？

例如如果我得到一个句子一名英国士兵在阿富汗战斗中丧生这句话的中心词是杀给定 Python 中的 nltk 包我怎样才能找到它我不是在谈论词干我指的是中心词您正在寻找中心词句子解析它可以在 Python 的 nltk 包中
数组所有可能的组合

我有一个字符串数组 ted williams golden voice radio 我希望这些关键字的所有可能组合采用以下形式 ted williams golden voice radio ted williams ted golden
查找字符串中最常见的子字符串的算法

是否有任何算法可用于查找字符串中最常见的短语或子字符串例如以下字符串将 hello world 作为其最常见的两个单词短语 hello world this is hello world hello world repeats thr
从二叉堆中查找第 k 个最小元素的 O(klogk) 时间算法

我们有一个 n 节点二叉堆其中包含n不同的项目根部的最小项目为一个k lt n 发现O klogk 时间算法选择kth堆中的最小元素 O klogn 很明显但无法找出O klogk 一也许我们可以使用第二个堆但不确定好吧你的
添加边后更新最大流量

考虑我们有一个网络流量并使用 Edmond Karp 算法我们已经拥有网络上的最大流量现在如果我们向网络添加任意边具有一定容量更新最大流量的最佳方法是什么我正在考虑更新关于新边缘的残差网络并再次寻找增强路径直到找到新的最大
从给定的项目列表创建子列表

我首先要说的是以下问题不是为了家庭作业目的即使因为我几个月前就完成了软件工程师的工作无论如何今天我正在工作一位朋友向我询问了这个奇怪的排序问题我有一个包含 1000 行的列表每行代表一个数字我想创建 10 个子列表每个子列表都
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

如何将从 MySQL 获取的数据以 JSON 形式返回到 php 文件中？

我必须将从 MySQL 表中获取的数据作为 JSON 返回到 php 文件中这是我连接到 mysql 并从中获取数据的代码现在我怎么能将它作为 JSON 返回呢
通过 rpy 将 SPSS 文件（.sav）导入 pandas 时如何保留标签？

我正在寻找使用 SPSS 文件 sav pandas 在没有 SPSS 程序的情况下典型文件转换为 csv 后的样子如下在调查前两行的含义时我不知道 SPSS 似乎第一行包含Labels 而第二行包含VarNames 当我将文件带入
如何在 Swift 中更改 UIButton 图像

我正在尝试使用 Swift 更改 UIButton 的图像我应该怎么办这是 OBJ C 代码但我不知道 Swift 的情况 playButton setImage UIImage imageNamed play png forStat
Laravel 5 未找到“App\Carbon\Carbon”类

我最近run sudo composer update 现在在我的一个页面上我不断得到我确实用过 now Carbon Carbon now America New York in line 792 on my Helper php M
如果文本过滤器在 ng-repeat 中没有返回结果，则显示消息

假设我们有一个带有文本过滤器的 ng repeat
Laravel 5.2 如何更新迁移而不丢失数据

我使用的是 laravel 5 2 我通常会根据项目要求更新数据库所以我希望在不丢失数据库记录的情况下执行此操作我的意思不是如何为我的数据库播种我的意思是当我的数据库处于活动状态并且我想更新它时抛出 laravel 迁移我正要扔La
如何使 java.text.NumberFormat 将 0.0d 格式设置为“0”而不是“+0”？

需要带符号的结果 0 0d 除外 IE 123 45d gt 123 45 123 45d gt 123 45 0 0d gt 0 我调用format setPositivePrefix 在 DecimalFormat 的实例上强制结果中
使用 popToRootViewController 时我丢失了导航栏

我有一个 iOS 应用程序其中主屏幕是 UICollectionViewController 从集合视图中选择项目时视图将推送到该项目的详细信息视图在细节视图中我构建了一个从侧面移出的抽屉滑块为了让视图看起来像我想要的那样我隐
java.lang.IllegalArgumentException：比较方法违反了其一般契约[重复]

这个问题在这里已经有答案了您好下面是我的比较器的比较方法我不确定出了什么问题我在堆栈溢出上查找了其他类似标题的问题和答案但不确定我的方法出了什么问题但我不断收到 java lang IllegalArgumentExceptio
为什么 symfony DOMCrawler 对象无法在依赖的 phpunit 测试之间正确传递？

我有一个适用于我的 symfony 应用程序的 phpunit 测试套件在该测试文件中我在不同的测试之间有一些依赖关系并在依赖关系之间传递一个 DOMCrawler 对象这样我就不必每次都导航到它但是在采用我所做的方法时您似乎
R（或替代方案？）中的高（或非常高）阶多项式回归

我想对 R 中的一组数据进行非常高阶回归拟合但是poly 函数的阶数极限为 25 对于此应用程序我需要的订单范围为 100 到 120 model lt lm noisy y poly q 50 Error in poly q 50
调试和发布版本中的静态字段初始化

我发现静态字段初始化的行为可能有所不同对于以下代码 public class Class1 public static void Main Console WriteLine Main Test Console ReadLine publ
执行oauth时如何创建弹出窗口？

我想通过使用弹出窗口来完成 Lifestream 和其他网站使用 oauth 身份验证所做的事情他们打开一个弹出窗口不知何故没有被弹出窗口拦截器阻止并将他们的网站变灰然后在允许 oauth 访问时它会说重定向回原始站点并终止弹出
更改模板标签 <# {% {{ 等后，John Resig 的微模板出现语法错误

我在使用 John Resig 的 Micro 模板时遇到了一些麻烦谁能帮我解释为什么它不起作用这是模板以及发动机的改装部分 str replace r t n g split join t replace gt t g 1 r re
服务器返回网页 404，但页面在浏览器中显示正常 - 为什么？

一个奇怪的网页横亘在我面前作为一名开发人员我必须解开这个谜团在任何浏览器中访问网页时一切似乎都很正常网页按预期显示但是当查看控制台时服务器实际上返回了 404 状态代码那么浏览器为什么要渲染页面呢查看正文显示返回了有效的
Node.js 中的 Azure Function 和共享文件

我正在通过 Bitbucket CI 部署我的 Azure Functions 我可以在多个函数中引用共享目录中的文件这很棒但是当我尝试更新我的共享代码并通过推送到主分支来部署它时我可以看到文件在我的 Kudu 控制台中更新但我的
从日志文件中获取前 100 个 URL

我的一位朋友在接受采访时被问到以下问题谁能告诉我如何解决它我们有一个相当大的日志文件大约 5GB 日志文件的每一行都包含一个用户在我们网站上访问过的 URL 我们想要找出用户访问最多的 100 个 URL 怎么做如果我们有超过 10
嵌套控件结构 - 使用 XAML 还是 C#？

我想创建一个由相当多的元素组成的结构它的基本布局如下
工具提示弹出窗口内的 Bootstrap 输入字段已从输出 html 中删除

您好我正在使用 bootstrap 4 3 1 并包含 popper 1 14 7 通常我可以在弹出窗口工具提示的内容中添加输入字段我从什么时候开始就不知道了但是当我将输入字段放入内容中时只有文本可见当我查看源代码编译后的 h
缩短文本并仅保留重要句子

德国网站 nandoo net 提供了缩短新闻文章的可能性如果使用滑块更改百分比值文本会发生变化并且某些句子会被遗漏您可以在这里看到它的实际效果 http www nandoo net read article 299925 http

缩短文本并仅保留重要句子

缩短文本并仅保留重要句子 的相关文章

随机推荐

热门标签

缩短文本并仅保留重要句子的相关文章