排除字符串列表中的相似点以提取差异

2024-01-27

我有一个句子列表，除了书名之外，其他句子都相同。

如何循环遍历列表并排除相似之处以找到书名？

（这是一个例子，可以是任何有相似之处的短句。）

《蝇王》这本书堪称经典。
《杀死一只知更鸟》是一本经典之作。
《麦田里的守望者》这本书堪称经典。

我遇到的问题是我不能简单地使用regex or Contains()在句子中找到标题，因为我不知道下一个句子或书名是什么。我正在从外部来源搜索许多内容，所以我想我可以提取相似单词之间的内容。

The book named 麦田里的守望者 is a classic.

List<string> sentences = new List<string>() { };
List<string> titles = new List<string>() { };

sentences.Add("The book named Lord of the Flies is a classic.");
sentences.Add("The book named To Kill a Mockingbird is a classic.");
sentences.Add("The book named The Catcher in the Rye is a classic.");

foreach (String title in sentences)
{
    // what to do here?

    // add title to titles list
}

我的想法是将列表中的所有字符串相互比较，排除字符串中的相似部分，然后剩下标题。但我不知道该怎么做。

这是一个有趣的问题，所以我稍微研究了一下并提出了以下（麻烦的）解决方案：

找到任何句子具有不同字符的第一个索引，然后在相反的句子中做同样的事情然后使用Substring仅提取句子的不同部分：

List<string> ExtractDifferences(List<string> sentences)
{
    var firstDiffIndex = GetFirstDifferenceIndex(sentences);
    var lastDiffIndex = GetFirstDifferenceIndex(sentences.Select(s => new string(s.Reverse().ToArray())).ToList());
    return sentences.Select(s => s.Substring(firstDiffIndex, s.Length - lastDiffIndex - firstDiffIndex)).ToList();
}


int GetFirstDifferenceIndex(IList<string> strings)
{
    int firstDifferenceIndex = int.MaxValue;

    for (int i = 0; i < strings.Count; i++)
    {
        var current = strings[i];
        var prev = strings[i == 0 ? strings.Count - 1 : i - 1];

        var firstDiffIndex = current
            .Select((c, j) => new { CurrentChar = c, Index = j })
            .FirstOrDefault(ci => ci.CurrentChar != prev[ci.Index])
            .Index;

        if (firstDiffIndex < firstDifferenceIndex)
        {
            firstDifferenceIndex = firstDiffIndex;
        }
    }
    return firstDifferenceIndex;
}

我猜是GetFirstDifferenceIndex方法可以用不同的方式编写，也许使用 linq 更好，但我没有足够的时间来使用它。

您可以在 rextester 上观看现场演示。 http://rextester.com/FXXSVN30342

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

排除字符串列表中的相似点以提取差异的相关文章

如何在c++中读取pcap文件来获取数据包信息？

我想用 C 编写一个程序来读取 pcap 文件并获取数据包的信息例如 len sourc ip flags 等现在我找到了如下代码我认为它会帮助我获取信息但是我有一些疑问首先我想知道应该将哪个库添加到我的程序中然后什么是 pca
提交后禁用按钮

当用户提交付款表单并且发布表单的代码导致 Firefox 中出现重复发布时我试图禁用按钮去掉代码就不会出现这个问题在firefox以外的任何浏览器中也不会出现这个问题知道如何防止双重帖子吗 System Text StringBui
在 DataView 的 RowFilter 中选择 DISTINCT

我试图根据与另一个表的关系缩小 DataView 中的行范围我使用的 RowFilter 如下 dv new DataView myDS myTable id IN SELECT DISTINCT parentID FROM myOthe
如何创建包含 IPv4 地址的文本框？ [复制]

这个问题在这里已经有答案了如何制作一个这样的文本框我想所有的用户都见过这个并且知道它的功能您可以使用带有 Mask 的 MaskedTestBox000 000 000 000 欲了解更多信息请参阅文档 http msdn micr
如何区分用户点击链接和页面自动重定向？

拥有 C WebBrowser control http msdn microsoft com en us library system windows forms webbrowser aspx在我的 WinForms 应用程序中并意识
java.io.Serialized 在 C/C++ 中的等价物是什么？

C C 的等价物是什么java io Serialized https docs oracle com javase 7 docs api java io Serializable html 有对序列化库的引用用 C 序列化数据结构 ht
为什么 Google 测试会出现段错误？

我是 Google Test 的新手正在尝试提供的示例我的问题是当我引入失败并设置GTEST BREAK ON FAILURE 1 或使用命令行选项 GTest 将出现段错误我正在考虑这个例子 https code google c
由 IHttpClientFactory 注入时模拟 HttpClient 处理程序

我创建了一个自定义库它会自动为依赖于特定服务的 Polly 策略设置HttpClient 这是使用以下方法完成的IServiceCollection扩展方法和类型化客户端方法一个简化的例子 public static IHttpClie
标准化 UTF-8 到底是什么？

The 重症监护室项目 http userguide icu project org transforms normalization 现在也有一个PHP库 http us php net manual en class normalize
在一个平台上，对于所有数据类型，所有数据指针的大小是否相同？ [复制]

这个问题在这里已经有答案了 Are char int long 甚至long long 大小相同在给定平台上不能保证它们的大小相同尽管在我有使用经验的平台上它们通常是相同的 C 2011 在线草稿 http www open std
我可以使用 moq Mock 来模拟类而不是接口吗？

正在经历https github com Moq moq4 wiki Quickstart https github com Moq moq4 wiki Quickstart 我看到它 Mock 一个接口我的遗留代码中有一个没有接口的类
DbContext 和 ObjectContext 有什么区别

From MSDN 表示工作单元和存储库模式的组合使您能够查询数据库并将更改分组在一起然后将这些更改作为一个单元写回存储 DbContext在概念上类似于ObjectContext 我虽然DbContext只处理与数据库的连接以及针对数
使用自定义堆的类似 malloc 的函数

如果我希望使用自定义预分配堆构造类似 malloc 的功能那么 C 中最好的方法是什么我的具体问题是我有一个可映射类似内存的设备已将其放入我的地址空间中但我需要获得一种更灵活的方式来使用该内存来存储将随着时间的推移分配和释放的
CMake 无法确定目标的链接器语言

首先我查看了this https stackoverflow com questions 11801186 cmake unable to determine linker language with c发帖并找不到解决我的问题的方法我
“接口”类似于 boost::bind 的语义

我希望能够将 Java 的接口语义与 C 结合起来起初我用过boost signal为给定事件回调显式注册的成员函数这非常有效但后来我发现一些函数回调池是相关的因此将它们抽象出来并立即注册所有实例的相关回调是有意义的但我了解到的
如何设置 log4net 每天将我的文件记录到不同的文件夹中？

我想将每天的所有日志保存在名为 YYYYMMdd 的文件夹中 log4net 应该根据系统日期时间处理创建新文件夹我如何设置它我想将一天中的所有日志保存到 n 个 1MB 的文件中我不想重写旧文件但想真正拥有一天中的所有日志我该如
将 MQTTNet 服务器与 MQTT.js 客户端结合使用

我已经启动了一个 MQTT 服务器就像this https github com chkr1011 MQTTnet tree master例子该代码托管在 ASP Net Core 2 0 应用程序中但我尝试过控制台应用程序但没有成
使用 %d 打印 unsigned long long

为什么我打印以下内容时得到 1 unsigned long long int largestIntegerInC 18446744073709551615LL printf largestIntegerInC d n largestInte
C++ 条件编译

我有以下代码片段 ifdef DO LOG define log p record p else define log p endif void record char data 现在如果我打电话log hello world 在我的代码中
Oracle Data Provider for .NET 不支持 Oracle 19.0.48.0.0

我们刚刚升级到 Oracle 19c 19 3 0 所有应用程序都停止工作并出现以下错误消息 Oracle Data Provider for NET 不支持 Oracle 19 0 48 0 0 我将 Oracle ManagedData

随机推荐

Django Cripy-Forms 找不到 CSS

我正在使用 Django 和 Crispy Forms 我可以正确呈现表单但不会出现 CSS 格式我需要做什么我已经添加了 CRISPY TEMPLATE PACK bootstrap to my settings py file h
如何让 django 在继续完成与请求相关的任务之前给出 HTTP 响应？

在我的 django 活塞 API 中我想在调用另一个需要相当长的时间的函数之前向客户端产生返回一个 http 响应如何使yield 给出包含所需JSON 的HTTP 响应而不是与生成器对象创建相关的字符串我的活塞处理程序方法如下
如何读取属性文件并使用项目 Gradle 脚本中的值？

我正在开发一个 Gradle 脚本我需要阅读local properties文件并使用属性文件中的值build gradle 我正在按照以下方式进行操作我运行了下面的脚本它现在抛出一个错误但它也没有执行任何操作例如创建删除和复制
Django-CKEditor 不会渲染图像

我已经安装了 Django CKEditor 并对其进行了配置以用于开发目的现在我可以编辑文本并将其作为文本字段保存到数据库中但是在插入图像时我遇到了很大的问题我可以插入图像它似乎可以正确保存到本地主机正确的文件夹但是当将图像渲
如何更改 setInterval 和 setTimeout 函数中“this”的范围

怎么可能使用this代替setInterval and setTimeout calls 我想这样使用它 function myObj this func function args setTimeout function this fun
如何解决Require.js中的循环依赖？

基本上这个想法是子模块创建一个对象并且该对象应该是作为主模块的实用程序库的一部分然而子对象depends关于 main 的实用程序 Main module define sub function sub var utils
NameError：未初始化的常量 Bundler

我刚刚将我的网络服务器更改为 Puma 并且必须将我的开发数据库从 sqlite 更改为 postgresql 但现在每次我尝试运行 rake db migrate 时都会收到此错误 rake aborted NameError unini
为 ObjectContext 创建接口

我正在尝试创建一个抽象层ObjectContext 我理解 OC 是一个工作单元但我并不完全了解如何为它编写一个好的界面理想情况下我希望能够交换实现的 RealDataContext IDataContext对于像 FakeDataC
求解 a^3 + b^4 = c^3 + d^3 最佳运行时间

注意这个问题不同于写出 a 3 b 3 c 3 d 3 的所有解 https stackoverflow com questions 14454133 write all solutions for a3 b3 c3 d3因为我需要帮助理
SQL 如果 select 语句不返回任何行，则执行替代 select 语句

基本上什么语法可以让我实现标题声明 If select statement 1 returns 0 rows THEN select statement 2 else select statement 3 以便 sql 返回语句 2 或
将图库中的所有图像加载到 android 中的应用程序中

我正在创建一个应用程序其中我需要图库中的所有图像到我的应用程序中其中有一个 girdview 我希望所有文件夹中的所有图像都显示在网格视图中 String proj MediaStore Images Media DATA MediaS
如何从 pytorch 模块获取子模块序列？

对于火炬module https pytorch org docs master generated torch nn Module html 我想我可以用 named children named modules等来获取子模块的列表但是
为什么 d3.js v3 在实现缩放时会破坏我的力图，而 v2 不会？

我有一个使用 d3 js 创建的强制布局我希望同时拥有可拖动力布局的正常功能以及缩放功能我基本上已经从 http jsfiddle net nrabinowitz QMKm3 http jsfiddle net nrabinowitz
在 SQL Server 日期时间字段中格式化日期时间的正确方法是什么

我在 C 中有一个 dateTime 对象我想插入 SQL Server 日期时间字段正确的格式是什么正确的方法是使用参数化查询 not文本格式然后你就可以使用强类型SqlDbType DateTime http msdn micr
反应本机平面列表不滚动

我已经使用 FlatList 很多次了但从未有过这样的经历我有一个视图页面顶部有一个图像而我的列表在下面当我尝试滚动时列表弹到顶部对此找不到好的解决方案这是我的清单
在 Play Framework 中使用 POST 路由参数

我有一个登录路由应将其输入参数作为 POST 变量传输我已经这样定义了我的路线 POST v1 accounts login controllers v1 Accounts login username String password
标准WPF选项卡控件中是否有Selected Tab Changed事件

在WPF中是否有一个事件可以用来确定何时TabControl选定的选项卡发生变化吗我尝试过使用TabControl SelectionChanged但是当孩子在选项卡中的选择发生更改时它会被多次触发您需要检查事件的来源以隔离最外层的
UISegmentedControl 委托/触摸事件

我有一个 UISegmentedControl 有六个段我希望它们在值更改时调用一个方法而且当每个段获得一个UIControlEventTouchDragIn因为我希望当用户尝试选择 UILabel 上的某些内容并将手指拖过控件时 UI
在哪里可以找到 IntelliJ 其他语言的词典？

IntelliJ 拼写检查器仅捆绑了英语和阿拉伯语奇怪我认为它是在东欧制造的他们甚至没有捆绑他们的语言我的客户是德国人所以我的所有代码都是英语代码德语界面混合的而且我找不到 IntelliJ 的德语词典当前的IDEA版
排除字符串列表中的相似点以提取差异

我有一个句子列表除了书名之外其他句子都相同如何循环遍历列表并排除相似之处以找到书名这是一个例子可以是任何有相似之处的短句蝇王这本书堪称经典杀死一只知更鸟是一本经典之作麦田里的守望者这本书堪称经典我遇到的问题是我不能简

排除字符串列表中的相似点以提取差异

排除字符串列表中的相似点以提取差异 的相关文章

随机推荐

热门标签

排除字符串列表中的相似点以提取差异的相关文章