是否有所有国际句号标点符号的字符集？

2023-11-26

我正在尝试将 utf-8 字符串解析为“一口大小”的段。例如，我想将文本分解为“句子”。

是否存在与所有语言的句子结尾相对应的字符（或正则表达式）的全面集合？我正在寻找能够捕捉拉丁语句号、感叹号和问号、中文和日文句号等的东西。

类似上面的东西，但相当于一个逗号也很好。

您需要使用以下命令查看代码点\p{Sentence_Break=STerm} or \p{Sentence_Break=ATerm}属性也具有\p{Terminal_Punctuation}财产。跑步the unichars script根据 Unicode v6.1，我们了解到这些代码点满足所有这些标准：

$ unichars -gas '[\p{Sentence_Break=STerm}\p{Sentence_Break=ATerm}]' '\p{Terminal_Punctuation}'
U+00021 ‭ !  GC=Po SC=Common       EXCLAMATION MARK
U+0002E ‭ .  GC=Po SC=Common       FULL STOP
U+0003F ‭ ?  GC=Po SC=Common       QUESTION MARK
U+00589 ‭ ։  GC=Po SC=Common       ARMENIAN FULL STOP
U+0061F ‭ ؟  GC=Po SC=Common       ARABIC QUESTION MARK
U+006D4 ‭ ۔  GC=Po SC=Arabic       ARABIC FULL STOP
U+00700 ‭ ܀  GC=Po SC=Syriac       SYRIAC END OF PARAGRAPH
U+00701 ‭ ܁  GC=Po SC=Syriac       SYRIAC SUPRALINEAR FULL STOP
U+00702 ‭ ܂  GC=Po SC=Syriac       SYRIAC SUBLINEAR FULL STOP
U+007F9 ‭ ߹  GC=Po SC=Nko          NKO EXCLAMATION MARK
U+00964 ‭ ।  GC=Po SC=Common       DEVANAGARI DANDA
U+00965 ‭ ॥  GC=Po SC=Common       DEVANAGARI DOUBLE DANDA
U+0104A ‭ ၊  GC=Po SC=Myanmar      MYANMAR SIGN LITTLE SECTION
U+0104B ‭ ။  GC=Po SC=Myanmar      MYANMAR SIGN SECTION
U+01362 ‭ ።  GC=Po SC=Ethiopic     ETHIOPIC FULL STOP
U+01367 ‭ ፧  GC=Po SC=Ethiopic     ETHIOPIC QUESTION MARK
U+01368 ‭ ፨  GC=Po SC=Ethiopic     ETHIOPIC PARAGRAPH SEPARATOR
U+0166E ‭ ᙮  GC=Po SC=Canadian_Aboriginal CANADIAN SYLLABICS FULL STOP
U+01803 ‭ ᠃  GC=Po SC=Common       MONGOLIAN FULL STOP
U+01809 ‭ ᠉  GC=Po SC=Mongolian    MONGOLIAN MANCHU FULL STOP
U+01944 ‭ ᥄  GC=Po SC=Limbu        LIMBU EXCLAMATION MARK
U+01945 ‭ ᥅  GC=Po SC=Limbu        LIMBU QUESTION MARK
U+01AA8 ‭ ᪨  GC=Po SC=Tai_Tham     TAI THAM SIGN KAAN
U+01AA9 ‭ ᪩  GC=Po SC=Tai_Tham     TAI THAM SIGN KAANKUU
U+01AAA ‭ ᪪  GC=Po SC=Tai_Tham     TAI THAM SIGN SATKAAN
U+01AAB ‭ ᪫  GC=Po SC=Tai_Tham     TAI THAM SIGN SATKAANKUU
U+01B5A ‭ ᭚  GC=Po SC=Balinese     BALINESE PANTI
U+01B5B ‭ ᭛  GC=Po SC=Balinese     BALINESE PAMADA
U+01B5E ‭ ᭞  GC=Po SC=Balinese     BALINESE CARIK SIKI
U+01B5F ‭ ᭟  GC=Po SC=Balinese     BALINESE CARIK PAREREN
U+01C3B ‭ ᰻  GC=Po SC=Lepcha       LEPCHA PUNCTUATION TA-ROL
U+01C3C ‭ ᰼  GC=Po SC=Lepcha       LEPCHA PUNCTUATION NYET THYOOM TA-ROL
U+01C7E ‭ ᱾  GC=Po SC=Ol_Chiki     OL CHIKI PUNCTUATION MUCAAD
U+01C7F ‭ ᱿  GC=Po SC=Ol_Chiki     OL CHIKI PUNCTUATION DOUBLE MUCAAD
U+0203C ‭ ‼  GC=Po SC=Common       DOUBLE EXCLAMATION MARK
U+0203D ‭ ‽  GC=Po SC=Common       INTERROBANG
U+02047 ‭ ⁇  GC=Po SC=Common       DOUBLE QUESTION MARK
U+02048 ‭ ⁈  GC=Po SC=Common       QUESTION EXCLAMATION MARK
U+02049 ‭ ⁉  GC=Po SC=Common       EXCLAMATION QUESTION MARK
U+02E2E ‭ ⸮  GC=Po SC=Common       REVERSED QUESTION MARK
U+03002 ‭ 。 GC=Po SC=Common       IDEOGRAPHIC FULL STOP
U+0A4FF ‭ ꓿  GC=Po SC=Lisu         LISU PUNCTUATION FULL STOP
U+0A60E ‭ ꘎  GC=Po SC=Vai          VAI FULL STOP
U+0A60F ‭ ꘏  GC=Po SC=Vai          VAI QUESTION MARK
U+0A6F3 ‭ ꛳  GC=Po SC=Bamum        BAMUM FULL STOP
U+0A6F7 ‭ ꛷  GC=Po SC=Bamum        BAMUM QUESTION MARK
U+0A876 ‭ ꡶  GC=Po SC=Phags_Pa     PHAGS-PA MARK SHAD
U+0A877 ‭ ꡷  GC=Po SC=Phags_Pa     PHAGS-PA MARK DOUBLE SHAD
U+0A8CE ‭ ꣎  GC=Po SC=Saurashtra   SAURASHTRA DANDA
U+0A8CF ‭ ꣏  GC=Po SC=Saurashtra   SAURASHTRA DOUBLE DANDA
U+0A92F ‭ ꤯  GC=Po SC=Kayah_Li     KAYAH LI SIGN SHYA
U+0A9C8 ‭ ꧈  GC=Po SC=Javanese     JAVANESE PADA LINGSA
U+0A9C9 ‭ ꧉  GC=Po SC=Javanese     JAVANESE PADA LUNGSI
U+0AA5D ‭ ꩝  GC=Po SC=Cham         CHAM PUNCTUATION DANDA
U+0AA5E ‭ ꩞  GC=Po SC=Cham         CHAM PUNCTUATION DOUBLE DANDA
U+0AA5F ‭ ꩟  GC=Po SC=Cham         CHAM PUNCTUATION TRIPLE DANDA
U+0AAF0 ‭ ꫰  GC=Po SC=Meetei_Mayek MEETEI MAYEK CHEIKHAN
U+0AAF1 ‭ ꫱  GC=Po SC=Meetei_Mayek MEETEI MAYEK AHANG KHUDAM
U+0ABEB ‭ ꯫  GC=Po SC=Meetei_Mayek MEETEI MAYEK CHEIKHEI
U+0FE52 ‭ ﹒ GC=Po SC=Common       SMALL FULL STOP
U+0FE56 ‭ ﹖ GC=Po SC=Common       SMALL QUESTION MARK
U+0FE57 ‭ ﹗ GC=Po SC=Common       SMALL EXCLAMATION MARK
U+0FF01 ‭ ！ GC=Po SC=Common       FULLWIDTH EXCLAMATION MARK
U+0FF0E ‭ ． GC=Po SC=Common       FULLWIDTH FULL STOP
U+0FF1F ‭ ？ GC=Po SC=Common       FULLWIDTH QUESTION MARK
U+0FF61 ‭ ｡  GC=Po SC=Common       HALFWIDTH IDEOGRAPHIC FULL STOP
U+11047 ‭


				
						 
                
                    本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)
                     
                
		 

								
				
					
						
												
                            
                                
                                    Parsing                                
							
                        
												
                            
                                
                                    Unicode                                
							
                        
												
                            
                                
                                    characterencoding                                
							
                        
												
                            
                                
                                    stringparsing                                
							
                        
												
                            
                                
                                    punctuation









	
		
				是否有所有国际句号标点符号的字符集？  的相关文章
		
	
	
				
			
				
					如何读取数据库文件并应用不同的解码？				
			
			                       
                    我有一个 dbf 文件结束编码为 866 代码页 DOS 使用下面的代码 我正在尝试阅读它 问题是我得到的字符串的形成方式就好像文件位于代码页 1252 中一样 我已经检查过 SO 和其他论坛上的其他问题 到目前为止还没有运气 寻找有关热门                
                		
				
			
				
					C# 中包含非 ascii 字符的文件路径和 FileInfo				
			
			                       
                    我得到一个或多或少看起来像这样的字符串 C bl h bleh 我用它创建了一个 FileInfo 但是当我检查它是否存在时 它返回 false var file new FileInfo path file Exists 如果我手动将路径                
                		
				
			
				
					十六进制值 0X03 是无效字符				
			
			                       
                    这是一个网页的源码 p Da 32 brow 35 a G rn x3 icza p p 我需要浏览此页面并复制显示的文本 之后 我将此文本粘贴到 ASP NET MVC 应用程序的输入文本框中 以便在数据库中创建新记录 布局页面的元字符集                
                		
				
			
				
					执行 mysqli->set_charset() 的永久方法？				
			
			                       
                    将我可以找到的字符集的所有配置文件和运行时选项设置为 utf 8 后 使用 php 建立的新 mysqli 连接的字符集仍然设置为 latin1 这实际上意味着我必须调用 mysqli gt set charset utf8 每次我连接 m                
                		
				
			
				
					Eclipse 中的 AST 处理无法解析绑定				
			
			                       
                    我正在使用 eclipse JDT AST 解析器来处理一些 Java 代码 并尝试提取字段和方法声明的类型绑定 这样做的逻辑位于我的 Visitor 类中 见下文 不幸的是 我没有任何运气 并且没有任何绑定能够解析 它们始终为空 有趣的是                
                		
				
			
				
					标准化 Unicode				
			
			                       
                    在Python中是否有一种标准方法来规范化unicode字符串 以便它只理解可用于表示它的最简单的unicode实体 我的意思是 可以翻译类似序列的东西 LATIN SMALL LETTER A COMBINING ACUTE ACCENT                
                		
				
			
				
					为什么有 LR(0) 解析器而不是 LL(0) 解析器？				
			
			                       
                    我一直在维基百科上阅读这两个内容 并注意到虽然存在 LR 0 解析器 但不存在 LL 0 解析器之类的东西 根据我的阅读 我了解到 LL k LR k 中的 k 表示解析器可以看到多少个字符beyond当前正在处理的当前角色 所以我的问题是                
                		
				
			
				
					是否有更快的方法来检查 LINQ to XML 中的 XML 元素并解析 bool？				
			
			                       
                    仅供参考 这与我的上一个问题非常相似 是否有更快的方法来检查 LINQ to XML 中的 XML 元素 https stackoverflow com questions 2065665 is there a faster way to                 
                		
				
			
				
					如何使用mb_detect_encoding检测编码是否正确？				
			
			                       
                    我想检测编码是否正确 但我发现 mb detect encoding 总是得到错误结果 并且我添加了很多encoding list UTF8 ISO 8859 你试图做的事情只是有时作品 编码检测并不是一门精确的 科学 因此您能做的最好的事                
                		
				
			
				
					如何在 Rails 3 中强制对 HTML 电子邮件进行字符编码？				
			
			                       
                    我正在使用 Rails 3 1 3 1 1 RC1 并且我已配置 ActionMailer 以使用windows 1252作为默认编码 外部要求 这与纯文本邮件完美配合 但一旦我发送 HTML 邮件 文本就会转换为UTF 8再次导致乱码文本                
                		
				
			
				
					用 C# 解析和查询 SOAP				
			
			                       
                    我正在尝试解析一个大量命名空间的 SOAP 消息 源也可以在here http tinyurl com n3av6k                
                		
				
			
				
					Windows-1251 到 UTF-8 代码				
			
			                       
                    我在 Windows 1251 代码表中有字符代码 如何获取UTF 8编码表中该字符的编码 例如 我有字符 在 Windows 1251 中编码等于 192 适当的 utf 8 代码等于 1040 我如何使用 Windows 1251 代码                
                		
				
			
				
					AWK 中多行的匹配正则表达式。 ＆＆ 操作员？				
			
			                       
                    我不确定 运算符在正则表达式中是否有效 我想做的是匹配一行 使其以数字开头并具有字母 a 下一行以数字开头并具有字母 b 并且下一行 字母 c 该 abc 序列将用作开始读取文件的唯一标识符 这就是我在 awk 中想要的东西 0 9 a n                
                		
				
			
				
					String.Format 小数，带有千位分隔符和强制小数位				
			
			                       
                    我想String Format小数 使其同时具有千位分隔符和强制小数位 3 例如 Input 123456 12 78545 8 Output 123 456 120 78 545 800 我努力了 String Format 0 0 0                 
                		
				
			
				
					XAML解析异常				
			
			                       
                    我有一个简单的 XAML 页面 当它作为 Visual Studio 中任何应用程序的一部分加载时 加载效果良好 但是 当我使用 ClickOnce 部署此应用程序时 出现以下异常 Type System Windows Markup Xa                
                		
				
			
				
					在python中比较两个xml文件				
			
			                       
                    我是 python 编程新手 并且在理解这个概念时遇到了一些困难 我想比较两个 xml 文件 这些 xml 文件相当大 我将给出一个我想要比较的文件类型的示例 xml文件1                
                		
				
			
				
					Perl 和 Unix 如何以相同的顺序对 Unicode 字符串进行排序？				
			
			                       
                    我正在尝试获取 Perl 和 GNU Linuxsort 1 程序就如何对 Unicode 字符串进行排序达成一致 我在跑sort with LANG en US UTF 8 在Perl程序中我尝试了以下方法 use Unicode Col                
                		
				
			
				
					在 C# 中遍历 ANTLR AST 的教程？				
			
			                       
                    有人知道在 C 中遍历 ANTLR 生成的 AST 的教程吗 我能找到的最接近的是this https web archive org web 20201019210638 http www manuelabadia com blog Pe                
                		
				
			
				
					XSD 嵌套元素				
			
			       		
				
			
				
					Antlr 解析器运算符优先级				
			
			                       
                    考虑以下语法 我对运算符优先级有疑问 例如 res 2 a b有一个类似的解析树res 2 a b 我知道问题出在哪里 但我没有想到没有相互左递归的 漂亮 解决方案 你能帮我一点忙吗 该语法与自定义访问者一起使用 grammar Math                 
                		
			




 

 



    
        
            随机推荐
        
    
    
                
            
                
                    在 ColdFusion 中使用表单数组？                
            
                                   
                    我不知道如何在 ColdFusion 9 中处理这个问题 我有一个正在提交的表单 POST 其中包含元素复选框 称为 items 当我做一个                
                        
                
            
                
                    Nosetest 包括不需要的父目录                
            
                                   
                    我试图将鼻子测试限制到特定目录 但是在测试运行期间 它包括我要定位的目录的父目录 这样做会引发错误 以下是测试运行输出的关键要素 nose importer DEBUG Add path projects myproject myproje                
                        
                
            
                
                    Pandas Dataframe 到 JSON 层次结构                
            
                                   
                    我已经详尽地审查 尝试了与这一挑战相对应的所有其他问题的实现 但尚未找到解决方案 问题 如何将员工和主管对转换为分层 JSON 结构以用于 D3 可视化 级别数量未知 因此它必须是动态的 我有一个包含五列的数据框 是的 我意识到这不是 Of                
                        
                
            
                
                    具有特定格式的日期到 XMLGregorianCalendar                
            
                                   
                    我得到一个 Date 对象 我需要将其转换为 XMLGregorianCalendar 特定格式 我尝试了以下方法 String formattedDate sdf format categoryData getBulkCollection                
                        
                
            
                
                    k&r 与位操作混淆                
            
                                   
                    练习是 编写一个函数 setbits x p n y 返回 x 并将从位置 p 开始的 n 位设置为 y 最右边的 n 位 其他位保持不变 我尝试的解决方案是 include                
                        
                
            
                
                    按字典中的值返回键[重复]                
            
                                   
                    这个问题在这里已经有答案了 我正在尝试返回给定值的字典中的键 在这种情况下 如果 b 在字典中 我希望它返回 b 所在的键 即2 def find key input dict value if value in input dict va                
                        
                
            
                
                    为什么 std::packaged_task 无效？                
            
                                   
                    使用MSVC2012 以下代码将按预期编译并运行 std packaged task lt int gt task gt int std cout lt lt hello world lt lt std endl return 0 std                 
                        
                
            
                
                    拉动刷新在 iOS WebView 中不起作用                
            
                                   
                    我已经实现了一个直接的WKWebView in iOS var refreshControl UIRefreshControl refreshControl addTarget self action Selector refreshWeb                
                        
                
            
                
                    Facebook Graph API (#190) 必须使用页面访问令牌调用此方法                
            
                                   
                    我通过 Facebook Graph API 从 Facebook 洞察中获取数据已有一年多了 最近开始了我所有的请求 比如 id insights 返回错误 190 This method must be called with a Pa                
                        
                
            
                
                    OpenSSL：无法使用 SSL_CTX_new() 创建 SSL_CTX *                
            
                                   
                    按照以下说明进行操作page 我正在尝试使用 openSSL 以安全的方式连接客户端 服务器 我无法创建 SSL CTX 如下所示 OpenSSL headers include openssl bio h include openssl                 
                        
                
            
                
                    在 ScrollView 中使用 onTouchListener 检测滑动                
            
                                   
                    我使用以下代码来检测活动中的滑动 getWindow getDecorView getRootView setOnTouchListener new OnTouchListener Override public boolean onTou                
                        
                
            
                
                    使用 Python etree 更新 XML 元素和属性值                
            
                                   
                    我正在尝试使用Python 2 7ElementTree库来解析 XML 文件 然后用测试数据替换特定元素属性 然后将其保存为唯一的 XML 文件 我的解决方案的想法是 1 通过将文件读取为字符串来从 CSV 文件中获取新数据 2 在某些分                
                        
                
            
                
                    使用相同代码但不同类型的重构方法                
            
                                   
                    我有几种方法可以做同样的事情 当与 MySQL 数据库连接时 保存或加载不同类型的参数 目前 我对每种类型都有不同的方法 如何组合这些方法以便它们支持不同的类型 下面是两个非常相似但使用不同类型的方法的示例 public static vo                
                        
                
            
                
                    使用 Javascript 与 SQL 服务器握手                
            
                                   
                    我想尝试 作为学习练习 让我的 javascript 与 sql 聊天 var ws new WebSocket ws 127 0 0 1 1433 似乎没有被阻止的端口 所以理论上它应该可以工作 我正在寻找如何与 sql 服务器握手并与其                
                        
                
            
                
                    显示带有嵌套 ListView 的 IGrouping<>                
            
                                   
                    我需要从数据访问层检索一组 Widget 按 widget Manufacturer 分组 以显示在一组嵌套的 ASP NET ListView 中 问题是 据我所知 嵌套 ListView 方法要求我在使用数据之前对数据进行整形 而且我无                
                        
                
            
                
                    如何插入、更新和删除日历和事件                
            
                                   
                    有没有办法添加 删除和更新日历 和 有没有办法在日历中添加 删除和更新事件 Thanks 检查这个代码http code google com p android calendar provider tests source browse                 
                        
                
            
                
                    AWS 安全组 - EC2 到 RDS                
            
                                   
                    我想问一下如何将 EC2 连接到 AWS 中的 RDP 我已将 EC2 安全组 包含 EC2 实例 添加到默认 RDP 组中 并且数据正在流动 连接正常 EC2 安全组已启用端口 80 至 0 0 0 0 0 并通过 SSH 连接到我的 I                
                        
                
            
                
                    错误：不变违规：dangerouslyRenderMarkup(...)：无法在工作线程中渲染标记                
            
                                   
                    设置状态导致第二次渲染后反应测试失败 到目前为止 JSDOM 和 Mocha 的测试进展顺利 到目前为止 还没有必要测试任何改变其状态的组件 我发现我的第一个问题是测试一个改变其状态的组件 错误 1 Reduced Test Case cu                
                        
                
            
                
                    JavaFX 在全屏模式下更改场景                
            
                                   
                    我在使用 JavaFX 时遇到问题 我创建了两个场景和切换按钮 当我单击该按钮时 我正在改变场景 但早些时候我将全屏设置为 true 按下按钮后 Windows 任务栏会显示一会儿 有没有办法在不显示此任务栏的情况下更改场景 有代码 主班                 
                        
                
            
                
                    是否有所有国际句号标点符号的字符集？                
            
                                   
                    我正在尝试将 utf 8 字符串解析为 一口大小 的段 例如 我想将文本分解为 句子 是否存在与所有语言的句子结尾相对应的字符 或正则表达式 的全面集合 我正在寻找能够捕捉拉丁语句号 感叹号和问号 中文和日文句号等的东西 类似上面的东西 但                
                        
            






    
        
            热门标签
        
    

    
                        
            
                
                    FixedSize                
            
        
                        
            
                
                    Python字符集                
            
        
                        
            
                
                    Requests模块                
            
        
                        
            
                
                    区块链，之我见                
            
        
                        
            
                
                    1 区块链之我见                
            
        
                        
            
                
                    RCNN系列                
            
        
                                        
            
                
                    电脑应用                
            
        
                        
            
                
                    一起学习CC                
            
        
                        
            
                
                    标记工具                
            
        
                        
            
                
                    webstrom激活                
            
        
                        
            
                
                    cv2so                
            
        
                        
            
                
                    ROSkinetic                
            
        
                                
            
                
                    深度学习专题                
            
        
                        
            
                
                    江苏省赛题解析                
            
        
                        
            
                
                    常用库安装配置记录                
            
        
                        
            
                
                    微信小城获取当前位置                
            
        
                        
            
                
                    微信小程序导航                
            
        
                        
            
                
                    视频 人体动作                
            
        
                        
            
                
                    鼠标经过显示二维码                
            
        
                        
            
                
                    方块小游戏合集                
            
        
                                        
            
                
                    kintone                
            
        
                        
            
                
                    腾讯招聘                
            
        
                                
            
                
                    笔试ampamp面试

是否有所有国际句号标点符号的字符集？

是否有所有国际句号标点符号的字符集？ 的相关文章

随机推荐

热门标签

是否有所有国际句号标点符号的字符集？的相关文章