在 Java 中对阿拉伯语单词进行排序

2023-11-24

我有一个阿拉伯语单词列表，我想对其进行排序。我已经尝试了具有不同语言环境的标准 Collator（例如英语或法语，但没有太大希望），我什至创建了自己的 RuleBasedCollator 但无济于事。显然，默认排序依赖于 unicode 值顺序，这在许多情况下都有效，但显然在本例中不起作用。

按照 javadoc 的说明，RuleBasedCollator 需要一个字符串，按照您希望的排序顺序指定字符。我创建了以下字符串，从中获取 unicode 代码这张桌子:

String arabicLetters = "< \u0623=\uFE83=\uFE84 < \u0628=\uFE8F=\uFE90=\uFE92=\uFE91 < \u062A=\uFE95=\uFE96=\uFE98=\uFE97 < \u062B=\uFE99=\uFE9A=\uFE9C=\uFE9B < \u062C=\uFE9D=\uFE9E=\uFEA0=\uFE9F < \u062D=\uFEA1=\uFEA2=\uFEA4=\uFEA3 < \u062E=\uFEA5=\uFEA6=\uFEA8=\uFEA7 < \u062F=\uFEA9=\uFEAA < \u0630=\uFEAB=\uFEAC < \u0631=\uFEAD=\uFEAE < \u0632=\uFEAF=\uFEB0 < \u0633=\uFEB1=\uFEB2=\uFEB4=\uFEB3 < \u0634=\uFEB5=\uFEB6=\uFEB8=\uFEB7 < \u0635=\uFEB9=\uFEBA=\uFEBC=\uFEBB < \u0636=\uFEBD=\uFEBE=\uFEC0=\uFEBF < \u0637=\uFEC1=\uFEC2=\uFEC4=\uFEC3 < \u0638=\uFEC5=\uFEC6=\uFEC8=\uFEC7 < \u0639=\uFEC9=\uFECA=\uFECC=\uFECB < \u063A=\uFECD=\uFECE=\uFED0=\uFECF < \u0641=\uFED1=\uFED2=\uFED4=\uFED3 < \u0642=\uFED5=\uFED6=\uFED8=\uFED7 < \u0643=\uFED9=\uFEDA=\uFEDC=\uFEDB < \u0644=\uFEDD=\uFEDE=\uFED0=\uFEDF < \u0645=\uFEE1=\uFEE2=\uFEE4=\uFEE3 < \u0646=\uFEE5=\uFEE6=\uFEE8=\uFEE7 < \u0647=\uFEE9=\uFEEA=\uFEEC=\uFEEB < \u0648=\uFEED=\uFEEE < \u064A=\uFEF1=\uFEF2=\uFEF4=\uFEF3 < \u0622=\uFE81=\uFE82 < \u0629=\uFE93=\uFE94 < \u0649=\uFEEF=\uFEF0 < \u0627";

阿拉伯字母可以采用四种形式，具体取决于它们在单词中的位置。因此，我在上面的规则字符串中所做的就是使每个字母的所有 4 种形式都相等。然后我用“

现在，如果我有一个包含星期几的集合（在这种情况下按星期几排序，而不是“按字母顺序”）：

الأَحَد, الاِثنَين, الثُّلاثاء, الأَربِعاء, الخَميس, الجُمعة,السَّبت

我得到的结果根本没有排序：

الأَحَد, الخَميس, الاِثنَين, الثُّلاثاء, الأَربِعاء, السَّبت, الجُمعة

此外，对于如此少量的单词，需要花费相当长的时间，这使得它无法使用。

有人知道我是否做错了什么，或者是否有一个救生库已经处理了这个问题？

在写这篇文章之前我做了一些谷歌搜索，令我惊讶的是我没有找到任何结果。

Thanks!

用代码更新：

public static class TranslatableComparator implements java.util.Comparator<Translatable> {
        @Override
        public int compare(Translatable t1, Translatable t2) {

            String sortingRules = "< \u0623=\uFE83=\uFE84 < \u0628=\uFE8F=\uFE90=\uFE92=\uFE91 < \u062A=\uFE95=\uFE96=\uFE98=\uFE97 < \u062B=\uFE99=\uFE9A=\uFE9C=\uFE9B < \u062C=\uFE9D=\uFE9E=\uFEA0=\uFE9F < \u062D=\uFEA1=\uFEA2=\uFEA4=\uFEA3 < \u062E=\uFEA5=\uFEA6=\uFEA8=\uFEA7 < \u062F=\uFEA9=\uFEAA < \u0630=\uFEAB=\uFEAC < \u0631=\uFEAD=\uFEAE < \u0632=\uFEAF=\uFEB0 < \u0633=\uFEB1=\uFEB2=\uFEB4=\uFEB3 < \u0634=\uFEB5=\uFEB6=\uFEB8=\uFEB7 < \u0635=\uFEB9=\uFEBA=\uFEBC=\uFEBB < \u0636=\uFEBD=\uFEBE=\uFEC0=\uFEBF < \u0637=\uFEC1=\uFEC2=\uFEC4=\uFEC3 < \u0638=\uFEC5=\uFEC6=\uFEC8=\uFEC7 < \u0639=\uFEC9=\uFECA=\uFECC=\uFECB < \u063A=\uFECD=\uFECE=\uFED0=\uFECF < \u0641=\uFED1=\uFED2=\uFED4=\uFED3 < \u0642=\uFED5=\uFED6=\uFED8=\uFED7 < \u0643=\uFED9=\uFEDA=\uFEDC=\uFEDB < \u0644=\uFEDD=\uFEDE=\uFED0=\uFEDF < \u0645=\uFEE1=\uFEE2=\uFEE4=\uFEE3 < \u0646=\uFEE5=\uFEE6=\uFEE8=\uFEE7 < \u0647=\uFEE9=\uFEEA=\uFEEC=\uFEEB < \u0648=\uFEED=\uFEEE < \u064A=\uFEF1=\uFEF2=\uFEF4=\uFEF3 < \u0622=\uFE81=\uFE82 < \u0629=\uFE93=\uFE94 < \u0649=\uFEEF=\uFEF0 < \u0627";
            RuleBasedCollator col = null;
            try {
                col = new RuleBasedCollator(sortingRules);
            } catch (ParseException e) {
                //col = (RuleBasedCollator)RuleBasedCollator.getInstance(Locale.FRENCH);
            }

            return col.getCollationKey(t1.getTranslation().getText()).compareTo(col.getCollationKey(t2.getTranslation().getText()));
        }
    }

您不需要定义自己的整理器，只需使用内置的阿拉伯语整理器即可。你的Comparator然后看起来像这样

public int compare(Translatable t1, Translatable t2) {
        Collator.getInstance(new Locale("ar")).compare(t1.getTranslation().getText(), t2.getTranslation().getText());
}

（您可以通过浏览以下结果来检查是否有可用于阿拉伯语的整理器Collator.getAvailableLocales().)

正如评论中所述，如果您担心性能，您应该计算排序规则键，将它们存储在您的Translatable对象并对其进行排序。

如果您确实想查看您定义的内容与标准整理器之间的差异，只需打印出规则：

System.out.println((RuleBasedCollator) Collator.getInstance(new Locale("ar"))).getRules();

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

Sorting

collation

arabic

在 Java 中对阿拉伯语单词进行排序的相关文章

如何使用 Java 中的 Web 服务（例如 Axis2）发送复杂对象的数组或集合？

我对 SOAP Web 服务还比较陌生虽然我完成了一些较小的 Web 服务项目但我偶然从来不需要返回或用作参数复杂对象的数组或集合当我尝试这样做时根据我的 SOAP 绑定风格我会得到不同的奇怪行为当我使用RPC 文字我可
在文本文件中写入多行（java）

下面的代码是运行命令cmd并使用命令行的输出生成一个文本文件下面的代码在 Eclipse 的输出窗口中显示了正确的信息但在文本文件中只打印了最后一行谁能帮我这个 import java io public class TextFile
这个函数（for循环）空间复杂度是O(1)还是O(n)？

public void check 10 for string i list Integer a hashtable get i if a gt 10 hashtable remove i 这是 O 1 还是 O n 我猜测 O n 但不是
Android在排序列表时忽略大小写

我有一个名为路径的列表我目前正在使用以下代码对字符串进行排序 java util Collections sort path 这工作正常它对我的列表进行排序但是它以不同的方式处理第一个字母的情况即它用大写字母对列表进行排序然后用
如何使用 Java 处理 Selenium WebDriver 中的新窗口？

这是我的代码 driver findElement By id ImageButton5 click Thread sleep 3000 String winHandleBefore driver getWindowHandle drive
java中如何连接字符串

这是我的字符串连接代码 StringSecret java public class StringSecret public static void main String args String s new String abc s co
Cassandra java驱动程序协议版本和连接限制不匹配

我使用的java驱动程序版本 2 1 4卡桑德拉版本 dsc cassandra 2 1 10cql 的输出给出以下内容 cqlsh 5 0 1 Cassandra 2 1 10 CQL spec 3 2 1 Native protocol
如何安全地解决这个 Java 上下文类加载器问题？

我的数百名用户中只有一位在启动我的 Java 桌面应用程序时遇到问题他只有大约三分之一的时间开始另外三分之二的时间在启动时抛出 NullPointerException Exception in thread AWT EventQueu
具有 java XSLT 扩展的数组

我正在尝试使用 java 在 XSLT 扩展中使用数组我收到以下错误 Caused by java lang ClassCastException org apache xpath objects XObject cannot be ca
使用 SQLITE 按最近的纬度和经度坐标排序

我必须获得一个 SQLite SQL 语句以便在给定初始位置的情况下按最近的纬度和经度坐标进行排序这是我在 sqlite 数据库中的表的例句 SELECT id name lat lng FROM items EXAMPLE RESUL
很好地处理数据库约束错误

再一次它应该很简单我的任务是在我们的应用程序的域对象中放置一个具有唯一约束的特定字段这本身并不是一个很大的挑战我刚刚做了以下事情 public class Location more fields Column unique tru
在游戏视图下添加 admob

我一直试图将 admob 放在我的游戏视图下这是我的代码 public class HoodStarGame extends AndroidApplication Override public void onCreate Bundle
有没有一种快速方法可以从 Jar/war 中删除文件，而无需提取 jar 并重新创建它？

所以我需要从 jar war 文件中删除一个文件我希望有类似 jar d myjar jar file I donot need txt 的内容但现在我能看到从 Linux 命令行执行此操作的唯一方法不使用 WinRAR Winzip
欧洲中部时间 14 日 3 月 30 日星期五 00:00:00 至日/月/年

我尝试解析格式日期Fri Mar 30 00 00 00 CET 14至日月年这是我的代码 SimpleDateFormat formatter new SimpleDateFormat dd MM yyyy System out
如何在JSTL中调用java方法？ [复制]

这个问题在这里已经有答案了这可能是重复的问题我只想调用不是 getter 或 setter 方法的方法例如 xyz 类的 makeCall someObj stringvalue Java类 Class XYZ public Strin
HQL Hibernate 内连接

我怎样才能在 Hibernate 中编写这个 SQL 查询我想使用 Hibernate 来创建查询而不是创建数据库 SELECT FROM Employee e INNER JOIN Team t ON e Id team t Id t
具有特定参数的 Spring AOP 切入点

我需要创建一个我觉得很难描述的方面所以让我指出一下想法 com x y 包或任何子包中的任何方法一个方法参数是接口 javax portlet PortletRequest 的实现该方法中可能有更多参数它们可以是任何顺序我需要
为什么C++代码执行速度比java慢？

我最近用 Java 编写了一个计算密集型算法然后将其翻译为 C 令我惊讶的是 C 的执行速度要慢得多我现在已经编写了一个更短的 Java 测试程序和一个相应的 C 程序见下文我的原始代码具有大量数组访问功能测试代码也是如此 C 的
Trie 数据结构 - Java [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案是否有任何库或文档链接提供了在 java 中实现 Trie 数据结构的更多信息任何帮助都会很棒 Thanks 你可以阅读Java特里树
带有 Maven Wrapper 的 Java 17 导致无法识别的 VM 选项“MaxPermSize=512m”

I use OpenJDK 17 https jdk java net 17 使用 Maven Wrapper 3 8 2 从春季初始化 https start spring io Maven项目 JAR打包 Java 17 Spring

随机推荐

与 suPHP 一起实现登录

如何设计类似登录的功能来使用 suPHP 的文件权限例如如果我有一个网站www example com以下两个用户有自己的主目录每个用户都有一个 php 脚本test php and a validateUser php属于另一个用户
在 MediaProjection 中完全隐藏安全视图 - android

我正在使用 MediaProjection API 创建屏幕录像机应用程序在我的应用程序中我将停止按钮显示为一个小的覆盖窗口我已将此视图保持安全以便它不会出现在最终录制的视频中此视图不会出现在最终视频中但最终输出本身是一个黑色区
使用服务主体访问 Azure Blob 存储

我想通过使用活动目录服务主体的凭据从 python 访问私有 blob 存储我知道这个相关问题如何在 python 中针对 Azure 存储 blob 对用户进行身份验证这帮助我走到了这一步但现在我陷入了困境我可以进行身份验证并获
将结构传递给函数

我是一名新 C 程序员我想知道如何通过struct到一个函数我收到错误并且无法找出正确的语法来执行此操作这是它的代码 Struct struct student char firstname 30 char surname 30 st
Docker 撰写可执行文件在 $PATH 中找不到”：未知

但我有问题 Dockerfile FROM python 3 ENV PYTHONUNBUFFERED 0 RUN mkdir code WORKDIR code COPY requirements txt code RUN pip ins
使用 powershell 从 Outlook 获取今天的约会：不需要的结果

我使用以下代码提取今天的约会 olFolderCalendar 9 ol New Object ComObject Outlook Application ns ol GetNamespace MAPI Start Get Date Add
switch 语句 - 字符串与 int

我在事件处理程序中有这行 javascript var value event currentTarget value example 9 然后我在 switch 语句中使用它 switch value case 9 return 12 c
计算设置的位数

我想计算设置的二进制数中的位数例如用户输入数字 97 二进制表示为 01100001 该程序应该告诉我 3 位是使用 MIPS ISA 设置的我能够用 C 实现这一点但我不知道如何使用汇编代码实现它您要查找的内容通常称为人口计数
WPF图像控件源码

我试图在 WPF 中重新创建一个非常简单的 C 项目示例它是一个简单的图像查看器来自 sam 的自学 C 我设法打开了打开文件对话框但是我如何将图像路径设置为WPF 中的 image source 控件 private void Se
异步任务与异步无效

这可能是一个非常愚蠢的问题但我有以下几行代码将 RAW 图像转换为 BitmapImages public async void CreateImageThumbnails string imagePath int imgId await
如何在 Windows 上使用另一个用户帐户创建新进程？

是否可以使用不同的用户帐户在 Windows 上创建新进程我知道有一个上下文菜单运行方式但我想从 Java 执行此操作我有用户名和密码您需要使用以下方法编写 DLLJava 本机接口 JNI 因为你无法使用纯 Java 代码来做到
将 Nokogiri 文档转换为 Ruby Hash

有没有一种简单的方法可以将 Nokogiri XML 文档转换为哈希值类似于 Rails 的东西Hash from xml 如果要将 Nokogiri XML 文档转换为哈希只需执行以下操作 require active support
如何在jquery中启用和禁用文本框[重复]

这个问题在这里已经有答案了我写了一个html和脚本的示例代码如下当我首先执行此代码时我会收到警报 hello 但当我通过按选项卡按钮在 cca 进行更改时会收到其他警报然后它不会显示警报如何使用该文本框并启用和禁用它的其他文本字
如何将 DataTable 序列化为 json 或 xml

我正在尝试将 DataTable 序列化为 Json 或 XML 可能吗如何任何教程和想法请例如有一个sql表 CREATE TABLE dbo dictTable keyValue int IDENTITY 1 1 NOT NUL
如何在 Swift 中比较两个字典？

有没有一种简单的方法可以比较两个 String AnyObject Swift 中的字典因为它不接受操作员通过比较两个字典我的意思是检查它们是否具有相同的精确键并且对于每个键它们是否具有相同的值正如 Hot Licks 已经提
计算垂直于 3D 中第三个向量的两个向量

是什么最好最快如何计算垂直于第三个向量 X 并且彼此垂直的两个向量这就是我现在计算这个向量的方式 HELPER unit vector that is NOT parallel to X x axis normalize X y ax
Python 多处理导致许多僵尸进程

我一直在使用一组工作人员来实现 python 的多处理库我实现了以下代码 import main1 t1 time time p Pool cores result p map main1 client list client if re
Python 列表作为变量名称[重复]

这个问题在这里已经有答案了我一直在使用 Python 并且我有这个需要制定的列表基本上我在多维数组中输入一个游戏列表然后对于每个游戏它将根据第一个条目创建 3 个变量制作的数组 Applist Apple red circle
AutoHotkey 中的功能键叫什么？

I have a key labelled Fn in blue letters at the bottom of my Windows 7 keyboard I want to trigger my AutoHotkey script w
在 Java 中对阿拉伯语单词进行排序

我有一个阿拉伯语单词列表我想对其进行排序我已经尝试了具有不同语言环境的标准 Collat or 例如英语或法语但没有太大希望我什至创建了自己的 RuleBasedCollat or 但无济于事显然默认排序依赖于 unicode

在 Java 中对阿拉伯语单词进行排序

在 Java 中对阿拉伯语单词进行排序 的相关文章

随机推荐

热门标签

在 Java 中对阿拉伯语单词进行排序的相关文章