使用 Itextsharp 读取本地化 PDF 文件

2024-05-23

我正在尝试使用 iTextSharp 阅读 PDF 文件。问题是当尝试阅读英语以外的 PDF 文件（例如印地语或阿拉伯语）时，它无法获取正确的单词。

我想知道，我应该在系统上安装印地语或阿拉伯字体，还是需要对编码进行一些处理？

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
text.Append(currentText);

Edit:

示例 PDF 作为图像：

提取文本：

uxj ikfydk ifj"kn fuokZpd ukekoyh& 2011 i`"B la[;k % 1 1 1 1& & & & ftys dk uke ftys dk uke ftys dk uke ftys dk uke % % % % 0701---- 2 2 2 2& & & & 福克福克福克福克； ; ; ; dk 乌克 dk 乌克 dk 乌克 dk 乌克 % % % % 1-Ⅸ™ 3 3 3 3& & & & okMZ 拉 okMZ 拉 okMZ 拉 okMZ 拉[ [ [ [; ; ; ; 克欧克克欧克克克克克克克 % % % % 1- § § § §§§§§§§§§ §§§§§§§§§§§§§§§§ 4 4 4 4& & & & Hkkx la Hkkx la Hkkx la Hkkx la[ [ [ [;; ; ; ;k k k k % % % %

不要使用任何类型的编码，因为你不知道什么编码是pdf文件有的。

。我认为它会起作用。

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
text=text+currentText;

///do what you want with text
MessageBox.Show(text);

如果仍然不起作用，那么您必须安装特定字体。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

aspnet

itext

hindi

使用 Itextsharp 读取本地化 PDF 文件的相关文章

为什么 appcmd.exe 解锁配置在 Azure 模拟器上不起作用？

我最近升级到 Azure 2 1 SDK 现在我的部分功能遇到了问题web config在计算模拟器上运行时处于 Web 角色中我的web config包含这个
提交后禁用按钮

当用户提交付款表单并且发布表单的代码导致 Firefox 中出现重复发布时我试图禁用按钮去掉代码就不会出现这个问题在firefox以外的任何浏览器中也不会出现这个问题知道如何防止双重帖子吗 System Text StringBui
在 C 中匹配二进制模式

我目前正在开发一个 C 程序需要解析一些定制的数据结构幸运的是我知道它们是如何构造的但是我不确定如何在 C 中实现我的解析器每个结构的长度都是 32 位并且每个结构都可以通过其二进制签名来识别举个例子有两个我感兴趣的特定结构
使用 LINQ2SQL 在 ASP.NET MVC 中的各种模型存储库之间共享数据上下文

我的应用程序中有 2 个存储库每个存储库都有自己的数据上下文对象最终结果是我尝试将从一个存储库检索到的对象附加到从另一个存储库检索到的对象这会导致异常 Use 构造函数注入将 DataContext 注入每个存储库 public cl
单个对象的 Monogame XNA 变换矩阵？

我读过一些解释 XNA Monogame 变换矩阵的教程问题是这些矩阵应用于 SpriteBatch Begin matrix 这意味着所有 Draw 代码都将被转换如何将变换矩阵应用于单个可绘制对象就我而言我想转换滚动背景使其自
如何创建包含 IPv4 地址的文本框？ [复制]

这个问题在这里已经有答案了如何制作一个这样的文本框我想所有的用户都见过这个并且知道它的功能您可以使用带有 Mask 的 MaskedTestBox000 000 000 000 欲了解更多信息请参阅文档 http msdn micr
使用接口有什么好处？

使用接口有什么用我听说它用来代替多重继承并且还可以用它来完成数据隐藏还有其他优点吗哪些地方使用了接口程序员如何识别需要该接口有什么区别explicit interface implementation and implicit
如何使用 LINQ2SQL 连接两个不同上下文的表？

我的应用程序中有 2 个数据上下文不同的数据库并且需要能够通过上下文 B 中的表的右连接来查询上下文 A 中的表我该如何在 LINQ2SQL 中执行此操作 Why 我们正在使用 SaaS 产品来跟踪我们的时间项目等并希望向该产品发
在 C 中初始化变量

我知道有时如果你不初始化int 如果打印整数您将得到一个随机数但将所有内容初始化为零似乎有点愚蠢我问这个问题是因为我正在评论我的 C 项目而且我对缩进非常直接并且它可以完全编译 90 90 谢谢 Stackoverflow 但我想
qdbusxml2cpp 未知类型

在使用 qdbusxml2cpp 程序将以下 xml 转换为 Qt 类时我收到此错误 qdbusxml2cpp c ObjectManager a ObjectManager ObjectManager cpp xml object ma
在一个平台上，对于所有数据类型，所有数据指针的大小是否相同？ [复制]

这个问题在这里已经有答案了 Are char int long 甚至long long 大小相同在给定平台上不能保证它们的大小相同尽管在我有使用经验的平台上它们通常是相同的 C 2011 在线草稿 http www open std
Qt - ubuntu中的串口名称

我在 Ubuntu 上查找串行端口名称时遇到问题如您所知为了在 Windows 上读取串口我们可以使用以下代码 serial gt setPortName com3 但是当我在 Ubuntu 上编译这段代码时我无法使用这段代码 se
C#：帮助理解 UML 类图中的 <>

我目前正在做一个项目我们必须从 UML 图编写代码我了解 UML 类图的剖析但我无法理解什么 lt
Azure 辅助角色“请求输入之一超出范围”的内部异常。

我在辅助角色中调用 CloudTableClient CreateTableIfNotExist 方法但收到一个异常其中包含请求输入之一超出范围的内部异常我做了一些研究发现这是由于将表命名为非法表名引起的但是我尝试为我的表命
如何禁用 fread() 中的缓冲？

我正在使用 fread 和 fwrite 读取和写入套接字我相信这些函数用于缓冲输入和输出有什么方法可以在仍然使用这些功能的同时禁用缓冲吗 Edit 我正在构建一个远程桌面应用程序远程客户端似乎落后于服务器我不知道可能是什么原因
为什么 std::strstream 被弃用？

我最近发现std strstream已被弃用取而代之的是std stringstream 我已经有一段时间没有使用它了但它做了我当时需要做的事情所以很惊讶听到它的弃用我的问题是为什么做出这个决定有什么好处std stringstr
外键与独立关系 - Entity Framework 5 有改进吗？

我读过了several http www ladislavmrnka com 2011 05 foreign key vs independent associations in ef 4 文章和问题 https stackoverflow
使用管道时，如果子进程数量大于处理器数量，进程是否会被阻塞？

当子进程数量很大时我的程序停止运行我不知道问题是什么但我猜子进程在运行时以某种方式被阻止下面是该程序的主要工作流程 void function int process num int i initial variables for
方法优化 - C#

我开发了一种方法允许我通过参数传入表字符串列数组字符串和值数组对象然后使用这些参数创建参数化查询虽然它工作得很好但代码的长度以及多个 for 循环散发出一种代码味道特别是我觉得我用来在列和值之间插入逗号的方法可以用不同的
当从finally中抛出异常时，Catch块不会被评估

出现这个问题的原因是之前在 NET 4 0 中运行的代码在 NET 4 5 中因未处理的异常而失败部分原因是 try finallys 如果您想了解详细信息请阅读更多内容微软连接 https connect microsoft com

随机推荐

Reactive Spring 不支持 HttpServletRequest 作为 REST 端点中的参数？

我创建了一个 RestController 如下所示 RestController public class GreetingController RequestMapping value greetings method RequestM
PostgreSQL WHERE 计数条件

我在 PostgreSQL 中有以下查询 SELECT COUNT a log id AS overall count FROM Log as a License as b WHERE a license id 7 AND a licens
CryptoJS 使用密码加密 AES，但 PHP 解密需要密钥

我在用CryptoJS https code google com p crypto js AES加密字符串 function doHash msg msg String msg var passphrase aggourakia var
获取 .wav 文件长度或持续时间

我正在寻找一种方法来找出 python 中音频文件 wav 的持续时间到目前为止我已经了解了 pythonwave图书馆 mutagen pymedia pymad我无法获取 wav 文件的持续时间 Pymad给了我持续时间但它不一致
MongoDB中批量FindAndModify的解决方案

我的用例如下我在 mongoDB 中有一组文档我必须发送这些文档进行分析文件格式如下 id ObjectId 517e769164702dacea7c40d8 日期 1359911127494 状态可用其他字段我有一个阅读器进程
ASP.NET MVC 站点中的覆盖视图不起作用

我的解决方案中有一个单独的项目其中包含一些控制器和编译的视图我将这些控制器用作 MVC 应用程序中其他控制器的基类并使用 RazorGenerator 编译视图可以说B是具有非抽象操作方法的基本控制器一些动作返回视图 MyView
新 Rails 应用程序出现问题

我刚刚创建了一个新的rails应用程序在CL上使用rails new 我使用的是4 2 6 但似乎在我对应用程序执行任何操作之前我遇到了错误 first config environments development rb 53 in
在另一个文件中扩展类的正确方法是什么？

这就是我在 foo php 中的内容 class Foo public foo NULL public foo2 NULL public function setFoo foo foo2 this gt foo foo this gt fo
iOS5 和 Facebook API

我想将我的应用程序与 Facebook 集成并从 github 下载 Facebook ios sdk 但是该 sdk 适用于 Xcode 4 0 代码库我正在使用 Xcode 4 2 for iOS 5 beta 5 应用程序是否有
带 Markdown 的两栏布局

我正在编写并排文本我必须用两列布局来准备这个例如一列包含英文文本其他列右列包含前面英文文本的翻译 Markdown 不支持表格标记但 Github Flavored Markdown 支持我做了一些尝试但不幸的是无法解决
C 中是否可以动态定义结构体

我很确定这最终将成为一个非常明显的问题这就是为什么我没有找到太多关于它的信息不过我认为还是值得问一下基本上使用结构访问数据非常快如果数据以一种可以立即作为结构进行处理的形式从网络中出来那么从性能的角度来看这是非常好的但是
计数排序的两种方法

这是我的计数排序的两个实现在这个非常简单的实现中我所做的就是计算元素出现的次数并在输出数组中插入与出现次数相同的次数实施1 public class Simple static int a 5 6 6 4 4 4 8 8 8 9 4
有没有办法让 jslint 在 javascript 的下一行中使用大括号？

我改变了我的编码风格 function getParams entity use strict var accountID store getItem AccountID switch entity case Topic to functi
CSS 内边框？

我纯粹用 CSS 创建了左侧的按钮它是一个div 中的一个div 然而右侧的三个按钮是background属性于img标签我这样做是为了按照以下说明模拟翻转效果here http kyleschaeffer com best prac
Dplyr 过滤多个类似条件

我正在尝试在 dplyr 中做一个过滤器其中的列就像某些观察结果我可以使用 sqldf 作为 Test lt sqldf select from database Where SOURCE LIKE ALPHA OR SOURCE LI
在 Scala 中设计方便的默认值映射

我发现自己使用了很多嵌套映射例如 Map Int Map String Set String 并且我希望在访问新密钥时自动创建新的 Map Set 等例如像下面这样 val m m 1992 foo bar 请注意如果不需要我不想
使用 XMLStarlet（图像注释）将值连接到现有 xml 属性

我正在使用 xml 来注释图像我正在使用 xmlstarlet 和 unix bash 命令但当我尝试将值附加到现有 xml 属性值时遇到一些问题例如我有
文本在指定长度后分割，但不要使用 grails 打断单词

我有一个长字符串需要将其解析为长度不超过 50 个字符的字符串数组对我来说棘手的部分是确保正则表达式找到 50 个字符之前的最后一个空格以便在字符串之间进行彻底的分隔因为我不希望单词被切断 public List
如何在 Perforce 树中查找未跟踪的文件？（svn状态的模拟）

有人有脚本或别名来查找 Perforce 树中未跟踪实际上未添加的文件吗编辑我更新了对此已接受的答案因为看起来 P4V 在 2009 年 1 月的版本中添加了对此的支持 EDIT 请用p4 status现在不再需要跳圈了参见
使用 Itextsharp 读取本地化 PDF 文件

我正在尝试使用 iTextSharp 阅读 PDF 文件问题是当尝试阅读英语以外的 PDF 文件例如印地语或阿拉伯语时它无法获取正确的单词我想知道我应该在系统上安装印地语或阿拉伯字体还是需要对编码进行一些处理 ITextExt

使用 Itextsharp 读取本地化 PDF 文件

使用 Itextsharp 读取本地化 PDF 文件 的相关文章

随机推荐

热门标签

使用 Itextsharp 读取本地化 PDF 文件的相关文章