读取 PDF 文件中的日文字符

2023-11-30

我有以下命令：

[1010]TJ

我知道它在十六进制部分隐藏了日语，因为这是 PDF 中唯一的内容，并且这一行位于 pdf 文件中单个页面的唯一内容流中。

问题是，无论我如何尝试解码这个十六进制字符串，我都会得到乱码，我已经将这些十六进制字符串解码为字节，并尝试逐字应用我能找到的每个字符集，但我仍然得到乱码。

（也许我很绝望，因为我知道它可能不会起作用）我还尝试了另一种方式，在 Android 上进行测试，我能够导入 pdf 日语文本（从资源加载它），并且在调试时我可以在 String 实例的值中看到真实的日语文本，我再次尝试应用所有字符集，仅为整个文件生成 4-6 个匹配的十六进制字符，但再次......什么也没有。

实际上我不需要字形，我会选择正确的文本......

难道文本本身是用字符集编码以外的东西编码的吗？有人能指出我正确的方向吗？

===更新===

好的，所以我发现还有一个额外的“加密”，Identity-H，我已经在这里读您需要一个 /ToUnicode 映射，我似乎在文件中找不到它。

让我抓狂的是其他 PDF 查看器可以显示 PDF，但我不知道如何显示！

再说一次，任何骨头都很好......见鬼，我会去吃碎片:)

Thanks,

Adam.

对于某些文件上下文：

...
10 0 obj
    << 
    /Type /Page 
    /Parent 7 0 R 
    /Resources 11 0 R 
    /Contents 16 0 R 
    /MediaBox [ 0 0 595 842 ] 
    /CropBox [ 0 0 595 842 ] 
    /Rotate 0 
    >> 
endobj
11 0 obj
    << 
    /ProcSet [ /PDF /Text ] 
    /Font << /TT2 13 0 R /G1 12 0 R >> 
    /ExtGState << /GS1 19 0 R >> 
    /ColorSpace << /Cs6 15 0 R >> 
    >> 
endobj
12 0 obj
    << 
    /Type /Font 
    /Subtype /Type0 
    /BaseFont /Ryumin-Light-Identity-H 
    /Encoding /Identity-H 
    /DescendantFonts [ 18 0 R ] 
    >> 
endobj
13 0 obj
    << 
    /Type /Font 
    /Subtype /TrueType 
    /FirstChar 32 
    /LastChar 32 
    /Widths [ 278 ] 
    /Encoding /WinAnsiEncoding 
    /BaseFont /Century 
    /FontDescriptor 14 0 R 
    >> 
endobj
14 0 obj
    << 
    /Type /FontDescriptor 
    /Ascent 985 
    /CapHeight 0 
    /Descent -216 
    /Flags 34 
    /FontBBox [ -165 -307 1246 1201 ] 
    /FontName /Century 
    /ItalicAngle 0 
    /StemV 0 
    >> 
endobj
15 0 obj
    [ 
    /ICCBased 20 0 R 
    ]
endobj
16 0 obj
    << /Length 2221 /Filter /FlateDecode >> 
        stream
        ...
                [<0e0f0a52030d030e0ce5030f0744030f>10<030d>10<0cd4>]TJ
        ...
                <00e700e700e700e700e700e700e700e700e700e700e700e700e700e700e700e700e700e700e700e700e700e700e700e7>Tj
        ...
                <030e030d0a48064403740353035a039408030ebd074807c1036e0358039304e10c8802a2074807c10cd40e8a030e030d02a303770a2a0a100374036d034d036f00e7>Tj
        ...
    endstream
endobj
17 0 obj
    << 
    /Type /FontDescriptor 
    /Ascent 723 
    /CapHeight 709 
    /Descent -241 
    /Flags 6 
    /FontBBox [ -170 -331 1024 903 ] 
    /FontName /Ryumin-Light 
    /ItalicAngle 0 
    /StemV 69 
    /XHeight 450 
    /Style << /Panose <010502020300000000000000>>> 
    >> 
endobj
18 0 obj
    << 
    /Type /Font 
    /Subtype /CIDFontType0 
    /BaseFont /Ryumin-Light 
    /FontDescriptor 17 0 R 
    /CIDSystemInfo << /Registry (Adobe)/Ordering (Japan1)/Supplement 2 >> 
    /DW 1000 
    /W [ 231 [ 500 ] ] 
    >> 
endobj
19 0 obj
    << 
    /Type /ExtGState 
    /SA false 
    /SM 0.02 
    /TR2 /Default 
    >> 
endobj
20 0 obj
    << /N 3 /Alternate /DeviceRGB /Length 2572 /Filter /FlateDecode >> 
    stream
    ...
    endstream
endobj
...

这是你的问题：

我发现有一个额外的“加密”，Identity-H，并且我在这里读到您需要一个 /ToUnicode 映射，但我似乎在文件中找不到它。

这表明文本字符串中的两字节十六进制代码是立即的字形索引到原始字体文件中。在字体文件中搜索 Unicode 字符映射（其之一cmap条目）；这将提供从字形索引到 Unicode 的链接。

请注意，字形索引可能会这样做not立即转换为 Unicode 代码点。 AGSUB or GPOSOpenType 表可能已采用一个或多个 Unicode 字符作为输入，并用输出字符串中的另一字形替换它们。原始创建者也有可能（但不太可能）手动插入原始字形。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

读取 PDF 文件中的日文字符的相关文章

如何将 pdf 文档显示到 Webview 中？

我想在 webview 上显示 pdf 内容这是我的代码 WebView webview new WebView this setContentView webview webview getSettings setJavaScriptE
如何将任何语言和字符集的字符串转换为 Java 中的有效文件名？

我需要根据用户输入的名称生成文件名这些名称可以是任何语言例如约翰史密斯高岡和子我爱你这些是使用输入的值因此我不能保证名称不包含文件名中无效的字符用户将从浏览器下载这些文件因此我需要确保文件名在所有配置的所有操作系统上都有
如何使用Python从pdf文件中删除页面？

我有一些超过 500 页的 pdf 文件但每个文件中只需要几页有必要保留文档的标题页我确切地知道程序应该删除的页数如何使用安装在 MS Visual Studio 上的 Python 2 7 环境来完成此操作尝试使用PyPDF2
如何从文本视图制作多页 PDF？

我从 iPhone 应用程序生成了一个 PDF 文件虽然大多数文档只有一页但我希望能够检测文本是否超出边距如果是则将其添加到下一页我对此很陌生所以不太确定如何做到这一点下面是代码有什么建议么 void drawBorder
显示来自 weburl iphone sdk 的 pdf

我正在开发一个项目我想显示网站上的 pdf 我有 pdf 的 url 知道如何做到这一点我还想创建网站上 pdf 的缩略图您可以在您的设备中显示 pdf 文件直接将 url 传递给 UIWebView UIWebView webVi
将2个暗淡数组“列表列表”输出到python中的文本文件

简单的问题我正在创建一个两个暗淡的数组 ddist 0 d for in 0 d 在下面的代码中使用列表它使用 gis 数据输出距离我只是想要一种简单的方法来获取数组列表的结果并将其输出到保持相同的 N N 结构的文本文件我过去曾
PDFBox - 无障碍 PDF - 如何检查 PDF 标签是否具有符合无障碍指南的属性

需要检查 PDF 标签是否具有符合辅助功能指南的属性例子 H1 验证 PDF 中是否存在 H1 图像图形标签验证图像图形是否具有 Alt 文本语言验证语言属性是否已设置以便屏幕阅读器能够正确阅读对于西班牙语和英语文档应更新
使用其他应用程序打开 pdf

我正在应用程序中显示 pdf 文件我想在 nag bar 上显示打开方式选项显示 iPhone 上安装的可以打开相同 pdf 的应用程序如果用户选择任何应用程序例如 pdf 查看器则应该使用 pdf 查看器应用程序打开 pdf
为什么 Python 不能打印 Unicode 符号？ [复制]

这个问题在这里已经有答案了可能的重复 Python UnicodeDecodeError 我是否误解了编码 https stackoverflow com questions 368805 python unicodedecodeerro
是否可以使用“pandoc”将 .tex 文件编译为 PDF？

是否可以使用 pandoc 编译 tex 文件我目前正在使用 MacVim 在 MultiMarkdown 中记课堂笔记这样当我回到家时我就可以mmd2tex并使用 TexShop 将 tex 文件编译为 PDF 它效果很好但这个
为什么我们从 MultiByte 转换为 WideChar？

我习惯于处理 ASCII 字符串但现在使用 UNICODE 我对一些术语感到非常困惑什么是多字节字符以及什么是widechar有什么不同多字节是指在内存中包含多个字节的字符吗 widechar只是一个数据类型来表示吗为什么我们要从M
unicode 表情符号在 Chrome 上不显示

当我将 unicode 表情符号插入 span 使用标准 jQuery 它们不会出现在 Chrome v48 中但会出现在 Firefox v43 和 Safari v9 中比较这些屏幕截图 CHROME FIREFOX 这里有什么解释
UIDocumentInteractionController 显示空白 pdf

我尝试使用 UIDocumentInteractionController PresentPreviewAnimated 方法在 iOS 设备上显示 pdf 但它一直显示空白文档我认为这可能与字符编码有关但我不确定如果我使用 UIWe
TCPDF UTF-8 符号未显示

我使用最新的 TCPDF 版本 5 9 但在编码方面遇到一些奇怪的问题我需要立陶宛语语言符号例如但只能得到其中的一小部分其他的还是这样所以我该怎么做我使用默认的 times 字体它带有 TCPDF 下载任何帮助将不胜感激
适用于 iPhone / iPad / iOS 的快速、精益 PDF 查看器 - 提示和提示？

最近有很多关于绘制 PDF 的问题是的您可以使用UIWebView但这无法提供您所期望的优秀 PDF 查看器的性能和功能您可以绘制PDF页面到 CALayer http www cocoabuilder com archive coc
在十六进制和二进制表示法之间移动

当一个字节由 8 位二进制表示时您将得到一个由 8 个可能的 1 和 0 组成的序列所以00101010可以用十六进制缩写为2A 我的书说您可以通过在右侧第四位之后使用十六进制来缩短该表示形式例如 00101010可以用十六进制记数
DOCX 到 PDF：SaveAs2、ExportAsFixedFormat 与 PrintOut

我有一个小小的目标即使用 C 和 NET 将大量 docx 文件转换为 pdf 而无需打开 Word 可见且无需使用任何第三方库需要管理的组件更少花费的资金也更少目前我正在尝试正确转换单个文档该文档必须尽可能高效以便快速转换
所见即所得与 Unicode

我在 Delphi 中编写了一个 Windows 程序该程序使用 GetCharWidth 和 Em Square 将文本非常精确地放置并换行到屏幕和打印机这对于 ANSI 文本效果很好您只需要检索和计算 255 个字符的宽度但当您
在有或没有 UNICODE 支持的情况下，如何在我的程序中使用 _stprintf？

微软的定义 stprintf as swprintf if UNICODE被定义并且sprintf如果不但这些函数采用不同的参数在swprintf 第二个参数是缓冲区大小但是sprintf没有这个有人偷懒了吗如果是这样这就是
Mysql插入表后不显示右单引号(’)

我有一个名为测试的表我插入了一行其中包含unicode字符右单引号 0x2019在名称字段中 SQL insert into Testing values Sno Name Address insert into Testing v

随机推荐

匹配长度为 n 的所有连续数字 [重复]

这个问题在这里已经有答案了在我的示例中其中 n 4 我对 Regex 很陌生已经搜索了 20 分钟有一些有用的网站可以简化事情但我不知道如何继续下去我希望从中提取 4 个连续数字的每个组合 12345 to get 1234 p
当 var 被最明确地定义时，Python NameError

def make pdf self self get filez self get client file name self client id self client name self batch num style libxslt
Spark UDAF以ArrayType作为bufferSchema性能问题

我正在开发一个返回元素数组的 UDAF 每次更新的输入是索引和值的元组 UDAF 的作用是将同一索引下的所有值相加 Example 对于输入索引值 2 1 3 1 2 3 应该返回 0 0 4 1 0 逻辑工作正常但我有一个问题更新方
使用 ServletUnit 测试 JSP 的示例

谁能给我一个如何使用 ServletUnit 测试 JSP 的示例我需要调用registerServlet 吗如果是这样我应该传递什么类名如果您要使用默认的 Jasper 编译器则不需要注册Servlet 但是我需要 Jaspe
PHP 电子邮件中的新换行符

我有以下代码 message Good news The item item number on which you placed a bid of bid price is now available for purchase at yo
Google 应用程序引擎中的 Webapp2 会话

我刚刚弄清楚如何使用 python 在我的 Google 应用程序引擎项目中实现 webapp2 会话代码如下我想知道最好的方法是什么我所做的是创建一个 python 文件并将 BaseHandler 代码放入其中然后我只需导入它
任务不可序列化：仅在类而非对象上调用闭包外部的函数时出现 java.io.NotSerializedException

在闭包之外调用函数时出现奇怪的行为当函数位于对象中时一切正常当函数在类中时 get 任务不可序列化 java io NotSerializedException 测试问题是我需要类中的代码而不是对象中的代码知道为什么会发生这种情况
如何在 Firestore 中对对象数组使用数组包含运算符？

所以我想从 firestore 查询一些数据这是我的数据结构所以集合是模块那么我现在有 2 个文档但它将是 75 个左右然后在该文档中我想获取具有特定 LessonId 的特定文档在本例中为 2 我该如何查询这个这是我尝试
For 循环中的 java.util.ConcurrentModificationException

我正在尝试编写一个 IM 软件我想让用户离开对话并告诉他的伙伴他已经离开了我更喜欢使用 for 循环而不是 Iterator 寻找所有用户并找到要求离开的用户并删除他就像这样 for Clientuser Cu EIQserver O
为什么回显 JSON 编码数组不会产生任何输出

我有一个包含 19 个元素的小数据库这是我用于检索数据库的 PHP 函数 function retrieveDB tempDB array database new mysqli DB HOST DB USER DB PASS DB NA
如何使用 ng-repeat 进行展平

I have businesses businessName A address loc1 loc2 loc3 businessName B address loc1 loc2 businessName C address loc1 我想用
如何使用 jQuery 获取 CSS 属性的数字部分？

我需要根据 CSS 属性进行数值计算但是当我用它来获取信息时 this css marginBottom 它返回值 10px 有没有一个技巧可以只获取值的数字部分无论它是否是px or or em管他呢 parseInt this c
在另一个类中使用 Swingworker 发布方法

我有一个 Swingworker 这样我的 GUI 可以在我在后台工作时保持响应问题是我需要在各个点更新 gui 例如用程序状态信息更新标签但我有很多处理要做但我无法在一个巨大的 doInBackground 方法中完成所有处理
Windows 上的 GeoDjango：“找不到 GDAL 库”/“OSError：[WinError 126] 找不到指定的模块”

我一直在尝试设置我的 Windows 计算机以便我可以拥有带有 PostGIS 扩展的本地 postgreSQL 安装后我希望能够在将其放入云之前在本地使用 geodjango 创建一个项目我已经在本地计算机上使用 SQLite DB
flutter 中的三个点(...) 意味着什么？

什么是这段代码的意思是代码是 if state isSubmitting const SizedBox height 8 const LinearProgressIndicator value null In Dart 三点称为spre
为什么未命名命名空间是静态命名空间的“高级”替代品？ [复制]

这个问题在这里已经有答案了 C 标准中的 7 3 1 1 2 部分内容如下 static关键字的使用是在 a 中声明对象时已弃用命名空间范围未命名的命名空间提供一个更好的选择我不明白为什么未命名的命名空间被认为是更好的选择理由是
如何在 Asp.net 中打开带有预填充附件的默认邮件客户端

我正在尝试打开默认邮件客户端带有 Asp net 中预填充的附件如果我在本地服务器上尝试这个它工作正常但是当部署到服务器时它就不再工作了这就是我到目前为止所做的 public void SendEmail try int coun
当弹出窗口被阻止时如何通过javascript打开新窗口

当 IE 和 Firefox 中的弹出窗口被阻止时如何通过 javascript 打开新窗口下面是代码
如何从 HTML 页面读取特定数字 [关闭]

很难说出这里问的是什么这个问题模棱两可含糊不清不完整过于宽泛或言辞激烈无法以目前的形式合理回答如需帮助澄清此问题以便重新打开访问帮助中心例如如果我想从此页面设置索引值 http ca finance yahoo com q
读取 PDF 文件中的日文字符

我有以下命令 1010 TJ 我知道它在十六进制部分隐藏了日语因为这是 PDF 中唯一的内容并且这一行位于 pdf 文件中单个页面的唯一内容流中问题是无论我如何尝试解码这个十六进制字符串我都会得到乱码我已经将这些十六进制字符串解

读取 PDF 文件中的日文字符

读取 PDF 文件中的日文字符 的相关文章

随机推荐

热门标签

读取 PDF 文件中的日文字符的相关文章