如何根据字体计算字符数？

2024-04-30

对于给定 PDF 文件中的每个页面，可以列出所使用的字体：

$ pdffonts -f 10 -l 10 file.pdf
name                                 type              encoding         emb sub uni object ID
------------------------------------ ----------------- ---------------- --- --- --- ---------
[none]                               Type 3            Custom           yes no  no      12  0
DIIDPF+ArialMT                       CID TrueType      Identity-H       yes yes yes     95  0
DIIEDH+Arial                         CID TrueType      Identity-H       yes yes no     101  0
DIIEBG+TimesNewRomanPSMT             CID TrueType      Identity-H       yes yes yes    106  0
DIIEDG+Arial                         CID TrueType      Identity-H       yes yes no     112  0
Arial                                TrueType          WinAnsi          yes no  no     121  0

我需要根据以下内容识别可能有问题的字体pdffonts根据字体输出和计数字符。我通过实现以下代码片段来实现它：

def count_fonts_ocurrencies_by_page(pdf_filepath):
    page_layout = next(extract_pages(pdf_filepath))

    fonts = []

    for element in page_layout:
        if isinstance(element, LTTextContainer):
            for text_line in element:
                for character in text_line:
                    if isinstance(character, LTChar):
                        fonts.append(character.fontname)

    return Counter(fonts)

我期待着找到一种简单的方法来做同样的事情（或接近，我只需要知道单个 PDF 页面上的字体使用百分比之类的信息）而不迭代每个字符（如果可能），或者可能不使用整个模块，例如 pdfminer，一次只针对一个函数和一个 PDF 页面。如果我可以使用 pdfminer 的最少代码（重新）做类似的事情也会很有帮助，因为它是以模块化方式构建的。

你可以尝试使用pdftohtml来自同一个包pdffonts然后使用 xpath 解析 html 文件并考虑样式

pdftohtml -f 1 -l 1 -c -s -i -fontfullname fonts.pdf

生成的文档

<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml" lang="" xml:lang="">
<head>
<title>fonts-html.html</title>

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8"/>
 <br/>
<style type="text/css">
<!--
    p {margin: 0; padding: 0;}  .ft10{font-size:16px;font-family:BAAAAA+NotoSans-CondensedExtraBold;color:#000000;}
    .ft11{font-size:16px;font-family:CAAAAA+DejaVuMathTeXGyre-Regular;color:#000000;}
    .ft12{font-size:13px;font-family:DAAAAA+Baekmuk-Headline;color:#000000;}
    .ft13{font-size:13px;font-family:EAAAAA+LMMono9-Regular;color:#000000;}
    .ft14{font-size:13px;font-family:FAAAAA+CantarellRegular;color:#000000;}
    .ft15{font-size:13px;font-family:GAAAAA+Courier;color:#000000;}
-->
</style>
</head>
<body bgcolor="#A0A0A0" vlink="blue" link="blue">
<div id="page1-div" style="position:relative;width:892px;height:1263px;">
<img width="892" height="1263" src="fonts001.png" alt="background image"/>
<p style="position:absolute;top:64px;left:86px;white-space:nowrap" class="ft10"><b>Font1</b></p>
<p style="position:absolute;top:91px;left:86px;white-space:nowrap" class="ft11">font3</p>
<p style="position:absolute;top:109px;left:86px;white-space:nowrap" class="ft12">font4</p>
<p style="position:absolute;top:124px;left:86px;white-space:nowrap" class="ft13">font5</p>
<p style="position:absolute;top:144px;left:86px;white-space:nowrap" class="ft14">font6</p>
<p style="position:absolute;top:163px;left:86px;white-space:nowrap" class="ft15">font7</p>
</div>
</body>
</html>

用python解析html并按字体计数字符（类属性）

from lxml import html                      
tree = html.parse(r'/home/luis/tmp/fonts-html.html')
eleList = tree.xpath("//p[@class='ft10']")
len(eleList[0].text_content())
# text length: 5 
eleList = tree.xpath("//p[@class[contains(.,'ft')]]")
eleList[0].get('class')
# class name: 'ft10'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pdf

pdfminer

如何根据字体计算字符数？的相关文章

如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
Pycharm Python 控制台不打印输出

我有一个从 Pycharm python 控制台调用的函数但没有显示输出 In 2 def problem1 6 for i in range 1 101 2 print i end In 3 problem1 6 In 4 另一方面像
DreamPie 不适用于 Python 3.2

我最喜欢的 Python shell 是DreamPie http dreampie sourceforge net 我想将它与 Python 3 2 一起使用我使用了添加解释器 DreamPie 应用程序并添加了 Python 3 2
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
对于某些 PDF 文件，LoadIFilter() 返回 -2147467259

我正在尝试使用 Adob e IFilter 搜索 PDF 文件我的代码是用 C 编写的我使用 p invoke 来获取 IFilter 的实例 DllImport query dll SetLastError true CharSet
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar

随机推荐

Spring Boot 忽略 @JsonDeserialize 和 @JsonSerialize

我有一个带有 RESTful 端点的 Spring Boot 应用程序我想向其中添加自定义序列化器乔达时间 http www joda org joda time 但我无法让应用程序默认 Jackson Serailzier 识别我的自定
Pandas DataFrame：在我想要保留的内容之前和之后从字符串中删除不需要的部分

在我的 data cleaner 数据集中我有列功能项目 ID 这标识了项目其格式为代码年份代码我只对项目的年份感兴趣所以我想删除第一个之前的所有内容和第二个之后的所有内容 Project ID AGPG 2013 1
使用 Facebook OAuth 2.0 - 如何获取访问令牌？

我是新来的OAuth http en wikipedia org wiki OAuth 我正在尝试使用脸书连接 http en wikipedia org wiki Facebook Platform Facebook Connect与我的
C# 排序列表 - 快速，具有可移动、重复的键

我制作了一个带有压缩机制的应用程序需要我自己的字典我的应用程序中的每个 cicle 都会将新元素添加到 myDictionary 中并更新向 myDictionary 中的一些先前元素添加一个字符我用普通列表和快速排序函数来做到这一
了解 Windows 10 何时处于平板电脑模式 - Windows 10 / Windows 10 Mobile

我致力于开发适用于 Windows 10 和 Windows 10 Mobile 的通用应用程序有谁知道如何检查 Windows 10 是否在平板电脑模式下运行我在这里找到了这个问题但这是针对 Windows 窗体的如何在 Wind
如何使用Lodash根据一个键合并两个集合？

我有两个集合这些对象有一个公共键 userId 如下 var require lodash var a userId p1 item 1 userId p2 item 2 userId p3 item 4 var b userId p1
PostgreSQL 逻辑复制 - 创建订阅挂起

我正在尝试在 Debian 9 和 PG 11 1 的 2 个云实例之间设置逻辑复制命令CREATE PUBLICATION在 master 上成功了但是当我启动命令时CREATE SUBSCRIPTION在预期的逻辑副本上该命令无限
您可以在 @Helper 中使用 @Helper 吗？

我不确定这是否可能我有一堆 Helper位于视图内以及其他视图中 helper ViewHelper1 helper ViewHelper2 etc 我有在视图和其他视图中使用的重复代码 if Model Entity Model Enu
relativelayout/customview 不填充选项卡的宽度

我正在尝试用视图填充选项卡有关我尝试通过视图实现的确切目标的更多信息请阅读我之前的问题如何自定义各个选项卡更改背景颜色指示器颜色和文本颜色 https stackoverflow com questions 21335267 ho
捕获 Node js 应用程序的所有 uncaughtException

我有一个问题如何处理我的节点应用程序的所有未捕获的异常操作开发人员错误将导致所有服务停止然后每当发现错误时我就可以向我发送电子邮件警报您可以使用process https nodejs org api process html
由于 JavaScript 没有太多权限，病毒如何通过浏览器进入 PC？

我想知道浏览器如何允许病毒传播到我们的计算机我们收到的响应是文本响应响应中唯一可执行的东西是 JavaScript 它没有太多权限是什么让浏览器倾向于将某些文件传递到计算机短名单浏览器插件一般来说 ActiveX 尤其是 Fla
获取作业格式表以及作业的运行时间

我正在尝试编写一个 PowerShell 5 1 脚本来监视作业我在编写正确的获取工作表时遇到问题以下是我所拥有的 Get Job Format Table AutoSize Property name state name Run
连接到 Hive 时使用 Spark 进行 Kinit

我正在尝试从独立的 Spark 连接到 Hive hadoop 集群具有 kerberos 身份验证有人可以让我知道如何在 Spark 程序中执行 kinit 我可以连接到配置单元吗更新我的 Spark 与 Hadoop 位于不同的集
存储过程 - 返回标识作为输出参数或标量

当您将记录插入到具有标识列的表中时可以使用 SCOPE IDENTITY 来获取该值在存储过程的上下文中这将是返回标识值的推荐方法作为输出参数SET RETURN VALUE SCOPE IDENTITY 作为标量SELECT SC
XAML ComboBox SelectionChanged 触发 OnLoad

如果我有一个具有 SelectionChanged 事件的 ComboBox 它会在我加载控件时触发因此在页面加载时我设置了 SelectedValue 并触发 SelectionChanged 事件这不是我想要发生的情况阻止这种
将 SQLCEResultSet 结果视图转换为数据表

是否可以将 sqlceresultset resultview 转换为数据表未经测试但这应该可以满足您的需要 public DataTable ResultSetToDataTable SqlCeResultSet set DataTa
如何在bash中使用echo和find？

我有10个文件我可以列出它们find type f我想要实现的目标是在使用 find 命令找到所有 10 个文件后向它们发送一条消息我所尝试过的 find type f exec echo This file found gt gt 逻
react-css-modules (babel) 和 css-loader (webpack) 如何协同工作？

当同时使用 webpack 和 babel 时需要配置两者才能使用 React CSS 模块例如 webpack config js将需要这样的规则 Translates CSS into CommonJS modules loader
Spring Boot不会抱怨两个同名的bean

我有以下配置其中有两个来自两个不同配置类的同名 Spring bean import org springframework context annotation Bean import org springframework conte
如何根据字体计算字符数？

对于给定 PDF 文件中的每个页面可以列出所使用的字体 pdffonts f 10 l 10 file pdf name type encoding emb sub uni object ID none Type 3 Custom yes

如何根据字体计算字符数？

如何根据字体计算字符数？ 的相关文章

随机推荐

热门标签

如何根据字体计算字符数？的相关文章