PDFBOX和ASPOSE.PDF

2023-10-29

一、aspose.pdf

文档 https://docs.aspose.com/pdf/java/

1、按段落分段

/**
 * docx文本按段分段
 */
public static void main(String[] args) {
    int i = 1;
    try {
        // 打开文件流
        FileInputStream file = new FileInputStream("I:\\范文.docx");
        // 创建 Word 文档对象
        XWPFDocument doc = new XWPFDocument(file);
        // 获取所有段落
        for (XWPFParagraph para : doc.getParagraphs()) {
            // 输出段落文本
            if (!para.getText().equals("")) {
                System.out.println(i++ + ":" + para.getText());
            }
        }
        // 关闭文件流
        file.close();
    } catch (IOException e) {
        e.printStackTrace();
    }
}

2、按句子分段

其他

word转pdf工具之aspose

<dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words-crack</artifactId>
        <version>21.1</version>
    </dependency>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-slides</artifactId>
        <version>18.7</version>
    </dependency>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cell</artifactId>
        <version>18.9</version>
    </dependency>

操作pdf其它api依赖

<dependency>
    <groupId>com.itextpdf</groupId>
    <artifactId>itext7-core</artifactId>
    <version>7.1.15</version>
</dependency>

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>1.8.10</version>
</dependency>

二、PDFBOX

1、提取pdf指定页码的数据

public static void main(String[] args) throws IOException {
    String pdfPath = "C:\\Users\\Fushihao\\Desktop\\pdf\\test.pdf";
    int pageIndex = 4; // 指定要提取文本的页面号码

    // 加载 PDF 文件
    PDDocument document = PDDocument.load(new File(pdfPath));

    // 提取指定页面的文本
    PDFTextStripper stripper = new PDFTextStripper();
    stripper.setStartPage(pageIndex + 1);
    stripper.setEndPage(pageIndex + 1);
    String pageText = stripper.getText(document);

    // 输出文本到控制台
    System.out.println(pageText);

    // 关闭 PDF 文件
    document.close();
}

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>1.8.10</version>
</dependency>

2、获取 PDF 字数

public static int getPdfWords(File file) throws IOException {
    // 加载文件
    PDDocument document = PDDocument.load(file);
    PDFTextStripper stripper = new PDFTextStripper();
    // 获取字数
    String text = stripper.getText(document);
    // 关闭
    document.close();
    // 去除特殊符号返回字数
    return text.replaceAll("[\\r\\n\\t ]+", "").length();
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

J2EE

pdf

PDFBOX和ASPOSE.PDF 的相关文章

将固定文档/XPS 打印为 PDF，而不显示文件保存对话框

我有一个FixedDocument我允许用户在 WPF GUI 中预览然后打印到纸张上而不显示任何 Windows 打印对话框如下所示 private void Print PrintQueueCollection printQueu
如何从纯文本文件中解析文本并使用结果突出显示 PDF 文件

早在 2010 年就有人声称能够做到这一点 http www mobileread com forums showthread php t 103847 http www mobileread com forums showthread
在 Apple TV tvOS 中渲染 PDF

我正在为我的 tvOS 应用程序添加一个附加功能允许查看应用程序中存储的 PDF 但是如果没有 UIWebView 我不知道如何做到这一点我在其他地方提出了问题并收到了一个来自 Apple 的关于可以使用的 API 的冗长而无助的文
无法在 MARSHAMALLOW 文件选择器中选择 pdf、doc、ppt 等文件

我正在使用我的 Android 应用程序将 pdf ppt doc 等文件上传到服务器但在 Marshmallow 中当文件选择器打开并且我浏览我的 Sdcard 或内部存储时存在两个问题 1 它显示了所有我无法选择的文件例如图像
仅从 PDF 中提取粗体文本的最佳方法

iTextSharp 是一个很棒的工具我可以使用PdfTextExtractor GetTextFromPage reader iPage 它工作得很好但是有没有办法从 pdf 中只提取粗体文本例如标题而不是所有内容无论编程语言如
将元数据添加到 PDF

我需要将元数据添加到我正在创建的 PDF 中prawn http rubygems org gems prawn 该元数据稍后可能会被提取 pdf阅读器 http rubygems org gems pdf reader 该元数据将包含内部
PDF：在现有 PDF 文件中插入一行文本

我有一个 PDF 文件我希望在所有页面前两页除外的页脚上添加一行纯文本不是徽标或类似内容有谁有一个如何做到这一点的例子用任何语言 Update 原始 PDF 是用 Scribus 制作的我可以完全控制它因此如果更容易进行查
使用 iText 和 Batik 生成 PDF

我正在尝试将文本和 SVG 图形导出为 PDF 我发现 iText 和 batik 可以做到这一点所以我尝试这样做但每次我放入图表时它都会变得非常小我认为这可能与我的代码有关所以我想我应该尝试 Vaadin 的示例代码 publi
以编程方式更改 PDF 文件中黑框的颜色？

我有一个由 Microsoft Word 生成的 PDF 文件用户指定了黑色的突出显示颜色使文本看起来像一个黑框并使文本看起来像是经过编辑的我想将黑框更改为黄色以便突出显示文本理想情况下我想用 Python 来完成此操作
从 PDF 中提取不可选择的内容

我正在使用 Apache PDFBox 从 PDF 文件中提取页面但找不到提取不可选择的内容文本或图像的方法从 PDF 文件中选择内容是没有问题的请注意相关 PDF 在复制内容方面没有任何限制至少从我在文件的文档限制摘要中
使用 /CCITTFaxDecode 过滤器从 PDF 中提取图像

我有一个通过扫描软件生成的 pdf 文件该 pdf 每页有 1 个 TIFF 图像我想从每个页面中提取 TIFF 图像我正在使用 iTextSharp 我已经成功找到了图像并且可以从PdfReader GetStreamBytesR
如何在服务器（无 GUI）上呈现网页以进行打印？

我正在尝试使用 PHP 脚本将页面实用地打印到办公室打印机这是我到目前为止所得到的我在服务器上安装了一台打印机我可以通过命令行的打印命令使用 PHP 向其发送作业我还可以使用 PHP 脚本编写纯文本文件然后将它们添加到打印提示中
使用 AJAX 调用生成 PDF 文件

我正在尝试使用 Rails3 中的 AJAX 调用生成 PDF 文件以下代码生成一个我使用 PRAWN gem 创建的 PDF 文件我不希望用户在订购之前查看 PDF 因此目标是在服务器中创建 PDF 文件非常感谢任何想法或想法使
内容处置：ASP.Net 中的内联 PDF 文件不起作用

我正在尝试将带有标题的 PDF 文件返回到浏览器Content Dispostion inline就在我创建这个文件之后浏览器的查看者无法打开它文件没有损坏如果我放入浏览器查看器会正确显示文件但我想一次性创建文件并检查用户对文件的
如何在 iText PDF 中使用字体

我有一个java应用程序我必须在itextPdf中使用FontFactory使用 Bodoni MT Black 字体我应该如何修改我的代码这是我的代码 Font base FontFactory getFont FontFactor
从 PDF 转换为 HTML [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何使用Python从pdf文件中删除页面？

我有一些超过 500 页的 pdf 文件但每个文件中只需要几页有必要保留文档的标题页我确切地知道程序应该删除的页数如何使用安装在 MS Visual Studio 上的 Python 2 7 环境来完成此操作尝试使用PyPDF2
如何从文本视图制作多页 PDF？

我从 iPhone 应用程序生成了一个 PDF 文件虽然大多数文档只有一页但我希望能够检测文本是否超出边距如果是则将其添加到下一页我对此很陌生所以不太确定如何做到这一点下面是代码有什么建议么 void drawBorder
JsPdf 库无法读取 PDF 中的阿拉伯语

在 pdf 中显示阿拉伯值的代码不起作用它向我展示了一些我无法理解的奇怪语言 var sm nature name nature1 ar 1 name nature2 ar 2 name nature3 ar 3 name nature4
如何从浏览器打印 PDF

在Web应用程序中是否可以强制在客户端上打印PDF文件如果浏览器配置为在窗口内打开 PDF 我想调用 window print 会起作用但某些浏览器例如我的被配置为在外部打开 PDF 谷歌文档的做法是将 JavaScript 嵌入

随机推荐

关于AI和ChatGPT的使用，AI编程（AIGC），AI绘画

对于AI和ChatGPTDE使用是在科技公司实习后才真正运用虽然在大学时期就有了解但是由于课程和其他课外活动挤占时间我当时没能好好研究AI 人工智能人们往往对它的印象是高大上的高科技高门槛事实真是如此吗工作以后受同事等环境
k8s——排错指南

一般的k8s排错步骤查看node状态查看pod状态查看kubelet系统日志一常用命令 1 查看各节点状态 kubectl get node
教你如何用U盘装系统 WINPE + GHOST + 虚拟光驱

教你如何用U盘装系统 WINPE GHOST 虚拟光驱教你如何用U盘装系统装系统前的准备一个能启动电脑的U盘和一个系统的光盘镜像在安装系统前需要准备好一些东西一个是操作系统的镜像另一个就是能启动的U盘下面我们就来讲解怎么安装
python3.7.1安装scipy_python - 使用pip安装SciPy

python 使用pip安装SciPy 使用pip install numpy可以使用pip安装NumPy SciPy有类似的可能性吗做pip不起作用更新 SciPy包现在可以安装pip 15个解决方案 207 votes 先决条件 s
AcWing 1884. COW 经典dp

AcWing 1884 COW 打卡 include
TCP 的那些事儿（下）

转自 http coolshell cn 这篇文章是下篇所以如果你对TCP不熟悉的话还请你先看看上篇 TCP的那些事儿上上篇中我们介绍了TCP的协议头状态机数据重传中的东西但是TCP要解决一个很大的事那就是要在一个网络根据
STM32开发笔记（二）——动态模块加载和ELFLoader

STM32开发笔记二动态模块加载和ELFLoader 小狼 http blog csdn net xiaolangyangyang 动态模块加载的好处动态模块加载的好处很多例如当你升级一个系统的时候可以只升级一个模块而不必升级
下载安装jdbcj及jdbc与jdk,mysql对应版本匹配问题

下载安装jdbcj及jdbc与jdk mysql对应版本匹配问题下载安装jdbc 1 下载安装jdbc前一定有必要了解jdbc与jdk mysql版本的对应关系因为jdbc mysql jdk一直在变化而且大家下载的版本各不相同没法
判断一个序列的出栈次序是否合法

判断pop是否是src的合法出栈序列 bool isPopSeq string src string pop stack
20220420 tensorrt NCNN openvino dnn部署

一键转换 Caffe ONNX TensorFlow 到 NCNN MNN Tengine convertmodel com 一 tensorrt 1 TensorRT 性能优化方式知乎
COMSOL电磁仿真-网格剖分-边界层

COMSOL电磁仿真网格剖分边界层在低频磁场中随着磁场的频率增加金属的集肤效应会逐渐显著为了解析趋肤层需要对金属的表面进行网格加密这一过程主要通过剖分边界层实现本文分为两部分第一部分介绍了边界层知识点第二部分给出了相应
pandas 根据条件直接替换某一列的值的两种方法 np.where pandas.DataFrame.mask

写在最前自己和朋友成立了一个工作室图灵数据科学工作室 VX DataUpward 一是想和大家交个朋友二是想帮助朋友们跳过我们遇到的坑尽快找到解决办法工作室的运行也需要付出各种成本活下去是我们的当务之急如果大家有数据分析
Android竖直RecyclerView嵌套竖直的RecyclerView 与外部RecyclerView的上拉加载和下拉刷新冲突问题

首先看布局
leetCode刷题---最大回文子串

描述给定一个字符串s 找到s 中最长的回文子串你可以假设 s的最大长度为1000 示例1 输入 babad 输出 bab 注意 aba 也是一个有效答案示例2 输入 cbbd 输出 bb 以某个元素为中心分别计算偶数长度的回文最大长
cron表达式详解以及用Java自动生成cron表达式

文章目录 cron表达式介绍 cron有如下两种语法格式 cron表达式标准结构 cron表达式各个字段的含义 cron每个域特殊字符含义 cron常用表达式例子 Java通过时间生成cron表达式 cron表达式介绍 cron表达式是由若
error:1407742E:SSL routines:SSL23_GET_SERVER_HELLO:tlsv1 alert protocol version

git 项目出现这个错误是因为官方版本不支持tlsv1了有相关公告可以下载最新版本的git工具吾已解决奉上最新版本点击可下载
最新最新超详细MySQL安装及基本使用教程

一下载MySQL 首先去数据库的官网http www mysql com下载MySQL 点击进入后的首页如下然后点击downloads 然后选择MySQL Community GPL Downloads 等到下图选择MySQL Co
深度信念网络（Deep Belief Network）论文

深度信念网络是深度学习爆发前夕重要的研究成果以Hinton 2006年的两篇论文为代表 A fast learning algorithm for deep belief nets Reducing the dimensionality
Python 使用input获取用户输入

视频版教程 Python3零基础7天入门实战视频教程 input 函数用于向用户生成一条提示然后获取用户输入的内容由于input 函数总会将用户输入的内容放入字符串中因此用户可以输入任何内容 input 函数总是返回一个字符串我们可
PDFBOX和ASPOSE.PDF

一 aspose pdf 文档 https docs aspose com pdf java 1 按段落分段 docx文本按段分段 public static void main String args int i 1 try 打开文件流

PDFBOX和ASPOSE.PDF

一、aspose.pdf

1、按段落分段

2、按句子分段

其他

二、PDFBOX

1、提取pdf指定页码的数据

2、获取 PDF 字数

PDFBOX和ASPOSE.PDF 的相关文章

随机推荐

热门标签