概述
最近在梳理某项目的数据标准,从标准网下载了很多PDF格式的标准文件,需要提取文字和图片,所以写了个程序提取;本文使用了免费版的Spire。
约束
免费版的Spire一次只能提取PDF的10页。
环境配置
pom.xml
<repositories>
<repository>
<id>com.e-iceblue</id>
<name>e-iceblue</name>
<url>http://repo.e-iceblue.cn/repository/maven-public/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>e-iceblue</groupId>
<artifactId>spire.pdf.free</artifactId>
<version>5.1.0</version>
</dependency>
</dependencies>
示例代码
import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import com.spire.pdf.widget.PdfPageCollection;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
public class TestMain1 {
public static void main(String[] args) {
String basePath = System.getProperty("user.dir");
String pdfDir=basePath+File.separator+"src"+File.separator+"pdfDir";
String fileName="GBT 1992-2006 集装箱术语.pdf";
String fileFullName=pdfDir+File.separator+fileName;
System.out.println("文件路径:"+fileFullName);
System.out.println(" ====begin read pdf====");
long l = System.currentTimeMillis();
try {
printPdfInfo(fileFullName,pdfDir);
} catch (Exception e) {
e.printStackTrace();
}
long l1 = System.currentTimeMillis();
System.out.println("=====end pdf parse success;共耗时 " + (l1 -l) + " ms =====");
}
public static void printPdfInfo(String filePath,String outPath) throws Exception {
//加载测试文档
PdfDocument pdf = new PdfDocument();
pdf.loadFromFile(filePath);
// 按每页获取文件内容
PdfPageCollection pages = pdf.getPages();
// pdf每页对象
PdfPageBase page;
System.out.println("PDF总页数:"+pages.getCount());
if (pages.getCount() > 0) {
//写入文件
FileWriter writer = new FileWriter(outPath+File.separator+"extractText.txt");
for (int i = 0; i < pages.getCount(); i++) {
page = pages.get(i);
System.out.println(" 第 " + (i + 1) + " 页 ");
StringBuilder sb = new StringBuilder();
// 按原内容格式输出
String text = page.extractText(true);
if(text.equalsIgnoreCase("") )
{
System.out.println("内容为空!");
}
else
{
System.out.println(" *****内容如下 *****");
System.out.println(text);
sb.append(text);
}
//System.out.println(text.replace("Evaluation Warning : The document was created with Spire.PDF for Java.",""));
//将StringBuilder对象中的文本写入到txt
writer.write(sb.toString());
writer.flush();
BufferedImage[] bufferedImages = page.extractImages(true);
int index = 1;
if (bufferedImages.length>0)
{
for (BufferedImage image : bufferedImages)
{
System.out.println(" =====图片信息如下=====");
System.out.println(image);
File output = new File(String.format(outPath+File.separator+"page%d_image%d.JPEG", i+1,index));
ImageIO.write(image, "JPEG", output);
index++;
}
}
}
}
pdf.close();
}
}
执行结果
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)