我必须从 PDF 文件中检索文本。但使用下面的代码我只得到空文本文件。
for (int i = 0; i < n; i++)
{
pagenumber = i + 1;
filename = pagenumber.ToString();
while (filename.Length < digits) filename = "0" + filename;
filename = "_" + filename;
filename = splitFile + name + filename;
// step 1: creation of a document-object
document = new Document(reader.GetPageSizeWithRotation(pagenumber));
// step 2: we create a writer that listens to the document
PdfWriter writer = PdfWriter.GetInstance(document, new FileStream(filename + ".pdf", FileMode.Create));
// step 3: we open the document
document.Open();
PdfContentByte cb = writer.DirectContent;
PdfImportedPage page = writer.GetImportedPage(reader, pagenumber);
int rotation = reader.GetPageRotation(pagenumber);
if (rotation == 90 || rotation == 270)
{
cb.AddTemplate(page, 0, -1f, 1f, 0, 0, reader.GetPageSizeWithRotation(pagenumber).Height);
}
else
{
cb.AddTemplate(page, 1f, 0, 0, 1f, 0, 0);
}
// step 5: we close the document
document.Close();
PDFParser parser = new PDFParser();
parser.ExtractText(filename + ".pdf", filename + ".txt");
}
我做错了什么以及如何从 PDF 中提取文本?
对于使用 iTextSharp 进行文本提取,请获取该库的当前版本并使用
PdfTextExtractor.GetTextFromPage(reader, pageNumber);
请注意,某些 5.3.x 版本中的文本提取代码存在错误,目前已修复。因此,请确保您使用的是最新的 5.5.x 版本。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)