在 C# .NET 中从 PDF 中提取表数据

PDF 文档是一种无处不在的文件格式，用于以固定布局表示结构化文档。但是，该格式本身不支持提取语义信息，如表格、图像、文本等。这给以编程方式分析 PDF 文档或将其转换为其他格式（如 Excel）等任务带来了挑战。

在这篇博文中，我们将探讨如何使用 C# 构建将 PDF 文档中的表格数据直接提取为 .NET DataTable 等格式的能力。从 PDF 中提取表格数据使我们能够有效地理解、分析和处理 PDF 表格中包含的结构化信息。

了解 PDF 表格结构

在我们深入研究代码之前，了解 PDF 格式表格的底层结构非常重要。PDF 文档使用一系列绘图命令来表示可视内容，这些命令将文本、线条和形状呈现到虚拟“页面”上。

PDF 中的表格呈现为这些绘图基元的集合，没有固有的逻辑分组或语义含义。它们只是在表格布局中呈现的矩形形状、线条和文本。

为了以编程方式提取表数据，我们需要分析可视化布局并识别指示表结构的常见模式，例如：

由线条形成的矩形“细胞”
重复行/列模式
在单元格内从左到右或从上到下排列的文本
对齐方式和间距表明采用表格结构

大多数 PDF 提取库都提供了分析这些视觉提示的工具，并通过检测绘图命令中的常见表格模式来识别基础表。

使用 Tabula 提取表

在这篇博文中，我们将使用开源 Tabula 库从 C# 中的 PDF 中提取表格数据。Tabula 是一个流行的 Java 库，适用于基本的表提取任务。

要从 C# 使用它，我们可以添加对它所依赖的 Tabula 和 Apache PDFBox 的引用。PDFBox 提供低级 PDF 解析和渲染功能。

// Add NuGet references  
PM> Install-Package Tabula   
PM> Install-Package PDFBox

通过引用的库，我们现在可以编写代码从示例 PDF 文件中提取表数据：

// Load PDF document  
PDFDocument pdf = new PDFDocument("sample.pdf");  
// Extract all tables   
IList<Table> tables = TableExtractor.Extract(pdf);   
// Print extracted table data  
foreach (Table table in tables)  
{  
  Console.WriteLine(table.Extract().ToString());  
}

TableExtractor 类处理 PDF 可视化效果的分析并识别表结构。它返回提取的表，其中包含组织成行和列的单元格文本值。

我们可以遍历提取的表格并打印或进一步处理表格数据。这提供了一种在 .NET 中以编程方式解析 PDF 中的表的简单方法。

处理复杂的 PDF 表格

虽然在许多情况下很简单，但 Tabula 可能会遇到更复杂的 PDF 表格布局，其中包含合并单元格、跨行/列、嵌套标题等。为了处理这些问题，我们需要一个更强大的 PDF 提取库。

一种选择是使用 PDFClown，这是一个用于高级 PDF 解析和呈现的开源 .NET 库。它提供了非常低级的访问来解析整个 PDF 内容结构并构造 DOM 表示。

我们可以在 PDFClown 之上编写自定义逻辑来识别复杂的表格模式，并从可视化内容绘制命令中重建表格结构。

下面是一个示例方法：

// Parse PDF and get page content   
PdfDocument pdf = PdfReader.Open("sample.pdf");  
PdfPage page = pdf.Pages[0];  
// Iterate content objects  
foreach(var obj in page.Content.Elements)  
{  
   if(obj is PdfText)  
   {  
      // Analyze text object positions  
      // Detect table cell texts  
   }  
   if(obj is PdfLine)    
   {  
      // Analyze line positions   
      // Detect cell borders  
   }  
   // Reconstruct table structure  
   // Handle complex patterns  
}  
// Return extracted complex table  
Table table = BuildTable();

我们遍历每个内容元素，分析位置和大小邻居等属性，以了解视觉布局。然后，复杂表逻辑根据可视化渲染中检测到的模式重建底层数据结构。

这允许通过分析原始 PDF 内容基元来处理任何类型的复杂表格结构。

最后的话

在这篇博客文章中，我们介绍了 .NET 开发人员如何使用 C# 以编程方式从 PDF 文档中提取表格数据。我们研究了 PDF 格式表格的底层结构以及用于直观识别表格的一些常见模式。

我们演示了一种使用 Tabula 库的简单提取方法，以及使用 PDFClown 的低级 PDF 解析功能的更高级技术。能够从 PDF 中理解和提取表格等结构化数据，为进一步处理和分析 PDF 文档提供了许多可能性。

所示技术对于 ASP.NET 开发人员在其 .NET 应用程序中处理 PDF 文件非常有用。通过利用 Tabula 和 PDFClown 等 C# 库，开发人员可以更轻松地从 PDF 中提取表格和其他结构化数据，以便进行额外处理并集成到他们的应用程序中。