Class PdfExtractor

Class PdfExtractor

Namespace: Aspose.Pdf.Plugins
Assembly: Aspose.PDF.dll

表示提取文本、图像和可能出现在 PDF 文档页面上的其他类型内容的基本功能。

public abstract class PdfExtractor : IPlugin, IDisposable

继承

objectPdfExtractor

派生

ImageExtractor, TextExtractor

实现

IPlugin, IDisposable

继承成员

object.GetType(), object.MemberwiseClone(), object.ToString(), object.Equals(object?), object.Equals(object?, object?), object.ReferenceEquals(object?, object?), object.GetHashCode()

示例

该示例演示如何提取 PDF 文档的文本内容。

// 创建 TextExtractor 对象以提取 PDF 内容
using (TextExtractor extractor = new TextExtractor())
{
    // 创建 TextExtractorOptions 对象以设置指令
    textExtractorOptions = new TextExtractorOptions();

    // 将输入文件路径添加到数据源
    textExtractorOptions.AddInput(new FileDataSource(inputPath));

    // 执行提取过程
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);

    // 从 ResultContainer 对象中获取提取的文本
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

备注

Aspose.Pdf.Plugins.TextExtractor 对象用于提取文本,或使用 Aspose.Pdf.Plugins.ImageExtractor 提取图像。

构造函数

PdfExtractor()

protected PdfExtractor()

方法

Dispose()

IDisposable 的实现。实际上,对于 PdfExtractor 来说,这不是必需的。

public void Dispose()

Process(IPluginOptions)

使用指定的参数开始 PdfExtractor 处理。

public ResultContainer Process(IPluginOptions pdfExtractorOptions)

参数

pdfExtractorOptions IPluginOptions

一个包含 PdfExtractor 指令的选项对象。

返回

ResultContainer

一个包含提取结果的 ResultContainer 对象。

 中文