Class PdfExtractor

Namespace: Aspose.Pdf.Plugins
Assembly: Aspose.PDF.dll

Representa la funcionalidad base para extraer texto, imágenes y otros tipos de contenido que pueden aparecer en las páginas de documentos PDF.

public abstract class PdfExtractor : IPlugin, IDisposable

Ejemplos

El ejemplo demuestra cómo extraer contenido de texto de un documento PDF.

// crear objeto TextExtractor para extraer contenidos PDF
using (TextExtractor extractor = new TextExtractor())
{
    // crear objeto TextExtractorOptions para establecer instrucciones
    textExtractorOptions = new TextExtractorOptions();

    // agregar ruta de archivo de entrada a las fuentes de datos
    textExtractorOptions.AddInput(new FileDataSource(inputPath));

    // realizar el proceso de extracción
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);

    // obtener el texto extraído del objeto ResultContainer
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Observaciones

El objeto Aspose.Pdf.Plugins.TextExtractor se utiliza para extraer texto, o Aspose.Pdf.Plugins.ImageExtractor para extraer imágenes.

Constructores

PdfExtractor()

protected PdfExtractor()

Métodos

Dispose()

Implementación de IDisposable. En realidad, no es necesario para PdfExtractor.

public void Dispose()

Process(IPluginOptions)

Inicia el procesamiento de PdfExtractor con los parámetros especificados.

public ResultContainer Process(IPluginOptions pdfExtractorOptions)

Parámetros

pdfExtractorOptions IPluginOptions

Un objeto de opciones que contiene instrucciones para el PdfExtractor.

Devuelve

ResultContainer

Un objeto ResultContainer que contiene el resultado de la extracción.