Class PdfExtractor

Namespace: Aspose.Pdf.Plugins
Assembly: Aspose.PDF.dll

Representa a funcionalidade básica para extrair texto, imagens e outros tipos de conteúdo que podem ocorrer nas páginas de documentos PDF.

public abstract class PdfExtractor : IPlugin, IDisposable

Exemplos

O exemplo demonstra como extrair o conteúdo de texto de um documento PDF.

// criar objeto TextExtractor para extrair conteúdos do PDF
using (TextExtractor extractor = new TextExtractor())
{
    // criar objeto TextExtractorOptions para definir instruções
    textExtractorOptions = new TextExtractorOptions();

    // adicionar caminho do arquivo de entrada às fontes de dados
    textExtractorOptions.AddInput(new FileDataSource(inputPath));

    // realizar o processo de extração
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);

    // obter o texto extraído do objeto ResultContainer
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Observações

O objeto Aspose.Pdf.Plugins.TextExtractor é usado para extrair texto, ou Aspose.Pdf.Plugins.ImageExtractor para extrair imagens.

Construtores

PdfExtractor()

protected PdfExtractor()

Métodos

Dispose()

Implementação de IDisposable. Na verdade, não é necessário para PdfExtractor.

public void Dispose()

Process(IPluginOptions)

Inicia o processamento do PdfExtractor com os parâmetros especificados.

public ResultContainer Process(IPluginOptions pdfExtractorOptions)

Parâmetros

pdfExtractorOptions IPluginOptions

Um objeto de opções contendo instruções para o PdfExtractor.

Retorna

ResultContainer

Um objeto ResultContainer contendo o resultado da extração.