Class PdfExtractor
Namespace: Aspose.Pdf.Plugins
Assembly: Aspose.PDF.dll
Representa a funcionalidade básica para extrair texto, imagens e outros tipos de conteúdo que podem ocorrer nas páginas de documentos PDF.
public abstract class PdfExtractor : IPlugin, IDisposable
Herança
Derivados
Implementa
Membros Herdados
object.GetType(), object.MemberwiseClone(), object.ToString(), object.Equals(object?), object.Equals(object?, object?), object.ReferenceEquals(object?, object?), object.GetHashCode()
Exemplos
O exemplo demonstra como extrair o conteúdo de texto de um documento PDF.
// criar objeto TextExtractor para extrair conteúdos do PDF
using (TextExtractor extractor = new TextExtractor())
{
// criar objeto TextExtractorOptions para definir instruções
textExtractorOptions = new TextExtractorOptions();
// adicionar caminho do arquivo de entrada às fontes de dados
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// realizar o processo de extração
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// obter o texto extraído do objeto ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Observações
O objeto Aspose.Pdf.Plugins.TextExtractor é usado para extrair texto, ou Aspose.Pdf.Plugins.ImageExtractor para extrair imagens.
Construtores
PdfExtractor()
protected PdfExtractor()
Métodos
Dispose()
Implementação de IDisposable. Na verdade, não é necessário para PdfExtractor.
public void Dispose()
Process(IPluginOptions)
Inicia o processamento do PdfExtractor com os parâmetros especificados.
public ResultContainer Process(IPluginOptions pdfExtractorOptions)
Parâmetros
pdfExtractorOptions
IPluginOptions
Um objeto de opções contendo instruções para o PdfExtractor.
Retorna
Um objeto ResultContainer contendo o resultado da extração.