Class PdfExtractor

Namespace: Aspose.Pdf.Plugins
Assembly: Aspose.PDF.dll

Представляет собой базовую функциональность для извлечения текста, изображений и других типов контента, которые могут встречаться на страницах PDF-документов.

public abstract class PdfExtractor : IPlugin, IDisposable

Примеры

Пример демонстрирует, как извлечь текстовый контент из PDF-документа.

// создаем объект TextExtractor для извлечения содержимого PDF
using (TextExtractor extractor = new TextExtractor())
{
    // создаем объект TextExtractorOptions для установки инструкций
    textExtractorOptions = new TextExtractorOptions();

    // добавляем путь к входному файлу в источники данных
    textExtractorOptions.AddInput(new FileDataSource(inputPath));

    // выполняем процесс извлечения
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);

    // получаем извлеченный текст из объекта ResultContainer
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Замечания

Объект Aspose.Pdf.Plugins.TextExtractor используется для извлечения текста, или Aspose.Pdf.Plugins.ImageExtractor для извлечения изображений.

Конструкторы

PdfExtractor()

protected PdfExtractor()

Методы

Dispose()

Реализация IDisposable. На самом деле, это не обязательно для PdfExtractor.

public void Dispose()

Process(IPluginOptions)

Запускает процесс PdfExtractor с указанными параметрами.

public ResultContainer Process(IPluginOptions pdfExtractorOptions)

Параметры

pdfExtractorOptions IPluginOptions

Объект параметров, содержащий инструкции для PdfExtractor.

Возвращает

ResultContainer

Объект ResultContainer, содержащий результат извлечения.