Class PdfExtractor
Namespace: Aspose.Pdf.Plugins
Assembly: Aspose.PDF.dll
Представляет собой базовую функциональность для извлечения текста, изображений и других типов контента, которые могут встречаться на страницах PDF-документов.
public abstract class PdfExtractor : IPlugin, IDisposable
Наследование
Производные
Реализует
Унаследованные члены
object.GetType(), object.MemberwiseClone(), object.ToString(), object.Equals(object?), object.Equals(object?, object?), object.ReferenceEquals(object?, object?), object.GetHashCode()
Примеры
Пример демонстрирует, как извлечь текстовый контент из PDF-документа.
// создаем объект TextExtractor для извлечения содержимого PDF
using (TextExtractor extractor = new TextExtractor())
{
// создаем объект TextExtractorOptions для установки инструкций
textExtractorOptions = new TextExtractorOptions();
// добавляем путь к входному файлу в источники данных
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// выполняем процесс извлечения
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// получаем извлеченный текст из объекта ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Замечания
Объект Aspose.Pdf.Plugins.TextExtractor используется для извлечения текста, или Aspose.Pdf.Plugins.ImageExtractor для извлечения изображений.
Конструкторы
PdfExtractor()
protected PdfExtractor()
Методы
Dispose()
Реализация IDisposable. На самом деле, это не обязательно для PdfExtractor.
public void Dispose()
Process(IPluginOptions)
Запускает процесс PdfExtractor с указанными параметрами.
public ResultContainer Process(IPluginOptions pdfExtractorOptions)
Параметры
pdfExtractorOptions
IPluginOptions
Объект параметров, содержащий инструкции для PdfExtractor.
Возвращает
Объект ResultContainer, содержащий результат извлечения.