Class PdfExtractor
Namespace: Aspose.Pdf.Plugins
Assembly: Aspose.PDF.dll
Reprezentuje podstawową funkcjonalność do ekstrakcji tekstu, obrazów i innych typów treści, które mogą występować na stronach dokumentów PDF.
public abstract class PdfExtractor : IPlugin, IDisposable
Dziedziczenie
Pochodne
Implementuje
Członkowie dziedziczeni
object.GetType(), object.MemberwiseClone(), object.ToString(), object.Equals(object?), object.Equals(object?, object?), object.ReferenceEquals(object?, object?), object.GetHashCode()
Przykłady
Przykład pokazuje, jak wyodrębnić treść tekstową dokumentu PDF.
// tworzenie obiektu TextExtractor do ekstrakcji treści PDF
using (TextExtractor extractor = new TextExtractor())
{
// tworzenie obiektu TextExtractorOptions do ustawienia instrukcji
textExtractorOptions = new TextExtractorOptions();
// dodanie ścieżki do pliku wejściowego do źródeł danych
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// przeprowadzenie procesu ekstrakcji
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// uzyskanie wyodrębnionego tekstu z obiektu ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Uwagi
Obiekt Aspose.Pdf.Plugins.TextExtractor jest używany do ekstrakcji tekstu, a Aspose.Pdf.Plugins.ImageExtractor do ekstrakcji obrazów.
Konstruktory
PdfExtractor()
protected PdfExtractor()
Metody
Dispose()
Implementacja IDisposable. W rzeczywistości nie jest to konieczne dla PdfExtractor.
public void Dispose()
Process(IPluginOptions)
Rozpoczyna przetwarzanie PdfExtractor z określonymi parametrami.
public ResultContainer Process(IPluginOptions pdfExtractorOptions)
Parametry
pdfExtractorOptions
IPluginOptions
Obiekt opcji zawierający instrukcje dla PdfExtractor.
Zwraca
Obiekt ResultContainer zawierający wynik ekstrakcji.