Class PdfExtractor

Class PdfExtractor

Namespace: Aspose.Pdf.Plugins
Assembly: Aspose.PDF.dll

Stellt die grundlegende Funktionalität zum Extrahieren von Text, Bildern und anderen Arten von Inhalten dar, die auf den Seiten von PDF-Dokumenten auftreten können.

public abstract class PdfExtractor : IPlugin, IDisposable

Vererbung

objectPdfExtractor

Abgeleitet

ImageExtractor, TextExtractor

Implementiert

IPlugin, IDisposable

Vererbte Mitglieder

object.GetType(), object.MemberwiseClone(), object.ToString(), object.Equals(object?), object.Equals(object?, object?), object.ReferenceEquals(object?, object?), object.GetHashCode()

Beispiele

Das Beispiel zeigt, wie man den Textinhalt eines PDF-Dokuments extrahiert.

// Erstelle ein TextExtractor-Objekt, um PDF-Inhalte zu extrahieren
using (TextExtractor extractor = new TextExtractor())
{
    // Erstelle ein TextExtractorOptions-Objekt, um Anweisungen festzulegen
    textExtractorOptions = new TextExtractorOptions();

    // Füge den Pfad zur Eingabedatei zu den Datenquellen hinzu
    textExtractorOptions.AddInput(new FileDataSource(inputPath));

    // Führe den Extraktionsprozess durch
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);

    // Hole den extrahierten Text aus dem ResultContainer-Objekt
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Bemerkungen

Das Aspose.Pdf.Plugins.TextExtractor-Objekt wird verwendet, um Text zu extrahieren, oder Aspose.Pdf.Plugins.ImageExtractor, um Bilder zu extrahieren.

Konstruktoren

PdfExtractor()

protected PdfExtractor()

Methoden

Dispose()

Implementierung von IDisposable. Tatsächlich ist es für PdfExtractor nicht erforderlich.

public void Dispose()

Process(IPluginOptions)

Startet die Verarbeitung von PdfExtractor mit den angegebenen Parametern.

public ResultContainer Process(IPluginOptions pdfExtractorOptions)

Parameter

pdfExtractorOptions IPluginOptions

Ein Optionsobjekt, das Anweisungen für den PdfExtractor enthält.

Rückgabe

ResultContainer

Ein ResultContainer-Objekt, das das Ergebnis der Extraktion enthält.

 Deutsch