Class PdfExtractor

Namespace: Aspose.Pdf.Plugins
Assembly: Aspose.PDF.dll

Representerar grundläggande funktionalitet för att extrahera text, bilder och andra typer av innehåll som kan förekomma på sidorna av PDF-dokument.

public abstract class PdfExtractor : IPlugin, IDisposable

Exempel

Exemplet visar hur man extraherar textinnehåll från ett PDF-dokument.

// skapa TextExtractor-objekt för att extrahera PDF-innehåll
using (TextExtractor extractor = new TextExtractor())
{
    // skapa TextExtractorOptions-objekt för att ställa in instruktioner
    textExtractorOptions = new TextExtractorOptions();

    // lägg till ingångsfilens sökväg till datakällor
    textExtractorOptions.AddInput(new FileDataSource(inputPath));

    // utför extraktionsprocessen
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);

    // hämta den extraherade texten från ResultContainer-objektet
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Kommentarer

Aspose.Pdf.Plugins.TextExtractor-objektet används för att extrahera text, eller Aspose.Pdf.Plugins.ImageExtractor för att extrahera bilder.

Konstruktörer

PdfExtractor()

protected PdfExtractor()

Metoder

Dispose()

Implementering av IDisposable. Egentligen är det inte nödvändigt för PdfExtractor.

public void Dispose()

Process(IPluginOptions)

Startar PdfExtractor-bearbetning med angivna parametrar.

public ResultContainer Process(IPluginOptions pdfExtractorOptions)

Parametrar

pdfExtractorOptions IPluginOptions

Ett options-objekt som innehåller instruktioner för PdfExtractor.

Returnerar

ResultContainer

Ett ResultContainer-objekt som innehåller resultatet av extraktionen.