Class PdfExtractor

Class PdfExtractor

Namespace: Aspose.Pdf.Plugins
Assembly: Aspose.PDF.dll

Reprezentuje základní funkčnost pro extrakci textu, obrázků a dalších typů obsahu, které se mohou vyskytovat na stránkách PDF dokumentů.

public abstract class PdfExtractor : IPlugin, IDisposable

Dědičnost

objectPdfExtractor

Odvozené

ImageExtractor, TextExtractor

Implementuje

IPlugin, IDisposable

Děděné členy

object.GetType(), object.MemberwiseClone(), object.ToString(), object.Equals(object?), object.Equals(object?, object?), object.ReferenceEquals(object?, object?), object.GetHashCode()

Příklady

Příklad ukazuje, jak extrahovat textový obsah PDF dokumentu.

// vytvoření objektu TextExtractor pro extrakci obsahu PDF
using (TextExtractor extractor = new TextExtractor())
{
    // vytvoření objektu TextExtractorOptions pro nastavení instrukcí
    textExtractorOptions = new TextExtractorOptions();

    // přidání cesty k vstupnímu souboru do datových zdrojů
    textExtractorOptions.AddInput(new FileDataSource(inputPath));

    // provedení procesu extrakce
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);

    // získání extrahovaného textu z objektu ResultContainer
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Poznámky

Objekt Aspose.Pdf.Plugins.TextExtractor se používá k extrakci textu, nebo Aspose.Pdf.Plugins.ImageExtractor k extrakci obrázků.

Konstruktor

PdfExtractor()

protected PdfExtractor()

Metody

Dispose()

Implementace IDisposable. Ve skutečnosti není pro PdfExtractor nutné.

public void Dispose()

Process(IPluginOptions)

Spouští zpracování PdfExtractor s určenými parametry.

public ResultContainer Process(IPluginOptions pdfExtractorOptions)

Parametry

pdfExtractorOptions IPluginOptions

Objekt možností obsahující instrukce pro PdfExtractor.

Vrací

ResultContainer

Objekt ResultContainer obsahující výsledek extrakce.

 Čeština