Class PdfExtractor

Namespace: Aspose.Pdf.Plugins
Assembly: Aspose.PDF.dll

Reprezentuje podstawową funkcjonalność do ekstrakcji tekstu, obrazów i innych typów treści, które mogą występować na stronach dokumentów PDF.

public abstract class PdfExtractor : IPlugin, IDisposable

Przykłady

Przykład pokazuje, jak wyodrębnić treść tekstową dokumentu PDF.

// tworzenie obiektu TextExtractor do ekstrakcji treści PDF
using (TextExtractor extractor = new TextExtractor())
{
    // tworzenie obiektu TextExtractorOptions do ustawienia instrukcji
    textExtractorOptions = new TextExtractorOptions();

    // dodanie ścieżki do pliku wejściowego do źródeł danych
    textExtractorOptions.AddInput(new FileDataSource(inputPath));

    // przeprowadzenie procesu ekstrakcji
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);

    // uzyskanie wyodrębnionego tekstu z obiektu ResultContainer
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Uwagi

Obiekt Aspose.Pdf.Plugins.TextExtractor jest używany do ekstrakcji tekstu, a Aspose.Pdf.Plugins.ImageExtractor do ekstrakcji obrazów.

Konstruktory

PdfExtractor()

protected PdfExtractor()

Metody

Dispose()

Implementacja IDisposable. W rzeczywistości nie jest to konieczne dla PdfExtractor.

public void Dispose()

Process(IPluginOptions)

Rozpoczyna przetwarzanie PdfExtractor z określonymi parametrami.

public ResultContainer Process(IPluginOptions pdfExtractorOptions)

Parametry

pdfExtractorOptions IPluginOptions

Obiekt opcji zawierający instrukcje dla PdfExtractor.

Zwraca

ResultContainer

Obiekt ResultContainer zawierający wynik ekstrakcji.