Class TextExtractorOptions

Class TextExtractorOptions

Namespace: Aspose.Pdf.Plugins
Assembly: Aspose.PDF.dll

Reprezentuje opcje ekstrakcji tekstu dla wtyczki TextExtractor.

public sealed class TextExtractorOptions : PdfExtractorOptions, IPluginOptions

Dziedziczenie

objectPdfExtractorOptionsTextExtractorOptions

Implementuje

IPluginOptions

Członkowie dziedziczeni

PdfExtractorOptions.AddInput(IDataSource), PdfExtractorOptions.Inputs, PdfExtractorOptions.OperationName, object.GetType(), object.ToString(), object.Equals(object?), object.Equals(object?, object?), object.ReferenceEquals(object?, object?), object.GetHashCode()

Przykłady

Przykład demonstruje, jak wyodrębnić zawartość tekstową dokumentu PDF.

// utwórz obiekt TextExtractor, aby wyodrębnić zawartość PDF
using (TextExtractor extractor = new TextExtractor())
{
    // utwórz obiekt TextExtractorOptions, aby ustawić TextFormattingMode (Pure lub Raw - domyślnie)
    extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);

    // dodaj ścieżkę pliku wejściowego do źródeł danych
    extractorOptions.AddInput(new FileDataSource(inputPath));

    // przeprowadź proces ekstrakcji
    ResultContainer resultContainer = extractor.Process(extractorOptions);

    // pobierz wyodrębniony tekst z obiektu ResultContainer
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Uwagi

Obiekt Aspose.Pdf.Plugins.TextExtractorOptions jest używany do ustawiania Aspose.Pdf.Plugins.TextExtractorOptions.TextFormattingMode oraz innych opcji dla operacji ekstrakcji tekstu. Ponadto dziedziczy funkcje do dodawania danych (plików, strumieni) reprezentujących wejściowe dokumenty PDF.

Konstruktorzy

TextExtractorOptions(TextFormattingMode)

Inicjalizuje nową instancję obiektu Aspose.Pdf.Plugins.TextExtractorOptions dla określonego trybu formatowania tekstu.

public TextExtractorOptions(TextExtractorOptions.TextFormattingMode formattingMode)

Parametry

formattingMode TextExtractorOptions.TextFormattingMode

Wartość trybu formatowania tekstu.

TextExtractorOptions()

Inicjalizuje nową instancję obiektu Aspose.Pdf.Plugins.TextExtractorOptions z trybem formatowania tekstu ‘Raw’ (domyślnie).

public TextExtractorOptions()

Właściwości

FormattingMode

Pobiera tryb formatowania.

public TextExtractorOptions.TextFormattingMode FormattingMode { get; }

Wartość właściwości

TextExtractorOptions.TextFormattingMode

OperationName

Zwraca nazwę operacji.

public override string OperationName { get; }

Wartość właściwości

string

 Polski