Class PdfExtractor

Името на пространството: Aspose.Pdf.Plugins Асамблея: Aspose.PDF.dll (25.4.0)

Представя основна функционалност за извличане на текст, изображения и други видове съдържание, които могат да се появят на страниците на PDF документи.

public abstract class PdfExtractor : IPlugin, IDisposable

Examples

Примерът показва как да се извлече текстово съдържание от PDF документ.

// create TextExtractor object to extract PDF contents
using (TextExtractor extractor = new TextExtractor())
{
    // create TextExtractorOptions object to set instructions
    textExtractorOptions = new TextExtractorOptions();

    // add input file path to data sources
    textExtractorOptions.AddInput(new FileDataSource(inputPath));

    // perform extraction process
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);

    // get the extracted text from the ResultContainer object
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Remarks

Aspose.Pdf.Plugins.TextExtractor се използва за извличане на текст, или Aspose.Pdf.Plugins.ImageExtractor.

Constructors

PdfExtractor()

protected PdfExtractor()

Methods

Dispose()

В действителност, това не е необходимо за PdfExtractor.

public void Dispose()

Process(IPlugin опции)

Започва обработката на PdfExtractor с посочените параметри.

public ResultContainer Process(IPluginOptions pdfExtractorOptions)

Parameters

pdfExtractorOptions IPluginOptions

Опционен обект, съдържащ инструкции за PDFExtractor.

Returns

ResultContainer

Резултат контейнер обект, съдържащ резултата от екстракцията.