Class PdfExtractor

Class PdfExtractor

Namespace: Aspose.Pdf.Plugins
Assembly: Aspose.PDF.dll

Đại diện cho chức năng cơ bản để trích xuất văn bản, hình ảnh và các loại nội dung khác có thể xuất hiện trên các trang của tài liệu PDF.

public abstract class PdfExtractor : IPlugin, IDisposable

Kế thừa

objectPdfExtractor

Kế thừa

ImageExtractor, TextExtractor

Thực hiện

IPlugin, IDisposable

Thành viên kế thừa

object.GetType(), object.MemberwiseClone(), object.ToString(), object.Equals(object?), object.Equals(object?, object?), object.ReferenceEquals(object?, object?), object.GetHashCode()

Ví dụ

Ví dụ này minh họa cách trích xuất nội dung văn bản của tài liệu PDF.

// tạo đối tượng TextExtractor để trích xuất nội dung PDF
using (TextExtractor extractor = new TextExtractor())
{
    // tạo đối tượng TextExtractorOptions để thiết lập hướng dẫn
    textExtractorOptions = new TextExtractorOptions();

    // thêm đường dẫn tệp đầu vào vào các nguồn dữ liệu
    textExtractorOptions.AddInput(new FileDataSource(inputPath));

    // thực hiện quá trình trích xuất
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);

    // lấy văn bản đã trích xuất từ đối tượng ResultContainer
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Nhận xét

Đối tượng Aspose.Pdf.Plugins.TextExtractor được sử dụng để trích xuất văn bản, hoặc Aspose.Pdf.Plugins.ImageExtractor để trích xuất hình ảnh.

Các hàm khởi tạo

PdfExtractor()

protected PdfExtractor()

Các phương thức

Dispose()

Triển khai IDisposable. Thực tế, điều này không cần thiết cho PdfExtractor.

public void Dispose()

Process(IPluginOptions)

Bắt đầu quá trình xử lý PdfExtractor với các tham số được chỉ định.

public ResultContainer Process(IPluginOptions pdfExtractorOptions)

Tham số

pdfExtractorOptions IPluginOptions

Một đối tượng tùy chọn chứa các hướng dẫn cho PdfExtractor.

Trả về

ResultContainer

Một đối tượng ResultContainer chứa kết quả của quá trình trích xuất.

 Tiếng Việt