Class TextExtractorOptions

Class TextExtractorOptions

Namespace: Aspose.Pdf.Plugins
Assembly: Aspose.PDF.dll

Đại diện cho các tùy chọn trích xuất văn bản cho plugin TextExtractor.

public sealed class TextExtractorOptions : PdfExtractorOptions, IPluginOptions

Kế thừa

objectPdfExtractorOptionsTextExtractorOptions

Triển khai

IPluginOptions

Thành viên kế thừa

PdfExtractorOptions.AddInput(IDataSource), PdfExtractorOptions.Inputs, PdfExtractorOptions.OperationName, object.GetType(), object.ToString(), object.Equals(object?), object.Equals(object?, object?), object.ReferenceEquals(object?, object?), object.GetHashCode()

Ví dụ

Ví dụ này minh họa cách trích xuất nội dung văn bản của tài liệu PDF.

// tạo đối tượng TextExtractor để trích xuất nội dung PDF
using (TextExtractor extractor = new TextExtractor())
{
    // tạo đối tượng TextExtractorOptions để thiết lập TextFormattingMode (Pure, hoặc Raw - mặc định)
    extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);

    // thêm đường dẫn tệp đầu vào vào các nguồn dữ liệu
    extractorOptions.AddInput(new FileDataSource(inputPath));

    // thực hiện quá trình trích xuất
    ResultContainer resultContainer = extractor.Process(extractorOptions);

    // lấy văn bản đã trích xuất từ đối tượng ResultContainer
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Nhận xét

Đối tượng Aspose.Pdf.Plugins.TextExtractorOptions được sử dụng để thiết lập Aspose.Pdf.Plugins.TextExtractorOptions.TextFormattingMode và các tùy chọn khác cho thao tác trích xuất văn bản. Ngoài ra, nó kế thừa các chức năng để thêm dữ liệu (tệp, luồng) đại diện cho các tài liệu PDF đầu vào.

Các hàm khởi tạo

TextExtractorOptions(TextFormattingMode)

Khởi tạo một thể hiện mới của đối tượng Aspose.Pdf.Plugins.TextExtractorOptions cho chế độ định dạng văn bản đã chỉ định.

public TextExtractorOptions(TextExtractorOptions.TextFormattingMode formattingMode)

Tham số

formattingMode TextExtractorOptions.TextFormattingMode

Giá trị chế độ định dạng văn bản.

TextExtractorOptions()

Khởi tạo một thể hiện mới của đối tượng Aspose.Pdf.Plugins.TextExtractorOptions với chế độ định dạng văn bản ‘Raw’ (mặc định).

public TextExtractorOptions()

Thuộc tính

FormattingMode

Lấy chế độ định dạng.

public TextExtractorOptions.TextFormattingMode FormattingMode { get; }

Giá trị thuộc tính

TextExtractorOptions.TextFormattingMode

OperationName

Trả về tên của thao tác.

public override string OperationName { get; }

Giá trị thuộc tính

string

 Tiếng Việt