Class TextExtractorOptions
Namespace: Aspose.Pdf.Plugins
Assembly: Aspose.PDF.dll
Đại diện cho các tùy chọn trích xuất văn bản cho plugin TextExtractor.
public sealed class TextExtractorOptions : PdfExtractorOptions, IPluginOptions
Kế thừa
object ← PdfExtractorOptions ← TextExtractorOptions
Triển khai
Thành viên kế thừa
PdfExtractorOptions.AddInput(IDataSource), PdfExtractorOptions.Inputs, PdfExtractorOptions.OperationName, object.GetType(), object.ToString(), object.Equals(object?), object.Equals(object?, object?), object.ReferenceEquals(object?, object?), object.GetHashCode()
Ví dụ
Ví dụ này minh họa cách trích xuất nội dung văn bản của tài liệu PDF.
// tạo đối tượng TextExtractor để trích xuất nội dung PDF
using (TextExtractor extractor = new TextExtractor())
{
// tạo đối tượng TextExtractorOptions để thiết lập TextFormattingMode (Pure, hoặc Raw - mặc định)
extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
// thêm đường dẫn tệp đầu vào vào các nguồn dữ liệu
extractorOptions.AddInput(new FileDataSource(inputPath));
// thực hiện quá trình trích xuất
ResultContainer resultContainer = extractor.Process(extractorOptions);
// lấy văn bản đã trích xuất từ đối tượng ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Nhận xét
Đối tượng Aspose.Pdf.Plugins.TextExtractorOptions được sử dụng để thiết lập Aspose.Pdf.Plugins.TextExtractorOptions.TextFormattingMode và các tùy chọn khác cho thao tác trích xuất văn bản. Ngoài ra, nó kế thừa các chức năng để thêm dữ liệu (tệp, luồng) đại diện cho các tài liệu PDF đầu vào.
Các hàm khởi tạo
TextExtractorOptions(TextFormattingMode)
Khởi tạo một thể hiện mới của đối tượng Aspose.Pdf.Plugins.TextExtractorOptions cho chế độ định dạng văn bản đã chỉ định.
public TextExtractorOptions(TextExtractorOptions.TextFormattingMode formattingMode)
Tham số
formattingMode
TextExtractorOptions.TextFormattingMode
Giá trị chế độ định dạng văn bản.
TextExtractorOptions()
Khởi tạo một thể hiện mới của đối tượng Aspose.Pdf.Plugins.TextExtractorOptions với chế độ định dạng văn bản ‘Raw’ (mặc định).
public TextExtractorOptions()
Thuộc tính
FormattingMode
Lấy chế độ định dạng.
public TextExtractorOptions.TextFormattingMode FormattingMode { get; }
Giá trị thuộc tính
TextExtractorOptions.TextFormattingMode
OperationName
Trả về tên của thao tác.
public override string OperationName { get; }