Class PdfExtractor
Namespace: Aspose.Pdf.Plugins
Assembly: Aspose.PDF.dll
Đại diện cho chức năng cơ bản để trích xuất văn bản, hình ảnh và các loại nội dung khác có thể xuất hiện trên các trang của tài liệu PDF.
public abstract class PdfExtractor : IPlugin, IDisposable
Kế thừa
Kế thừa
Thực hiện
Thành viên kế thừa
object.GetType(), object.MemberwiseClone(), object.ToString(), object.Equals(object?), object.Equals(object?, object?), object.ReferenceEquals(object?, object?), object.GetHashCode()
Ví dụ
Ví dụ này minh họa cách trích xuất nội dung văn bản của tài liệu PDF.
// tạo đối tượng TextExtractor để trích xuất nội dung PDF
using (TextExtractor extractor = new TextExtractor())
{
// tạo đối tượng TextExtractorOptions để thiết lập hướng dẫn
textExtractorOptions = new TextExtractorOptions();
// thêm đường dẫn tệp đầu vào vào các nguồn dữ liệu
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// thực hiện quá trình trích xuất
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// lấy văn bản đã trích xuất từ đối tượng ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Nhận xét
Đối tượng Aspose.Pdf.Plugins.TextExtractor được sử dụng để trích xuất văn bản, hoặc Aspose.Pdf.Plugins.ImageExtractor để trích xuất hình ảnh.
Các hàm khởi tạo
PdfExtractor()
protected PdfExtractor()
Các phương thức
Dispose()
Triển khai IDisposable. Thực tế, điều này không cần thiết cho PdfExtractor.
public void Dispose()
Process(IPluginOptions)
Bắt đầu quá trình xử lý PdfExtractor với các tham số được chỉ định.
public ResultContainer Process(IPluginOptions pdfExtractorOptions)
Tham số
pdfExtractorOptions
IPluginOptions
Một đối tượng tùy chọn chứa các hướng dẫn cho PdfExtractor.
Trả về
Một đối tượng ResultContainer chứa kết quả của quá trình trích xuất.