Class PdfExtractor
Namespace: Aspose.Pdf.Plugins
Assembly: Aspose.PDF.dll
عملکرد پایهای برای استخراج متن، تصاویر و سایر انواع محتوایی که ممکن است در صفحات اسناد PDF وجود داشته باشد را نمایندگی میکند.
public abstract class PdfExtractor : IPlugin, IDisposable
وراثت
مشتق
پیادهسازی
اعضای وراثتی
object.GetType()، object.MemberwiseClone()، object.ToString()، object.Equals(object?)، object.Equals(object?, object?)، object.ReferenceEquals(object?, object?)، object.GetHashCode()
مثالها
این مثال نشان میدهد که چگونه محتوای متنی یک سند PDF را استخراج کنیم.
// ایجاد شیء TextExtractor برای استخراج محتوای PDF
using (TextExtractor extractor = new TextExtractor())
{
// ایجاد شیء TextExtractorOptions برای تنظیم دستورالعملها
textExtractorOptions = new TextExtractorOptions();
// افزودن مسیر فایل ورودی به منابع داده
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// انجام فرایند استخراج
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// دریافت متن استخراج شده از شیء ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
ملاحظات
شیء Aspose.Pdf.Plugins.TextExtractor برای استخراج متن و یا Aspose.Pdf.Plugins.ImageExtractor برای استخراج تصاویر استفاده میشود.
سازندهها
PdfExtractor()
protected PdfExtractor()
متدها
Dispose()
پیادهسازی IDisposable. در واقع، برای PdfExtractor ضروری نیست.
public void Dispose()
Process(IPluginOptions)
فرایند PdfExtractor را با پارامترهای مشخص شده آغاز میکند.
public ResultContainer Process(IPluginOptions pdfExtractorOptions)
پارامترها
pdfExtractorOptions
IPluginOptions
یک شیء گزینه که شامل دستورالعملهایی برای PdfExtractor است.
بازگشت
یک شیء ResultContainer که شامل نتیجه استخراج است.