Amazon Textract، Azure Form Recognizer و Google Document AI می توانند اسناد بدون ساختار شما را تجزیه کنند و اطلاعات ساختاریافته ای را برای انواع موارد استفاده از تحول دیجیتال تولید کنند.
سوابق برای هزاران سال در بسیاری از فیلمنامه ها و در بسیاری از رسانه ها نوشته شده است. لوحهای گلی، لوحهای سنگی، لوحهای مومی، پاپیروس، پوست پوست و کاغذ همگی مقدم بر رسانههای دیجیتال بودند. در عجله ما برای انتقال از کاغذ به رسانه دیجیتال، رایجترین میانبر اسکن کاغذ در اسناد PDF است که فضیلت دیجیتالی و قابل حمل بودن را دارند، اما اشکالی که اساساً ساختاری ندارند.
آنچه شرکتها برای سادهسازی عملیات خود به آن نیاز دارند، دادههای ساختاریافته است، اما انتقال از اسناد ساختاریافته به اسناد ساختارمند زمانبر بوده است. محصولات و خدمات زیادی برای OCR (تشخیص کاراکترهای نوری) و متن کاوی ارائه شده است، بدون اینکه یک بازیکن غالب در این زمینه وجود داشته باشد. برای درک اندازه مشکل، در نظر بگیرید که ۸۰٪ تا ۹۰٪ داده ها در حال حاضر بدون ساختار هستند و حجم داده های بدون ساختار از ده ها زتابایت به صدها زتابایت در حال افزایش است. (یک زتابایت یک میلیارد ترابایت است.)
رویکرد معمول برای تجزیه یک سند PDF شامل بخشبندی هر صفحه، اعمال OCR (اغلب با استفاده از شبکههای عصبی کانولوشنال انجام میشود)، شناسایی طرحبندی، استخراج متن مورد علاقه، و تبدیل ارقام به مقادیر عددی است. برخی از سرویسها میتوانند گامهای بعدی را نیز بردارند، موجودیتها را استخراج کرده و احساسات را از قسمتهای متن انتخابشده، مانند مقالهها، نظرات، و نظرات استنباط کنند.
در این مقاله خدمات تجزیه و تقسیم اسناد موجود از سه ارائهدهنده بزرگ ابر عمومی: AWS، Microsoft Azure و Google Cloud را مورد بحث قرار خواهیم داد. موارد استفاده این خدمات شامل استخراج متن و ارزشهای برچسبگذاری شده از اسناد وام و تدارکات، قراردادها، گواهینامههای رانندگی، و گذرنامهها است.
تجزیه کننده های سند AWS
Amazon Textract استخراج متن از اسناد JPEG، PNG، TIFF و PDF را به زبانهای انگلیسی، فرانسوی، آلمانی، ایتالیایی، پرتغالی و اسپانیایی پیادهسازی میکند. Amazon Comprehend پردازش زبان را انجام می دهد. هوش مصنوعی آمازون بررسی انسانی یادگیری ماشین را اجرا می کند. راه حل درک سند آمازون از سایر خدمات ذکر شده برای اجرای خط لوله سرتاسر استفاده می کند.
Amazon Textract متن، فیلدها، مقادیر، جداول و سلولها را به همراه امتیازات اطمینان استخراج میکند. ارزشهای با اطمینان کم میتوانند از طریق هوش مصنوعی آمازون به بررسی انسانی بپردازند.
متن آمازون
Amazon Textract به طور خودکار متن چاپ شده، دست خط و دادهها را از هر سندی استخراج میکند. سه API را نشان می دهد: API تشخیص متن، که از فناوری OCR برای استخراج متن و دست خط از یک سند ارائه شده استفاده می کند. Document Analysis API که دارای دو تابع، فرم ها و جداول است. و Analyze Expense API که داده ها را از فاکتورها و رسیدها استخراج می کند. Amazon Texttract دارای قیمتهای پرداختی است و از AWS Free Tier برای حسابهای جدید پشتیبانی میکند.
مزایای Amazon Textract شامل استخراج سریع و دقیق داده ها است. پردازش سند به قیمت ۱.۵۰ دلار در هر ۱۰۰۰ صفحه. هیچ کد یا قالبی برای نگهداری وجود ندارد (زیرا مدل های ML Textract از قبل آموزش داده شده اند)؛ اجرای آسان بررسی های انسانی (با هوش مصنوعی آمازون)؛ و تجزیه و تحلیل اسناد مقیاس پذیر. ویژگی ها عبارتند از استخراج جفت کلید-مقدار. استخراج جدول; تشخیص دست خط؛ پردازش فاکتور و رسید؛ استخراج جعبه مرزی؛ و امتیازات اطمینان با آستانه های قابل تنظیم برای بازبینی انسانی.
محدودیتهای سخت شامل محدودیتهایی در نوع فایل، اندازه فایل است. ، محدودیت های صفحه و ترازبندی متن. فایل های PDF فقط توسط عملیات ناهمزمان پشتیبانی می شوند. عملیات همزمان و ناهمزمان از فایل های JPEG، PNG و TIFF پشتیبانی می کنند. محدودیت های اندازه برای عملیات ناهمزمان (۵۰۰ مگابایت و ۳۰۰۰ صفحه برای فایل های PDF و TIFF) بسیار بیشتر از عملیات همزمان (۱۰ مگابایت، ۱ صفحه) است. متن از تراز عمودی متن در سند پشتیبانی نمی کند، اما از تمام چرخش های سند درون صفحه پشتیبانی می کند.
موارد استفاده برای متن شامل ایجاد فهرست جستجو برای کتابخانه های اسناد است. استخراج هوشمند متن برای پردازش زبان طبیعی بعدی؛ استخراج متن از اسناد ناهمگون برای تحقیق و بررسی لازم؛ و استخراج متن ساختاریافته از فرم ها به سرعت گردش کار (اتوماسیون هوشمند).
پردازش فرم متن آمازون. خروجی انتخاب شده متن خام است. این سرویس همچنین می تواند فرم ها (قسمت بالای این سند) و جداول (قسمت پایین) را استخراج کند. به ترکیب متن چاپ شده و دست نویس در سند اصلی اسکن شده توجه کنید.
تجزیه و تحلیل هزینه Amazon Texttract برای رسید اسکن شده Whole Foods. فیلدهای خلاصه نمایش داده می شوند. این سرویس همچنین میتواند موارد خط را استخراج کند.
Amazon Comprehend
Amazon Comprehend یک سرویس پردازش زبان طبیعی (NLP) است که از یادگیری ماشین برای کشف بینشهای ارزشمند استفاده میکند. و اتصالات در متن Comprehend استخراج عبارات کلیدی، تجزیه و تحلیل احساسات، شناسایی موجودیت، مدلسازی موضوع، و APIهای تشخیص زبان و غیره را فراهم میکند.
ارسال خروجی Texttract به Comprehend برای تجزیه و تحلیل معمول است. درک به اسناد متنی در رمزگذاری نویسه UTF-8 نیاز دارد.
Amazon Augmented AI
Amazon Augmented AI (معروف به Amazon A2I) به راحتی بررسی انسانی پیشبینیهای یادگیری ماشین را پیادهسازی میکند. اساساً، هوش مصنوعی افزوده، سند ورودی و متن استخراجشده را میگیرد و رابطی را برای بازبین انسانی ایجاد میکند تا از آن برای تصحیح خروجی استفاده کند.
هوش مصنوعی افزوده میتواند تصمیم بگیرد که کدام فرمها بر اساس سطح اطمینان یا درصدی برای نمونهگیری تصادفی نیاز به بررسی دارند. همچنین می توانید یک تابع AWS Lambda برای هدایت گردش کار بنویسید.
تصویر رابط بازبین را برای استخراج فرم نشان میدهد، که به شما امکان میدهد جفتهای کلید-مقدار را از تصاویر سند یا فرمهای آنلاین استخراج کنید. رابط به شما امکان می دهد دستورالعمل های واضحی را برای کمک به بازبینان در تکمیل وظایف خود مشخص کنید. در این تصویر “Jane Doe” به عنوان “Jane Done” استخراج شده است و نیاز به اصلاح دارد.
راه حل درک سند آمازون
راهحل درک سند آمازون یک راهحل قابل آموزش مجدد است. پایان راه حل تجزیه و تحلیل اسناد با Amazon Textract، Amazon Comprehend، و Amazon Augmented AI. می توانید این راه حل را به عنوان یک وب سایت اجرا کنید برای جستجوی سازمانی، دیجیتالی کردن اسناد، کشف، و استخراج و ویرایش اطلاعات انتخاب شده.
این یک نمودار ساده شده از هسته راه حل درک سند AWS را نشان می دهد. یک نمودار کاملتر (نشان داده شده در اینجا< /a> و اینجا) اجزای وب و خدمات اضافی را نشان می دهد. به عنوان صف و ذخیره سازی پایگاه داده.
Azure Form Recognizer
Azure Form Recognizer از یادگیری ماشینی پیشرفته برای استخراج دقیق متن استفاده میکند. ، جفت های کلید-مقدار، جداول و ساختارهای اسناد. فقط با شش نمونه میتوانید Azure Form Recognizer را برای درک اسناد خود، هم در محل و هم در فضای ابری، سفارشی کنید.
تحقیقات مایکروسافت چندین بار در حال بررسی هوش مصنوعی سند بوده است. سال ها. دو مجموعه داده معیار (برای تشخیص جدول و تشخیص شی صفحه) در سال ۲۰۱۹ و دو مجموعه دیگر (برای تشخیص سفارش خواندن و درک فرم چند زبانه) اخیراً منتشر کرد. همچنین سه چارچوب پیشآموزشی چند وجهی منتشر کرد که به طور گسترده برای محصولات و برنامههای کاربردی شخص اول و شخص ثالث در هوش مصنوعی Azure، مانند Form Recognizer، پذیرفته شدهاند.
دو نسخه از Form Recognizer در حال حاضر موجود است، نسخه ۲.۱ (GA) و نسخه ۳.۰ (پیش نمایش). Form Recognizer نسخه ۲.۱ از مدل های فاکتور، رسید، سند شناسایی و کارت ویزیت پشتیبانی می کند. Form Recognizer نسخه ۳.۰ یک مدل سند عمومی، یک مدل طرحبندی، Form Recognizer Studio و ویژگیهای اضافی در رسیدها، اسناد شناسایی و مدلهای سفارشی اضافه میکند.
فرمت های فایل پشتیبانی شده شامل JPEG، PNG، BMP، TIFF، و PDF (متن جاسازی شده یا اسکن شده) است. PDF های تعبیه شده در متن برای از بین بردن احتمال خطا در استخراج کاراکترها و مکان یابی بهترین هستند. برای PDF و TIFF، حداکثر ۲۰۰۰ صفحه قابل پردازش است (با اشتراک ردیف رایگان، فقط دو صفحه اول پردازش می شوند). اندازه فایل باید کمتر از ۵۰ مگابایت باشد.
Form Recognizer پشتیبانی می کند هفت زبان طبیعی دستنویس و حدود ۱۰۰ زبان طبیعی چاپی برای طرحبندی و مدلهای سفارشی، و فقط انگلیسی برای مدلهای دیگر. API های Form Recognizer تا هفت SDK زبان برنامه نویسی را پشتیبانی می کنند.
استودیوی Azure Form Recognizer (پیش نمایش)
فرم لاجوردی Recognizer Studio یک ابزار آنلاین برای کاوش بصری، درک و ادغام ویژگیهای سرویس Form Recognizer در برنامههای شما است. استودیو یادگیری سرویس Form Recognizer و راهاندازی پردازش فرم را بسیار آسانتر میکند.
میتوانید از شروع سریع استودیو Form Recognizer برای شروع تجزیه و تحلیل اسناد با مدل های از پیش آموزش دیده. همچنین میتوانید با استفاده از پیشنمایش Python SDK و سایر شروعهای سریع، مدلهای فرم سفارشی بسازید و به مدلهای موجود در برنامههای خود ارجاع دهید. علاوه بر این، Form Recognizer Studio به شما در مورد مدلهای چیدمان و برچسبگذاری کمک میکند.
مدل سند عمومی Azure Form Recognizer (پیش نمایش)
سند عمومی از پیش ساخته شده model به شما امکان می دهد جفت ها و موجودیت های کلید-مقدار را از اسناد بدون ساختن یک مدل سفارشی استخراج کنید. API منفرد آن جفتهای ارزش کلیدی، موجودیتها، متن، جداول و ساختار را از اسناد استخراج میکند. از داده های ساخت یافته، نیمه ساختاریافته و بدون ساختار پشتیبانی می کند. مایکروسافت قصد دارد به طور دوره ای مدل سند عمومی را بر روی داده های جدید آموزش دهد تا پوشش و دقت آن را بهبود بخشد. مدل سند عمومی باید نیاز به ساخت مدلهای سفارشی برای بسیاری از فرمهای رایج را از بین ببرد و Azure Form Recognizer را با Google Document AI و Amazon Textract رقابتیتر کند.
مدل طرحبندی Azure Form Recognizer
Azure Form Recognizer API Layout متن، جداول، علائم انتخاب و اطلاعات ساختار را از اسناد و تصاویر استخراج می کند. مدل طرحبندی قابلیتهای پیشرفته OCR را با مدلهای یادگیری عمیق ترکیب میکند تا متن، جداول، علامتهای انتخاب و ساختار سند را استخراج کند.
مدل طرحبندی جداول را با محدودیتهای کمی تشخیص میدهد. سلولهای ادغامشده، طرحبندیهای حاشیهدار و بدون حاشیه و زوایای فرد را امکانپذیر میکند. هدرها و علامتهای انتخابی (مانند چک باکس) را تشخیص میدهد و چندین رنگ را مدیریت میکند. میتوانید ترتیب خواندن را مشخص کنید، که میتواند طرحبندیهای چند ستونی را در زبانهای لاتین انجام دهد. این مدل میتواند متن دستنویس را به زبانهای لاتین بخواند. می توانید تعیین کنید که از کدام صفحات برای استخراج متن استفاده شود.
مدل طرحبندی از هفت زبان طبیعی دستنویس و حدود ۱۰۰ زبان طبیعی چاپی پشتیبانی میکند.
جدول کارمند با مدل طرحبندی در Azure Form Recognizer تجزیه شده است.
مدل صورتحساب Azure Form Recognizer
فاکتور با مدل فاکتور در Azure Form Recognizer تجزیه شد.
مدل رسید Azure Form Recognizer
رسید با مدل رسید در Azure Form Recognizer تجزیه شد.
مدل سند شناسه شناسه فرم Azure
مدل سند شناسه اطلاعات کلیدی را از گواهینامه های رانندگی ایالات متحده (همه ۵۰ ایالت و ناحیه کلمبیا) و صفحات بیوگرافی پاسپورت بین المللی (به استثنای ویزا و سایر اسناد مسافرتی) استخراج می کند. API اسناد هویتی را تجزیه و تحلیل می کند و اطلاعات کلیدی مانند نام، نام خانوادگی، آدرس و تاریخ تولد را استخراج می کند.
گواهینامه رانندگی با مدل شناسه در Azure Form Recognizer تجزیه شده است.
مدل کارت ویزیت Azure Form Recognizer
مدل کارت ویزیت اطلاعات کلیدی را از تصاویر کارت ویزیت استخراج می کند. API اطلاعات کلیدی مانند نام، نام خانوادگی، نام شرکت، آدرس ایمیل و شماره تلفن را استخراج می کند و یک نمایش داده ساختار یافته JSON را برمی گرداند. این مدل از انگلیسی ایالات متحده، بریتانیا، استرالیا، کانادا و هند پشتیبانی می کند.
مدل های سفارشی و ترکیبی Azure Form Recognizer
مدلهای سفارشی Form Recognizer شما را قادر میسازد تا دادهها را از فرمها و اسناد خاص کسبوکار خود تجزیه و تحلیل و استخراج کنید. مدلهای سفارشی برای دادهها و موارد استفاده متمایز شما آموزش داده شدهاند.
یک مدل ترکیبی با گرفتن مجموعه ای از مدل های سفارشی و تخصیص آنها به یک مدل واحد که انواع فرم شما را در بر می گیرد، ایجاد می شود. هنگامی که یک سند به یک مدل ترکیبی ارسال میشود، سرویس یک مرحله طبقهبندی را انجام میدهد تا تصمیم بگیرد که کدام مدل سفارشی دقیقاً فرم ارائهشده برای تجزیه و تحلیل را نشان میدهد.
میتوانید مدلهای سفارشی Form Recognizer را با شش نمونه از هر نوع فرم آموزش دهید، که نیاز به آموزش مدلها را برای فرمهای رایج مانند مواردی که برای گزارش IRS استفاده میشود، از بین میبرد. مدل های سفارشی از هفت زبان طبیعی دست نویس و حدود ۱۰۰ زبان طبیعی چاپی پشتیبانی می کنند. علاوه بر این، آنها می توانند تشخیص دهند که آیا امضا وجود دارد یا خیر، اگرچه نمی توانند اعتبار امضاها را بررسی کنند.
فرم گزارش دهی وام مسکن ۱۰۹۸ تجزیه شده با یک مدل سفارشی، که با پنج نمونه آموزش داده شده است.
Google Cloud Document AI
Google Cloud Document AI (DocAI) شامل مدلهای عمومی و همچنین مدلهای خاص صنعت برای قراردادها، اعطای وام، تدارکات، گواهینامه رانندگی، پاسپورت و کارت شناسایی. همچنین از گردش کار انسان در حلقه (HITL) پشتیبانی می کند تا در صورت نیاز از دقت اطمینان حاصل شود. DocAI به طور کلی در آوریل ۲۰۲۱ در دسترس قرار گرفت، اگرچه اکثر خدمات دسترسی محدودی دارند، به این معنی که برای استفاده از آنها باید درخواست دهید. پردازش اسناد با مدل AutoML اکنون منسوخ شده است.
-
متن آمازون
-
مایکروسافت Azure Form Recognizer
-
Google Cloud Document AI
متن آمازون
- متن چاپی، دست خط و دادهها را بهطور خودکار از هر سند استخراج میکند
- با هوش مصنوعی آمازون برای پردازش انسان در حلقه ادغام می شود
- نیازی به آموزش مدلها در اسناد و فرمهای خود ندارد
- به شما اجازه نمیدهد مدلهایی را در اسناد و فرمهای خود آموزش دهید
مایکروسافت Azure Form Recognizer
- مدل های تجزیه اسناد متعدد را ارائه می دهد
- به شما امکان می دهد مدل های خود را با نیم دوجین نمونه آموزش دهید
- Form Recognizer Studio راهی مناسب برای خیس کردن پاهای شما و دیدن مدل هایی است که برای اسناد شما کار می کنند
- گاهی اوقات لازم است مدل های خود را آموزش دهید
- عدم ادغام انسان در حلقه
Google Cloud Document AI
- شامل مدل های کلی و طرح بندی
- مدلهای خاص صنعت را برای قراردادها، وامدهی، تدارکات، گواهینامههای رانندگی، گذرنامه، و کارتهای شناسایی ارائه میدهد
- پشتیبانی از گردش کار انسان در حلقه
- اکثر مدل ها دسترسی محدودی دارند (برای استفاده از آنها باید درخواست دهید)
پست های مرتبط
بررسی: تجزیه اسناد در AWS، Azure و Google Cloud
بررسی: تجزیه اسناد در AWS، Azure و Google Cloud
بررسی: تجزیه اسناد در AWS، Azure و Google Cloud