۲۹ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

بررسی: تجزیه اسناد در AWS، Azure و Google Cloud

Amazon Textract، Azure Form Recognizer و Google Document AI می توانند اسناد بدون ساختار شما را تجزیه کنند و اطلاعات ساختاریافته ای را برای انواع موارد استفاده از تحول دیجیتال تولید کنند.

Amazon Textract، Azure Form Recognizer و Google Document AI می توانند اسناد بدون ساختار شما را تجزیه کنند و اطلاعات ساختاریافته ای را برای انواع موارد استفاده از تحول دیجیتال تولید کنند.

سوابق برای هزاران سال در بسیاری از فیلمنامه ها و در بسیاری از رسانه ها نوشته شده است. لوح‌های گلی، لوح‌های سنگی، لوح‌های مومی، پاپیروس، پوست پوست و کاغذ همگی مقدم بر رسانه‌های دیجیتال بودند. در عجله ما برای انتقال از کاغذ به رسانه دیجیتال، رایج‌ترین میانبر اسکن کاغذ در اسناد PDF است که فضیلت دیجیتالی و قابل حمل بودن را دارند، اما اشکالی که اساساً ساختاری ندارند.

آنچه شرکت‌ها برای ساده‌سازی عملیات خود به آن نیاز دارند، داده‌های ساختاریافته است، اما انتقال از اسناد ساختاریافته به اسناد ساختارمند زمان‌بر بوده است. محصولات و خدمات زیادی برای OCR (تشخیص کاراکترهای نوری) و متن کاوی ارائه شده است، بدون اینکه یک بازیکن غالب در این زمینه وجود داشته باشد. برای درک اندازه مشکل، در نظر بگیرید که ۸۰٪ تا ۹۰٪ داده ها در حال حاضر بدون ساختار هستند و حجم داده های بدون ساختار از ده ها زتابایت به صدها زتابایت در حال افزایش است. (یک زتابایت یک میلیارد ترابایت است.)

رویکرد معمول برای تجزیه یک سند PDF شامل بخش‌بندی هر صفحه، اعمال OCR (اغلب با استفاده از شبکه‌های عصبی کانولوشنال انجام می‌شود)، شناسایی طرح‌بندی، استخراج متن مورد علاقه، و تبدیل ارقام به مقادیر عددی است. برخی از سرویس‌ها می‌توانند گام‌های بعدی را نیز بردارند، موجودیت‌ها را استخراج کرده و احساسات را از قسمت‌های متن انتخاب‌شده، مانند مقاله‌ها، نظرات، و نظرات استنباط کنند.

در این مقاله خدمات تجزیه و تقسیم اسناد موجود از سه ارائه‌دهنده بزرگ ابر عمومی: AWS، Microsoft Azure و Google Cloud را مورد بحث قرار خواهیم داد. موارد استفاده این خدمات شامل استخراج متن و ارزش‌های برچسب‌گذاری شده از اسناد وام و تدارکات، قراردادها، گواهینامه‌های رانندگی، و گذرنامه‌ها است.

تجزیه کننده های سند AWS

Amazon Textract استخراج متن از اسناد JPEG، PNG، TIFF و PDF را به زبان‌های انگلیسی، فرانسوی، آلمانی، ایتالیایی، پرتغالی و اسپانیایی پیاده‌سازی می‌کند. Amazon Comprehend پردازش زبان را انجام می دهد. هوش مصنوعی آمازون بررسی انسانی یادگیری ماشین را اجرا می کند. راه حل درک سند آمازون از سایر خدمات ذکر شده برای اجرای خط لوله سرتاسر استفاده می کند.

amazon text 01

Amazon Textract متن، فیلدها، مقادیر، جداول و سلول‌ها را به همراه امتیازات اطمینان استخراج می‌کند. ارزش‌های با اطمینان کم می‌توانند از طریق هوش مصنوعی آمازون به بررسی انسانی بپردازند.

متن آمازون

Amazon Textract به طور خودکار متن چاپ شده، دست خط و داده‌ها را از هر سندی استخراج می‌کند. سه API را نشان می دهد: API تشخیص متن، که از فناوری OCR برای استخراج متن و دست خط از یک سند ارائه شده استفاده می کند. Document Analysis API که دارای دو تابع، فرم ها و جداول است. و Analyze Expense API که داده ها را از فاکتورها و رسیدها استخراج می کند. Amazon Texttract دارای قیمت‌های پرداختی است و از AWS Free Tier برای حساب‌های جدید پشتیبانی می‌کند.

مزایای Amazon Textract شامل استخراج سریع و دقیق داده ها است. پردازش سند به قیمت ۱.۵۰ دلار در هر ۱۰۰۰ صفحه. هیچ کد یا قالبی برای نگهداری وجود ندارد (زیرا مدل های ML Textract از قبل آموزش داده شده اند)؛ اجرای آسان بررسی های انسانی (با هوش مصنوعی آمازون)؛ و تجزیه و تحلیل اسناد مقیاس پذیر. ویژگی ها عبارتند از استخراج جفت کلید-مقدار. استخراج جدول; تشخیص دست خط؛ پردازش فاکتور و رسید؛ استخراج جعبه مرزی؛ و امتیازات اطمینان با آستانه های قابل تنظیم برای بازبینی انسانی.

محدودیت‌های سخت شامل محدودیت‌هایی در نوع فایل، اندازه فایل است. ، محدودیت های صفحه و ترازبندی متن. فایل های PDF فقط توسط عملیات ناهمزمان پشتیبانی می شوند. عملیات همزمان و ناهمزمان از فایل های JPEG، PNG و TIFF پشتیبانی می کنند. محدودیت های اندازه برای عملیات ناهمزمان (۵۰۰ مگابایت و ۳۰۰۰ صفحه برای فایل های PDF و TIFF) بسیار بیشتر از عملیات همزمان (۱۰ مگابایت، ۱ صفحه) است. متن از تراز عمودی متن در سند پشتیبانی نمی کند، اما از تمام چرخش های سند درون صفحه پشتیبانی می کند.

موارد استفاده برای متن شامل ایجاد فهرست جستجو برای کتابخانه های اسناد است. استخراج هوشمند متن برای پردازش زبان طبیعی بعدی؛ استخراج متن از اسناد ناهمگون برای تحقیق و بررسی لازم؛ و استخراج متن ساختاریافته از فرم ها به سرعت گردش کار (اتوماسیون هوشمند).

amazon text 02

پردازش فرم متن آمازون. خروجی انتخاب شده متن خام است. این سرویس همچنین می تواند فرم ها (قسمت بالای این سند) و جداول (قسمت پایین) را استخراج کند. به ترکیب متن چاپ شده و دست نویس در سند اصلی اسکن شده توجه کنید.

چگونه بفهمیم برنامه finops ابری شما کار می کند یا خیر

amazon text 03

تجزیه و تحلیل هزینه Amazon Texttract برای رسید اسکن شده Whole Foods. فیلدهای خلاصه نمایش داده می شوند. این سرویس همچنین می‌تواند موارد خط را استخراج کند.

Amazon Comprehend

Amazon Comprehend یک سرویس پردازش زبان طبیعی (NLP) است که از یادگیری ماشین برای کشف بینش‌های ارزشمند استفاده می‌کند. و اتصالات در متن Comprehend استخراج عبارات کلیدی، تجزیه و تحلیل احساسات، شناسایی موجودیت، مدل‌سازی موضوع، و APIهای تشخیص زبان و غیره را فراهم می‌کند.

ارسال خروجی Texttract به Comprehend برای تجزیه و تحلیل معمول است. درک به اسناد متنی در رمزگذاری نویسه UTF-8 نیاز دارد.

Amazon Augmented AI

Amazon Augmented AI (معروف به Amazon A2I) به راحتی بررسی انسانی پیش‌بینی‌های یادگیری ماشین را پیاده‌سازی می‌کند. اساساً، هوش مصنوعی افزوده، سند ورودی و متن استخراج‌شده را می‌گیرد و رابطی را برای بازبین انسانی ایجاد می‌کند تا از آن برای تصحیح خروجی استفاده کند.

هوش مصنوعی افزوده می‌تواند تصمیم بگیرد که کدام فرم‌ها بر اساس سطح اطمینان یا درصدی برای نمونه‌گیری تصادفی نیاز به بررسی دارند. همچنین می توانید یک تابع AWS Lambda برای هدایت گردش کار بنویسید.

amazon text 04

تصویر رابط بازبین را برای استخراج فرم نشان می‌دهد، که به شما امکان می‌دهد جفت‌های کلید-مقدار را از تصاویر سند یا فرم‌های آنلاین استخراج کنید. رابط به شما امکان می دهد دستورالعمل های واضحی را برای کمک به بازبینان در تکمیل وظایف خود مشخص کنید. در این تصویر “Jane Doe” به عنوان “Jane Done” استخراج شده است و نیاز به اصلاح دارد.

راه حل درک سند آمازون

راه‌حل درک سند آمازون یک راه‌حل قابل آموزش مجدد است. پایان راه حل تجزیه و تحلیل اسناد با Amazon Textract، Amazon Comprehend، و Amazon Augmented AI. می توانید این راه حل را به عنوان یک وب سایت اجرا کنید برای جستجوی سازمانی، دیجیتالی کردن اسناد، کشف، و استخراج و ویرایش اطلاعات انتخاب شده.

amazon text 05

این یک نمودار ساده شده از هسته راه حل درک سند AWS را نشان می دهد. یک نمودار کاملتر (نشان داده شده در اینجا< /a> و اینجا) اجزای وب و خدمات اضافی را نشان می دهد. به عنوان صف و ذخیره سازی پایگاه داده.

Azure Form Recognizer

Azure Form Recognizer از یادگیری ماشینی پیشرفته برای استخراج دقیق متن استفاده می‌کند. ، جفت های کلید-مقدار، جداول و ساختارهای اسناد. فقط با شش نمونه می‌توانید Azure Form Recognizer را برای درک اسناد خود، هم در محل و هم در فضای ابری، سفارشی کنید.

تحقیقات مایکروسافت چندین بار در حال بررسی هوش مصنوعی سند بوده است. سال ها. دو مجموعه داده معیار (برای تشخیص جدول و تشخیص شی صفحه) در سال ۲۰۱۹ و دو مجموعه دیگر (برای تشخیص سفارش خواندن و درک فرم چند زبانه) اخیراً منتشر کرد. همچنین سه چارچوب پیش‌آموزشی چند وجهی منتشر کرد که به طور گسترده برای محصولات و برنامه‌های کاربردی شخص اول و شخص ثالث در هوش مصنوعی Azure، مانند Form Recognizer، پذیرفته شده‌اند.

دو نسخه از Form Recognizer در حال حاضر موجود است، نسخه ۲.۱ (GA) و نسخه ۳.۰ (پیش نمایش). Form Recognizer نسخه ۲.۱ از مدل های فاکتور، رسید، سند شناسایی و کارت ویزیت پشتیبانی می کند. Form Recognizer نسخه ۳.۰ یک مدل سند عمومی، یک مدل طرح‌بندی، Form Recognizer Studio و ویژگی‌های اضافی در رسیدها، اسناد شناسایی و مدل‌های سفارشی اضافه می‌کند.

فرمت های فایل پشتیبانی شده شامل JPEG، PNG، BMP، TIFF، و PDF (متن جاسازی شده یا اسکن شده) است. PDF های تعبیه شده در متن برای از بین بردن احتمال خطا در استخراج کاراکترها و مکان یابی بهترین هستند. برای PDF و TIFF، حداکثر ۲۰۰۰ صفحه قابل پردازش است (با اشتراک ردیف رایگان، فقط دو صفحه اول پردازش می شوند). اندازه فایل باید کمتر از ۵۰ مگابایت باشد.

Form Recognizer پشتیبانی می کند هفت زبان طبیعی دست‌نویس و حدود ۱۰۰ زبان طبیعی چاپی برای طرح‌بندی و مدل‌های سفارشی، و فقط انگلیسی برای مدل‌های دیگر. API های Form Recognizer تا هفت SDK زبان برنامه نویسی را پشتیبانی می کنند.

استودیوی Azure Form Recognizer (پیش نمایش)

فرم لاجوردی Recognizer Studio یک ابزار آنلاین برای کاوش بصری، درک و ادغام ویژگی‌های سرویس Form Recognizer در برنامه‌های شما است. استودیو یادگیری سرویس Form Recognizer و راه‌اندازی پردازش فرم را بسیار آسان‌تر می‌کند.

می‌توانید از شروع سریع استودیو Form Recognizer برای شروع تجزیه و تحلیل اسناد با مدل های از پیش آموزش دیده. همچنین می‌توانید با استفاده از پیش‌نمایش Python SDK و سایر شروع‌های سریع، مدل‌های فرم سفارشی بسازید و به مدل‌های موجود در برنامه‌های خود ارجاع دهید. علاوه بر این، Form Recognizer Studio به شما در مورد مدل‌های چیدمان و برچسب‌گذاری کمک می‌کند.

بزرگترین گلوگاه در مدل های زبان بزرگ

مدل سند عمومی Azure Form Recognizer (پیش نمایش)

سند عمومی از پیش ساخته شده model به شما امکان می دهد جفت ها و موجودیت های کلید-مقدار را از اسناد بدون ساختن یک مدل سفارشی استخراج کنید. API منفرد آن جفت‌های ارزش کلیدی، موجودیت‌ها، متن، جداول و ساختار را از اسناد استخراج می‌کند. از داده های ساخت یافته، نیمه ساختاریافته و بدون ساختار پشتیبانی می کند. مایکروسافت قصد دارد به طور دوره ای مدل سند عمومی را بر روی داده های جدید آموزش دهد تا پوشش و دقت آن را بهبود بخشد. مدل سند عمومی باید نیاز به ساخت مدل‌های سفارشی برای بسیاری از فرم‌های رایج را از بین ببرد و Azure Form Recognizer را با Google Document AI و Amazon Textract رقابتی‌تر کند.

مدل طرح‌بندی Azure Form Recognizer

Azure Form Recognizer API Layout متن، جداول، علائم انتخاب و اطلاعات ساختار را از اسناد و تصاویر استخراج می کند. مدل طرح‌بندی قابلیت‌های پیشرفته OCR را با مدل‌های یادگیری عمیق ترکیب می‌کند تا متن، جداول، علامت‌های انتخاب و ساختار سند را استخراج کند.

مدل طرح‌بندی جداول را با محدودیت‌های کمی تشخیص می‌دهد. سلول‌های ادغام‌شده، طرح‌بندی‌های حاشیه‌دار و بدون حاشیه و زوایای فرد را امکان‌پذیر می‌کند. هدرها و علامت‌های انتخابی (مانند چک باکس) را تشخیص می‌دهد و چندین رنگ را مدیریت می‌کند. می‌توانید ترتیب خواندن را مشخص کنید، که می‌تواند طرح‌بندی‌های چند ستونی را در زبان‌های لاتین انجام دهد. این مدل می‌تواند متن دست‌نویس را به زبان‌های لاتین بخواند. می توانید تعیین کنید که از کدام صفحات برای استخراج متن استفاده شود.

مدل طرح‌بندی از هفت زبان طبیعی دست‌نویس و حدود ۱۰۰ زبان طبیعی چاپی پشتیبانی می‌کند.

شناسای فرم لاجوردی 01

جدول کارمند با مدل طرح‌بندی در Azure Form Recognizer تجزیه شده است.

مدل صورت‌حساب Azure Form Recognizer

شناسای فرم مدل فاکتور< /a> یک مدل از پیش ساخته شده برای فاکتورهای فروش انگلیسی ایالات متحده است که می تواند تصاویر گرفته شده توسط تلفن، اسناد اسکن شده و PDF های دیجیتال را تجزیه کند. مدل فاکتور از تمام فیلدهای استاندارد روی فاکتورها و همچنین نحوه برخورد با اقلام خطی اطلاع دارد.

شناسای فرم لاجوردی 02

فاکتور با مدل فاکتور در Azure Form Recognizer تجزیه شد.

مدل رسید Azure Form Recognizer

Form Recognizer مدل رسید< /a> اطلاعات کلیدی را از رسیدهای فروش مانند نام تاجر، شماره تلفن تاجر، تاریخ معامله، مالیات و کل تراکنش استخراج می کند. رسیدها می توانند با فرمت ها و کیفیت های مختلف از جمله رسیدهای چاپی و دست نویس باشند. این مدل از انگلیسی ایالات متحده، بریتانیا، استرالیا، کانادا و هند پشتیبانی می کند.

تشخیص فرم لاجوردی 03

رسید با مدل رسید در Azure Form Recognizer تجزیه شد.

مدل سند شناسه شناسه فرم Azure

مدل سند شناسه اطلاعات کلیدی را از گواهینامه های رانندگی ایالات متحده (همه ۵۰ ایالت و ناحیه کلمبیا) و صفحات بیوگرافی پاسپورت بین المللی (به استثنای ویزا و سایر اسناد مسافرتی) استخراج می کند. API اسناد هویتی را تجزیه و تحلیل می کند و اطلاعات کلیدی مانند نام، نام خانوادگی، آدرس و تاریخ تولد را استخراج می کند.

شناسای فرم لاجوردی 04

گواهینامه رانندگی با مدل شناسه در Azure Form Recognizer تجزیه شده است.

مدل کارت ویزیت Azure Form Recognizer

مدل کارت ویزیت اطلاعات کلیدی را از تصاویر کارت ویزیت استخراج می کند. API اطلاعات کلیدی مانند نام، نام خانوادگی، نام شرکت، آدرس ایمیل و شماره تلفن را استخراج می کند و یک نمایش داده ساختار یافته JSON را برمی گرداند. این مدل از انگلیسی ایالات متحده، بریتانیا، استرالیا، کانادا و هند پشتیبانی می کند.

مدل های سفارشی و ترکیبی Azure Form Recognizer

مدل‌های سفارشی Form Recognizer شما را قادر می‌سازد تا داده‌ها را از فرم‌ها و اسناد خاص کسب‌وکار خود تجزیه و تحلیل و استخراج کنید. مدل‌های سفارشی برای داده‌ها و موارد استفاده متمایز شما آموزش داده شده‌اند.

یک مدل ترکیبی با گرفتن مجموعه ای از مدل های سفارشی و تخصیص آنها به یک مدل واحد که انواع فرم شما را در بر می گیرد، ایجاد می شود. هنگامی که یک سند به یک مدل ترکیبی ارسال می‌شود، سرویس یک مرحله طبقه‌بندی را انجام می‌دهد تا تصمیم بگیرد که کدام مدل سفارشی دقیقاً فرم ارائه‌شده برای تجزیه و تحلیل را نشان می‌دهد.

می‌توانید مدل‌های سفارشی Form Recognizer را با شش نمونه از هر نوع فرم آموزش دهید، که نیاز به آموزش مدل‌ها را برای فرم‌های رایج مانند مواردی که برای گزارش IRS استفاده می‌شود، از بین می‌برد. مدل های سفارشی از هفت زبان طبیعی دست نویس و حدود ۱۰۰ زبان طبیعی چاپی پشتیبانی می کنند. علاوه بر این، آنها می توانند تشخیص دهند که آیا امضا وجود دارد یا خیر، اگرچه نمی توانند اعتبار امضاها را بررسی کنند.

کاستی های محاسبات بدون سرور

شناسای فرم لاجوردی 05

فرم گزارش دهی وام مسکن ۱۰۹۸ تجزیه شده با یک مدل سفارشی، که با پنج نمونه آموزش داده شده است.

Google Cloud Document AI

Google Cloud Document AI (DocAI) شامل مدل‌های عمومی و همچنین مدل‌های خاص صنعت برای قراردادها، اعطای وام، تدارکات، گواهینامه رانندگی، پاسپورت و کارت شناسایی. همچنین از گردش کار انسان در حلقه (HITL) پشتیبانی می کند تا در صورت نیاز از دقت اطمینان حاصل شود. DocAI به طور کلی در آوریل ۲۰۲۱ در دسترس قرار گرفت، اگرچه اکثر خدمات دسترسی محدودی دارند، به این معنی که برای استفاده از آنها باید درخواست دهید. پردازش اسناد با مدل AutoML اکنون منسوخ شده است.




Amazon Textract به طور خودکار متن چاپ شده، دست خط و داده ها را از هر سندی استخراج می کند. سه API را در معرض دید قرار می دهد: API تشخیص متن، API تجزیه و تحلیل سند و API Analyze Expense.

  • متن چاپی، دست خط و داده‌ها را به‌طور خودکار از هر سند استخراج می‌کند
  • با هوش مصنوعی آمازون برای پردازش انسان در حلقه ادغام می شود
  • نیازی به آموزش مدل‌ها در اسناد و فرم‌های خود ندارد
  • به شما اجازه نمی‌دهد مدل‌هایی را در اسناد و فرم‌های خود آموزش دهید

Microsoft Azure Form Recognizer چندین مدل تجزیه اسناد و توانایی آموزش مدل های خود را با نیم دوجین نمونه ارائه می دهد. Form Recognizer Studio راهی مناسب برای خیس کردن پاهای شما و دیدن مدل هایی است که برای اسناد شما کار می کنند.

  • مدل های تجزیه اسناد متعدد را ارائه می دهد
  • به شما امکان می دهد مدل های خود را با نیم دوجین نمونه آموزش دهید
  • Form Recognizer Studio راهی مناسب برای خیس کردن پاهای شما و دیدن مدل هایی است که برای اسناد شما کار می کنند
  • گاهی اوقات لازم است مدل های خود را آموزش دهید
  • عدم ادغام انسان در حلقه

هوش مصنوعی Google Cloud Document شامل مدل‌های کلی و طرح‌بندی و همچنین مدل‌های خاص صنعت برای قراردادها، وام‌دهی، تدارکات، گواهی‌نامه‌های رانندگی، گذرنامه‌ها و کارت‌های شناسایی است. همچنین از گردش کار انسان در حلقه پشتیبانی می کند.

  • شامل مدل های کلی و طرح بندی
  • مدل‌های خاص صنعت را برای قراردادها، وام‌دهی، تدارکات، گواهینامه‌های رانندگی، گذرنامه، و کارت‌های شناسایی ارائه می‌دهد
  • پشتیبانی از گردش کار انسان در حلقه
  • اکثر مدل ها دسترسی محدودی دارند (برای استفاده از آنها باید درخواست دهید)