یادگیری ماشین در جاوا، پردازش تصویر را تسریع می‌کند.

توسعه‌دهندگان جاوا می‌توانند به سرعت طبقه‌بندی تصویر یا تشخیص اشیا را با استفاده از مدل‌های پیش‌آموزش‌دیده یادگیری ماشین پیاده‌سازی کنند.

[

علاقه به یادگیری ماشین در سال‌های اخیر به‌ طور پیوسته رشد کرده است. به‌ طور خاص، شرکت‌ها اکنون از یادگیری ماشین برای تشخیص تصویر در انواع موارد استفاده می‌کنند. کاربردهایی در صنعت خودروسازی، بهداشت و درمان، امنیت، خرده‌فروشی، ردیابی خودکار محصولات در انبارها، کشاورزی و زراعت، شناسایی غذا و حتی ترجمه لحظه‌ای با اشاره به دوربین تلفن‌تان. به‌ کمک یادگیری ماشین و تشخیص بصری، ماشین‌ها می‌توانند تشخیص سرطان و COVID-19 را در اسکن‌های MRI و CT شناسایی کنند.

امروزه بسیاری از این راهکارها عمدتاً با پایتون و با استفاده از جعبه‌ابزارهای منبع باز و اختصاصی یادگیری ماشین توسعه داده می‌شوند، که هر کدام APIهای خود را دارند. با وجود محبوبیت جاوا در سازمان‌ها، استانداردی برای توسعه برنامه‌های یادگیری ماشین با جاوا وجود ندارد. JSR-381 برای رفع این کمبود توسعه یافته است تا مجموعه‌ای از APIهای استاندارد، انعطاف‌پذیر و دوستانه برای جاوا ارائه دهد که برای برنامه‌های تشخیص بصری (VisRec) مانند طبقه‌بندی تصویر و شناسایی شیء استفاده می‌شود. JSR-381 چندین پیاده‌سازی دارد که بر بسترهای یادگیری ماشین مانند TensorFlow، MXNet و DeepNetts متکی هستند. یکی از این پیاده‌سازی‌ها بر پایه Deep Java Library (DJL)، یک کتابخانه متن باز توسط آمازون توسعه یافته است تا یادگیری ماشین را در جاوا بسازد. DJL امکاناتی را برای چارچوب‌های محبوب یادگیری ماشین مانند TensorFlow، MXNet و PyTorch فراهم می‌کند، به‌طوری که روتین‌های پردازش تصویر مورد نیاز را به‌صورت بسته در اختیار می‌گذارد و گزینه‌ای انعطاف‌پذیر و ساده برای کاربران JSR-381 می‌شود.

در این مقاله نشان می‌دهیم که توسعه‌دهندگان جاوا چگونه می‌توانند با استفاده از API VisRec در JSR-381، طبقه‌بندی تصویر یا شناسایی شیء را با مدل‌های پیش‌آموزش دیده DJL در کمتر از ۱۰ خط کد پیاده‌سازی کنند. همچنین نشان می‌دهیم که کاربران می‌توانند مدل‌های یادگیری ماشین پیش‌آموزش دیده را در کمتر از ۱۰ دقیقه با دو مثال مختلف استفاده کنند. بیایید شروع کنیم!

شناسایی ارقام دست‌نویس با استفاده از یک مدل پیش‌آموزش دیده

یک کاربرد مفید و مثال «سلام دنیا» در تشخیص بصری، شناسایی ارقام دست‌نویس است. شناسایی ارقام دست‌نویس برای یک انسان به‌نظر ساده می‌آید. به‌ کمک توانایی پردازش و همکاری زیرسیستم‌های بصری و تطبیق الگو در مغزمان، معمولاً می‌توانیم رقم صحیح را از یک سند دست‌نویس به‌دست‌وچاپی تشخیص دهیم. اما این کار که برای انسان ساده است، برای ماشین به دلیل تنوع زیاد بسیار پیچیده است. این یک کاربرد مناسب برای یادگیری ماشین، به‌ویژه تشخیص بصری است. مخزن JSR‑۳۸۱ یک مثال عالی دارد که از API VisRec در JSR‑۳۸۱ برای شناسایی صحیح ارقام دست‌نویس استفاده می‌کند. این مثال ارقام دست‌نویس را در مقابل داده‌مجموعه ارقام دست‌نویس MNIST، یک پایگاه داده عمومی شامل بیش از ۶۰ هزار تصویر، مقایسه می‌کند. پیش‌بینی آنچه تصویر نشان می‌دهد، طبقه‌بندی تصویر نامیده می‌شود. مثال ما به تصویری جدید نگاه کرده و سعی می‌کند احتمال هر رقم خاص را تعیین کند.

برای این کار، API VisRec یک رابط ImageClassifier فراهم می‌کند که می‌تواند برای کلاس‌های خاص جاوا برای تصاویر ورودی با پارامترهای کلی استفاده شود. همچنین یک متد classify() دارد که طبقه‌بندی تصویر را انجام می‌دهد و یک نقشهٔ احتمالات کلاس برای تمام کلاس‌های ممکن تصویر برمی‌گرداند. به‌طور معمول در API VisRec، هر مدل یک متد سازندهٔ static builder() دارد که یک شیء سازندهٔ مربوطه را برمی‌گرداند و به توسعه‌دهنده اجازه می‌دهد تمام تنظیمات مربوط، مانند imageHeight و imageWidth، را پیکربندی کند.

برای تعریف یک طبقه‌بند تصویر برای مثال ارقام دست‌نویس، ورودی را با استفاده از

inputClass(BufferedImage.class). With that you specify the class which is used to represent the image.

پیکربندی می‌کنید. شما از

imageHeight(28)

mageWidth(28)

برای تغییر اندازهٔ تصویر ورودی به شکل ۲۸×۲۸ استفاده می‌کنید، چون همان اندازهٔ اصلی‌ای است که برای آموزش مدل به‌کار رفته بود.

پس از ساخت شیء طبقه‌بند، تصویر ورودی را به طبقه‌بند می‌فرستید تا تصویر را شناسایی کند.

, ,

اجرای این کد خروجی زیر را تولید می‌کند.

, ,

مدل پنج گزینهٔ ممکن برای رقم موجود در تصویر را به همراه احتمالات هر گزینه شناسایی می‌کند. طبقه‌بند به‌درستی پیش‌بینی می‌کند که رقم اصلی ۰ با احتمال غلبه‌کننده ۹۹٫۹۸٪ است.

یک تعمیم واضح از این مورد این سؤال است که چه‌کار باید کرد وقتی نیاز به شناسایی اشیاء مختلف در همان تصویر دارید؟

شناسایی اشیاء با استفاده از یک مدل پیش‌آموزش دیده Single Shot Detector (SSD)

Single Shot Detector (SSD) یک مکانیزم است که اشیاء را در تصاویر با استفاده از یک شبکه عصبی عمیق تنها شناسایی می‌کند. در مثال، شما اشیاء را در یک تصویر با مدل پیش‌آموزش دیده SSD شناسایی می‌کنید. شناسایی اشیاء یک کار بصری چالش‌برانگیزتر است. علاوه بر طبقه‌بندی اشیاء در تصاویر، شناسایی اشیاء مکان آن‌ها را در تصویر نیز مشخص می‌کند و می‌تواند یک جعبهٔ محدوده (bounding box) اطراف هر شیء مورد علاقه به همراه برچسب متنی (class) رسم کند.

مکانیزم SSD توسعه‌ای تازه در یادگیری ماشین است که با سرعت شگفت‌انگیزی اشیاء را شناسایی می‌کند، در حالی که دقت را نسبت به مدل‌های محاسباتی سنگین‌تر حفظ می‌کند. می‌توانید بیشتر در مورد مدل SSD از طریق درک SSD MultiBox — تشخیص لحظه‌ای اشیاء در یادگیری عمیق و تمرین در کتاب Dive into Deep Learning بیاموزید.

با پیاده‌سازی DJL برای JSR‑۳۸۱، کاربران به یک پیاده‌سازی پیش‌آموزش دیده از مدل SSD دسترسی دارند که بلافاصله قابل استفاده است. DJL از ModelZoo برای ساده‌سازی استقرار مدل‌ها استفاده می‌کند. در بلوک کد زیر، یک مدل پیش‌آموزش دیده را با متد ModelZoo.loadModel() بارگذاری می‌کنید، یک کلاس تشخیص شیء ایجاد می‌کنید و این مدل را بر روی تصویر نمونه اعمال می‌کنید.

, ,

در اینجا یک تصویر جدید که می‌توانیم استفاده کنیم وجود دارد.

, ,

اجرای کد ما بر روی این تصویر نتیجه زیر را تولید می‌کند:

, ,

اگر می‌خواهید جعبه‌های محدوده (bounding boxes) را اطراف هر شیء شناسایی شده بر روی تصویر اضافه کنید، می‌توانید با چند خط کد اضافی این کار را انجام دهید. برای اطلاعات بیشتر، به کامل مثال GitHub مراجعه کنید. مدل سه شیء مورد علاقه (دوچرخه، ماشین و سگ) را طبقه‌بندی می‌کند، جعبهٔ محدوده‌ای اطراف هر یک می‌کشد و سطح اطمینان را که توسط احتمالات نشان داده می‌شود، ارائه می‌دهد.

, ,

مراحل بعدی چیست؟

در این پست، ما تنها به سطح کار با پیاده‌سازی DJL از API JSR‑۳۸۱ پرداختیم. می‌توانید با مخزن مدل‌های پیش‌آموزش دیده در ModelZoo مدل‌های بیشتری را کشف و پیاده‌سازی کنید یا مدل خودتان را بیاورید.

همچنین از شما دعوت می‌کنیم به DJL، یک کتابخانهٔ متن باز ساخته‌شده توسط توسعه‌دهندگان در آمازون برای جامعهٔ جاوا سر بزنید. ما سعی کرده‌ایم توسعه و استقرار یادگیری ماشین در جاوا را ساده‌سازی کنیم. لطفاً به‌همراه ما در این مأموریت بپیوندید.

موارد استفادهٔ زیادی برای DJL وجود دارد؛ می‌توانید یک برنامهٔ پرسش و پاسخ برای خدمات مشتری، تخمین وضعیت بر روی حرکات یوگای خود یا آموزش مدل خود برای شناسایی نفوذگران در حیاط پشتی خود را توسعه دهید. کیت شروع Spring Boot نیز ادغام ML با برنامه‌های Spring Boot را آسان می‌کند. می‌توانید بیشتر درباره DJL را از طریق وبلاگ معرفی، وب‌سایت و مخزن مثال‌ها بیاموزید. به مخزن Github سر بزنید و با ما در کانال Slack همکاری کنید.

]

شناسایی ارقام دست‌نویس با استفاده از یک مدل پیش‌آموزش دیده

شناسایی اشیاء با استفاده از یک مدل پیش‌آموزش دیده Single Shot Detector (SSD)

مراحل بعدی چیست؟

پست های مرتبط

شاید به این مطالب علاقمند باشید

یادگیری ماشین در جاوا، پردازش تصویر را تسریع می‌کند.

یادگیری ماشین در جاوا، پردازش تصویر را تسریع می‌کند.

یادگیری ماشین در جاوا، پردازش تصویر را تسریع می‌کند.

یادگیری ماشین در جاوا، پردازش تصویر را تسریع می‌کند.