Apache Spark 3.0 پشتیبانی از پردازنده گرافیکی Nvidia را برای یادگیری ماشین اضافه می کند

نسخه اصلی بعدی چارچوب پردازش داده در حافظه از توابع شتاب‌دهنده GPU توسط Nvidia RAPIDS پشتیبانی می‌کند.

Apache Spark، چارچوب پردازش کلان داده در حافظه، در نسخه ۳.۰ خود که به زودی منتشر خواهد شد، به طور کامل به GPU تسریع خواهد شد. بهتر از همه، برنامه های Spark امروزی می توانند از شتاب GPU بدون تغییر استفاده کنند. Spark APIهای موجود همه همانطور که هستند کار می کنند.

قطعات شتاب GPU ارائه شده توسط Nvidia، برای تکمیل تمام مراحل برنامه‌های Spark از جمله عملیات ETL، آموزش یادگیری ماشین، و ارائه استنتاج طراحی شده‌اند.

چرا مایکروسافت تمام محصولات تجزیه و تحلیل داده خود را در Fabric ترکیب می کند

کمک‌های انویدیا Spark از مجموعه RAPIDS از کتابخانه‌های علم داده با شتاب GPU استفاده می‌کنند. بسیاری از ساختارهای داده داخلی RAPIDS، مانند Dataframe ها، مکمل خود Spark هستند، اما استفاده از Spark به صورت بومی از RAPIDS نزدیک به چهار سال کار طول کشیده است.

افزایش سرعت Spark 3.0 صرفاً از شتاب GPU ناشی نمی شود. Spark 3.0 همچنین با به حداقل رساندن حرکت داده ها به و از GPU ها، دستاوردهای عملکردی را درو می کند. زمانی که داده‌ها باید در یک خوشه جابجا شوند، چارچوب Unified Communication X آن را مستقیماً از یک بلوک GPU جابه‌جا می‌کند. حافظه به دیگری با حداقل هزینه سربار.

AWS Glue موتورهای Spark را ارتقا می‌دهد و از چارچوب Ray پشتیبانی می‌کند

طبق گفته انویدیا، نسخه پیش‌نمایش Spark 3.0 که روی پلتفرم Databricks اجرا می‌شود، عملکرد هفت برابری را هنگام استفاده از شتاب GPU بهبود بخشیده است، اگرچه جزئیات مربوط به حجم کار و مجموعه داده‌های آن در دسترس نبود.

هیچ تاریخ قطعی برای در دسترس بودن عمومی Spark 3.0 مشخص نشده است. می‌توانید نسخه‌های پیش‌نمایش را از وب سایت پروژه Apache Spark.