نسخه اصلی بعدی چارچوب پردازش داده در حافظه از توابع شتابدهنده GPU توسط Nvidia RAPIDS پشتیبانی میکند.
Apache Spark، چارچوب پردازش کلان داده در حافظه، در نسخه ۳.۰ خود که به زودی منتشر خواهد شد، به طور کامل به GPU تسریع خواهد شد. بهتر از همه، برنامه های Spark امروزی می توانند از شتاب GPU بدون تغییر استفاده کنند. Spark APIهای موجود همه همانطور که هستند کار می کنند.
قطعات شتاب GPU ارائه شده توسط Nvidia، برای تکمیل تمام مراحل برنامههای Spark از جمله عملیات ETL، آموزش یادگیری ماشین، و ارائه استنتاج طراحی شدهاند.
کمکهای انویدیا Spark از مجموعه RAPIDS از کتابخانههای علم داده با شتاب GPU استفاده میکنند. بسیاری از ساختارهای داده داخلی RAPIDS، مانند Dataframe ها، مکمل خود Spark هستند، اما استفاده از Spark به صورت بومی از RAPIDS نزدیک به چهار سال کار طول کشیده است.
افزایش سرعت Spark 3.0 صرفاً از شتاب GPU ناشی نمی شود. Spark 3.0 همچنین با به حداقل رساندن حرکت داده ها به و از GPU ها، دستاوردهای عملکردی را درو می کند. زمانی که دادهها باید در یک خوشه جابجا شوند، چارچوب Unified Communication X آن را مستقیماً از یک بلوک GPU جابهجا میکند. حافظه به دیگری با حداقل هزینه سربار.
طبق گفته انویدیا، نسخه پیشنمایش Spark 3.0 که روی پلتفرم Databricks اجرا میشود، عملکرد هفت برابری را هنگام استفاده از شتاب GPU بهبود بخشیده است، اگرچه جزئیات مربوط به حجم کار و مجموعه دادههای آن در دسترس نبود.
هیچ تاریخ قطعی برای در دسترس بودن عمومی Spark 3.0 مشخص نشده است. میتوانید نسخههای پیشنمایش را از وب سایت پروژه Apache Spark.
پست های مرتبط
Apache Spark 3.0 پشتیبانی از پردازنده گرافیکی Nvidia را برای یادگیری ماشین اضافه می کند
Apache Spark 3.0 پشتیبانی از پردازنده گرافیکی Nvidia را برای یادگیری ماشین اضافه می کند
Apache Spark 3.0 پشتیبانی از پردازنده گرافیکی Nvidia را برای یادگیری ماشین اضافه می کند