سرویس یکپارچهسازی دادههای بدون سرور در ابر آمازون همچنین از APIهای داخلی Pandas و فرمتهای Apache Hudi، Apache Iceberg و Delta Lake پشتیبانی میکند.
AWS Glue، یک سرویس یکپارچهسازی دادههای بدون سرور ارائهشده توسط وب سرویسهای آمازون، قابلیتهای Python و Apache Spark را در نسخه ۴.۰ معرفیشده به نمایش میگذارد. این هفته.
این ارتقا موتورهایی را برای Python 3.10 و Apache Spark 3.3.0 اضافه می کند. هر دو موتور شامل بهبود عملکرد و رفع اشکال هستند و Spark قابلیتهایی مانند فیلتر زمان اجرا در سطح ردیف و پیامهای خطای بهبود یافته را ارائه میکند.
افزونههای موتور جدید در Glue 4.0 از چارچوب محاسبه اشعه، سرویس Cloud Shuffle برای Spark و اجرای پرس و جو تطبیقی پشتیبانی میکنند. پشتیبانی از ابزار تجزیه و تحلیل و دستکاری داده های پانداها، که بر روی پایتون ساخته شده است، نیز مشخص شده است. پشتیبانی از فرمت داده های جدید آپاچی هودی، آپاچی آیسبرگ و دریاچه دلتا را پوشش می دهد. Glue 4.0 همچنین شامل خواننده پارکت بردار با پشتیبانی از کدگذاری های اضافی و انواع داده می شود.
چسب AWS قابلیتهای کشف داده، آمادهسازی داده، تبدیل داده و یکپارچهسازی دادهها را با مقیاس خودکار بر اساس حجم کار ارائه میدهد. AWS گفت Glue همچنین اکنون تغییرات بصری را برای مشتریان ارائه میکند تا از منطق ETL مخصوص کسب و کار استفاده کنند و در بین تیمها به اشتراک بگذارند.
AWS پیش نمایش AWS Glue for Ray را به عنوان یک گزینه موتور جدید اعلام کرد. مهندسان داده می توانند از AWS Glue for Ray برای پردازش مجموعه داده های بزرگ با پایتون و کتابخانه های محبوب پایتون استفاده کنند. پردازش توزیع شده کد پایتون روی خوشه های چند گره ای انجام می شود.
Glue 4.0 اکنون در چندین منطقه AWS ایالات متحده از جمله اوهایو، ویرجینیای شمالی و کالیفرنیای شمالی در دسترس است.
پست های مرتبط
AWS Glue موتورهای Spark را ارتقا میدهد و از چارچوب Ray پشتیبانی میکند
AWS Glue موتورهای Spark را ارتقا میدهد و از چارچوب Ray پشتیبانی میکند
AWS Glue موتورهای Spark را ارتقا میدهد و از چارچوب Ray پشتیبانی میکند