Databricks برای مقابله با انتقادات رقبا و مقابله با Apache Iceberg و همچنین محصولات انبار داده Snowflake، Starburst، Dremio، Google Cloud، AWS، Oracle و HPE، دلتا لیک را منبعدهی باز میکند.
Databricks روز سهشنبه در تلاشی برای رفع تردیدهای مطرحشده توسط دریاچه داده و انبار داده گفت که منبع باز است. همه APIها دلتا لیک به عنوان بخشی از نسخه Delta Lake 2.0 منتشر شده است. این شرکت همچنین اعلام کرد که تمام پیشرفتهای دریاچه دلتا را برای بنیاد لینوکس.
رقبای Databricks مانند Cloudera، Dremio، Google (Big Lake)، مایکروسافت، Oracle، SAP، AWS Snowflake، HPE (Ezmeral) و Vertica از این شرکت انتقاد کردهاند و شک دارند که آیا Delta Lake منبع باز یا اختصاصی بوده است. به گفته تحلیلگران، سهمی از مشتریان بالقوه را از بین ببرید.
مت آسلت، مدیر تحقیقات Ventana Research، گفت: “اعلامیه جدید باید تداوم و وضوح را برای کاربران فراهم کند و به مقابله با سردرگمی (که تا حدی توسط رقبا ایجاد شده است) در مورد اختصاصی بودن یا متن باز بودن دریاچه دلتا کمک کند.
داگ هنشن، تحلیلگر اصلی در Constellation Research گفت: با این اعلامیه ها، Databricks نگرانی های مشتری و انتقادات رقابتی را کنار می گذارد.
هنشن گفت: «در معاملات رقابتی، رقبایی مانند Snowflake به مشتریان احتمالی اشاره میکنند که جنبههایی از دریاچه دلتا اختصاصی است. در دریاچه دلتا قفل نشده اند.
Databricks به دریاچه دلتا به عنوان یک دریاچه داده اشاره می کند، یک معماری داده ای که هم قابلیت ذخیره سازی و هم قابلیت تجزیه و تحلیل را ارائه می دهد، برخلاف مفاهیم دریاچه های داده، که داده ها را در قالب اصلی ذخیره می کنند و انبارهای داده. ، که داده های ساخت یافته را ذخیره می کند (اغلب در قالب SQL).
رقابت در بازار منبع باز تجاری رشد می کند
با افزایش تعداد پروژههای منبع باز تجاری در بازار دریاچه داده، دریاچه دلتای Databricks ممکن است خود را با رقابت جدیدی از جمله Apache Iceberg بیابد که پرس و جوی با کارایی بالا را برای جداول تحلیلی بسیار بزرگ ارائه میدهد.
هیون پارک، تحلیلگر ارشد Amalgam Insights گفت: «همچنین پروژههای منبع باز وجود دارند که اخیراً تجاریسازی شدهاند، مانند OneHouse برای Apache Hudi و Starburst و Dremio که با پیشنهادات Apache Iceberg خود عرضه میشوند. p>
پارک اضافه کرد: «با عرضه این پیشنهادات، دریاچه دلتا با فشار سایر قالبهای خانههای منبع باز برای قویتر شدن از نظر عملکردی مواجه شد، زیرا بازار خانههای دریاچه شروع به انشعاب میکند و فنآوران گزینههای متعددی دارند.
Aslett از Ventana گفت که بسیاری از بازیکنان دیگر در این فضا روی Apache Iceberg به عنوان جایگزینی برای جداول دریاچه دلتا تمرکز دارند. جداول دلتا، برخلاف جداول سنتی که دادهها را در ردیفها و ستونها ذخیره میکنند، میتوانند به تراکنشهای ACID (Atomicity، Consistency، Isolation و Durability) برای ذخیره ابردادهها برای کمک به جذب سریعتر داده دسترسی داشته باشند.
در ماه آوریل، Google پشتیبانی از Big Lake و Iceberg را اعلام کرد، و در اوایل این ماه، Snowflake پشتیبانی از جداول Apache Iceberg را در پیشنمایش خصوصی اعلام کرد.
هنشن گفت: اعلانهای Iceberg، درست مانند استراتژی منبع باز Databricks، با هدف جذب مشتریان احتمالی است که ممکن است نگرانیهایی در مورد تعهد به یک فروشنده داشته باشند و چشمانداز دسترسی به دادههای خودشان در این مسیر دشوار باشد. p>
سانجیو موهان، معاون تحقیقات سابق گارتنر، گفت:
در مواجهه با رقابت مجدد، حرکت Databricks به سمت دریاچه دلتا منبع باز حرکت خوبی است.
سانجیو موهان، معاون پژوهشی سابق بخش کلان داده و تجزیه و تحلیل در گارتنر، گفت: «اعلام دادهبریکس برای منبع باز قابلیتهای کامل دریاچه دلتا گامی عالی برای پذیرش گستردهتر است.
Delta Lake 2.0 عملکرد جستجوی سریعتری ارائه میدهد
شرکت گفت انتظار میرود که Delta Lake 2.0 Databricks که در اواخر سال جاری به طور کامل در دسترس خواهد بود، عملکرد جستجوی سریعتری برای تجزیه و تحلیل دادهها ارائه دهد.
Databricks در روز سهشنبه همچنین نسخه دوم MLflow را منتشر کرد – یک پلتفرم منبع باز برای مدیریت چرخه حیات آموزش ماشین (MLOps).
شرکت گفت:
MLflow 2.0 با خطوط لوله MLflow ارائه می شود که به دانشمندان داده الگوهای از پیش تعریف شده و آماده تولید را بر اساس نوع مدلی که می سازند ارائه می دهد تا به آنها امکان سرعت بخشیدن به توسعه مدل بدون نیاز به مداخله مهندسان تولید را بدهد.
>
طبق گفته تحلیلگران، MLflow 2.0 به عنوان یک گزینه بالغ تر برای دانشمندان داده عمل می کند زیرا تولید یادگیری ماشین همچنان یک فرآیند چالش برانگیز است و ترجمه مدل های الگوریتمی به کدهای کاربردی درجه تولید در منابع تحت کنترل ایمن همچنان دشوار است.
“تعدادی از راه حل های فروشنده در این فضا وجود دارد از جمله Amazon Sagemaker، Azure Machine Learning، Google Cloud AI، Datarobot، Domino Data، Dataiku و Iguazio. اما Databricks به عنوان یک فروشنده خنثی در مقایسه با hyperscaler ها و Databricks عمل می کند. Amalgam’s Park گفت: رویکرد یکپارچه برای مدیریت داده و مدل به عنوان یک متمایز کننده برای فروشندگان MLOps است که بر چالش های کدگذاری و تولید عملیاتی سازی مدل تمرکز می کنند.
هنشن گفت که حرکت به انتشار MLflow 2.0 مسیر را برای آوردن تجزیه و تحلیل جریان و جریان به خطوط لوله داده های تولید آسان می کند و افزود که بسیاری از شرکت ها با MLO ها دست و پنجه نرم می کنند و حتی پس از ایجاد موفقیت آمیز مدل های یادگیری ماشین شکست می خورند.
پست های مرتبط
Databricks منبع باز دریاچه دلتا لیک خود است
Databricks منبع باز دریاچه دلتا لیک خود است
Databricks منبع باز دریاچه دلتا لیک خود است