۲۹ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

Databricks منبع باز دریاچه دلتا لیک خود است

Databricks برای مقابله با انتقادات رقبا و مقابله با Apache Iceberg و همچنین محصولات انبار داده Snowflake، Starburst، Dremio، Google Cloud، AWS، Oracle و HPE، دلتا لیک را منبع‌دهی باز می‌کند.

Databricks برای مقابله با انتقادات رقبا و مقابله با Apache Iceberg و همچنین محصولات انبار داده Snowflake، Starburst، Dremio، Google Cloud، AWS، Oracle و HPE، دلتا لیک را منبع‌دهی باز می‌کند.

Databricks روز سه‌شنبه در تلاشی برای رفع تردیدهای مطرح‌شده توسط دریاچه داده و انبار داده  گفت که منبع باز است. همه APIها دلتا لیک به عنوان بخشی از نسخه Delta Lake 2.0 منتشر شده است. این شرکت همچنین اعلام کرد که تمام پیشرفت‌های دریاچه دلتا را برای بنیاد لینوکس.

رقبای Databricks مانند Cloudera، Dremio، Google (Big Lake)، مایکروسافت، Oracle، SAP، AWS Snowflake، HPE (Ezmeral) و Vertica از این شرکت انتقاد کرده‌اند و شک دارند که آیا Delta Lake منبع باز یا اختصاصی بوده است. به گفته تحلیلگران، سهمی از مشتریان بالقوه را از بین ببرید.

مت آسلت، مدیر تحقیقات Ventana Research، گفت: “اعلامیه جدید باید تداوم و وضوح را برای کاربران فراهم کند و به مقابله با سردرگمی (که تا حدی توسط رقبا ایجاد شده است) در مورد اختصاصی بودن یا متن باز بودن دریاچه دلتا کمک کند.

داگ هنشن، تحلیلگر اصلی در Constellation Research گفت: با این اعلامیه ها، Databricks نگرانی های مشتری و انتقادات رقابتی را کنار می گذارد.

هنشن گفت: «در معاملات رقابتی، رقبایی مانند Snowflake به مشتریان احتمالی اشاره می‌کنند که جنبه‌هایی از دریاچه دلتا اختصاصی است. در دریاچه دلتا قفل نشده اند.

آیا قراردادهای ابری چند ساله ایده خوبی هستند؟

Databricks به دریاچه دلتا به عنوان یک دریاچه داده اشاره می کند، یک معماری داده ای که هم قابلیت ذخیره سازی و هم قابلیت تجزیه و تحلیل را ارائه می دهد، برخلاف مفاهیم دریاچه های داده، که داده ها را در قالب اصلی ذخیره می کنند و انبارهای داده. ، که داده های ساخت یافته را ذخیره می کند (اغلب در قالب SQL).

رقابت در بازار منبع باز تجاری رشد می کند

با افزایش تعداد پروژه‌های منبع باز تجاری در بازار دریاچه داده، دریاچه دلتای Databricks ممکن است خود را با رقابت جدیدی از جمله Apache Iceberg بیابد که پرس و جوی با کارایی بالا را برای جداول تحلیلی بسیار بزرگ ارائه می‌دهد.

هیون پارک، تحلیلگر ارشد Amalgam Insights گفت: «همچنین پروژه‌های منبع باز وجود دارند که اخیراً تجاری‌سازی شده‌اند، مانند OneHouse برای Apache Hudi و Starburst و Dremio که با پیشنهادات Apache Iceberg خود عرضه می‌شوند. p>

پارک اضافه کرد: «با عرضه این پیشنهادات، دریاچه دلتا با فشار سایر قالب‌های خانه‌های منبع باز برای قوی‌تر شدن از نظر عملکردی مواجه شد، زیرا بازار خانه‌های دریاچه شروع به انشعاب می‌کند و فن‌آوران گزینه‌های متعددی دارند.

Aslett از Ventana گفت که بسیاری از بازیکنان دیگر در این فضا روی Apache Iceberg به عنوان جایگزینی برای جداول دریاچه دلتا تمرکز دارند. جداول دلتا، برخلاف جداول سنتی که داده‌ها را در ردیف‌ها و ستون‌ها ذخیره می‌کنند، می‌توانند به تراکنش‌های ACID (Atomicity، Consistency، Isolation و Durability) برای ذخیره ابرداده‌ها برای کمک به جذب سریع‌تر داده دسترسی داشته باشند.

معماری ابری بیشتر از GPU ها وجود دارد

در ماه آوریل، Google پشتیبانی از Big Lake و Iceberg را اعلام کرد، و در اوایل این ماه، Snowflake پشتیبانی از جداول Apache Iceberg را در پیش‌نمایش خصوصی اعلام کرد.

هنشن گفت: اعلان‌های Iceberg، درست مانند استراتژی منبع باز Databricks، با هدف جذب مشتریان احتمالی است که ممکن است نگرانی‌هایی در مورد تعهد به یک فروشنده داشته باشند و چشم‌انداز دسترسی به داده‌های خودشان در این مسیر دشوار باشد.

سانجیو موهان، معاون تحقیقات سابق گارتنر، گفت:

در مواجهه با رقابت مجدد، حرکت Databricks به سمت دریاچه دلتا منبع باز حرکت خوبی است.

سانجیو موهان، معاون پژوهشی سابق بخش کلان داده و تجزیه و تحلیل در گارتنر، گفت: «اعلام داده‌بریکس برای منبع باز قابلیت‌های کامل دریاچه دلتا گامی عالی برای پذیرش گسترده‌تر است.

Delta Lake 2.0 عملکرد جستجوی سریع‌تری ارائه می‌دهد

شرکت گفت انتظار می‌رود که Delta Lake 2.0 Databricks که در اواخر سال جاری به طور کامل در دسترس خواهد بود، عملکرد جستجوی سریع‌تری برای تجزیه و تحلیل داده‌ها ارائه دهد.

Databricks در روز سه‌شنبه همچنین نسخه دوم MLflow را منتشر کرد – یک پلتفرم منبع باز برای مدیریت چرخه حیات آموزش ماشین (MLOps).

شرکت گفت:

MLflow 2.0 با خطوط لوله MLflow ارائه می شود که به دانشمندان داده الگوهای از پیش تعریف شده و آماده تولید را بر اساس نوع مدلی که می سازند ارائه می دهد تا به آنها امکان سرعت بخشیدن به توسعه مدل بدون نیاز به مداخله مهندسان تولید را بدهد.

چرا عملکرد پایگاه داده ابری شما بد است؟

>

طبق گفته تحلیلگران، MLflow 2.0 به عنوان یک گزینه بالغ تر برای دانشمندان داده عمل می کند زیرا تولید یادگیری ماشین همچنان یک فرآیند چالش برانگیز است و ترجمه مدل های الگوریتمی به کدهای کاربردی درجه تولید در منابع تحت کنترل ایمن همچنان دشوار است.

“تعدادی از راه حل های فروشنده در این فضا وجود دارد از جمله Amazon Sagemaker، Azure Machine Learning، Google Cloud AI، Datarobot، Domino Data، Dataiku و Iguazio. اما Databricks به عنوان یک فروشنده خنثی در مقایسه با hyperscaler ها و Databricks عمل می کند. Amalgam’s Park گفت: رویکرد یکپارچه برای مدیریت داده و مدل به عنوان یک متمایز کننده برای فروشندگان MLOps است که بر چالش های کدگذاری و تولید عملیاتی سازی مدل تمرکز می کنند.

هنشن گفت که حرکت به انتشار MLflow 2.0 مسیر را برای آوردن تجزیه و تحلیل جریان و جریان به خطوط لوله داده های تولید آسان می کند و افزود که بسیاری از شرکت ها با MLO ها دست و پنجه نرم می کنند و حتی پس از ایجاد موفقیت آمیز مدل های یادگیری ماشین شکست می خورند.