۳۰ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

آپاچی دوریس به تازگی “فارغ التحصیل” شده است: چرا به این انبار داده SQL اهمیت می دهیم

پایگاه داده تحلیلی متن باز، پردازش انبوه موازی (MPP) مانند ClickHouse، MariaDB، Apache Druid، Apache Pinot، و سرویس های hyperscaler مانند Google BigQuery، Amazon RedShift و Microsoft Synapse را در بر می گیرد.

پایگاه داده تحلیلی متن باز، پردازش انبوه موازی (MPP) مانند ClickHouse، MariaDB، Apache Druid، Apache Pinot، و سرویس های hyperscaler مانند Google BigQuery، Amazon RedShift و Microsoft Synapse را در بر می گیرد.

در صورتی که نمی‌دانید “او” کیست و به چه مدرسه ای رفته است، دوریس یک انبار داده تحلیلی مبتنی بر SQL مبتنی بر پردازش موازی گسترده (MPP) است. a> که در Apache Incubator در دست توسعه بود.

هفته گذشته، دوریس به وضعیت پروژه سطح بالا دست یافت، که طبق بنیاد نرم‌افزار آپاچی (ASF) به این معنی است که “توانایی خود را در خودگردانی صحیح ثابت کرده است.”

انبار داده اخیراً در نسخه ۱.۰ منتشر شد، هشتمین نسخه آن در حالی که در حال توسعه در انکوباتور (به همراه شش نسخه Connector) بود. این برای پشتیبانی از بارهای کاری پردازش تحلیلی آنلاین (OLAP) ساخته شده است که اغلب در علم داده سناریوها.

دوریس، که در اصل با نام پالو شناخته می‌شد، قبل از اینکه در سال ۲۰۱۷ منبع باز شود و در سال ۲۰۱۸ وارد انکوباتور آپاچی شود، در غول جستجوی اینترنتی چینی بایدو به عنوان یک سیستم انبار داده برای تجارت تبلیغاتی خود متولد شد.

دوریس ریشه در آپاچی ایمپالا و گوگل مسا دارد

دوریس، طبق گفته بنیاد نرم‌افزار آپاچی، مبتنی بر ادغام Google Mesa و Apache Impala، یک موتور جستجوی متن باز MPP SQL، که در سال ۲۰۱۲ و بر اساس زیربنای Google F1 توسعه یافته است.

DuckDB: پایگاه داده تحلیلی کوچک اما قدرتمند

Mesa که تقریباً در سال ۲۰۱۴ به‌عنوان یک سیستم ذخیره‌سازی داده‌های تحلیلی بسیار مقیاس‌پذیر طراحی شده بود، برای ذخیره داده‌های اندازه‌گیری حیاتی مربوط به تجارت تبلیغات اینترنتی Google استفاده شد.

طبق گفته‌های توسعه‌دهندگانش، هم در Baidu و هم در Apache Incubator، Doris معماری طراحی ساده‌ای را ارائه می‌کند و در عین حال در دسترس بودن، قابلیت اطمینان، تحمل خطا و مقیاس‌پذیری بالا را ارائه می‌دهد.

«سادگی (توسعه، استقرار و استفاده) و برآورده کردن بسیاری از الزامات سرویس دهی در سیستم واحد از ویژگی‌های اصلی Doris است. پرتره ها، پرس و جوهای موقت، و داشبوردهای هم زمان.

برخی از ویژگی‌های دیگر Doris شامل ذخیره‌سازی ستونی، اجرای موازی، فناوری برداری، بهینه‌سازی پرس و جو، ANSI SQL و  ادغام با اکوسیستم‌های کلان داده از طریق رابط‌هایی برای Apache Flink، Apache Hive، Apache Hudi، Apache Iceberg، Apache Spark، و Elasticsearch، در میان سیستم های دیگر.

پیش‌بینی افزایش مصرف پایگاه‌های داده منبع باز

انتظار می‌رود که پایگاه‌های داده منبع باز، رتبه سازمانی رشد کنند. در گزارش Gartner’s State of the Source-Open-Source DBMS Market 2019، شرکت مشاوره پیش بینی کرد که بیش از ۷۰ درصد از برنامه های کاربردی داخلی جدید بر روی یک سیستم مدیریت پایگاه داده منبع باز (OSDBMS) یا یک پلت فرم پایگاه داده مبتنی بر OSDBMS توسعه داده می شوند. -a-Service (dbPaaS) تا پایان سال ۲۰۲۲.

ابر دیتابیس من را خورد

علاوه بر این، با تکثیر داده‌ها و افزایش نیاز کسب‌وکارها به تجزیه و تحلیل بلادرنگ، به نظر می‌رسد یک پایگاه داده پردازش موازی ساده و در عین حال بسیار موازی که منبع باز نیز می‌باشد، نیاز این ساعت باشد.

دیوید منینگر، مدیر تحقیقاتی در Ventana Research گفت: «با افزایش حجم داده‌ها، پایگاه‌های داده MPP تنها راه واقع‌بینانه برای پردازش داده‌ها به اندازه کافی سریع یا ارزان برای برآورده کردن خواسته‌های سازمان‌ها شد.

معماری ابر علاقه به پایگاه های داده MPP را افزایش می دهد

منینگر گفت: سایر روندهایی که پایگاه داده MPP را تقویت می کند، در دسترس بودن نمونه های نسبتاً ارزان سرور مبتنی بر ابر است که می تواند به عنوان بخشی از پیکربندی MPP استفاده شود، بنابراین نیاز به تهیه و نصب سخت افزار فیزیکی مورد استفاده این سیستم ها را از بین می برد. .

منینگر در مورد Doris گفت که در حالی که گزینه های پایگاه داده MPP زیادی وجود دارد که برخی از آنها منبع باز هستند، واقعاً یک جایگزین متن باز، MPP MySQL وجود ندارد.

منینگر گفت: «خود MySQL و MariaDB برای پشتیبانی از حجم‌های کاری تحلیلی بزرگ‌تر گسترش یافته‌اند، اما در ابتدا برای پردازش تراکنش‌ها طراحی شده بودند. > و خدمات هایپراسکیلر مانند Google BigQuery، Amazon RedShift و Microsoft Synapse را می توان به عنوان رقیب دوریس در نظر گرفت.

توسعه برنامه هایی که هرگز حذف نمی شوند

سانجیو موهان، معاون تحقیقاتی سابق برای کلان داده و تجزیه و تحلیل در گارتنر، گفت: علاوه بر این، ClickHouse، Apache Druid، و Apache Pinot نیز می‌توانند رقبا در نظر گرفته شوند.

طبق گفته بنیاد آپاچی، استفاده از Doris می‌تواند مزایای متعددی مانند سادگی معماری و زمان‌های جستجو سریع‌تر داشته باشد.

یکی از دلایل سادگی Doris عدم وابستگی آن به چندین مؤلفه برای کارهایی مانند مدیریت کلاس، هماهنگ سازی و ارتباطات است. زمان‌های جستجوی سریع آن را می‌توان به بردارسازی نسبت داد، فرآیندی که به یک برنامه یا الگوریتم اجازه می‌دهد به جای یک مقدار واحد، روی مجموعه‌ای از مقادیر متعدد در یک زمان کار کند.

یکی دیگر از مزایای انبار داده، به گفته توسعه دهندگان در بنیاد آپاچی، پشتیبانی همزمانی فوق العاده بالای Doris است، به این معنی که می تواند درخواست های ده ها هزار کاربر را برای پردازش داده ها و به دست آوردن بینش از پایگاه داده در مرکز مدیریت کند. در همان زمان.

نیاز به هم‌زمانی بالا افزایش یافته است، زیرا بیشتر سازمان‌ها به کارمندان خود اجازه می‌دهند به داده‌ها دسترسی داشته باشند تا بینش‌های مبتنی بر داده‌ها را هدایت کنند، برخلاف مدیران C-suite که فقط به تجزیه و تحلیل دسترسی دارند.