پایگاه داده تحلیلی متن باز، پردازش انبوه موازی (MPP) مانند ClickHouse، MariaDB، Apache Druid، Apache Pinot، و سرویس های hyperscaler مانند Google BigQuery، Amazon RedShift و Microsoft Synapse را در بر می گیرد.
در صورتی که نمیدانید “او” کیست و به چه مدرسه ای رفته است، دوریس یک انبار داده تحلیلی مبتنی بر SQL مبتنی بر پردازش موازی گسترده (MPP) است. a> که در Apache Incubator در دست توسعه بود.
هفته گذشته، دوریس به وضعیت پروژه سطح بالا دست یافت، که طبق بنیاد نرمافزار آپاچی (ASF) به این معنی است که “توانایی خود را در خودگردانی صحیح ثابت کرده است.”
انبار داده اخیراً در نسخه ۱.۰ منتشر شد، هشتمین نسخه آن در حالی که در حال توسعه در انکوباتور (به همراه شش نسخه Connector) بود. این برای پشتیبانی از بارهای کاری پردازش تحلیلی آنلاین (OLAP) ساخته شده است که اغلب در علم داده سناریوها.
دوریس، که در اصل با نام پالو شناخته میشد، قبل از اینکه در سال ۲۰۱۷ منبع باز شود و در سال ۲۰۱۸ وارد انکوباتور آپاچی شود، در غول جستجوی اینترنتی چینی بایدو به عنوان یک سیستم انبار داده برای تجارت تبلیغاتی خود متولد شد.
دوریس ریشه در آپاچی ایمپالا و گوگل مسا دارد
دوریس، طبق گفته بنیاد نرمافزار آپاچی، مبتنی بر ادغام Google Mesa و Apache Impala، یک موتور جستجوی متن باز MPP SQL، که در سال ۲۰۱۲ و بر اساس زیربنای Google F1 توسعه یافته است.
Mesa که تقریباً در سال ۲۰۱۴ بهعنوان یک سیستم ذخیرهسازی دادههای تحلیلی بسیار مقیاسپذیر طراحی شده بود، برای ذخیره دادههای اندازهگیری حیاتی مربوط به تجارت تبلیغات اینترنتی Google استفاده شد.
طبق گفتههای توسعهدهندگانش، هم در Baidu و هم در Apache Incubator، Doris معماری طراحی سادهای را ارائه میکند و در عین حال در دسترس بودن، قابلیت اطمینان، تحمل خطا و مقیاسپذیری بالا را ارائه میدهد.
«سادگی (توسعه، استقرار و استفاده) و برآورده کردن بسیاری از الزامات سرویس دهی در سیستم واحد از ویژگیهای اصلی Doris است. پرتره ها، پرس و جوهای موقت، و داشبوردهای هم زمان.
برخی از ویژگیهای دیگر Doris شامل ذخیرهسازی ستونی، اجرای موازی، فناوری برداری، بهینهسازی پرس و جو، ANSI SQL و ادغام با اکوسیستمهای کلان داده از طریق رابطهایی برای Apache Flink، Apache Hive، Apache Hudi، Apache Iceberg، Apache Spark، و Elasticsearch، در میان سیستم های دیگر.
پیشبینی افزایش مصرف پایگاههای داده منبع باز
انتظار میرود که پایگاههای داده منبع باز، رتبه سازمانی رشد کنند. در گزارش Gartner’s State of the Source-Open-Source DBMS Market 2019، شرکت مشاوره پیش بینی کرد که بیش از ۷۰ درصد از برنامه های کاربردی داخلی جدید بر روی یک سیستم مدیریت پایگاه داده منبع باز (OSDBMS) یا یک پلت فرم پایگاه داده مبتنی بر OSDBMS توسعه داده می شوند. -a-Service (dbPaaS) تا پایان سال ۲۰۲۲.
علاوه بر این، با تکثیر دادهها و افزایش نیاز کسبوکارها به تجزیه و تحلیل بلادرنگ، به نظر میرسد یک پایگاه داده پردازش موازی ساده و در عین حال بسیار موازی که منبع باز نیز میباشد، نیاز این ساعت باشد.
دیوید منینگر، مدیر تحقیقاتی در Ventana Research گفت: «با افزایش حجم دادهها، پایگاههای داده MPP تنها راه واقعبینانه برای پردازش دادهها به اندازه کافی سریع یا ارزان برای برآورده کردن خواستههای سازمانها شد.
معماری ابر علاقه به پایگاه های داده MPP را افزایش می دهد
منینگر گفت: سایر روندهایی که پایگاه داده MPP را تقویت می کند، در دسترس بودن نمونه های نسبتاً ارزان سرور مبتنی بر ابر است که می تواند به عنوان بخشی از پیکربندی MPP استفاده شود، بنابراین نیاز به تهیه و نصب سخت افزار فیزیکی مورد استفاده این سیستم ها را از بین می برد. .
منینگر در مورد Doris گفت که در حالی که گزینه های پایگاه داده MPP زیادی وجود دارد که برخی از آنها منبع باز هستند، واقعاً یک جایگزین متن باز، MPP MySQL وجود ندارد.
منینگر گفت: «خود MySQL و MariaDB برای پشتیبانی از حجمهای کاری تحلیلی بزرگتر گسترش یافتهاند، اما در ابتدا برای پردازش تراکنشها طراحی شده بودند. > و خدمات هایپراسکیلر مانند Google BigQuery، Amazon RedShift و Microsoft Synapse را می توان به عنوان رقیب دوریس در نظر گرفت.
سانجیو موهان، معاون تحقیقاتی سابق برای کلان داده و تجزیه و تحلیل در گارتنر، گفت: علاوه بر این، ClickHouse، Apache Druid، و Apache Pinot نیز میتوانند رقبا در نظر گرفته شوند.
طبق گفته بنیاد آپاچی، استفاده از Doris میتواند مزایای متعددی مانند سادگی معماری و زمانهای جستجو سریعتر داشته باشد.
یکی از دلایل سادگی Doris عدم وابستگی آن به چندین مؤلفه برای کارهایی مانند مدیریت کلاس، هماهنگ سازی و ارتباطات است. زمانهای جستجوی سریع آن را میتوان به بردارسازی نسبت داد، فرآیندی که به یک برنامه یا الگوریتم اجازه میدهد به جای یک مقدار واحد، روی مجموعهای از مقادیر متعدد در یک زمان کار کند.
یکی دیگر از مزایای انبار داده، به گفته توسعه دهندگان در بنیاد آپاچی، پشتیبانی همزمانی فوق العاده بالای Doris است، به این معنی که می تواند درخواست های ده ها هزار کاربر را برای پردازش داده ها و به دست آوردن بینش از پایگاه داده در مرکز مدیریت کند. در همان زمان.
نیاز به همزمانی بالا افزایش یافته است، زیرا بیشتر سازمانها به کارمندان خود اجازه میدهند به دادهها دسترسی داشته باشند تا بینشهای مبتنی بر دادهها را هدایت کنند، برخلاف مدیران C-suite که فقط به تجزیه و تحلیل دسترسی دارند.
پست های مرتبط
آپاچی دوریس به تازگی “فارغ التحصیل” شده است: چرا به این انبار داده SQL اهمیت می دهیم
آپاچی دوریس به تازگی “فارغ التحصیل” شده است: چرا به این انبار داده SQL اهمیت می دهیم
آپاچی دوریس به تازگی “فارغ التحصیل” شده است: چرا به این انبار داده SQL اهمیت می دهیم