Dremio Cloud با یک موتور سریع SQL و بهینهسازیهایی که میتوانند پرسوجوها را بهطور چشمگیری سرعت بخشد، دادههای بزرگ را در یک کران جهش میدهد. به علاوه به شما امکان می دهد از موتورهای دیگر بر روی داده های مشابه استفاده کنید.
- نمای کلی Dremio Cloud
- نمای اجمالی Dremio Arctic
- فرمتهای فایل داده Dremio
- شتاب جستجوی Dremio
- موتورهای Dremio
- شروع به کار با Dremio Cloud
- اتصال برنامه های سرویس گیرنده به Dremio
هم انبارهای داده و هم دریاچه های داده می توانند مقادیر زیادی از داده ها را برای تجزیه و تحلیل نگهداری کنند. همانطور که ممکن است به خاطر داشته باشید، انبار داده حاوی داده های سازمان یافته و ساختار یافته هستند، دارای یک طرح از پیش طراحی شده هستند که هنگام نوشتن داده ها اعمال می شود، مقادیر زیادی CPU، SSD و RAM برای سرعت، و برای استفاده توسط تحلیلگران تجاری در نظر گرفته شده است. دریاچههای داده حتی دادههای بیشتری را نگه میدارند که میتوانند بدون ساختار یا ساختارمند باشند، در ابتدا به صورت خام و در قالب اصلی خود ذخیره میشوند، معمولاً از دیسکهای چرخان ارزان قیمت استفاده میکنند، زمانی که دادهها خوانده میشوند، طرحوارهها را اعمال میکنند، دادههای خام را فیلتر و تبدیل میکنند. تجزیه و تحلیل، و در ابتدا برای استفاده مهندسین داده و دانشمندان داده در نظر گرفته شده است، با تحلیلگران تجاری که می توانند از داده ها پس از تنظیم استفاده کنند.
دریاچههای داده، مانند موضوع این بررسی، Dremio، شکاف بین انبارهای داده و دریاچههای داده را پر میکنند. آنها با یک دریاچه داده شروع می شوند و SQL سریع، قالب ذخیره سازی ستونی کارآمدتر، کاتالوگ داده و تجزیه و تحلیل را اضافه می کنند.
Dremio محصول خود را بهعنوان پلتفرم دادهای برای تیمهایی که SQL را میشناسند و دوست دارند، توصیف میکند. نقاط فروش آن
است
- SQL برای همه، از کاربر تجاری گرفته تا مهندس داده؛
- کاملاً مدیریت شده، با حداقل نرم افزار و نگهداری داده؛
- پشتیبانی از هر گونه داده، با قابلیت دریافت داده ها در lakehouse یا پرس و جو در محل. و
- بدون قفل، با قابلیت انعطاف برای استفاده از هر موتور امروز و فردا.
طبق گفته Dremio، انبارهای داده ابری مانند Snowflake، Azure Synapse و Amazon Redshift ایجاد قفل می کنند زیرا داده ها در داخل هستند. انبار. من کاملاً با این موافق نیستم، اما موافقم که انتقال حجم زیادی از داده از یک سیستم ابری به سیستم ابری دیگر واقعاً دشوار است.
همچنین طبق گفته Dremio، دریاچه های داده ابری مانند Dremio و Spark انعطاف پذیری بیشتری را ارائه می دهند زیرا داده ها در جایی ذخیره می شوند که موتورهای متعدد می توانند از آن استفاده کنند. درست است. Dremio مدعی سه مزیت است که از این موضوع ناشی می شود:
- انعطاف پذیری برای استفاده از چندین موتور برتر در یک داده و موارد استفاده؛
- استفاده از موتورهای اضافی امروز آسان است. و
- استفاده از موتورهای جدید در آینده آسان است، به سادگی آنها را روی داده ها قرار دهید.
رقبای Dremio عبارتند از Databricks Lakehouse Platform، Ahana Presto، Trino (قبلاً Presto SQL)، Amazon Athena و Apache Spark منبع باز. رقبای کمتر مستقیم، انبارهای داده ای هستند که از جداول خارجی مانند Snowflake و Azure Synapse پشتیبانی می کنند.
Dremio همه انبارهای داده سازمانی را به عنوان رقبای خود معرفی کرده است، اما من آن را به عنوان بازاریابی، اگر نه تبلیغات واقعی، رد می کنم. به هر حال، دریاچههای داده و انبارهای داده موارد استفاده متفاوتی را انجام میدهند و به کاربران مختلف خدمات ارائه میدهند، حتی اگر دریاچههای داده حداقل تا حدی این دو دسته را دربر گیرند.
نمای کلی Dremio Cloud
نرم افزار سرور Dremio یک برنامه کاربردی داده جاوا برای لینوکس است که می تواند بر روی خوشه های Kubernetes، AWS و Azure مستقر شود. Dremio Cloud اساساً نرم افزار سرور Dremio است که به عنوان یک سرویس کاملاً مدیریت شده در AWS اجرا می شود.
عملکردهای Dremio Cloud بین ابرهای خصوصی مجازی (VPC)، Dremio و شما تقسیم می شوند، همانطور که در نمودار زیر نشان داده شده است. VPC Dremio به عنوان صفحه کنترل عمل می کند. VPC شما به عنوان یک هواپیمای اعدام عمل می کند. اگر از چندین حساب ابری با Dremio Cloud استفاده می کنید، هر VPC به عنوان یک صفحه اجرا عمل می کند.
صفحه اجرا دارای چندین خوشه به نام موتورهای محاسباتی است. صفحه کنترل پرس و جوهای SQL را با موتور جستجوی Sonar پردازش می کند و آنها را از طریق یک مدیر موتور ارسال می کند، که آنها را بر اساس قوانین شما به یک موتور محاسباتی مناسب ارسال می کند.
Dremio زمانهای پاسخ فرعی دوم را با «بازتابها» ادعا میکند، که بهینهسازی دادهها یا جستارهای منبع، مشابه نماهای تحققیافته است. Dremio ادعا میکند سرعت خام سه برابر سریعتر از Trino (پیادهسازی موتور Presto SQL) به لطف Apache Arrow، یک فرمت حافظه ستونگرا استاندارد شده است. Dremio همچنین بدون تعیین نقطه مقایسه ادعا می کند که مهندسان داده می توانند به لطف SQL DML، dbt و لایه معنایی Dremio.
Dremio به خودی خود هوش تجاری، یادگیری ماشینی یا قابلیت یادگیری عمیق ندارد، اما درایورها و رابطهایی دارد که از نرمافزارهای BI، ML، و DL مانند Tableau، Power BI، و Jupyter Notebooks پشتیبانی میکنند. همچنین میتواند به منابع داده در جداول موجود در ذخیرهسازی lakehouse و پایگاههای اطلاعاتی رابطهای خارجی متصل شود.
Dremio Cloud به دو ابر خصوصی مجازی آمازون (VPC) تقسیم شده است. VPC Dremio میزبان صفحه کنترل، از جمله پردازش SQL است. VPC شما میزبان صفحه اجرا است که شامل موتورهای محاسباتی است.
نمای اجمالی Dremio Arctic
Dremio Arctic یک متاستور هوشمند برای Apache Iceberg است، یک قالب جدول باز برای مجموعه داده های تحلیلی عظیم، که توسط Nessie، یک کاتالوگ بومی Apache Iceberg ارائه شده است. Arctic جایگزین مدرن و بومی ابری برای Hive Metastore است و توسط Dremio به عنوان یک سرویس رایگان برای همیشه ارائه می شود. قطب شمال قابلیت های زیر را ارائه می دهد:
- مدیریت دادههای Git مانند: کنترل نسخه Git مانند را به دریاچههای داده میآورد و مهندسان داده را قادر میسازد تا دریاچه داده را با بهترین شیوههایی که Git برای توسعه نرمافزار از جمله تعهد، برچسبها، و شاخه ها.
- بهینه سازی داده ها (به زودی): به طور خودکار داده ها را حفظ و بهینه می کند تا پردازش سریعتر را ممکن کند و تلاش دستی مربوط به مدیریت یک دریاچه را کاهش دهد. این شامل حصول اطمینان از ستون بندی، فشرده سازی، فشرده سازی داده ها (برای فایل های بزرگتر) و پارتیشن بندی مناسب هنگام به روز رسانی داده ها و طرحواره ها می شود.
- با همه موتورها کار میکند: از تمام فناوریهای سازگار با Apache Iceberg، از جمله موتورهای جستجو (Dremio Sonar، Presto، Trino، Hive)، موتورهای پردازش (Spark) و موتورهای جریان (Flink) پشتیبانی میکند.
فرمت های فایل داده Dremio
بسیاری از عملکرد و عملکرد Dremio به دیسک و فرمتهای فایل داده حافظه مورد استفاده بستگی دارد.
پیکان آپاچی
Apache Arrow، که توسط Dremio ایجاد شد و به منبع باز کمک کرد، یک حافظه ستونی مستقل از زبان را تعریف میکند. قالب برای داده های مسطح و سلسله مراتبی، سازماندهی شده برای عملیات تحلیلی کارآمد بر روی سخت افزارهای مدرن مانند CPU و GPU. فرمت حافظه Arrow همچنین از خواندنهای کپی صفر برای دسترسی سریع به دادهها بدون سربار سریالسازی پشتیبانی میکند.
Gandiva یک موتور اجرای برداری بردار مبتنی بر LLVM برای Apache Arrow است. Arrow Flight RPC (تماسهای رویه از راه دور) را در Apache Arrow پیادهسازی میکند و بر روی gRPC ساخته شده است. gRPC یک چارچوب RPC مدرن، منبع باز و با کارایی بالا از Google است که می تواند در هر محیطی اجرا شود. gRPC معمولاً ۷ برابر تا ۱۰ برابر سریعتر از REST ارسال پیام است.
آپاچی کوه یخ
Apache Iceberg قالبی با کارایی بالا برای جداول تحلیلی بزرگ است. آیسبرگ قابلیت اطمینان و سادگی جداول SQL را به دادههای بزرگ میآورد، در حالی که این امکان را برای موتورهایی مانند Sonar، Spark، Trino، Flink، Presto، Hive و Impala فراهم میکند که به طور همزمان با جداول مشابه کار کنند. Iceberg از دستورات SQL انعطاف پذیر برای ادغام داده های جدید، به روز رسانی ردیف های موجود و انجام حذف های هدفمند پشتیبانی می کند.
پارکت آپاچی
Apache Parket یک فرمت فایل داده منبع باز و ستون محور است که برای ذخیره سازی و بازیابی کارآمد داده ها طراحی شده است. . این برنامه فشرده سازی داده ها و طرح های رمزگذاری کارآمد را با عملکرد پیشرفته برای مدیریت داده های پیچیده به صورت انبوه فراهم می کند.
آپاچی آیسبرگ در مقابل دریاچه دلتا
طبق گفته Dremio، فرمت فایل دادههای Apache Iceberg توسط Netflix، Apple و دیگر نیروگاههای فناوری ایجاد شده است، از INSERT/UPDATE/DELETE با هر موتوری پشتیبانی میکند و در جامعه متنباز دارای شتاب قوی است. در مقابل، دوباره براساس Dremio، دادههای دریاچه دلتا فرمت فایل توسط Databricks ایجاد شده است، و هنگام اجرا بر روی پلت فرم Databricks در AWS، از INSERT/UPDATE با Spark و SELECT با هر موتور جستجوی SQL پشتیبانی می کند.
Dremio به یک تفاوت فنی مهم بین نسخه منبع باز Delta Lake و نسخه Delta Lake که بر روی پلت فرم Databricks در AWS اجرا می شود اشاره می کند. برای مثال، یک اتصال وجود دارد که به Trino اجازه میدهد تا بخواند و بنویسد < فایلهای em>متن باز دلتا لیک، و کتابخانهای که به پروژههای اسکالا و جاوا (از جمله Apache Flink، Apache Hive، Apache Beam و PrestoDB) اجازه میدهد تا از منبع باز بخوانند و بنویسند. em>دریاچه دلتا. با این حال، این ابزارها نمی توانند با خیال راحت در فایل های Delta Lake در پلت فرم Databricks در AWS بنویسند.
تسریع درخواست Dremio
علاوه بر عملکرد پرس و جو که از فرمتهای فایل مورد استفاده به دست میآید، Dremio میتواند پرسوجوها را با استفاده از حافظه پنهان ابری ستونی و بازتاب دادهها تسریع کند.
Cloud Cache ستونی (C3)
Columnar Cloud Cache (C3) Dremio را قادر می سازد تا با استفاده از NVMe/SSD تعبیه شده در نمونه های محاسباتی ابری، مانند Amazon EC2، به عملکرد I/O در سطح NVMe در Amazon S3، Azure Data Lake Storage و Google Cloud Storage دست یابد. ماشین های مجازی Azure. C3 فقط داده های مورد نیاز برای برآورده کردن بار کاری شما را در حافظه پنهان ذخیره می کند و حتی می تواند میکروبلاک های جداگانه را در مجموعه داده ها ذخیره کند. اگر جدول شما ۱۰۰۰ ستون دارد و شما فقط زیر مجموعه ای از آن ستون ها را پرس و جو می کنید و داده ها را در یک بازه زمانی مشخص فیلتر می کنید، C3 فقط آن قسمت از جدول شما را کش می کند. با ذخیره انتخابی دادهها، C3 همچنین هزینههای ورودی/خروجی ذخیرهسازی ابری را بهطور چشمگیری کاهش میدهد، که طبق گفته Dremio میتواند ۱۰ تا ۱۵ درصد هزینهها را برای هر درخواستی که اجرا میکنید، تشکیل دهد.
ویژگی Columnar Cloud Cache Dremio (C3) با استفاده از NVMe SSD در نمونههای ابری برای ذخیرهسازی دادههای مورد استفاده در جستارهای قبلی، درخواستهای آینده را تسریع میکند.
بازتاب داده
بازتاب دادهها، کوئریهای BI فرعی دوم را فعال میکنند و نیاز به ایجاد مکعبها و جمعآوریها را قبل از تجزیه و تحلیل از بین میبرند. انعکاس دادهها ساختارهای دادهای هستند که بهطور هوشمند انباشتهها و سایر عملیاتها را روی دادهها از قبل محاسبه میکنند، بنابراین نیازی به انجام تجمیعها و تمرینهای پیچیده در پرواز ندارید. بازتاب ها برای کاربران نهایی کاملاً شفاف هستند. کاربران بهجای اتصال به یک مادیتسازی خاص، جداول و نماهای مورد نظر را جستجو میکنند و بهینهساز Dremio بهترین بازتابها را برای برآورده کردن و تسریع درخواست انتخاب میکند.
موتورهای Dremio
Dremio دارای معماری چند موتوره است، بنابراین می توانید چندین موتور با اندازه مناسب و از نظر فیزیکی ایزوله برای بارهای کاری مختلف در سازمان خود ایجاد کنید. شما به راحتی می توانید قوانین مدیریت بار کاری را تنظیم کنید تا پرس و جوها را به موتورهایی که تعریف کرده اید هدایت کنید، بنابراین دیگر نیازی به نگرانی در مورد حجم کاری پیچیده علم داده نخواهید بود که از بارگیری داشبورد یک مدیر اجرایی جلوگیری می کند. جدا از حذف مشاجره در منابع، موتورها میتوانند به سرعت اندازهشان را تغییر دهند تا با حجمهای کاری همزمان و توان عملیاتی مقابله کنند، و هنگامی که درخواستهایی را اجرا نمیکنید، بهطور خودکار متوقف شوند.
موتورهای Dremio اساساً مجموعههای مقیاسپذیری از نمونهها هستند که بهعنوان مجری پیکربندی شدهاند. قوانین به ارسال پرسشها به موتورهای مورد نظر کمک میکنند.
شروع به کار با Dremio Cloud
راهنمای شروع Dremio Cloud را پوشش میدهد
- افزودن دریاچه داده به پروژه؛
- ایجاد یک مجموعه داده فیزیکی از داده های منبع؛
- ایجاد مجموعه داده مجازی؛
- پرس و جو از یک مجموعه داده مجازی. و
- تسریع درخواست با بازتاب.
من هر مرحله از آموزش را به شما نشان نمی دهم، زیرا می توانید خودتان آن را بخوانید و در حساب رایگان خودتان.
دو نکته ضروری عبارتند از:
- یک مجموعه داده فیزیکی (PDS) نمایش جدولی از داده های منبع شما است. یک PDS توسط Dremio Cloud قابل تغییر نیست. راه ایجاد یک مجموعه داده فیزیکی این است که یک فایل یا پوشه را به صورت PDS قالب بندی کنید.
- یک مجموعه داده مجازی (VDS) یک نمای است که از مجموعه داده های فیزیکی یا سایر مجموعه داده های مجازی به دست می آید. مجموعه دادههای مجازی کپیهایی از دادهها نیستند، بنابراین از حافظه بسیار کمی استفاده میکنند و همیشه وضعیت فعلی مجموعه دادههای اصلی را که از آنها مشتق شدهاند منعکس میکنند.
-
Dremio Cloud
Dremio Cloud
- موتور سریع SQL برای فایلها در دریاچه داده
- قابلیت تسریع درخواست ها با “بازتاب” خودکار
- قابلیت به اشتراک گذاری داده ها با موتورهای دیگر
- به BI و نرم افزار پایگاه داده و همچنین پایتون ارتباط دارد
- نسخه استاندارد برای همیشه رایگان است، اما شامل هزینههای زیرساخت ابری نمیشود
- به خودی خود هیچ قابلیت یادگیری ماشینی یا یادگیری عمیق ندارد. برای آن از پایتون استفاده کنید
پست های مرتبط
بررسی Dremio Cloud: یک خانه داده سریع و انعطاف پذیر در AWS
بررسی Dremio Cloud: یک خانه داده سریع و انعطاف پذیر در AWS
بررسی Dremio Cloud: یک خانه داده سریع و انعطاف پذیر در AWS