۳۰ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

بررسی Dremio Cloud: یک خانه داده سریع و انعطاف پذیر در AWS

Dremio Cloud با یک موتور سریع SQL و بهینه‌سازی‌هایی که می‌توانند پرس‌و‌جوها را به‌طور چشمگیری سرعت بخشد، داده‌های بزرگ را در یک کران جهش می‌دهد. به علاوه به شما امکان می دهد از موتورهای دیگر بر روی داده های مشابه استفاده کنید.

Dremio Cloud با یک موتور سریع SQL و بهینه‌سازی‌هایی که می‌توانند پرس‌و‌جوها را به‌طور چشمگیری سرعت بخشد، داده‌های بزرگ را در یک کران جهش می‌دهد. به علاوه به شما امکان می دهد از موتورهای دیگر بر روی داده های مشابه استفاده کنید.

هم انبارهای داده و هم دریاچه های داده می توانند مقادیر زیادی از داده ها را برای تجزیه و تحلیل نگهداری کنند. همانطور که ممکن است به خاطر داشته باشید، انبار داده حاوی داده های سازمان یافته و ساختار یافته هستند، دارای یک طرح از پیش طراحی شده هستند که هنگام نوشتن داده ها اعمال می شود، مقادیر زیادی CPU، SSD و RAM برای سرعت، و برای استفاده توسط تحلیلگران تجاری در نظر گرفته شده است. دریاچه‌های داده حتی داده‌های بیشتری را نگه می‌دارند که می‌توانند بدون ساختار یا ساختارمند باشند، در ابتدا به صورت خام و در قالب اصلی خود ذخیره می‌شوند، معمولاً از دیسک‌های چرخان ارزان قیمت استفاده می‌کنند، زمانی که داده‌ها خوانده می‌شوند، طرح‌واره‌ها را اعمال می‌کنند، داده‌های خام را فیلتر و تبدیل می‌کنند. تجزیه و تحلیل، و در ابتدا برای استفاده مهندسین داده و دانشمندان داده در نظر گرفته شده است، با تحلیلگران تجاری که می توانند از داده ها پس از تنظیم استفاده کنند.

دریاچه‌های داده، مانند موضوع این بررسی، Dremio، شکاف بین انبارهای داده و دریاچه‌های داده را پر می‌کنند. آنها با یک دریاچه داده شروع می شوند و SQL سریع، قالب ذخیره سازی ستونی کارآمدتر، کاتالوگ داده و تجزیه و تحلیل را اضافه می کنند.

Dremio محصول خود را به‌عنوان پلتفرم داده‌ای برای تیم‌هایی که SQL را می‌شناسند و دوست دارند، توصیف می‌کند. نقاط فروش آن

است

  • SQL برای همه، از کاربر تجاری گرفته تا مهندس داده؛
  • کاملاً مدیریت شده، با حداقل نرم افزار و نگهداری داده؛
  • پشتیبانی از هر گونه داده، با قابلیت دریافت داده ها در lakehouse یا پرس و جو در محل. و
  • بدون قفل، با قابلیت انعطاف برای استفاده از هر موتور امروز و فردا.

طبق گفته Dremio، انبارهای داده ابری مانند Snowflake، Azure Synapse و Amazon Redshift ایجاد قفل می کنند زیرا داده ها در داخل هستند. انبار. من کاملاً با این موافق نیستم، اما موافقم که انتقال حجم زیادی از داده از یک سیستم ابری به سیستم ابری دیگر واقعاً دشوار است.

همچنین طبق گفته Dremio، دریاچه های داده ابری مانند Dremio و Spark انعطاف پذیری بیشتری را ارائه می دهند زیرا داده ها در جایی ذخیره می شوند که موتورهای متعدد می توانند از آن استفاده کنند. درست است. Dremio مدعی سه مزیت است که از این موضوع ناشی می شود:

  1. انعطاف پذیری برای استفاده از چندین موتور برتر در یک داده و موارد استفاده؛
  2. استفاده از موتورهای اضافی امروز آسان است. و
  3. استفاده از موتورهای جدید در آینده آسان است، به سادگی آنها را روی داده ها قرار دهید.

رقبای Dremio عبارتند از Databricks Lakehouse Platform، Ahana Presto، Trino (قبلاً Presto SQL)، Amazon Athena و Apache Spark منبع باز. رقبای کمتر مستقیم، انبارهای داده ای هستند که از جداول خارجی مانند Snowflake و Azure Synapse پشتیبانی می کنند.

Dremio همه انبارهای داده سازمانی را به عنوان رقبای خود معرفی کرده است، اما من آن را به عنوان بازاریابی، اگر نه تبلیغات واقعی، رد می کنم. به هر حال، دریاچه‌های داده و انبارهای داده موارد استفاده متفاوتی را انجام می‌دهند و به کاربران مختلف خدمات ارائه می‌دهند، حتی اگر دریاچه‌های داده حداقل تا حدی این دو دسته را دربر گیرند.

نمای کلی Dremio Cloud

نرم افزار سرور Dremio یک برنامه کاربردی داده جاوا برای لینوکس است که می تواند بر روی خوشه های Kubernetes، AWS و Azure مستقر شود. Dremio Cloud اساساً نرم افزار سرور Dremio است که به عنوان یک سرویس کاملاً مدیریت شده در AWS اجرا می شود.

Microsoft Azure توسعه Kubernetes را با یک پیش نویس جدید آسان می کند

عملکردهای Dremio Cloud بین ابرهای خصوصی مجازی (VPC)، Dremio و شما تقسیم می شوند، همانطور که در نمودار زیر نشان داده شده است. VPC Dremio به عنوان صفحه کنترل عمل می کند. VPC شما به عنوان یک هواپیمای اعدام عمل می کند. اگر از چندین حساب ابری با Dremio Cloud استفاده می کنید، هر VPC به عنوان یک صفحه اجرا عمل می کند.

صفحه اجرا دارای چندین خوشه به نام موتورهای محاسباتی است. صفحه کنترل پرس و جوهای SQL را با موتور جستجوی Sonar پردازش می کند و آنها را از طریق یک مدیر موتور ارسال می کند، که آنها را بر اساس قوانین شما به یک موتور محاسباتی مناسب ارسال می کند.

Dremio زمان‌های پاسخ فرعی دوم را با «بازتاب‌ها» ادعا می‌کند، که بهینه‌سازی داده‌ها یا جستارهای منبع، مشابه نماهای تحقق‌یافته است. Dremio ادعا می‌کند سرعت خام سه برابر سریع‌تر از Trino (پیاده‌سازی موتور Presto SQL) به لطف Apache Arrow، یک فرمت حافظه ستون‌گرا استاندارد شده است. Dremio همچنین بدون تعیین نقطه مقایسه ادعا می کند که مهندسان داده می توانند به لطف SQL DML، dbt و لایه معنایی Dremio.

Dremio به خودی خود هوش تجاری، یادگیری ماشینی یا قابلیت یادگیری عمیق ندارد، اما درایورها و رابط‌هایی دارد که از نرم‌افزارهای BI، ML، و DL مانند Tableau، Power BI، و Jupyter Notebooks پشتیبانی می‌کنند. همچنین می‌تواند به منابع داده در جداول موجود در ذخیره‌سازی lakehouse و پایگاه‌های اطلاعاتی رابطه‌ای خارجی متصل شود.

dremio cloud 01

Dremio Cloud به دو ابر خصوصی مجازی آمازون (VPC) تقسیم شده است. VPC Dremio میزبان صفحه کنترل، از جمله پردازش SQL است. VPC شما میزبان صفحه اجرا است که شامل موتورهای محاسباتی است.

نمای اجمالی Dremio Arctic

Dremio Arctic یک متاستور هوشمند برای Apache Iceberg است، یک قالب جدول باز برای مجموعه داده های تحلیلی عظیم، که توسط Nessie، یک کاتالوگ بومی Apache Iceberg ارائه شده است. Arctic جایگزین مدرن و بومی ابری برای Hive Metastore است و توسط Dremio به عنوان یک سرویس رایگان برای همیشه ارائه می شود. قطب شمال قابلیت های زیر را ارائه می دهد:

  • مدیریت داده‌های Git مانند: کنترل نسخه Git مانند را به دریاچه‌های داده می‌آورد و مهندسان داده را قادر می‌سازد تا دریاچه داده را با بهترین شیوه‌هایی که Git برای توسعه نرم‌افزار از جمله تعهد، برچسب‌ها، و شاخه ها.
  • بهینه سازی داده ها (به زودی): به طور خودکار داده ها را حفظ و بهینه می کند تا پردازش سریعتر را ممکن کند و تلاش دستی مربوط به مدیریت یک دریاچه را کاهش دهد. این شامل حصول اطمینان از ستون بندی، فشرده سازی، فشرده سازی داده ها (برای فایل های بزرگتر) و پارتیشن بندی مناسب هنگام به روز رسانی داده ها و طرحواره ها می شود.
  • با همه موتورها کار می‌کند: از تمام فناوری‌های سازگار با Apache Iceberg، از جمله موتورهای جستجو (Dremio Sonar، Presto، Trino، Hive)، موتورهای پردازش (Spark) و موتورهای جریان (Flink) پشتیبانی می‌کند.

فرمت های فایل داده Dremio

بسیاری از عملکرد و عملکرد Dremio به دیسک و فرمت‌های فایل داده حافظه مورد استفاده بستگی دارد.

پیکان آپاچی

Apache Arrow، که توسط Dremio ایجاد شد و به منبع باز کمک کرد، یک حافظه ستونی مستقل از زبان را تعریف می‌کند. قالب برای داده های مسطح و سلسله مراتبی، سازماندهی شده برای عملیات تحلیلی کارآمد بر روی سخت افزارهای مدرن مانند CPU و GPU. فرمت حافظه Arrow همچنین از خواندن‌های کپی صفر برای دسترسی سریع به داده‌ها بدون سربار سریال‌سازی پشتیبانی می‌کند.

Gandiva یک موتور اجرای برداری بردار مبتنی بر LLVM برای Apache Arrow است. Arrow Flight RPC (تماس‌های رویه از راه دور) را در Apache Arrow پیاده‌سازی می‌کند و بر روی gRPC ساخته شده است. gRPC یک چارچوب RPC مدرن، منبع باز و با کارایی بالا از Google است که می تواند در هر محیطی اجرا شود. gRPC معمولاً ۷ برابر تا ۱۰ برابر سریعتر از REST ارسال پیام است.

3 راز برای استقرار LLM در پلتفرم های ابری

آپاچی کوه یخ

Apache Iceberg قالبی با کارایی بالا برای جداول تحلیلی بزرگ است. آیس‌برگ قابلیت اطمینان و سادگی جداول SQL را به داده‌های بزرگ می‌آورد، در حالی که این امکان را برای موتورهایی مانند Sonar، Spark، Trino، Flink، Presto، Hive و Impala فراهم می‌کند که به طور همزمان با جداول مشابه کار کنند. Iceberg از دستورات SQL انعطاف پذیر برای ادغام داده های جدید، به روز رسانی ردیف های موجود و انجام حذف های هدفمند پشتیبانی می کند.

پارکت آپاچی

Apache Parket یک فرمت فایل داده منبع باز و ستون محور است که برای ذخیره سازی و بازیابی کارآمد داده ها طراحی شده است. . این برنامه فشرده سازی داده ها و طرح های رمزگذاری کارآمد را با عملکرد پیشرفته برای مدیریت داده های پیچیده به صورت انبوه فراهم می کند.

آپاچی آیسبرگ در مقابل دریاچه دلتا

طبق گفته Dremio، فرمت فایل داده‌های Apache Iceberg توسط Netflix، Apple و دیگر نیروگاه‌های فناوری ایجاد شده است، از INSERT/UPDATE/DELETE با هر موتوری پشتیبانی می‌کند و در جامعه متن‌باز دارای شتاب قوی است. در مقابل، دوباره براساس Dremio، داده‌های دریاچه دلتا فرمت فایل توسط Databricks ایجاد شده است، و هنگام اجرا بر روی پلت فرم Databricks در AWS، از INSERT/UPDATE با Spark و SELECT با هر موتور جستجوی SQL پشتیبانی می کند.

Dremio به یک تفاوت فنی مهم بین نسخه منبع باز Delta Lake و نسخه Delta Lake که بر روی پلت فرم Databricks در AWS اجرا می شود اشاره می کند. برای مثال، یک اتصال وجود دارد که به Trino اجازه می‌دهد تا بخواند و بنویسد < فایل‌های em>متن باز دلتا لیک، و کتابخانه‌ای که به پروژه‌های اسکالا و جاوا (از جمله Apache Flink، Apache Hive، Apache Beam و PrestoDB) اجازه می‌دهد تا از منبع باز بخوانند و بنویسند. em>دریاچه دلتا. با این حال، این ابزارها نمی توانند با خیال راحت در فایل های Delta Lake در پلت فرم Databricks در AWS بنویسند.

تسریع درخواست Dremio

علاوه بر عملکرد پرس و جو که از فرمت‌های فایل مورد استفاده به دست می‌آید، Dremio می‌تواند پرس‌وجوها را با استفاده از حافظه پنهان ابری ستونی و بازتاب داده‌ها تسریع کند.

Cloud Cache ستونی (C3)

Columnar Cloud Cache (C3) Dremio را قادر می سازد تا با استفاده از NVMe/SSD تعبیه شده در نمونه های محاسباتی ابری، مانند Amazon EC2، به عملکرد I/O در سطح NVMe در Amazon S3، Azure Data Lake Storage و Google Cloud Storage دست یابد. ماشین های مجازی Azure. C3 فقط داده های مورد نیاز برای برآورده کردن بار کاری شما را در حافظه پنهان ذخیره می کند و حتی می تواند میکروبلاک های جداگانه را در مجموعه داده ها ذخیره کند. اگر جدول شما ۱۰۰۰ ستون دارد و شما فقط زیر مجموعه ای از آن ستون ها را پرس و جو می کنید و داده ها را در یک بازه زمانی مشخص فیلتر می کنید، C3 فقط آن قسمت از جدول شما را کش می کند. با ذخیره انتخابی داده‌ها، C3 همچنین هزینه‌های ورودی/خروجی ذخیره‌سازی ابری را به‌طور چشمگیری کاهش می‌دهد، که طبق گفته Dremio می‌تواند ۱۰ تا ۱۵ درصد هزینه‌ها را برای هر درخواستی که اجرا می‌کنید، تشکیل دهد.

dremio cloud 02

ویژگی Columnar Cloud Cache Dremio (C3) با استفاده از NVMe SSD در نمونه‌های ابری برای ذخیره‌سازی داده‌های مورد استفاده در جستارهای قبلی، درخواست‌های آینده را تسریع می‌کند.

بازتاب داده

بازتاب داده‌ها، کوئری‌های BI فرعی دوم را فعال می‌کنند و نیاز به ایجاد مکعب‌ها و جمع‌آوری‌ها را قبل از تجزیه و تحلیل از بین می‌برند. انعکاس داده‌ها ساختارهای داده‌ای هستند که به‌طور هوشمند انباشته‌ها و سایر عملیات‌ها را روی داده‌ها از قبل محاسبه می‌کنند، بنابراین نیازی به انجام تجمیع‌ها و تمرین‌های پیچیده در پرواز ندارید. بازتاب ها برای کاربران نهایی کاملاً شفاف هستند. کاربران به‌جای اتصال به یک مادیت‌سازی خاص، جداول و نماهای مورد نظر را جستجو می‌کنند و بهینه‌ساز Dremio بهترین بازتاب‌ها را برای برآورده کردن و تسریع درخواست انتخاب می‌کند.

از پردازنده‌های گرافیکی برای برنامه‌های یادگیری ماشین حداکثر استفاده را ببرید

موتورهای Dremio

Dremio دارای معماری چند موتوره است، بنابراین می توانید چندین موتور با اندازه مناسب و از نظر فیزیکی ایزوله برای بارهای کاری مختلف در سازمان خود ایجاد کنید. شما به راحتی می توانید قوانین مدیریت بار کاری را تنظیم کنید تا پرس و جوها را به موتورهایی که تعریف کرده اید هدایت کنید، بنابراین دیگر نیازی به نگرانی در مورد حجم کاری پیچیده علم داده نخواهید بود که از بارگیری داشبورد یک مدیر اجرایی جلوگیری می کند. جدا از حذف مشاجره در منابع، موتورها می‌توانند به سرعت اندازه‌شان را تغییر دهند تا با حجم‌های کاری همزمان و توان عملیاتی مقابله کنند، و هنگامی که درخواست‌هایی را اجرا نمی‌کنید، به‌طور خودکار متوقف شوند.

dremio cloud 03

موتورهای Dremio اساساً مجموعه‌های مقیاس‌پذیری از نمونه‌ها هستند که به‌عنوان مجری پیکربندی شده‌اند. قوانین به ارسال پرسش‌ها به موتورهای مورد نظر کمک می‌کنند.

شروع به کار با Dremio Cloud

راهنمای شروع Dremio Cloud را پوشش می‌دهد

  1. افزودن دریاچه داده به پروژه؛
  2. ایجاد یک مجموعه داده فیزیکی از داده های منبع؛
  3. ایجاد مجموعه داده مجازی؛
  4. پرس و جو از یک مجموعه داده مجازی. و
  5. تسریع درخواست با بازتاب.

من هر مرحله از آموزش را به شما نشان نمی دهم، زیرا می توانید خودتان آن را بخوانید و در حساب رایگان خودتان.

دو نکته ضروری عبارتند از:

  1. یک مجموعه داده فیزیکی (PDS) نمایش جدولی از داده های منبع شما است. یک PDS توسط Dremio Cloud قابل تغییر نیست. راه ایجاد یک مجموعه داده فیزیکی این است که یک فایل یا پوشه را به صورت PDS قالب بندی کنید.
  2. یک مجموعه داده مجازی (VDS) یک نمای است که از مجموعه داده های فیزیکی یا سایر مجموعه داده های مجازی به دست می آید. مجموعه داده‌های مجازی کپی‌هایی از داده‌ها نیستند، بنابراین از حافظه بسیار کمی استفاده می‌کنند و همیشه وضعیت فعلی مجموعه داده‌های اصلی را که از آنها مشتق شده‌اند منعکس می‌کنند.
  • < meta content="4.5" itemprop="ratingValue"/>

    Dremio Cloud یک موتور سریع SQL و ذخیره‌سازی ستونی کارآمد را به دریاچه داده می‌آورد. همچنین توانایی تسریع پرس و جوها با “بازتاب” خودکار، و توانایی به اشتراک گذاری داده ها با موتورهای تحلیلی دیگر را دارد. از BI و یادگیری ماشینی از طریق درایورها و اتصال دهنده ها به نرم افزارهای شخص ثالث پشتیبانی می کند.

    مزایا

    • موتور سریع SQL برای فایل‌ها در دریاچه داده
    • قابلیت تسریع درخواست ها با “بازتاب” خودکار
    • قابلیت به اشتراک گذاری داده ها با موتورهای دیگر
    • به BI و نرم افزار پایگاه داده و همچنین پایتون ارتباط دارد
    • نسخه استاندارد برای همیشه رایگان است، اما شامل هزینه‌های زیرساخت ابری نمی‌شود

    معایب

    • به خودی خود هیچ قابلیت یادگیری ماشینی یا یادگیری عمیق ندارد. برای آن از پایتون استفاده کنید

Dremio Cloud یک موتور سریع SQL و ذخیره‌سازی ستونی کارآمد را به دریاچه داده می‌آورد. همچنین توانایی تسریع پرس و جوها با “بازتاب” خودکار، و توانایی به اشتراک گذاری داده ها با موتورهای تحلیلی دیگر را دارد. از BI و یادگیری ماشینی از طریق درایورها و اتصال دهنده ها به نرم افزارهای شخص ثالث پشتیبانی می کند.

  • موتور سریع SQL برای فایل‌ها در دریاچه داده
  • قابلیت تسریع درخواست ها با “بازتاب” خودکار
  • قابلیت به اشتراک گذاری داده ها با موتورهای دیگر
  • به BI و نرم افزار پایگاه داده و همچنین پایتون ارتباط دارد
  • نسخه استاندارد برای همیشه رایگان است، اما شامل هزینه‌های زیرساخت ابری نمی‌شود
  • به خودی خود هیچ قابلیت یادگیری ماشینی یا یادگیری عمیق ندارد. برای آن از پایتون استفاده کنید