۳۰ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

چرا کوه یخ آپاچی بر داده ها در فضای ابری حکومت می کند؟

Apache Iceberg یک فرمت جدول باز است که مقیاس پذیری، قابلیت استفاده و مزایای عملکرد را برای مجموعه داده های بسیار بزرگ ارائه می دهد. در اینجا پنج دلیل بهینه بودن Iceberg برای حجم کاری داده های ابری آورده شده است.

Apache Iceberg یک فرمت جدول باز است که مقیاس پذیری، قابلیت استفاده و مزایای عملکرد را برای مجموعه داده های بسیار بزرگ ارائه می دهد. در اینجا پنج دلیل بهینه بودن Iceberg برای حجم کاری داده های ابری آورده شده است.

این ابر به تیم‌های داده اجازه داده است که مقادیر زیادی از داده را جمع‌آوری کرده و با هزینه معقول ذخیره کنند، و دری را به روی موارد استفاده از تحلیل‌های جدید که از دریاچه‌های داده، مش داده‌ها و دیگر معماری‌های مدرن استفاده می‌کنند، باز می‌کند. اما برای حجم بسیار زیادی از داده‌ها، ذخیره‌سازی ابری عمومی نیز چالش‌ها و محدودیت‌هایی در نحوه دسترسی، مدیریت و استفاده از آن داده‌ها ایجاد می‌کند.

سیستم‌های ذخیره‌سازی حباب معمولی در فضای ابری فاقد اطلاعات مورد نیاز برای نشان دادن روابط بین فایل‌ها یا نحوه مطابقت آنها با یک جدول هستند، که کار موتورهای جستجو را بسیار سخت‌تر می‌کند. علاوه بر این، فایل‌ها به خودی خود تغییر طرحواره‌های جدول یا «سفر در زمان» را بر روی آن آسان نمی‌کنند. هر موتور پرس و جو باید دیدگاه خاص خود را در مورد نحوه پرس و جو کردن فایل ها داشته باشد. به طور ناگهانی، چیزی که به نظر می‌رسید یک معماری داده با قابلیت پیاده‌سازی آسان به نظر می‌رسید، دشوارتر از آنچه انتظار می‌رفت می‌شود.

این جایی است که استفاده از قالب‌های جدول برای داده‌ها بسیار مفید می‌شود. فرمت های جدول به صراحت یک جدول، ابرداده آن و فایل هایی که جدول را تشکیل می دهند را تعریف می کند. به جای استفاده از طرحواره هنگام خواندن داده ها، مشتریان از قبل طرح را قبل از اجرای پرس و جو می شناسند. علاوه بر این، ابرداده های جدول را می توان به گونه ای ذخیره کرد که پارتیشن بندی دقیق تری ارائه دهد. بنابراین، اعمال یک قالب جدول برای داده ها می تواند مزایای متعددی را ارائه دهد، مانند:

  • عملکرد سریعتر به دلیل فیلتر یا پارتیشن بندی بهتر
  • تکامل آسان‌تر طرحواره
  • قابلیت “سفر در زمان” در سراسر جدول برای مشاهده داده ها در یک نقطه زمانی معین
  • انطباق ACID جدول

چرا کوه یخ آپاچی؟

انتخاب قالب جدول برای استفاده تصمیم مهمی است زیرا می تواند ویژگی های موجود را فعال یا محدود کند. در طول دو سال گذشته، ما پشتیبانی قابل توجه در حال ظهور برای Apache Iceberg، قالب جدولی که در ابتدا توسط Netfl توسعه داده شده بود. یک پروژه انکوباتور آپاچی در سال ۲۰۱۸ و از برنامه انکوباتور در سال ۲۰۲۰ فارغ التحصیل شد.

کوه یخ از ابتدا برای رفع برخی از چالش‌های موجود در Apache Hive هنگام کار با مجموعه داده های بسیار بزرگ، از جمله مسائل مربوط به مقیاس، قابلیت استفاده و عملکرد. به عنوان یک مهندس نتفلیکس در آن زمان اشاره شد، قالب‌های جدول برای مجموعه‌های داده در مقیاس بسیار بزرگ باید به اندازه SQL قابل اعتماد و قابل پیش‌بینی کار کنند، “بدون هیچ گونه غافلگیری ناخوشایند”.

TigerGraph Cloud تجزیه و تحلیل گراف، ابزارهای یادگیری ماشین را اضافه می کند

با چندین گزینه موجود، ما معتقدیم Iceberg نسبت به سایر قالب‌های جدول باز موجود برتری دارد. در اینجا پنج دلیل وجود دارد.

کوه یخ از گذشته جدا می شود

گذشته می‌تواند تأثیر عمده‌ای بر نحوه عملکرد قالب جدول امروزی داشته باشد. برخی از قالب‌های جدول از فناوری‌های قدیمی‌تر تکامل یافته‌اند، در حالی که برخی دیگر به یک شکست کامل تبدیل شده‌اند. کوه یخ در کمپ دوم است. این از ابتدا برای رفع کاستی‌های Apache Hive ساخته شده است، به این معنی که از برخی از ویژگی‌های نامطلوب که در گذشته دریاچه‌های داده را نگه می‌داشتند، اجتناب کرده است. اینکه چگونه تغییرات طرحواره را می توان مدیریت کرد، مانند تغییر نام یک ستون، مثال خوبی است.

با نگاهی به آینده، این بدان معناست که Iceberg نیازی به منطقی کردن نحوه جدایی بیشتر از ابزارهای مرتبط بدون ایجاد مشکل در برنامه های داده تولید ندارد. با گذشت زمان، سایر فرمت‌های جدول احتمالاً به نتیجه می‌رسند، اما در حال حاضر، Iceberg بر روی ارائه مجموعه بعدی از ویژگی‌های جدید متمرکز شده است، به جای اینکه برای رفع مشکلات قدیمی به گذشته نگاه کند.

Iceberg نسبت به موتور پردازش و فرمت فایل آگنوستیک است

با جدا کردن موتور پردازش از قالب جدول، Iceberg انعطاف پذیری و انتخاب بیشتری را فراهم می کند. مهندسان به جای اینکه مجبور به استفاده از یک موتور پردازش شوند، می توانند بهترین ابزار را برای این کار انتخاب کنند. انتخاب حداقل به دو دلیل کلیدی مهم است. اول، موتورهایی که یک شرکت برای پردازش داده ها استفاده می کند، می توانند در طول زمان تغییر کنند. به عنوان مثال، بسیاری از مشاغل از Hadoop به Spark یا Trino نقل مکان کردند. دوم، برای سازمان‌های بزرگ معمول است که از چندین فناوری مختلف استفاده می‌کنند، و داشتن حق انتخاب به آنها امکان می‌دهد از چندین ابزار به جای یکدیگر استفاده کنند.

Iceberg از چندین فرمت فایل نیز پشتیبانی می‌کند، از جمله پارکت آپاچی، Apache Avro، و Apache ORC. این امر امروزه انعطاف‌پذیری را فراهم می‌کند، اما همچنین قابلیت اتصال طولانی‌مدت بهتری را برای فرمت‌های فایلی که ممکن است در آینده ظاهر شوند را ممکن می‌سازد.

Iceberg یک پروژه منبع باز است که به خوبی اجرا می شود

پروژه کوه یخ توسط بنیاد نرم افزار آپاچی، به این معنی که به چندین راه‌های آپاچی، از جمله قدرت کسب شده و تصمیم‌گیری اجماع. این لزوماً برای هر پروژه ای که خود را “متن باز” می نامد صادق نیست. Apache Iceberg مدیریت پروژه خود را انجام می دهد عمومی، بنابراین می دانید چه کسی پروژه را اجرا می کند. سایر قالب‌های جدول مشخص نمی‌کنند که چه کسی اختیار تصمیم‌گیری را دارد. قالب جدول یک انتخاب اساسی در معماری داده است، بنابراین انتخاب پروژه ای که واقعاً باز و مشارکتی باشد می تواند به طور قابل توجهی خطرات قفل تصادفی را کاهش دهد.

با استفاده از API پالم گوگل یک ربات چت بسازید

همکاری در Iceberg ایده ها و کمک های جدیدی را ایجاد می کند

نشانه‌های متعددی وجود دارد که نشان می‌دهد جامعه در اطراف کوه یخ آپاچی به کاربران سود می رساند و پروژه را برای موفقیت بلندمدت آماده می کند. برای کاربران، کانال Slack و مخزن GitHub تعامل بالایی را نشان می‌دهند، هم در مورد ایده‌های جدید و هم پشتیبانی از عملکردهای موجود. به طور بحرانی، تعامل از سراسر صنعت انجام می شود، نه فقط یک گروه یا نویسندگان اصلی Iceberg.

درجه بالای همکاری نیز به نفع خود فناوری است. این پروژه درخواست یک تعداد فزاینده ای از پیشنهادات که در تفکر خود متنوع هستند و موارد استفاده متفاوت را حل می کنند. علاوه بر این، پروژه در حال ایجاد پروژه‌ها و ایده‌های جدیدی است، مانند پروژه نسی، مشخصات Puffin، و

Iceberg دارای ویژگی هایی است که در قالب های جدول دیگر پرداخت می شوند

برخلاف برخی دیگر از پروژه‌های جدول، Iceberg دارای ویژگی‌های عملکرد محور از همان ابتدا است که از چند جهت برای کاربران مفید است. اولاً، کاربران اغلب فرض می‌کنند که پروژه‌ای با کد باز شامل ویژگی‌های عملکردی است، اما متوجه می‌شوند که در آینده گنجانده نشده‌اند یا به طور مبهم وعده داده شده‌اند. دوم، اگر می‌خواهید بارهای کاری را جابه‌جا کنید، که باید با قالب جدول آسان باشد، احتمال اینکه تفاوت‌های اساسی در پیاده‌سازی Iceberg داشته باشید، بسیار کمتر است. سوم، هنگامی که شروع به استفاده از Iceberg منبع باز کردید، بعید است که متوجه شوید که ویژگی مورد نیاز شما در پشت یک دیوار پرداخت پنهان شده است. تمایز بین آنچه باز است و آنچه نیست نیز یک مشکل لحظه به لحظه نیست.

به عنوان یک پروژه باز از ابتدا، Iceberg برای حل یک مشکل عملی وجود دارد، نه یک مورد استفاده تجاری. این یک تمایز کوچک اما مهم است: فروشندگان با محصولات پولی که از Iceberg پشتیبانی می‌کنند، مانند Snowflake، AWS، Apple، Cloudera، Google Cloud و موارد دیگر، می‌توانند در نحوه اجرای مشخصات Iceberg رقابت کنند، اما خود پروژه Iceberg برای هدایت کسب و کار برای یک شرکت خاص در نظر گرفته نشده است.

9 ارائه دهنده ابری با اجاره کم برای به چالش کشیدن AWS، Azure و GCP

دانه برف و کوه یخ

در Snowflake، ما قالب جدول خود را در اوایل ایجاد کردیم، که انواع قابلیت‌های جدید را فعال می‌کرد. اما وقتی کسب‌وکارها به سمت پلتفرم داده‌های ابری حرکت می‌کنند، نیازها و زمان‌بندی آن‌ها متفاوت است. برخی از شرکت‌ها الزامات نظارتی دارند که محل ذخیره داده‌ها را محدود می‌کند یا سرمایه‌گذاری‌های موجود برای محافظت از آنها را محدود می‌کند.

پشتیبانی از قالب جدول خارجی مانند Iceberg به مشتریان ما این امکان را می‌دهد تا از تمام داده‌های خود از داخل Snowflake استفاده کنند، حتی اگر برخی از آن‌ها نیاز به اقامت در مکان دیگری داشته باشند. به همین دلیل پشتیبانی از Iceberg به عنوان یک گزینه جدول اضافی در Snowflake در اوایل سال جاری، و اخیراً نوع جدیدی از جدول دانه های برف به نام جدول کوه یخ.

آغاز با Apache Iceberg

منابع عالی در جامعه Apache Iceberg برای کسب اطلاعات بیشتر در مورد پروژه و مشارکت در تلاش منبع باز وجود دارد.

    > ۷۳f048fa33b2df1d ” rel=”nofollow”>راهنمای شروع Iceberg مثال هایی از نحوه شروع به کار در Iceberg و Apache Spark کاملاً منبع باز ارائه می دهد.
  • Iceberg چندین انجمن های قوی که می توانید در آنها مشارکت داشته باشید، مانند کانال های عمومی Slack.
  • اگر می‌خواهید تغییراتی در Iceberg ایجاد کنید یا ایده جدیدی پیشنهاد کنید، یک درخواست کشش براساس راهنمای مشارکت. انجمن به طور منظم در درخواست‌های انجمن شرکت می‌کند و آنها را ترکیب می‌کند.

اگر کاربر Snowflake هستید، امروز می‌توانید با پشتیبانی از پیش‌نمایش خصوصی Iceberg ما شروع کنید. برای کسب اطلاعات بیشتر در مورد این ویژگی ها یا ثبت نام، با تیم حساب Snowflake خود تماس بگیرید.

  • جدول کوه یخ: نوع جدول جدید ما را کاملاً بر اساس کوه یخ و پارکت در فضای ذخیره سازی خارجی، اما با مزایا و عملکرد مشابه میزهای برف ریزه.
  • جدول خارجی برای کوه یخ: اتصال آسان Snowflake با جدول Iceberg موجود را از طریق میز ​​خارجی دانه برف.

جیمز مالون مدیر ارشد مدیریت محصول است در دانه برف.

New Tech Forum مکانی برای کاوش و بحث در مورد فناوری سازمانی نوظهور در عمق و وسعت بی سابقه ای فراهم می کند. انتخاب ذهنی است، بر اساس انتخاب ما از فناوری هایی که معتقدیم مهم هستند و برای خوانندگان InfoWorld بیشترین علاقه را دارند. InfoWorld وثیقه بازاریابی را برای انتشار نمی پذیرد و حق ویرایش تمام محتوای ارائه شده را برای خود محفوظ می دارد. همه سوالات را به newtechforum@infoworld.com ارسال کنید.