۲۹ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

خطوط لوله داده برای بقیه ما

Apache Airflow یک خط لوله داده عالی به عنوان کد است، اما اینکه بیشتر مشارکت کنندگان آن برای Astronomer کار می کنند نمونه دیگری از مشکل با منبع باز است.

Apache Airflow یک خط لوله داده عالی به عنوان کد است، اما اینکه بیشتر مشارکت کنندگان آن برای Astronomer کار می کنند نمونه دیگری از مشکل با منبع باز است.

بسته به سیاست شما، اقتصاد trickle-down هرگز به این خوبی در ایالات متحده تحت ریاست جمهوری رونالد ریگان. با این حال، در نرم افزار منبع باز، به نظر می رسد که به خوبی کار می کند.

البته من واقعاً در مورد سیاست‌های اقتصادی صحبت نمی‌کنم، بلکه در مورد تیم‌های مهندسی نرم‌افزار نخبه‌ای صحبت می‌کنم که کدی را منتشر می‌کنند که در نهایت جریان اصلی نه چندان نخبه را تامین می‌کند. برای مثال Lyft را در نظر بگیرید که پروژه محبوب Envoy را منتشر کرد. یا گوگل که به جهان Kubernetes داد (البته، همانطور که من استدلال کرده ام، هدف خیریه خیریه نبود، بلکه استراتژی شرکتی برای دور زدن AWS غالب بود). Airbnb راهی برای حرکت فراتر از زمان‌بندی cron دسته‌محور پیدا کرد، هدیه Apache Airflow و خطوط لوله داده به عنوان کد .

امروزه طیف گسترده‌ای از شرکت‌های اصلی به Airflow وابسته هستند، از Walmart گرفته تا Adobe و Marriott. اگرچه انجمن آن شامل توسعه دهندگانی از Snowflake، Cloudera و موارد دیگر است، اکثر کارهای سنگین توسط مهندسان در اخترشناس، که ۱۶ نفر از ۲۵ مرتکب برتر را استخدام می کند. Astronomer از این سرپرستی و تخصص به خوبی استفاده می کند و یک سرویس کاملاً مدیریت شده جریان هوا به نام Astro را اجرا می کند، اما این تنها سرویس نیست. جای تعجب نیست که ابرها به سرعت خدمات خود را ایجاد کرده‌اند، بدون اینکه کدهای مربوطه را پشت سر بگذارند، که نگرانی در مورد پایداری را افزایش می‌دهد.

اگر این کد نتواند هزینه خود را بپردازد، خودش نمی‌نویسد.

به هر حال خط لوله داده چیست؟

امروزه همه در مورد مدل‌های زبان بزرگ (LLM)، نسل افزوده‌شده با بازیابی (RAG) و دیگر کلمات اختصاری هوش مصنوعی (genAI) صحبت می‌کنند، همانطور که ۱۰ سال پیش نتوانستیم از Apache Hadoop، MySQL و غیره استفاده کنیم. نام‌ها تغییر می‌کنند، اما داده‌ها باقی می‌مانند، با این نگرانی که همیشه چگونه می‌توان آن داده‌ها را بین سیستم‌ها منتقل کرد.

مایکروسافت از پایگاه داده Copilot برای Azure SQL رونمایی کرد

این جایی است که جریان هوا وارد می شود.

از برخی جهات، Airflow مانند یک زمان‌بندی کار cron به‌طور جدی ارتقا یافته است. شرکت ها با سیستم های ایزوله شروع می کنند که در نهایت باید به هم متصل شوند. یا، بهتر است، داده ها باید بین آنها جریان داشته باشد. به عنوان یک صنعت، ما انواع و اقسام راه‌ها را برای مدیریت این خطوط لوله ابداع کرده‌ایم، اما با افزایش داده‌ها، سیستم‌های مدیریت آن داده‌ها تکثیر می‌شوند، نه به پیچیدگی روزافزون تعامل بین این اجزا. همانطور که تیم Airbnb هنگام منبع باز Airflow نوشت، این یک کابوس است: «اگر یک تیم داده سریع و متوسط ​​را برای چند سال روی یک زیرساخت داده در حال تکامل در نظر بگیرید و یک شبکه بسیار پیچیده از کارهای محاسباتی در دست دارید. ، این پیچیدگی می تواند بار مهمی برای تیم های داده برای مدیریت یا حتی درک آن باشد.”

که در پایتون نوشته شده است، Airflow به طور طبیعی به زبان داده صحبت می کند. آن را به عنوان بافت همبند در نظر بگیرید که به توسعه دهندگان راهی ثابت برای برنامه ریزی، هماهنگی و درک نحوه جریان داده ها بین هر سیستم می دهد. بخش قابل توجه و رو به رشد Fortune 500 به Airflow برای هماهنگی خط لوله داده بستگی دارد، و هر چه بیشتر از آن استفاده کنند، ارزشمندتر می شود. جریان هوا به طور فزاینده ای برای زنجیره های تامین داده های سازمانی حیاتی است.

پس بیایید به مسئله پول برگردیم.

کد قرار نیست خودش بنویسد

یک جامعه قوی در اطراف Airflow وجود دارد، اما شاید ۵۵٪ یا بیشتر از کد توسط افرادی که برای Astronomer کار می کنند ارائه شده است. این شرکت را در موقعیتی عالی برای پشتیبانی از Airflow در تولید برای مشتریان خود قرار می دهد (از طریق سرویس مدیریت شده Astro)، اما این پروژه را نیز در معرض خطر قرار می دهد. نه، نه از سوی اخترشناس که بر پروژه تأثیر ناروا می‌گذارد. پروژه‌های بنیاد نرم‌افزار آپاچی، طبق تعریف، هرگز پروژه‌های تک شرکتی نیستند. در عوض، این ریسک از آنجا ناشی می شود که اخترشناس به طور بالقوه تصمیم می گیرد که نمی تواند سطح سرمایه گذاری خود را از نظر مالی توجیه کند.

DataStax برای ارائه دروازه API داده Stargate V2 از طریق Astra DB

این جایی است که ادعاهای “کشیدن فرش منبع باز” قدرت خود را از دست می دهند. همانطور که اخیراً بحث کرده ام، ما یک مشکل تریلیون دلاری رایگان سواری در منبع باز داریم. ما همیشه شباهتی از این موضوع داشته ایم. هیچ شرکتی از طریق خیریه کمک نمی کند. این همیشه در مورد منافع شخصی است. یک مشکل این است که زمان زیادی طول می کشد تا شرکت ها بفهمند که منافع شخصی آنها باید آنها را وادار به مشارکت کند (همانطور که اتفاق افتاد زمانی که Elastic مجوز خود را تغییر داد و AWS متوجه شد که باید با جدا کردن Elasticsearch از میلیاردها دلار درآمد محافظت کند). این شناسایی تاخیری زمانی تشدید می‌شود که شخص دیگری هزینه توسعه را بپردازد.

این بسیار آسان است که اجازه دهید شخص دیگری کار را انجام دهد، در حالی که شما در حال کاهش سود هستید.

Kubernetes را در نظر بگیرید. به درستی یک پوستر برای جامعه در نظر گرفته می شود، اما به مشارکت‌های انجمن چقدر متمرکز است. از زمان آغاز به کار، گوگل ۲۸ درصد از کد را کمک کرده است. بزرگترین مشارکت کننده بعدی Red Hat با ۱۱٪ است، پس از VMware با ۸٪، سپس مایکروسافت با ۵٪. همه افراد دیگر یک خطای نسبی گرد کردن هستند، از جمله AWS (1%)، که برای درآمد کسب شده از Kubernetes، همه افراد دیگر را کوچک می کند. این کاملاً منصفانه است، زیرا مجوز آن را اجازه می دهد. اما چه اتفاقی می‌افتد اگر Google تصمیم بگیرد که به نفع خود شرکت نیست که به انجام این همه توسعه برای منافع دیگران ادامه دهد؟

اطمینان از ادامه لحظه منبع باز

یک احتمال (و داده‌های مشارکت‌کننده ممکن است این نتیجه‌گیری را تأیید کند) این است که شرکت‌ها سرمایه‌گذاری‌های خود را مجدداً تنظیم کنند. به عنوان مثال، در طول دو سال گذشته، سهم گوگل از مشارکت به ۲۰٪ و Red Hat به ۸٪ کاهش یافته است. مایکروسافت، به نوبه خود، سهم نسبی مشارکت خود را به ۸٪ افزایش داد و AWS، در حالی که هنوز نسبتا کوچک بود، به ۲٪ افزایش یافت. شاید جوامع خوب خود را اصلاح می کنند؟

که ما را به مسئله داده ها برمی گرداند.

این دنیای پایتون است

از آنجایی که Airflow در پایتون ساخته شده است، و به نظر می‌رسد پایتون زبان دوم هر توسعه‌دهنده‌ای باشد (اگر نه اولین آن)، شروع کار برای توسعه‌دهندگان آسان است. مهمتر از آن، شاید این باشد که اصلاً فکر کردن به خطوط انتقال داده برای آنها نیز آسان باشد. مهندسان داده واقعاً نمی خواهند خطوط لوله داده را حفظ کنند. آنها می‌خواهند که لوله‌کشی در پس‌زمینه محو شود.

نحوه انجام آن بلافاصله مشخص نیست، به ویژه با توجه به هرج و مرج مطلق در چشم انداز داده/AI امروز، همانطور که گرفته شده است. توسط FirstMark Capital. جریان هوا، به‌ویژه با سرویس مدیریت‌شده‌ای مانند Astronomer’s Astro، حفظ اختیاری بودن (گزینه‌های زیادی در نمودار FirstMark) و در عین حال ساده‌سازی تعمیر و نگهداری خطوط لوله بین سیستم‌ها را آسان می‌کند.

این یک معامله بزرگ است که با افزایش منابع داده بزرگتر خواهد شد. این “معامله بزرگ” باید بیشتر در جدول مشارکت کنندگان نشان داده شود. امروزه توسعه دهندگان Astronomer نیروی محرکه انتشارات Airflow هستند. بسیار خوب است که سایر شرکت‌ها نیز مشارکت‌های خود را متناسب با درآمدی که بدون شک از Airflow کسب می‌کنند، افزایش دهند.