۲۹ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

چگونه Databricks قابلیت های هوش مصنوعی مولد را به خانه دریاچه دلتا لیک خود اضافه می کند

هدف به‌روزرسانی‌های Delta Lake کمک به متخصصان داده برای ایجاد قابلیت‌های هوش مصنوعی برای شرکت خود با مدل‌های پایه MosaicML و Hugging Face است.

هدف به‌روزرسانی‌های Delta Lake کمک به متخصصان داده برای ایجاد قابلیت‌های هوش مصنوعی برای شرکت خود با مدل‌های پایه MosaicML و Hugging Face است.

چند هفته پرمشغله برای Databricks بوده است. پس از انتشار نسخه جدیدی از data lakehouse خود با قالب جدول جهانی و معرفی برنامه های Lakehouse، این شرکت روز چهارشنبه ابزارهای جدیدی را با هدف کمک به متخصصان داده در توسعه تولید کننده معرفی کرد. قابلیت های AI.

قابلیت‌های جدید – که شامل موتور دانش سازمانی اختصاصی به نام LakehouseIQ، قابلیت جستجوی برداری جدید، ابزار تنظیم مدل زبان بزرگ کد پایین (LLM) به نام AutoML و مدل‌های پایه منبع باز — در حال اضافه شدن به  دریاچه دلتا دریاچه خانه

این شرکت هستند.

قابلیت‌های جدید مبتنی بر فناوری خریدهای اخیر این شرکت هستند – MosiacML در این هفته و Okera در ماه مه.

LakehouseIQ برای باز کردن جستجوی سازمانی از طریق NLP

موتور جدید LakehouseIQ برای کمک به کاربران سازمانی برای جستجوی داده‌ها و بینش‌ها از دریاچه دلات، بدون نیاز به کمک فنی از متخصصان داده است. برای ساده کردن جستجوی داده برای کاربران غیر فنی، موتور LakehouseIQ از پردازش زبان طبیعی (NLP) استفاده می‌کند.

برای فعال کردن جستجوهای سازمانی مبتنی بر NLP، LakehouseIQ از هوش مصنوعی مولد برای درک اصطلاحات، الگوهای استفاده از داده‌ها و مفاهیمی مانند ساختار سازمانی استفاده می‌کند.

این روشی متفاوت از روش معمول ایجاد نمودارهای دانش است، روشی که توسط شرکت‌هایی از جمله Glean و Salesforce. نمودار دانش نمایشی از داده های ساختاریافته و بدون ساختار به شکل گره ها و لبه ها است که در آن گره ها موجودیت ها (مانند افراد، مکان ها یا مفاهیم) را نشان می دهند و یال ها روابط بین این موجودات را نشان می دهند.

بررسی: Databricks Lakehouse Platform

در مقابل، موتور LakehouseIQ، به گفته Sanjeev Mohan، تحلیلگر اصلی SanjMo، از مدل‌های یادگیری ماشینی تشکیل شده است که زمینه منابع داده را استنتاج می‌کند و آنها را برای جستجو از طریق جستجوهای زبان طبیعی در دسترس قرار می‌دهد.< /p>

شرکت گفت

کاربران سازمانی می‌توانند از طریق Notebooks و Assistant در ویرایشگر SQL به قابلیت‌های جستجوی LakehouseIQ دسترسی پیدا کنند. «دستیار» می‌تواند وظایف مختلفی مانند نوشتن سؤالات و پاسخ به سؤالات مربوط به داده‌ها را انجام دهد.

Databricks گفت که LakehouseIQ را به بسیاری از ویژگی‌های مدیریتی داخل lakehouse خود اضافه می‌کند تا پیشنهادات خودکار ارائه کند. اینها می تواند شامل اطلاع دادن به کاربر در مورد یک مجموعه داده ناقص یا پیشنهادهایی برای اشکال زدایی مشاغل و جستجوهای SQL باشد.

جوئل مینیک، معاون بازاریابی در Databricks گفت: علاوه بر این، این شرکت API LakehouseIQ را برای کمک به شرکت‌ها در استفاده از توانایی‌های آن در هر برنامه سفارشی که توسعه می‌دهند، معرفی می‌کند.

دستیار مجهز به LakehouseIQ در حال حاضر در پیش نمایش است.

دریاچه دلتا جعبه ابزار هوش مصنوعی را برای توسعه موارد استفاده از هوش مصنوعی مولد دریافت می کند

Databricks گفت که افزودن جعبه ابزار هوش مصنوعی Lakehouse به Lakehouse آن برای حمایت از توسعه برنامه های کاربردی هوش مصنوعی مولد سازمانی مانند ایجاد دستیارهای هوشمند است. جعبه ابزار شامل ویژگی‌هایی از جمله جستجوی برداری، AutoML با کد پایین، مجموعه‌ای از مدل‌های منبع باز، MLflow 2.5 و مانیتورینگ Lakehouse است.

مینیک گفت: «با تعبیه‌های فایل‌هایی که به‌طور خودکار در کاتالوگ یونیتی ایجاد و مدیریت می‌شوند، به‌علاوه امکان افزودن فیلترهای جستجو برای جستجوها، جستجوی برداری به توسعه‌دهندگان کمک می‌کند دقت پاسخ‌های هوش مصنوعی تولیدی را بهبود بخشند،» و افزود که جاسازی‌ها به‌روز می‌شوند. با استفاده از سرویس مدل Databricks.

Qdrant از جستجوی ترکیبی مبتنی بر برداری برای RAG پرده برداری کرد

جاسازی‌ها بردارها یا آرایه‌هایی هستند که برای دادن زمینه به مدل‌های هوش مصنوعی، فرآیندی که به عنوان زمین‌گذاری شناخته می‌شود، استفاده می‌شوند. این فرآیند به شرکت‌ها اجازه می‌دهد از آموزش کامل یا تنظیم دقیق مدل‌های هوش مصنوعی با استفاده از مجموعه اطلاعات سازمانی اجتناب کنند.

هوش مصنوعی Lakehouse همچنین دارای یک رابط با کد پایین است تا به شرکت‌ها کمک کند مدل‌های اساسی را تنظیم کنند.

“با AutoML، توسعه دهندگان ماهر فنی و کاربران غیر فنی روشی کم کد برای تنظیم دقیق LLM با استفاده از داده های سازمانی خود دارند. نتیجه نهایی یک مدل اختصاصی با ورودی داده از داخل سازمان آنها است، نه شخص ثالث،» با تأکید بر خط مشی مدل بنیاد منبع باز شرکت.

به‌عنوان بخشی از Lakehouse AI، Databricks چندین مدل پایه ارائه می‌کند که از طریق بازار Databricks قابل دسترسی هستند. این شرکت گفت که مدل هایی از Stable Diffusion، Hugging Face و MosiacML، از جمله MPT-7B و Falcon-7B ارائه خواهند شد.

افزودن MLflow 2.5 – از جمله ویژگی‌های جدید مانند ابزارهای سریع و یک دروازه هوش مصنوعی – برای کمک به شرکت‌ها در مدیریت عملیات در اطراف LLMها.

در حالی که AI Gateway شرکت‌ها را قادر می‌سازد اعتبارنامه‌های مدل‌های SaaS یا APIهای مدل را به‌طور مرکزی مدیریت کنند و مسیرهای کنترل‌شده با دسترسی را برای پرس‌وجو ارائه کنند، ابزار سریع یک رابط بدون کد جدید را ارائه می‌کند که به دانشمندان داده اجازه می‌دهد تا بر اساس خروجی مدل‌های مختلف را مقایسه کنند. در مجموعه ای از دستورات قبل از استقرار آنها در تولید از طریق Model Serving.

Minnick گفت: «با استفاده از AI Gateway، توسعه‌دهندگان می‌توانند به راحتی مدل backend را در هر زمان برای بهبود هزینه و کیفیت، تعویض کنند و بین ارائه‌دهندگان LLM جابجا شوند.

هوش مصنوعی همچنان به تخصص انسانی نیاز دارد

Databricks گفت: شرکت‌ها می‌توانند به طور مداوم تمام داده‌ها و دارایی‌های هوش مصنوعی در lakehouse را با ویژگی جدید Lakehouse Monitoring نظارت و مدیریت کنند و افزود که این ویژگی دید سرتاسر خطوط لوله داده را فراهم می‌کند.

Databricks قبلاً یک کیت حاکمیت AI به شکل  Unity Catalog ارائه می دهد.

آیا به‌روزرسانی‌های Databricks از Snowflake باقی می‌ماند؟

به‌گفته داگ هنشن، تحلیلگر اصلی Constellation Research، به‌روزرسانی‌های جدید Databricks، به‌ویژه توسعه برنامه‌های کاربردی هوش مصنوعی در شرکت را هدف قرار می‌دهد، ممکن است از Snowflake عقب بماند.

«هم Databricks و هم Snowflake از مشتریان خود می خواهند که تمام بارهای کاری خود را در پلتفرم مربوطه خود انجام دهند، اما به نظر من، Databricks از قبل آماده است تا به آنها در ساخت ML سفارشی [یادگیری ماشین]، هوش مصنوعی و مدل ها و برنامه های کاربردی هوش مصنوعی کمک کند. Henschen گفت، و افزود که قابلیت‌های مولد AI Snowflake، مانند Snowpark Container Services که اخیراً اعلام شده است، در حال حاضر در پیش‌نمایش خصوصی است.

طبق گفته هیون پارک، تحلیلگر اصلی Amalgam Insights، Snowflake به تازگی شروع به ساخت زبان و قابلیت های هوش مصنوعی مولد از طریق مشارکت NVIDIA NeMO و خرید Neeva کرده است.

به گفته تحلیلگران، در مقابل، اکثر قابلیت‌های Databricks یا در دسترس عمومی یا در پیش‌نمایش عمومی هستند.

به‌گفته آرون روزنبام، تحلیل‌گر گارتنر، به‌روزرسانی‌های جدید Databricks ممکن است منجر به افزایش عملکرد پرس و جو در موارد استفاده از هوش مصنوعی مولد شود، و این ممکن است به عنوان یک تمایز در برابر رقیب Snowflake عمل کند.

روزنبام گفت: “در حالی که Snowflake و Databricks مشتریان مشترک زیادی دارند، اجرای طیف گسترده ای از پرس و جوهای SQL ارزان، سریع و ساده برای هر یک از آنها هدف است.”