این شرکت گفت که می توان از بهینه سازی تطبیقی زمان تست برای افزایش کارایی مدل های ارزان قیمت مانند Llama استفاده کرد.
Data Lakehouse Provider Databricks از یک روش آموزش جدید مدل بزرگ زبان (LLM) رونمایی کرده است ، TAO که به شرکت ها اجازه می دهد تا مدل ها را بدون برچسب زدن داده ها آموزش دهند.
به طور معمول ، LLMS هنگام تطبیق با کارهای جدید شرکت ها با استفاده از را مطرح می کند. href = “https://www.infoworld.com/article/2336988/the-limitations-of-model-fine-tuning-and-rag.html”>-tuning مدل با مجموعه داده ها برای کار خاص.
با این حال ، هر دو این تکنیک ها دارای احتیاط هستند. در حالی که درخواست به عنوان یک فرآیند مستعد خطا با سود با کیفیت محدود دیده می شود ، تنظیم دقیق به مقادیر زیادی از داده های دارای برچسب انسانی نیاز دارد که یا برای اکثر شرکت ها در دسترس نیست یا بسیار وقت گیر است تا در واقع داده ها را برچسب گذاری کنید.
Tao یا بهینه سازی تطبیقی زمان آزمون ، طبق داده های Databricks ، با استفاده از محاسبه زمان آزمایش ، جایگزین مدل تنینگ خوب را فراهم می کند و relaing (rl) redorforrement (rl) نمونه ها به تنهایی ، به این معنی که با یک بودجه محاسبه تنظیم تنظیم قابل تنظیم ، نه تلاش برچسب زدن انسانی.
محاسبه زمان آزمایش ، که به دلیل استفاده از آن توسط openai و <- openai deepseek در طول o1 و r1 مدل ها ، منابع محاسبه ای است که هر LLM در طول فاز استنتاج استفاده می کند ، که وقتی از آن خواسته می شود که در طول آموزش انجام شود.
این منابع محاسبه ، که بر این موضوع متمرکز است که چگونه مدل در واقع استدلال برای حل یک کار یا پرس و جو می کند ، می تواند برای بهبود کیفیت خروجی استفاده شود ، طبق یک پست جامعه در بغل کردن چهره .
با این حال ، تیم تحقیقات موزاییک Databricks خاطرنشان کرده است که شرکت ها در صورت اتخاذ تائو ، نیازی به نگرانی در مورد افزایش هزینه های استنباط ندارند.
“اگرچه TAO از محاسبه زمان آزمایش استفاده می کند ، اما از آن به عنوان بخشی از فرآیند برای آموزش یک مدل استفاده می کند ؛ این مدل سپس کار را مستقیماً با هزینه های استنباط کم اجرا می کند (یعنی نیازی به محاسبات اضافی در زمان استنتاج نیست).”
پاسخ اولیه مخلوط به تائو
مدیر عامل بنیانگذار Databricks پست علی قدی در مورد تائو در مورد Tao در مورد Linkedin واکنش های اولیه را جذب کرده است. Makaremi ، بنیانگذار رئیس AI در کانادایی استاروپ Catio ؛ و Naveed Ahamed ، معمار ارشد شرکت در Allianz Technology ، از اجرای و آزمایش با تائو هیجان زده شدند ، سایر کاربران در مورد کارآیی تائو سؤالاتی مطرح کردند.
تام پوسکاریچ ، مدیر ارشد سابق حساب در Databricks ، استفاده از TAO را هنگام آموزش الگویی برای کارهای جدید زیر سوال برد.
“اگر شما در حال ارتقاء توانایی شرکت فعلی با یک نمایش داده های گذشته هستید ، اما برای شرکت هایی که به دنبال ایجاد قابلیت های جدید خالص هستند ، آیا یک مجموعه آموزشی از داده های دارای برچسب برای بهبود کیفیت مهم نیست؟” Puskarich نوشت.
“من عاشق ایده استفاده از ورودی ها برای بهبود هستند ، اما بیشتر استقرارهای تولیدی نمی خواهند یک تن از تجربیات بد در قسمت جلویی در حالی که سیستم باید بیاموزد”.
کاربر دیگر – پاتریک استرو ، رئیس علوم داده و هوش مصنوعی در راه حل های ZAP خاطرنشان کرد که ممکن است هزینه های شرکت افزایش یابد.
“بسیار جالب ، اما همچنین از هزینه های (افزایش احتمالی) به دلیل مرحله سازگاری آگاه است. (این احتمالاً برای هزینه های استاندارد افزایشی خواهد بود (اگرچه هنوز هم کمتر از تنظیم دقیق است). (من به سادگی نمی توانم درک کنم که چگونه LLM اصلی است که با توجه به اینکه سازگاری سازگار است.
چگونه تائو کار می کند؟
TAO شامل چهار مرحله از جمله تولید پاسخ ، امتیاز دهی پاسخ ، یادگیری تقویت و بهبود مستمر است.
در مرحله تولید پاسخ ، شرکت ها می توانند با جمع آوری موارد ورودی یا نمایش داده های یک کار برای یک کار شروع کنند ، که می تواند به طور خودکار از هر برنامه AI با استفاده از دروازه اختصاصی AI خود جمع آوری شود.
این شرکت توضیح داد ، سپس از هر سریع برای تولید مجموعه متنوعی از پاسخ های نامزد استفاده می شود و سپس این پاسخ ها بطور منظم در مرحله امتیاز دهی به کیفیت ارزیابی می شوند ، و افزود که روش های امتیاز دهی شامل انواع استراتژی ها ، مانند الگوسازی پاداش ، امتیاز دهی مبتنی بر ترجیح یا استفاده از داوران LLM یا قوانین سفارشی است.
در مرحله یادگیری تقویت ، این مدل به روز شده یا تنظیم می شود به گونه ای که خروجی ها را از نزدیک با پاسخ های با امتیاز بالا مشخص شده در مرحله قبل ایجاد می کند.
“از طریق این فرایند یادگیری تطبیقی ، مدل پیش بینی های خود را برای افزایش کیفیت اصلاح می کند.”
تائو می تواند بازده مدل های ارزان قیمت را افزایش دهد
Databricks گفت که از TAO استفاده کرده است تا نه تنها به کیفیت مدل بهتر از تنظیم دقیق دست یابد بلکه عملکرد مدل های منبع باز ارزان را نیز ارتقا می بخشد ، مانند llama ، برای دستیابی به کیفیت مدل های گران قیمت تر مانند GPT-4O.
“با استفاده از هیچ برچسب ، تائو عملکرد Llama 3.3 70B را با ۲.۴ ٪ در معیار شرکت گسترده بهبود می بخشد.”
این شرکت گفت:
TAO اکنون در پیش نمایش به مشتریان Databricks که می خواهند Llama را تنظیم کنند ، در دسترس است. این شرکت در آینده قصد دارد تائو را به سایر محصولات اضافه کند.
پست های مرتبط
روش TAO Databricks برای آموزش LLM با داده های بدون برچسب
روش TAO Databricks برای آموزش LLM با داده های بدون برچسب
روش TAO Databricks برای آموزش LLM با داده های بدون برچسب