PaliGemma یک مدل زبان بینایی باز است که برای کارهایی مانند نوشتن شرح تصاویر، پاسخگویی بصری به سوالات و تشخیص اشیا طراحی شده است.
Google با معرفی خانواده مدلهای هوش مصنوعی Gemma خود را گسترش داده است. مدل زبان بینایی PaliGemma (VLM) و معرفی Gemma 2، نسل بعدی مدلهای Gemma بر اساس معماری جدید این شرکت همچنین LLM Comparator را به صورت متن باز منتشر کرد، که افزوده ای به مسئولیت مولد AI Toolkit.
Google محصولات جدید را در ۱۴ مه معرفی کرد< /a>. این شرکت PaliGemma را به عنوان یک VLM باز قدرتمند توصیف کرد که از مدلهای زبان بینایی Pali-3 الهام گرفته شده است. کوچکتر، سریعتر و قوی تر. PaliGemma که بر روی اجزای مدل بینایی SigLIP ساخته شده است، برای طیف وسیعی از وظایف به زبان بینایی از جمله شرح تصویر و ویدیو، پاسخ به سؤالات بصری، درک متن در تصاویر، تشخیص اشیا و تقسیم بندی اشیا طراحی شده است. PaliGemma را میتوانید در GitHub، صورت در آغوش گرفته، Kaggle و Vertex AI.
به گفته گوگل، Gemma 2 که قرار است در هفتههای آینده به طور رسمی معرفی شود، دارای معماری جدیدی است که برای «عملکرد و کارایی پیشرفتکننده» طراحی شده است. گوگل گفت: با ۲۷ میلیارد پارامتر، Gemma 2 عملکردی قابل مقایسه با Llama 3B در کمتر از نصف اندازه ارائه می دهد. طراحی کارآمد هزینههای استقرار را کاهش میدهد، با نصب Gemma 2 در کمتر از نیمی از مدلهای قابل مقایسه. برای تنظیم دقیق، Gemma 2 میتواند با راهحلهایی از Google Cloud گرفته تا ابزارهایی مانند Axolotl.
Google همچنین با انتشار مقایسهکننده LLM بهصورت باز به جعبهابزار هوش مصنوعی مولد مسئولیتپذیر خود اضافه کرد. منبع مقایسهکننده LLM که برای کمک به توسعهدهندگان در انجام ارزیابیهای مدل طراحی شده است، یک ابزار تجسم داده تعاملی است که به کاربران اجازه میدهد تا ارزیابیهای جانبی پاسخهای مدل را برای ارزیابی کیفیت و ایمنی آنها انجام دهند.
پست های مرتبط
گوگل از PaliGemma رونمایی کرد و Gemma 2 را معرفی کرد
گوگل از PaliGemma رونمایی کرد و Gemma 2 را معرفی کرد
گوگل از PaliGemma رونمایی کرد و Gemma 2 را معرفی کرد