۲۹ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

Google Vertex AI Studio این وعده را در زمینه هوش مصنوعی مولد می دهد

جعبه ابزار هوش مصنوعی مبتنی بر ابر ده‌ها مدل گوگل و شخص ثالث، پشتیبانی مستقیم از RAG و تنظیم مدل، و سایر ویژگی‌های بالقوه قانع‌کننده را در پیش‌نمایش خصوصی ارائه می‌دهد.

جعبه ابزار هوش مصنوعی مبتنی بر ابر ده‌ها مدل گوگل و شخص ثالث، پشتیبانی مستقیم از RAG و تنظیم مدل، و سایر ویژگی‌های بالقوه قانع‌کننده را در پیش‌نمایش خصوصی ارائه می‌دهد.

Vertex AI Studio یک محیط آنلاین برای ساخت برنامه های هوش مصنوعی است، دارای Gemini، هوش مصنوعی مولد چندوجهی خود Google< /a> مدلی که می تواند با متن، کد، صدا، تصاویر و ویدئو کار کند. علاوه بر Gemini، Vertex AI دسترسی به بیش از ۴۰ مدل اختصاصی و بیش از ۶۰ مدل منبع باز را در باغ مدل خود فراهم می‌کند، برای مثال مدل‌های اختصاصی PalM 2، Imagen و Codey از Google Research، مدل‌های منبع باز مانند Llama 2 از متا، و کلود ۲ و کلود ۳ از آنتروپیک. Vertex AI همچنین API های از پیش آموزش دیده را برای گفتار، زبان طبیعی، ترجمه و بینایی ارائه می دهد.

Vertex AI از مهندسی سریع، تنظیم فراپارامتر، نسل تقویت‌شده بازیابی (RAG) و تنظیم مدل پشتیبانی می‌کند. می‌توانید مدل‌های پایه را با داده‌های خود تنظیم کنید، با استفاده از گزینه‌های تنظیم مانند تنظیم آداپتور و یادگیری تقویتی از بازخورد انسانی (RLHF)، یا تنظیم سبک و موضوع را برای تولید تصویر انجام دهید.

برنامه‌های افزودنی Vertex AI مدل‌ها را به داده‌های دنیای واقعی و اقدامات هم‌زمان متصل می‌کنند. Vertex AI به شما امکان می دهد با مدل ها هم در کنسول Google Cloud و هم از طریق API در Python، Node.js، Java و برو.

محصولات رقابتی شامل Amazon Bedrock، Azure AI Studio، LangChain/LangSmith، LlamaIndex، پو، و ChatGPT GPT Builder. سطوح فنی، دامنه و پشتیبانی زبان برنامه نویسی این محصولات متفاوت است.

Vertex AI Studio

Vertex AI Studio یک ابزار کنسول Google Cloud برای ساخت و آزمایش مدل‌های هوش مصنوعی مولد است. این به شما امکان می‌دهد درخواست‌ها را طراحی و آزمایش کنید و مدل‌های پایه را سفارشی کنید تا نیازهای برنامه شما را برآورده کند.

مدل‌های پایه اصطلاح دیگری برای مدل‌های هوش مصنوعی مولد موجود در Vertex AI است. نامیدن آنها به مدل های پایه بر این واقعیت تأکید دارد که می توانند با داده های شما برای اهداف تخصصی برنامه شما سفارشی شوند. آنها می توانند متن، چت، تصویر، کد، ویدیو، داده های چندوجهی، و جاسازی ها تولید کنند.

جاسازی ها نمایش برداری از داده های دیگر، به عنوان مثال متن هستند. موتورهای جستجو اغلب از تعبیه‌های برداری، متریک کسینوس و الگوریتم نزدیک‌ترین همسایه برای یافتن متن مرتبط (مشابه) با یک رشته جستجو استفاده می‌کنند.

مدل های اختصاصی هوش مصنوعی مولد Google موجود در Vertex AI عبارتند از:

  • Gemini API: استدلال پیشرفته، چت چند نوبتی، تولید کد و درخواست‌های چندوجهی.
  • PaLM API: وظایف زبان طبیعی، جاسازی متن و چت چند نوبتی.
  • APIهای Codey: تولید کد، تکمیل کد و چت کد.
  • Imagen API: تولید تصویر، ویرایش تصویر، و شرح تصویری.
  • MedLM: پاسخگویی و جمع بندی سوالات پزشکی (GA خصوصی).

Vertex AI Studio به شما امکان می دهد مدل ها را با استفاده از نمونه های سریع آزمایش کنید. گالری‌های سریع بر اساس نوع مدل (چند وجهی، متنی، بینایی، یا گفتاری) و وظیفه‌ای که نشان داده می‌شود، سازماندهی می‌شوند، به‌عنوان مثال «خلاصه کردن بینش‌های کلیدی از جدول گزارش مالی» (متن) یا «متن را از این یادداشت دست‌نویس بخوانید». تصویر» (چند وجهی).

Vertex AI همچنین به شما کمک می کند تا درخواست های خود را طراحی و ذخیره کنید. انواع اعلان ها بر اساس هدف تقسیم می شوند، برای مثال تولید متن در مقابل تولید کد و تک شات در مقابل چت. همانطور که در زیر به آن می پردازیم، تکرار در فرمان های شما یک روش شگفت آور قدرتمند برای سفارشی کردن یک مدل برای تولید خروجی مورد نظر شما است.

زمانی که مهندسی سریع برای ترغیب یک مدل به تولید خروجی مورد نظر کافی نیست، و شما یک مجموعه داده آموزشی با فرمت مناسب دارید، می توانید گام بعدی را بردارید و یک مدل پایه را به یکی از چندین روش تنظیم کنید: با نظارت تنظیم، تنظیم RLHF، یا تقطیر. مجدداً، در این بررسی با جزئیات بیشتری در این مورد بحث خواهیم کرد.

ابزار گفتار Vertex AI Studio می تواند گفتار را به متن و متن را به گفتار تبدیل کند. برای متن به گفتار می توانید صدای دلخواه خود را انتخاب کرده و سرعت آن را کنترل کنید. برای گفتار به متن، Vertex AI Studio از مدل Chirp استفاده می‌کند، اما محدودیت‌هایی در طول و فرمت فایل دارد. با استفاده از کنسول گفتار به متن ابری در عوض.

vertex ai studio 01

کنسول نمای کلی Google Vertex AI Studio، با تاکید بر جدیدترین مدل‌های اختصاصی AI مولد Google. به استفاده از Google Gemini برای هوش مصنوعی چندوجهی، PaLM2 یا Gemini برای هوش مصنوعی زبان، Imagen برای بینایی (تولید تصویر و تکمیل)، و مدل جهانی گفتار برای تشخیص و ترکیب گفتار توجه کنید.

vertex ai studio 03

نمایش هوش مصنوعی مولد چندوجهی از Vertex AI. مدل Gemini Pro Vision، علیرغم خوشنویسی دقیق، قادر به خواندن پیام از تصویر است.

جریان کاری هوش مصنوعی مولد

همانطور که در نمودار زیر می بینید، گردش کار هوش مصنوعی مولد Google Vertex کمی پیچیده تر از پرتاب کردن یک درخواست روی دیوار و گرفتن پاسخ است. هوش مصنوعی و فیلتر ایمنی مسئول Google هم برای ورودی و هم در خروجی اعمال می‌شود و از مدل در برابر درخواست‌های مخرب و کاربر در برابر پاسخ‌های مخرب محافظت می‌کند.

مدل پایه ای که پرس و جو را پردازش می کند می تواند از قبل آموزش داده یا تنظیم شود. تنظیم مدل، در صورت تمایل، می تواند با استفاده از چندین روش انجام شود، که همه آنها برای گردش کار پرس و جو/پاسخ خارج از باند هستند و کاملاً زمان بر هستند.

اگر به زمین نیاز است، در اینجا اعمال می شود. نمودار خدمات اتصال به زمین را پس از مدل در جریان نشان می دهد. همانطور که در ژانویه توضیح دادم RAG دقیقاً اینگونه کار نمی کند. خارج از باند، شما پایگاه داده برداری خود را می سازید. درون باند، یک بردار جاسازی برای پرس و جو ایجاد می‌کنید، از آن برای انجام جستجوی مشابه در پایگاه داده برداری استفاده می‌کنید و در نهایت آنچه را که از پایگاه داده برداری بازیابی کرده‌اید به‌عنوان تقویت‌کننده به کوئری اصلی اضافه می‌کنید و آن را به مدل.

در این مرحله، مدل پاسخ‌هایی را تولید می‌کند، احتمالاً بر اساس اسناد متعدد. گردش کار اجازه می دهد تا قبل از ارسال پاسخ به کاربر از طریق فیلتر ایمنی، نقل قول ها درج شود.

vertex ai studio 02

جریان کاری هوش مصنوعی مولد معمولاً با درخواست کاربر شروع می شود. در انتهای پشتی، اعلان از طریق یک فیلتر ایمنی به مدل‌های فونداسیون از پیش آموزش‌دیده یا تنظیم‌شده، به‌صورت اختیاری با استفاده از سرویس اتصال زمین برای RAG می‌گذرد. پس از بررسی استناد، پاسخ از طریق فیلتر ایمنی و به کاربر ارسال می‌شود.

Grounding and Vertex AI Search

همانطور که ممکن است از نحوه عملکرد RAG انتظار داشته باشید، Vertex AI از شما می‌خواهد چند مرحله را برای فعال کردن RAG انجام دهید. ابتدا باید به «جستجو و مکالمه با هوش مصنوعی Vertex» وارد شوید، که تنها چند کلیک و چند دقیقه انتظار است. سپس باید یک فروشگاه داده جستجوی هوش مصنوعی ایجاد کنید که می‌تواند با خزیدن در وب‌سایت‌ها، وارد کردن داده‌ها از جدول BigQuery، وارد کردن داده‌ها از یک سطل ذخیره‌سازی ابری (فرمت‌های PDF، HTML، TXT، JSONL، CSV، DOCX یا PPTX) انجام شود. ، یا با فراخوانی یک API.

در نهایت، باید یک درخواست با مدلی راه‌اندازی کنید که از RAG پشتیبانی می‌کند (در حال حاضر فقط text-bison و chat-bison، هر دو مدل زبان PalM 2) پشتیبانی می‌کند و آن را برای استفاده از ذخیره داده‌های جستجو و مکالمه هوش مصنوعی خود پیکربندی کنید. اگر از کنسول Vertex AI استفاده می کنید، این تنظیمات در بخش پیشرفته پارامترهای prompt است، همانطور که در تصویر اول تصویر زیر نشان داده شده است. اگر از Vertex AI API استفاده می کنید، این تنظیمات در بخش groundingConfig پارامترها است:

{
  "instances": [
    { "prompt": "PROMPT"}
  ],
  "parameters": {
    "temperature": TEMPERATURE,
    "maxOutputTokens": MAX_OUTPUT_TOKENS,
    "topP": TOP_P,
    "topK": TOP_K,
    "groundingConfig": {
      "sources": [
          {
              "type": "VERTEX_AI_SEARCH",
              "vertexAiSearchDatastore": "VERTEX_AI_SEARCH_DATA_STORE"
          }
      ]
    }
  }
}

vertex ai studio 04

اگر در حال ساخت یک درخواست برای مدلی هستید که از اتصال به زمین پشتیبانی می‌کند، کلید فعال کردن زمین در سمت راست، در زیر Advanced، فعال می‌شود، و شما می‌توانید روی آن کلیک کنید، همانطور که من اینجا دارم. با کلیک بر روی Customize یک پانل دیگر در سمت راست ظاهر می شود که در آن می توانید Vertex AI Search را از لیست کشویی انتخاب کنید و مسیر ذخیره داده Vertex AI را پر کنید.

توجه داشته باشید که بسته به نحوه و زمان آموزش مدل ممکن است به زمین یا RAG نیاز باشد یا نباشد.

vertex ai studio 05

معمولاً ارزش بررسی این را دارد که ببینید آیا برای هر جفت درخواست/مدل معینی به زمین نیاز دارید. فکر کردم شاید لازم باشد بخش شعرهای Poetry.org سایت برای به دست آوردن یک تکمیل خوب برای “آیا تو را با یک روز تابستان مقایسه کنم؟” اما همانطور که در بالا می بینید، مدل متن-بیسون قبلاً غزل را از چهار منبعی که می توانست (و می توانست) استناد کند، می دانست.

Gemini، Imagen، Chirp، Codey و PalM 2

مدل‌های اختصاصی Google برخی از ارزش افزوده سایت Vertex AI را ارائه می‌کنند. جمینی در یک مدل چند وجهی (و همچنین یک مدل تولید متن و کد) چند هفته قبل از نوشتن این مطلب. سپس OpenAI GPT-4 DALL-E را در خود جای داد که به آن اجازه تولید متن یا تصاویر را می داد. در حال حاضر، Gemini می‌تواند متن از تصاویر و ویدئوها را تولید کند، اما GPT-4/DALL-E نمی‌تواند.

نسخه‌های Gemini که در حال حاضر در Vertex AI ارائه می‌شوند عبارتند از Gemini Pro، یک مدل زبان با “بهترین مدل Gemini با عملکرد با ویژگی‌هایی برای طیف وسیعی از وظایف؛” Gemini Pro Vision، یک مدل چندوجهی “از ابتدا برای چندوجهی (متن، تصاویر، ویدئوها) و برای مقیاس بندی در طیف گسترده ای از وظایف ایجاد شده است. و Gemma، “انواع ایست بازرسی باز مدل Gemini Google DeepMind که برای انواع وظایف تولید متن مناسب است.”

نسخه‌های اضافی Gemini اعلام شده است: Gemini 1.0 Ultra، Gemini Nano (برای اجرا در دستگاه‌ها) و Gemini 1.5 Pro، یک مدل چندوجهی با اندازه متوسط ​​ترکیبی از متخصصان (MoE)، بهینه‌سازی شده برای مقیاس‌بندی در طیف گسترده‌ای از وظایف، که در کارهای مشابه انجام می‌شود. سطح به Gemini 1.0 Ultra. به گفته دمیس حسابیس، مدیرعامل و یکی از بنیانگذاران Google DeepMind، Gemini 1.5 Pro با یک پنجره زمینه استاندارد ۱۲۸۰۰۰ توکن ارائه می شود، اما گروه محدودی از مشتریان می توانند آن را با پنجره زمینه تا ۱ میلیون توکن از طریق Vertex AI به صورت خصوصی امتحان کنند. پیش نمایش.

Imagen 2 یک مدل انتشار متن به تصویر از Google Brain Research است که گوگل می گوید: درجه بی سابقه ای از فوتورئالیسم و ​​سطح عمیقی از درک زبان.” این قابل رقابت با DALL-E 3، Midjourney 6 و Adobe Firefly 2 ، در میان دیگران.

نسخه‌ای از یک مدل گفتار جهانی است که بیش از ۲B پارامتر دارد و می‌تواند به بیش از ۱۰۰ زبان در یک مدل رونویسی کند. می‌تواند گفتار صوتی را به متن قالب‌بندی‌شده تبدیل کند، ویدیوها را برای زیرنویس شرح دهد، و محتوای صوتی را برای استخراج موجودیت و طبقه‌بندی محتوا رونویسی کند.

Codey در نسخه‌هایی برای تکمیل کد (code-gecko)، تولید کد (̉code-bison)، و کد چت (codechat-bison). APIهای Codey از زبان‌های Go، GoogleSQL، Java، JavaScript، Python و TypeScript و Google Cloud CLI، Kubernetes Resource Model (KRM) و زیرساخت Terraform به عنوان کد پشتیبانی می‌کنند. Codey با GitHub Copilot، StarCoder 2، CodeLlama، LocalLlama، DeepSeekCoder، CodeT5+، CodeBERT، CodeWhisperer، Bard، و سایر LLMهایی که در کد به خوبی تنظیم شده اند مانند OpenAI Codex، Tabnine و ChatGPTCoding.

PaLM 2 در نسخه‌هایی برای متن (text-bison و text-unicorn)، chat (̉chat-bison) و فعلاً وظایف خاص امنیتی توسط ec-pal,در دسترس است. PaLM 2 text-bison برای خلاصه‌سازی، پاسخ به سؤال، طبقه‌بندی، تحلیل احساسات و استخراج موجودیت خوب است. PaLM 2 chat-bison برای انجام مکالمه طبیعی، به عنوان مثال برای انجام خدمات مشتری و پشتیبانی فنی یا خدمت به عنوان دستیار مکالمه برای وب سایت ها، به خوبی تنظیم شده است. PaLM 2 text-unicorn، بزرگترین مدل در خانواده PaLM، در کارهای پیچیده مانند کدنویسی و زنجیره ای از فکر (CoT) برتری دارد.

Google همچنین مدل‌های تعبیه‌شده را برای متن (textembedding-gecko and textembedding-gecko-multilingual) و چند وجهی (multimodalembedding). جاسازی‌ها به‌علاوه یک پایگاه داده برداری (جستجوی Vertex AI) به شما امکان می‌دهد تا جستجوی معنایی یا تشابهی و RAG را همانطور که در بالا توضیح داده شد، پیاده‌سازی کنید.

vertex ai studio 06

بررسی اجمالی مستندات هوش مصنوعی Vertex از مدل‌های چندوجهی. به مثال پایین سمت راست توجه کنید. پیام متنی «یک دستور پخت برای این کوکی‌ها به من بده» و یک عکس بدون برچسب از کوکی‌های شکلاتی باعث می‌شود جمینی با دستور العمل واقعی برای کوکی‌های چیپسی شکلاتی پاسخ دهد.

باغ مدل Vertex AI

علاوه بر مدل‌های اختصاصی Google، باغ مدل (اسناد) در حال حاضر تقریباً ۹۰ مورد باز ارائه می‌کند مدل های منبع و ۳۸ راه حل ویژه کار. به طور کلی مدل ها دارای کارت مدل هستند. مدل‌های Google از طریق Vertex AI API و Google Colab و همچنین در کنسول Vertex AI در دسترس هستند. صورت‌حساب APIها بر اساس استفاده صورت می‌گیرد.

مدل های دیگر معمولاً در Colab Enterprise موجود هستند و می توانند به عنوان نقطه پایانی مستقر شوند. توجه داشته باشید که نقاط پایانی در موارد جدی با شتاب دهنده ها (به عنوان مثال ۹۶ CPU و ۸ GPU) مستقر می شوند و بنابراین تا زمانی که مستقر هستند، هزینه های قابل توجهی ایجاد می شود.

مدل های بنیاد ارائه شده عبارتند از Claude 3 Opus (به زودی)، غزل کلود ۳ (پیش نمایش)، کلود ۳ هایکو (به زودی)، لاما ۲، و Stable Diffusion v1-5. مدل‌های با قابلیت تنظیم دقیق عبارتند از PyTorch-ZipNeRF برای بازسازی سه بعدی، AutoGluon برای داده های جدولی، Stable Diffusion LoRA (MediaPipe) برای تولید متن به تصویر، و ̉̉تشخیص اکشن ویدیوی MoViNet.

طراحی اعلان هوش مصنوعی

Google AI صفحه استراتژی‌های طراحی سریع یک کار مناسب و عموماً بی‌طرفانه از فروشنده را توضیح می‌دهد. نحوه طراحی دستورات برای هوش مصنوعی مولد بر وضوح، ویژگی، از جمله مثال‌ها (آموزش چند مرحله‌ای)، افزودن اطلاعات زمینه‌ای، استفاده از پیشوندها برای وضوح، اجازه دادن به مدل‌ها برای تکمیل ورودی‌های جزئی، تجزیه اعلان‌های پیچیده به اجزای ساده‌تر، و آزمایش مقادیر پارامترهای مختلف برای بهینه‌سازی نتایج، تأکید می‌کند. p>

بیایید به سه مثال نگاه کنیم، یکی برای چندوجهی، متنی و بینایی. مثال چند وجهی جالب است زیرا از دو تصویر و یک سوال متنی برای دریافت پاسخ استفاده می کند.

  • < meta content="4.5" itemprop="ratingValue"/>

    Vertex AI Studio محصولی امیدوارکننده است که به طور بالقوه می تواند به شدت با Amazon Bedrock و Azure AI Studio رقابت کند. مزایای بسیاری شامل استفاده از مدل های خود گوگل، پذیرش سریع و استقرار مدل های جدید از سایر فروشندگان، و پشتیبانی مستقیم آن از RAG و تنظیم مدل است. از جنبه منفی، بسیاری از محصولات هنوز دسترسی محدود دارند.

    مزایا

    • محیط آنلاین خوب برای ساخت برنامه های هوش مصنوعی
    • بیش از ۴۰ مدل اختصاصی و بیش از ۶۰ مدل منبع باز را در باغ مدل خود ارائه می دهد
    • پشتیبانی مستقیم از نسل افزوده شده با بازیابی و تنظیم مدل
    • اقتباس و استقرار سریع مدل‌های جدید از سایر فروشندگان

    معایب

    • بسیاری از محصول هنوز دسترسی محدود دارد
    • به طور خاص، برنامه‌های افزودنی هوش مصنوعی تولیدی هنوز در پیش‌نمایش خصوصی هستند

Vertex AI Studio محصولی امیدوارکننده است که به طور بالقوه می تواند به شدت با Amazon Bedrock و Azure AI Studio رقابت کند. مزایای بسیاری شامل استفاده از مدل های خود گوگل، پذیرش سریع و استقرار مدل های جدید از سایر فروشندگان، و پشتیبانی مستقیم آن از RAG و تنظیم مدل است. از جنبه منفی، بسیاری از محصولات هنوز دسترسی محدود دارند.

  • محیط آنلاین خوب برای ساخت برنامه های هوش مصنوعی
  • بیش از ۴۰ مدل اختصاصی و بیش از ۶۰ مدل منبع باز را در باغ مدل خود ارائه می دهد
  • پشتیبانی مستقیم از نسل افزوده شده با بازیابی و تنظیم مدل
  • اقتباس و استقرار سریع مدل‌های جدید از سایر فروشندگان
  • بسیاری از محصول هنوز دسترسی محدود دارد
  • به طور خاص، برنامه‌های افزودنی هوش مصنوعی تولیدی هنوز در پیش‌نمایش خصوصی هستند