۱ دی ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

۱۴ LLM که ChatGPT نیستند

ChatGPT تنها گزینه شما برای تولید محتوا و بینش از هوش مصنوعی نیست. در اینجا 14 مدل زبان بزرگ ارائه شده است که ChatGPT را برای پول خود مورد استفاده قرار می دهد.

ChatGPT تنها گزینه شما برای تولید محتوا و بینش از هوش مصنوعی نیست. در اینجا ۱۴ مدل زبان بزرگ ارائه شده است که ChatGPT را برای پول خود مورد استفاده قرار می دهد.

C-suite امروزی پر از روسایی است که هوش مصنوعی را آینده می دانند و بسیاری از رهبران فناوری ChatGPT را مترادف با هوش مصنوعی می دانند. اما پروژه شاخص OpenAI با تنها مدل زبان بزرگ فاصله زیادی دارد—و برای برخی پروژه های نرم افزاری یا دامنه ها، حتی ممکن است بهترین انتخاب نباشد. رقبای جدید تقریباً هر روز ظاهر می شوند. به نظر می رسد همه می خواهند نسل بعدی ابزارهای هوش مصنوعی را بسازند که یا زمین را آزاد می کند یا نابود می کند، بسته به اینکه چه کسی صحبت می کند.

آیا برخی از مدل ها بهتر از بقیه هستند؟ شاید. همه آنها دارای ایرادات، عیوب، اشکالات و نقاط ضعفی هستند که هر چه بیشتر از آنها استفاده کنید آشکارتر می شوند. هوش مصنوعی مولد در نگاه اول شگفت انگیز به نظر می رسد، اما با گذشت زمان جنبه عجیب و غیرقابل پیش بینی آن ظاهر می شود.

معیارسازی LLMs

اندازه‌گیری کیفیت پاسخ‌های هوش مصنوعی مولد به‌دلیل گستره مدل‌ها و نحوه استفاده از آنها دشوار است. یک دانشمند داده می‌تواند هزاران یا حتی میلیون‌ها سوال تستی را تغذیه کند و پاسخ‌ها را ارزیابی کند، اما اگر مجموعه‌های تست فقط بر یک نوع سوال تمرکز کنند، نتایج محدود خواهند شد. مشاوره با منبعی مانند Open LLM Leaderboard جالب است اما لزوماً دقیق نیست.

اگر یافتن یک راه دقیق برای معیار LLM دشوار است، حداقل جابجایی بین آنها آسان تر می شود. برخی از پروژه‌ها مانند OpenLLM یا FastChat سیم‌کشی مدل‌های مختلف را با وجود رابط‌های API و رابط‌های مختلف ساده‌تر می‌کند. می‌توانید لایه‌ها را به هم بدوزید و حتی گاهی اوقات مدل‌ها را به صورت موازی اجرا کنید.

یک سوال بزرگ در پس زمینه هزینه است. در حالی که همه از انفجار علاقه و سرمایه گذاری لذت می برند، ساخت یک مدل زبان بزرگ می تواند ماه ها یا حتی سال ها طول بکشد. تیم‌ها ابتدا داده‌های آموزشی را جمع‌آوری می‌کنند، سپس داده‌ها را از طریق سخت‌افزار گران‌قیمتی که الکتریسیته را می‌مکد، هدایت می‌کنند. در نهایت مدل را تولید می کنند. بهترین راه برای کسب درآمد و حفظ این کار یک سوال در حال تکامل است.

برخی از سازمان‌ها در حال آزمایش منبع باز نتایج خود هستند، در حالی که برخی دیگر با خوشحالی به خدماتی با مدل‌های صورت‌حساب خود متکی هستند. LLM های منبع باز می توانند یک هدیه واقعی باشند – اما فقط در صورتی که بتوانید کار استقرار مدل و اجرای آن را انجام دهید.

در اینجا نگاهی به ۱۴ مدل زبان بزرگ که ChatGPT نیستند می‌اندازیم. آنها ممکن است فقط آن چیزی باشند که پروژه شما نیاز دارد یا نباشند. تنها راه برای دانستن این است که درخواست های خود را برای آنها ارسال کنید و نتایج را به دقت ارزیابی کنید.

شروع کار با Teams JavaScript SDK v2.0

لاما

فیس‌بوک (اکنون متا) این LLM پایه را ایجاد کرد و سپس آن را به عنوان بخشی از “تعهد خود به علم باز” منتشر کرد. Alpaca و Vicuna هر دو بر روی Llama ساخته شده‌اند.) این مدل همچنین در چهار اندازه مختلف موجود است. نسخه‌های کوچک‌تر، با تنها ۷ میلیارد پارامتر، در حال حاضر در مکان‌های غیرمحتمل استفاده می‌شوند. حتی یک توسعه‌دهنده حتی ادعا می‌کند که Llama روی Raspberry Pi و تنها با ۴ گیگابایت رم کار می‌کند.

آلپاکا

چندین محقق دانشگاه استنفورد Llama 7B متا را گرفتند و آن را بر اساس مجموعه‌ای از اعلان‌ها آموزش دادند که از مدل‌های زیر دستورالعمل مانند ChatGPT تقلید می‌کنند. این کمی تنظیم دقیق Alpaca 7B را ایجاد کرد، یک LLM که باز می شود دانش کدگذاری شده در Llama LLM به چیزی که یک فرد عادی می تواند با پرسیدن سؤال و ارائه دستورالعمل به آن دسترسی پیدا کند. برخی تخمین ها نشان می دهد که LLM سبک وزن می تواند با سخت افزار کمتر از ۶۰۰ دلار کار کند.

سازندگان Alpaca 7B مجموعه آموزشی و کد سازنده آن را توزیع می‌کنند. هر کسی می تواند مدل را کپی کند یا چیزی جدید از مجموعه دیگری ایجاد کند.

ویکونا

یکی دیگر از نوادگان لاما Vicuna است  از LMSYS.org. تیم Vicuna مجموعه آموزشی متشکل از ۷۰۰۰۰ مکالمه مختلف را از ShareGPT جمع آوری کرد و توجه ویژه ای به ایجاد تعاملات چند مرحله ای و قابلیت های دنبال کردن دستورالعمل ها داشت. در دسترس به عنوان Vicuna-13b یا Vicuna-7b، این LLM یکی از رقابتی ترین راه حل های باز قیمت برای چت تعاملی اساسی است.

NodePad

همه مجذوب روشی نیستند که LLMها متن “از لحاظ زبانی دقیق” تولید می کنند. سازندگان NodePad معتقدند که کیفیت متن تمایل کاربران را از بررسی مجدد حقایق اساسی منحرف می کند. LLM ها با رابط های کاربری خوب، “مایلند به طور ناخواسته نتیجه را تحسین کنند و پیش بینی این مشکلات را برای کاربران دشوارتر کنند.” NodePad برای پرورش اکتشاف و ایده‌پردازی بدون تولید نمونه‌های نوشتاری صیقلی طراحی شده است که کاربران به سختی می‌خوانند. نتایج حاصل از این LLM به عنوان گره ها و اتصالات ظاهر می شوند، مانند آنچه در بسیاری از “ابزارهای نقشه برداری ذهن” مشاهده می کنید، و نه مانند نوشتن تمام شده. کاربران می توانند از دانش دایره المعارفی مدل برای ایده های عالی استفاده کنند بدون اینکه در ارائه گم شوند.

اورکا

نسل اول مدل‌های زبان بزرگ از نظر اندازه موفق شدند و با گذشت زمان بزرگ‌تر و بزرگ‌تر شدند. Orca، از تیم محققان در مایکروسافت، این روند را معکوس می کند. این مدل تنها از ۱۳ میلیارد پارامتر استفاده می کند که امکان کار بر روی ماشین های متوسط ​​را فراهم می کند. توسعه دهندگان Orca با تقویت الگوریتم آموزشی برای استفاده از «ردپای توضیحی»، «فرایندهای فکری گام به گام» و «دستورالعمل ها» به این موفقیت دست یافتند. به جای اینکه فقط از هوش مصنوعی بخواهد از مواد خام بیاموزد، به Orca مجموعه آموزشی داده شد که برای آموزش طراحی شده بود. به عبارت دیگر، درست مانند انسان‌ها، هوش مصنوعی‌ها زمانی که به اعماق زمین پرتاب نمی‌شوند، سریع‌تر یاد می‌گیرند. نتایج اولیه امیدوارکننده است و تیم مایکروسافت معیارهایی ارائه می دهد که نشان می دهد این مدل به اندازه مدل های بزرگتر عمل می کند.

اطمینان حاصل کنید که منبع باز هوش مصنوعی را خراب نمی کند

جاسپر

سازندگان جاسپر نمی‌خواستند یک معمم عاقل بسازند. آنها یک ماشین متمرکز برای تولید محتوا می خواستند. این سیستم به جای صرف یک جلسه چت باز، بیش از ۵۰ الگو را ارائه می دهد که برای کارهای خاصی مانند ایجاد فهرست املاک یا نوشتن ویژگی های محصول برای سایتی مانند آمازون طراحی شده اند. نسخه‌های پولی مخصوصاً برای مشاغلی طراحی شده است که می‌خواهند یک نسخه بازاریابی با لحن ثابت ایجاد کنند.

کلود

Anthropic Claude را ایجاد کرد تا یک دستیار مفید باشد که می تواند بسیاری از کارهای مبتنی بر متن کسب و کار را انجام دهد، از تحقیق برای خدمات مشتری یک اعلان می رود و یک جواب می آید. Anthropic عمداً به دستورات طولانی اجازه می دهد تا دستورالعمل های پیچیده تر را تشویق کند و به کاربران کنترل بیشتری بر نتایج بدهد. Anthropic در حال حاضر دو نسخه ارائه می دهد: مدل کامل به نام Claude-v1 و یک مدل ارزان تر و ساده به نام Claude Instant که به طور قابل توجهی ارزان تر. اولی برای مشاغلی است که نیاز به استدلال پیچیده تر و ساختار یافته دارند، در حالی که دومی برای کارهای ساده ای مانند طبقه بندی و تعدیل سریعتر و بهتر است.

مغز

هنگامی که سخت افزار تخصصی و یک مدل کلی با هم تکامل می یابند، می توانید به یک راه حل بسیار سریع و کارآمد دست پیدا کنید. Cerebras LLM خود را در صورت در آغوش گرفته در اندازه های مختلف از کوچک (۱۱۱ میلیون پارامتر) تا بزرگتر (۱۳ میلیارد پارامتر) ارائه می دهد. ) برای کسانی که می خواهند آن را به صورت محلی اجرا کنند. با این حال، بسیاری مایلند از سرویس‌های ابری استفاده کنند که روی پردازنده‌های یکپارچه مقیاس ویفر خود Cerebras که برای شخم زدن در مجموعه‌های آموزشی بزرگ بهینه شده‌اند، اجرا می‌شوند.

شاهین

Falcon-40b با اندازه کامل و Falcon-7b توسط موسسه نوآوری فناوری (TII) در امارات متحده عربی ساخته شد. آنها مدل فالکون را بر روی مجموعه بزرگی از مثال‌های کلی از RefinedWeb با تمرکز بر بهبود استنتاج آموزش دادند. سپس آن‌ها را برگرداندند و آن را با آپاچی ۲.۰ منتشر کردند و آن را به یکی از بازترین و بدون محدودیت‌ترین مدل‌های موجود برای آزمایش تبدیل کردند.

ImageBind

بسیاری متا را شرکت بزرگی می دانند که بر رسانه های اجتماعی تسلط دارد، اما همچنین نیروی قدرتمندی در توسعه نرم افزار منبع باز است. اکنون که علاقه به هوش مصنوعی در حال افزایش است، جای تعجب نیست که این شرکت شروع به اشتراک گذاری بسیاری از نوآوری های خود کرده است. ImageBind پروژه ای است که نشان می دهد هوش مصنوعی چگونه می تواند ایجاد کند انواع مختلفی از داده ها در یک زمان؛ در این مورد، متن، صدا و تصویر. به عبارت دیگر، اگر شما اجازه دهید، هوش مصنوعی مولد می‌تواند کل دنیای خیالی را به هم بچسباند.

گوگل دسترسی به 2 میلیون پنجره زمینه Gemini 1.5 Pro را باز می کند

گوریل

احتمالاً درباره استفاده از هوش مصنوعی مولد برای نوشتن کد زیاد شنیده اید. نتایج اغلب به طور سطحی چشمگیر هستند اما در بررسی دقیق عمیقاً ناقص هستند. نحو ممکن است درست باشد، اما فراخوانی های API همه اشتباه هستند، یا حتی ممکن است به سمت تابعی هدایت شوند که وجود ندارد. Gorilla یک LLM است که برای انجام بهتر کار با رابط های برنامه نویسی طراحی شده است. سازندگان آن با Llama شروع کردند و سپس آن را با تمرکز بر جزئیات برنامه‌نویسی عمیق‌تر که مستقیماً از مستندات جدا شده بودند، تنظیم کردند. تیم گوریلا همچنین مجموعه ای از معیارهای مبتنی بر API خود را برای موفقیت در آزمایش ارائه می دهد. این یک نکته مهم برای برنامه نویسانی است که به دنبال تکیه بر هوش مصنوعی برای کمک به کدنویسی هستند.

Ora.ai

Ora سیستمی است که به کاربران اجازه می‌دهد چت‌بات‌های هدفمند خود را ایجاد کنند که برای یک کار خاص بهینه شده‌اند. LibrarianGPT سعی می‌کند به هر سؤالی با یک قطعه مستقیم از کتاب پاسخ دهد. به عنوان مثال، پروفسور کارل سیگان، رباتی است که از تمام نوشته‌های ساگان استخراج می‌شود. بنابراین او می تواند میلیاردها و میلیاردها سال زندگی کند. می توانید ربات خود را ایجاد کنید یا از یکی از صدها ربات ایجاد شده توسط دیگران استفاده کنید.

AgentGPT

یکی دیگر از ابزارهایی که همه کدهای لازم برای یک برنامه را به هم متصل می کند AgentGPT است. این برای ایجاد عواملی طراحی شده است که می توانند برای مقابله با کارهایی مانند برنامه ریزی برای تعطیلات یا نوشتن کد یک نوع بازی ارسال شوند. کد منبع برای بسیاری از پشته فناوری تحت GPL 3.0 در دسترس است. همچنین یک نسخه در حال اجرا به عنوان یک سرویس در دسترس است.

FrugalGPT

این یک مدل متفاوت نیست، بلکه یک استراتژی دقیق برای یافتن ارزان‌ترین مدل ممکن برای پاسخ به یک سؤال خاص است. محققانی که FrugalGPT را توسعه دادند، متوجه شدند که بسیاری از سوالات به بزرگترین و گرانترین مدل نیاز ندارند. الگوریتم آن‌ها با ساده‌ترین الگوریتم شروع می‌شود و فهرستی از LLM‌ها را در یک آبشار بالا می‌برد تا زمانی که پاسخ خوبی پیدا کند. آزمایش‌های محقق نشان می‌دهد که این رویکرد دقیق ممکن است ۹۸ درصد از هزینه را صرفه‌جویی کند، زیرا بسیاری از سؤالات واقعاً به یک مدل پیچیده نیاز ندارند.

شاید به این مطالب علاقمند باشید