ChatGPT تنها گزینه شما برای تولید محتوا و بینش از هوش مصنوعی نیست. در اینجا ۱۴ مدل زبان بزرگ ارائه شده است که ChatGPT را برای پول خود مورد استفاده قرار می دهد.
C-suite امروزی پر از روسایی است که هوش مصنوعی را آینده می دانند و بسیاری از رهبران فناوری ChatGPT را مترادف با هوش مصنوعی می دانند. اما پروژه شاخص OpenAI با تنها مدل زبان بزرگ فاصله زیادی دارد—و برای برخی پروژه های نرم افزاری یا دامنه ها، حتی ممکن است بهترین انتخاب نباشد. رقبای جدید تقریباً هر روز ظاهر می شوند. به نظر می رسد همه می خواهند نسل بعدی ابزارهای هوش مصنوعی را بسازند که یا زمین را آزاد می کند یا نابود می کند، بسته به اینکه چه کسی صحبت می کند.
آیا برخی از مدل ها بهتر از بقیه هستند؟ شاید. همه آنها دارای ایرادات، عیوب، اشکالات و نقاط ضعفی هستند که هر چه بیشتر از آنها استفاده کنید آشکارتر می شوند. هوش مصنوعی مولد در نگاه اول شگفت انگیز به نظر می رسد، اما با گذشت زمان جنبه عجیب و غیرقابل پیش بینی آن ظاهر می شود.
معیارسازی LLMs
اندازهگیری کیفیت پاسخهای هوش مصنوعی مولد بهدلیل گستره مدلها و نحوه استفاده از آنها دشوار است. یک دانشمند داده میتواند هزاران یا حتی میلیونها سوال تستی را تغذیه کند و پاسخها را ارزیابی کند، اما اگر مجموعههای تست فقط بر یک نوع سوال تمرکز کنند، نتایج محدود خواهند شد. مشاوره با منبعی مانند Open LLM Leaderboard جالب است اما لزوماً دقیق نیست.
اگر یافتن یک راه دقیق برای معیار LLM دشوار است، حداقل جابجایی بین آنها آسان تر می شود. برخی از پروژهها مانند OpenLLM یا FastChat سیمکشی مدلهای مختلف را با وجود رابطهای API و رابطهای مختلف سادهتر میکند. میتوانید لایهها را به هم بدوزید و حتی گاهی اوقات مدلها را به صورت موازی اجرا کنید.
یک سوال بزرگ در پس زمینه هزینه است. در حالی که همه از انفجار علاقه و سرمایه گذاری لذت می برند، ساخت یک مدل زبان بزرگ می تواند ماه ها یا حتی سال ها طول بکشد. تیمها ابتدا دادههای آموزشی را جمعآوری میکنند، سپس دادهها را از طریق سختافزار گرانقیمتی که الکتریسیته را میمکد، هدایت میکنند. در نهایت مدل را تولید می کنند. بهترین راه برای کسب درآمد و حفظ این کار یک سوال در حال تکامل است.
برخی از سازمانها در حال آزمایش منبع باز نتایج خود هستند، در حالی که برخی دیگر با خوشحالی به خدماتی با مدلهای صورتحساب خود متکی هستند. LLM های منبع باز می توانند یک هدیه واقعی باشند – اما فقط در صورتی که بتوانید کار استقرار مدل و اجرای آن را انجام دهید.
در اینجا نگاهی به ۱۴ مدل زبان بزرگ که ChatGPT نیستند میاندازیم. آنها ممکن است فقط آن چیزی باشند که پروژه شما نیاز دارد یا نباشند. تنها راه برای دانستن این است که درخواست های خود را برای آنها ارسال کنید و نتایج را به دقت ارزیابی کنید.
لاما
فیسبوک (اکنون متا) این LLM پایه را ایجاد کرد و سپس آن را به عنوان بخشی از “تعهد خود به علم باز” منتشر کرد. Alpaca و Vicuna هر دو بر روی Llama ساخته شدهاند.) این مدل همچنین در چهار اندازه مختلف موجود است. نسخههای کوچکتر، با تنها ۷ میلیارد پارامتر، در حال حاضر در مکانهای غیرمحتمل استفاده میشوند. حتی یک توسعهدهنده حتی ادعا میکند که Llama روی Raspberry Pi و تنها با ۴ گیگابایت رم کار میکند.
آلپاکا
چندین محقق دانشگاه استنفورد Llama 7B متا را گرفتند و آن را بر اساس مجموعهای از اعلانها آموزش دادند که از مدلهای زیر دستورالعمل مانند ChatGPT تقلید میکنند. این کمی تنظیم دقیق Alpaca 7B را ایجاد کرد، یک LLM که باز می شود دانش کدگذاری شده در Llama LLM به چیزی که یک فرد عادی می تواند با پرسیدن سؤال و ارائه دستورالعمل به آن دسترسی پیدا کند. برخی تخمین ها نشان می دهد که LLM سبک وزن می تواند با سخت افزار کمتر از ۶۰۰ دلار کار کند.
سازندگان Alpaca 7B مجموعه آموزشی و کد سازنده آن را توزیع میکنند. هر کسی می تواند مدل را کپی کند یا چیزی جدید از مجموعه دیگری ایجاد کند.
ویکونا
یکی دیگر از نوادگان لاما Vicuna است از LMSYS.org. تیم Vicuna مجموعه آموزشی متشکل از ۷۰۰۰۰ مکالمه مختلف را از ShareGPT جمع آوری کرد و توجه ویژه ای به ایجاد تعاملات چند مرحله ای و قابلیت های دنبال کردن دستورالعمل ها داشت. در دسترس به عنوان Vicuna-13b یا Vicuna-7b، این LLM یکی از رقابتی ترین راه حل های باز قیمت برای چت تعاملی اساسی است.
NodePad
همه مجذوب روشی نیستند که LLMها متن “از لحاظ زبانی دقیق” تولید می کنند. سازندگان NodePad معتقدند که کیفیت متن تمایل کاربران را از بررسی مجدد حقایق اساسی منحرف می کند. LLM ها با رابط های کاربری خوب، “مایلند به طور ناخواسته نتیجه را تحسین کنند و پیش بینی این مشکلات را برای کاربران دشوارتر کنند.” NodePad برای پرورش اکتشاف و ایدهپردازی بدون تولید نمونههای نوشتاری صیقلی طراحی شده است که کاربران به سختی میخوانند. نتایج حاصل از این LLM به عنوان گره ها و اتصالات ظاهر می شوند، مانند آنچه در بسیاری از “ابزارهای نقشه برداری ذهن” مشاهده می کنید، و نه مانند نوشتن تمام شده. کاربران می توانند از دانش دایره المعارفی مدل برای ایده های عالی استفاده کنند بدون اینکه در ارائه گم شوند.
اورکا
نسل اول مدلهای زبان بزرگ از نظر اندازه موفق شدند و با گذشت زمان بزرگتر و بزرگتر شدند. Orca، از تیم محققان در مایکروسافت، این روند را معکوس می کند. این مدل تنها از ۱۳ میلیارد پارامتر استفاده می کند که امکان کار بر روی ماشین های متوسط را فراهم می کند. توسعه دهندگان Orca با تقویت الگوریتم آموزشی برای استفاده از «ردپای توضیحی»، «فرایندهای فکری گام به گام» و «دستورالعمل ها» به این موفقیت دست یافتند. به جای اینکه فقط از هوش مصنوعی بخواهد از مواد خام بیاموزد، به Orca مجموعه آموزشی داده شد که برای آموزش طراحی شده بود. به عبارت دیگر، درست مانند انسانها، هوش مصنوعیها زمانی که به اعماق زمین پرتاب نمیشوند، سریعتر یاد میگیرند. نتایج اولیه امیدوارکننده است و تیم مایکروسافت معیارهایی ارائه می دهد که نشان می دهد این مدل به اندازه مدل های بزرگتر عمل می کند.
جاسپر
سازندگان جاسپر نمیخواستند یک معمم عاقل بسازند. آنها یک ماشین متمرکز برای تولید محتوا می خواستند. این سیستم به جای صرف یک جلسه چت باز، بیش از ۵۰ الگو را ارائه می دهد که برای کارهای خاصی مانند ایجاد فهرست املاک یا نوشتن ویژگی های محصول برای سایتی مانند آمازون طراحی شده اند. نسخههای پولی مخصوصاً برای مشاغلی طراحی شده است که میخواهند یک نسخه بازاریابی با لحن ثابت ایجاد کنند.
کلود
Anthropic Claude را ایجاد کرد تا یک دستیار مفید باشد که می تواند بسیاری از کارهای مبتنی بر متن کسب و کار را انجام دهد، از تحقیق برای خدمات مشتری یک اعلان می رود و یک جواب می آید. Anthropic عمداً به دستورات طولانی اجازه می دهد تا دستورالعمل های پیچیده تر را تشویق کند و به کاربران کنترل بیشتری بر نتایج بدهد. Anthropic در حال حاضر دو نسخه ارائه می دهد: مدل کامل به نام Claude-v1 و یک مدل ارزان تر و ساده به نام Claude Instant که به طور قابل توجهی ارزان تر. اولی برای مشاغلی است که نیاز به استدلال پیچیده تر و ساختار یافته دارند، در حالی که دومی برای کارهای ساده ای مانند طبقه بندی و تعدیل سریعتر و بهتر است.
مغز
هنگامی که سخت افزار تخصصی و یک مدل کلی با هم تکامل می یابند، می توانید به یک راه حل بسیار سریع و کارآمد دست پیدا کنید. Cerebras LLM خود را در صورت در آغوش گرفته در اندازه های مختلف از کوچک (۱۱۱ میلیون پارامتر) تا بزرگتر (۱۳ میلیارد پارامتر) ارائه می دهد. ) برای کسانی که می خواهند آن را به صورت محلی اجرا کنند. با این حال، بسیاری مایلند از سرویسهای ابری استفاده کنند که روی پردازندههای یکپارچه مقیاس ویفر خود Cerebras که برای شخم زدن در مجموعههای آموزشی بزرگ بهینه شدهاند، اجرا میشوند.
شاهین
Falcon-40b با اندازه کامل و Falcon-7b توسط موسسه نوآوری فناوری (TII) در امارات متحده عربی ساخته شد. آنها مدل فالکون را بر روی مجموعه بزرگی از مثالهای کلی از RefinedWeb با تمرکز بر بهبود استنتاج آموزش دادند. سپس آنها را برگرداندند و آن را با آپاچی ۲.۰ منتشر کردند و آن را به یکی از بازترین و بدون محدودیتترین مدلهای موجود برای آزمایش تبدیل کردند.
ImageBind
بسیاری متا را شرکت بزرگی می دانند که بر رسانه های اجتماعی تسلط دارد، اما همچنین نیروی قدرتمندی در توسعه نرم افزار منبع باز است. اکنون که علاقه به هوش مصنوعی در حال افزایش است، جای تعجب نیست که این شرکت شروع به اشتراک گذاری بسیاری از نوآوری های خود کرده است. ImageBind پروژه ای است که نشان می دهد هوش مصنوعی چگونه می تواند ایجاد کند انواع مختلفی از داده ها در یک زمان؛ در این مورد، متن، صدا و تصویر. به عبارت دیگر، اگر شما اجازه دهید، هوش مصنوعی مولد میتواند کل دنیای خیالی را به هم بچسباند.
گوریل
احتمالاً درباره استفاده از هوش مصنوعی مولد برای نوشتن کد زیاد شنیده اید. نتایج اغلب به طور سطحی چشمگیر هستند اما در بررسی دقیق عمیقاً ناقص هستند. نحو ممکن است درست باشد، اما فراخوانی های API همه اشتباه هستند، یا حتی ممکن است به سمت تابعی هدایت شوند که وجود ندارد. Gorilla یک LLM است که برای انجام بهتر کار با رابط های برنامه نویسی طراحی شده است. سازندگان آن با Llama شروع کردند و سپس آن را با تمرکز بر جزئیات برنامهنویسی عمیقتر که مستقیماً از مستندات جدا شده بودند، تنظیم کردند. تیم گوریلا همچنین مجموعه ای از معیارهای مبتنی بر API خود را برای موفقیت در آزمایش ارائه می دهد. این یک نکته مهم برای برنامه نویسانی است که به دنبال تکیه بر هوش مصنوعی برای کمک به کدنویسی هستند.
Ora.ai
Ora سیستمی است که به کاربران اجازه میدهد چتباتهای هدفمند خود را ایجاد کنند که برای یک کار خاص بهینه شدهاند. LibrarianGPT سعی میکند به هر سؤالی با یک قطعه مستقیم از کتاب پاسخ دهد. به عنوان مثال، پروفسور کارل سیگان، رباتی است که از تمام نوشتههای ساگان استخراج میشود. بنابراین او می تواند میلیاردها و میلیاردها سال زندگی کند. می توانید ربات خود را ایجاد کنید یا از یکی از صدها ربات ایجاد شده توسط دیگران استفاده کنید.
AgentGPT
یکی دیگر از ابزارهایی که همه کدهای لازم برای یک برنامه را به هم متصل می کند AgentGPT است. این برای ایجاد عواملی طراحی شده است که می توانند برای مقابله با کارهایی مانند برنامه ریزی برای تعطیلات یا نوشتن کد یک نوع بازی ارسال شوند. کد منبع برای بسیاری از پشته فناوری تحت GPL 3.0 در دسترس است. همچنین یک نسخه در حال اجرا به عنوان یک سرویس در دسترس است.
FrugalGPT
این یک مدل متفاوت نیست، بلکه یک استراتژی دقیق برای یافتن ارزانترین مدل ممکن برای پاسخ به یک سؤال خاص است. محققانی که FrugalGPT را توسعه دادند، متوجه شدند که بسیاری از سوالات به بزرگترین و گرانترین مدل نیاز ندارند. الگوریتم آنها با سادهترین الگوریتم شروع میشود و فهرستی از LLMها را در یک آبشار بالا میبرد تا زمانی که پاسخ خوبی پیدا کند. آزمایشهای محقق نشان میدهد که این رویکرد دقیق ممکن است ۹۸ درصد از هزینه را صرفهجویی کند، زیرا بسیاری از سؤالات واقعاً به یک مدل پیچیده نیاز ندارند.
پست های مرتبط
۱۴ LLM که ChatGPT نیستند
۱۴ LLM که ChatGPT نیستند
۱۴ LLM که ChatGPT نیستند