۲۹ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

مدل‌های زبان بزرگ: پایه‌های هوش مصنوعی مولد

مدل‌های زبان بزرگ در کنار شبکه‌های عصبی یادگیری عمیق تکامل یافته‌اند و برای هوش مصنوعی مولد حیاتی هستند. در اینجا اولین نگاهی است، از جمله برترین LLMها و آنچه که امروزه برای آنها استفاده می شود.

مدل‌های زبان بزرگ در کنار شبکه‌های عصبی یادگیری عمیق تکامل یافته‌اند و برای هوش مصنوعی مولد حیاتی هستند. در اینجا اولین نگاهی است، از جمله برترین LLMها و آنچه که امروزه برای آنها استفاده می شود.

مدل‌های زبان بزرگ (LLM) مانند GPT، Bard، و Llama 2 تخیل عمومی را به خود جلب کرده و واکنش‌های متنوعی را برانگیخته است. این مقاله به بررسی این تبلیغات می پردازد تا به شما در درک منشأ مدل های زبان بزرگ، نحوه ساخت و آموزش آنها و طیف وسیعی از وظایفی که برای آنها تخصص دارند کمک کند. ما همچنین به محبوب ترین LLM های مورد استفاده امروز نگاه خواهیم کرد.

مدل زبان بزرگ چیست؟

مدل‌های زبانی به اوایل قرن بیستم بازمی‌گردند، اما مدل‌های زبان بزرگ (LLM) پس از معرفی شبکه‌های عصبی با انتقام ظاهر شدند. معماری شبکه عصبی عمیق Transformer، که در سال ۲۰۱۷ معرفی شد، به ویژه در تکامل از مدل‌های زبانی به LLM بسیار مؤثر بود.

مدل‌های زبان بزرگ برای انواع کارها، از جمله تولید متن از یک اعلان توصیفی، تولید کد و تکمیل کد، خلاصه‌سازی متن، ترجمه بین زبان‌ها، و برنامه‌های تبدیل متن به گفتار و گفتار به متن مفید هستند.< /p>

LLM ها حداقل در مرحله رشد فعلی خود دارای اشکالاتی نیز هستند. متن تولید شده معمولاً متوسط ​​و گاهی اوقات بد است. LLM ها به اختراع حقایقی معروف هستند که توهمات نامیده می شوند، که اگر شما بهتر ندانید ممکن است منطقی به نظر برسد. ترجمه‌های زبان به ندرت ۱۰۰٪ دقیق هستند، مگر اینکه توسط یک زبان مادری تأیید شده باشند، که معمولاً فقط برای عبارات رایج انجام می‌شود. کدهای تولید شده اغلب دارای اشکال هستند و گاهی امیدی به اجرا شدن ندارند. در حالی که LLM ها معمولاً برای جلوگیری از بیان اظهارات بحث برانگیز یا توصیه اقدامات غیرقانونی تنظیم می شوند، ممکن است با استفاده از اعلان های مخرب، این نرده ها را زیر پا بگذارید.

محیط Google Cloud's Colab Enterprise برای کمک به تنظیم LLM

آموزش مدل‌های زبان بزرگ به حداقل یک مجموعه بزرگ از متن نیاز دارد. نمونه های آموزشی عبارتند از ۱B Word Benchmark، Wikipedia، Toronto Books Corpus، مجموعه داده Common Crawl و مخازن عمومی GitHub منبع باز. دو مشکل بالقوه با مجموعه داده های متنی بزرگ، نقض حق نسخه برداری و زباله است. نقض حق نسخه برداری در حال حاضر موضوع چندین پرونده قضایی است. حداقل زباله ها را می توان پاک کرد. نمونه ای از مجموعه داده پاک شده Colossal Clean Crawled Corpus (C4) است، یک مجموعه داده ۸۰۰ گیگابایتی بر اساس مجموعه داده Crawl مشترک.

در کنار حداقل یک مجموعه آموزشی بزرگ، LLMها به تعداد زیادی پارامتر نیاز دارند که به عنوان وزن نیز شناخته می‌شوند. تعداد پارامترها در طول سال ها افزایش یافت، تا زمانی که رشد نکرد. ELMo (2018) دارای ۹۳.۶ میلیون پارامتر است. BERT (2018) در اندازه های ۱۰۰ میلیون و ۳۴۰ میلیونی منتشر شد. GPT (2018) از ۱۱۷ میلیون پارامتر استفاده می کند. و T5 (2020) دارای ۲۲۰ میلیون پارامتر است. GPT-2 (2019) دارای ۱.۶ میلیارد پارامتر است. GPT-3 (2020) از ۱۷۵ میلیارد پارامتر استفاده می کند. و PalM (2022) دارای ۵۴۰ میلیارد پارامتر است. GPT-4 (2023) دارای ۱.۷۶ تریلیون پارامتر است.

پارامترهای بیشتر یک مدل را دقیق تر می کند، اما مدل هایی با پارامترهای بالاتر نیز به حافظه بیشتری نیاز دارند و کندتر اجرا می شوند. در سال ۲۰۲۳، شاهد عرضه مدل‌های نسبتاً کوچک‌تر در اندازه‌های مختلف هستیم: برای مثال، Llama 2 در اندازه‌های ۷ میلیارد، ۱۳ میلیارد و ۷۰ میلیارد عرضه می‌شود، در حالی که کلود ۲ دارای اندازه‌های پارامتر ۹۳ و ۱۳۷ میلیارد است. .

تاریخچه ای از مدل های هوش مصنوعی برای تولید متن

مدل‌های زبان به آندری مارکوف برمی‌گردد، که در سال ۱۹۱۳ ریاضیات را در شعر به کار برد. مارکوف نشان داد که در یوجین اونگین پوشکین، احتمال ظاهر شدن یک کاراکتر به کاراکتر قبلی بستگی دارد، و به طور کلی، صامت ها و مصوت ها به متناوب تمایل دارند. امروزه، زنجیره های مارکوف برای توصیف رشته ای از رویدادها استفاده می شود که در آن احتمال هر رویداد به وضعیت رویداد قبلی بستگی دارد.

هدف ابزارهای جدید هوش مصنوعی Splunk تسهیل وظایف امنیتی و قابلیت مشاهده است

کار مارکوف توسط کلود شانون در سال ۱۹۴۸ برای تئوری ارتباطات، و دوباره توسط فرد جلینک و رابرت مرسر از IBM در سال ۱۹۸۵ برای تولید یک مدل زبان مبتنی بر اعتبارسنجی متقاطع (که آنها آن را تخمین‌های حذف شده نامیدند) گسترش داد و برای واقعی اعمال شد. -تشخیص گفتار با واژگان بزرگ. اساساً، یک مدل زبان آماری احتمالات را به دنباله‌ای از کلمات اختصاص می‌دهد.

برای مشاهده سریع یک مدل زبان در عمل، کافی است چند کلمه را در جستجوی Google یا یک برنامه پیام متنی در تلفن خود تایپ کنید، در حالی که تکمیل خودکار روشن است.

در سال ۲۰۰۰، یوشوا بنجیو و همکارانش مقاله‌ای منتشر کردند که جزئیات یک =”nofood” مدل زبان احتمالی عصبی که در آن شبکه‌های عصبی جایگزین احتمالات در یک مدل زبان آماری می‌شوند و نفرین ابعاد را دور می‌زنند و پیش‌بینی‌های کلمات را بر روی یک مدل سه‌گرام هموار بهبود می‌بخشند (در آن زمان وضعیت هنر) بین ۲۰ تا ۳۵ درصد ایده مدل‌های زبانی شبکه عصبی خود رگرسیون پیش‌خورنده هنوز هم امروزه مورد استفاده قرار می‌گیرد، اگرچه این مدل‌ها اکنون میلیاردها پارامتر دارند و بر روی پیکره‌های گسترده آموزش داده می‌شوند. از این رو اصطلاح “مدل زبان بزرگ.”

مدل‌های زبان در طول زمان با هدف بهبود عملکرد، بزرگ‌تر شده‌اند. اما چنین رشدی جنبه های منفی دارد. مقاله ۲۰۲۱، درباره خطرات طوطی‌های تصادفی: آیا مدل‌های زبانی می‌توانند خیلی بزرگ باشند؟، این سوال را مطرح می کند که آیا ما با روند بزرگتر-بهتر-بیش از حد پیش می رویم. نویسندگان پیشنهاد می‌کنند که ابتدا هزینه‌های زیست‌محیطی و مالی را سنجیده و منابع را برای مدیریت و مستندسازی مجموعه‌های داده سرمایه‌گذاری کنید تا همه چیز را در وب مصرف کنید.

مدل های زبان و LLM توضیح داده شده

مدل‌های زبان فعلی وظایف و اهداف مختلفی دارند و اشکال مختلفی دارند. به عنوان مثال، علاوه بر وظیفه پیش‌بینی کلمه بعدی در یک سند، مدل‌های زبان می‌توانند متن اصلی را تولید کنند، متن را طبقه‌بندی کنند، به سؤالات پاسخ دهند، احساسات را تجزیه و تحلیل کنند، موجودیت‌های نام‌گذاری شده را تشخیص دهند، گفتار را تشخیص دهند، متن را در تصاویر و دست خط را تشخیص دهند. سفارشی کردن مدل‌های زبان برای کارهای خاص، معمولاً با استفاده از مجموعه‌های آموزشی تکمیلی کوچک تا متوسط، تنظیم دقیق نامیده می‌شود.

ارکستراسیون و رقص در میکروسرویس های دات نت

برخی از کارهای میانی که به مدل‌های زبان می‌روند به شرح زیر است:

  • تقسیم بندی مجموعه آموزشی به جملات
  • توکن سازی کلمه
  • ساقه
  • لماتیزه کردن (تبدیل به ریشه کلمه)
  • برچسب گذاری POS (بخشی از گفتار)
  • شناسایی و (احتمالا) کلید واژه
  • تشخیص نهاد نامگذاری شده (NER)
  • طبقه بندی متن
  • قطع کردن (تجزیه جملات به عبارات معنی دار)
  • وضوح ارتباط (یافتن تمام عباراتی که به یک موجودیت در یک متن اشاره می کنند)

چند مورد از این موارد به تنهایی به عنوان کار یا برنامه کاربردی مانند طبقه بندی متن نیز مفید هستند.

مدل‌های زبان بزرگ با مدل‌های زبان سنتی تفاوت دارند زیرا از یک شبکه عصبی یادگیری عمیق و یک مجموعه آموزشی بزرگ استفاده می‌کنند و به میلیون‌ها یا بیشتر پارامتر یا وزن برای شبکه عصبی نیاز دارند. آموزش یک LLM موضوع بهینه سازی وزنه ها است تا مدل کمترین میزان خطای ممکن را برای کار تعیین شده خود داشته باشد. یک کار مثال، پیش‌بینی کلمه بعدی در هر نقطه از مجموعه است، معمولاً به شیوه‌ای که خود نظارت دارد.

نگاهی به محبوب ترین LLM

انفجار اخیر مدل‌های زبانی بزرگ توسط مقاله سال ۲۰۱۷، همه چیزی که نیاز دارید توجه است، آغاز شد، که ترانسفورمر را به عنوان “یک معماری ساده شبکه جدید … بر اساس مکانیسم های توجه، بدون تکرار و پیچیدگی به طور کامل” معرفی کرد.

در اینجا برخی از بهترین مدل‌های زبان بزرگ که امروزه استفاده می‌شوند، آورده شده است.