مدلهای زبان بزرگ در کنار شبکههای عصبی یادگیری عمیق تکامل یافتهاند و برای هوش مصنوعی مولد حیاتی هستند. در اینجا اولین نگاهی است، از جمله برترین LLMها و آنچه که امروزه برای آنها استفاده می شود.
- مدل زبان بزرگ چیست؟
- تاریخچه ای از مدل های هوش مصنوعی برای تولید متن
- مدلهای زبان و LLM توضیح داده شد
- نگاهی به محبوب ترین LLM
- نتیجهگیری
مدلهای زبان بزرگ (LLM) مانند GPT، Bard، و Llama 2 تخیل عمومی را به خود جلب کرده و واکنشهای متنوعی را برانگیخته است. این مقاله به بررسی این تبلیغات می پردازد تا به شما در درک منشأ مدل های زبان بزرگ، نحوه ساخت و آموزش آنها و طیف وسیعی از وظایفی که برای آنها تخصص دارند کمک کند. ما همچنین به محبوب ترین LLM های مورد استفاده امروز نگاه خواهیم کرد.
مدل زبان بزرگ چیست؟
مدلهای زبانی به اوایل قرن بیستم بازمیگردند، اما مدلهای زبان بزرگ (LLM) پس از معرفی شبکههای عصبی با انتقام ظاهر شدند. معماری شبکه عصبی عمیق Transformer، که در سال ۲۰۱۷ معرفی شد، به ویژه در تکامل از مدلهای زبانی به LLM بسیار مؤثر بود.
مدلهای زبان بزرگ برای انواع کارها، از جمله تولید متن از یک اعلان توصیفی، تولید کد و تکمیل کد، خلاصهسازی متن، ترجمه بین زبانها، و برنامههای تبدیل متن به گفتار و گفتار به متن مفید هستند.< /p>
LLM ها حداقل در مرحله رشد فعلی خود دارای اشکالاتی نیز هستند. متن تولید شده معمولاً متوسط و گاهی اوقات بد است. LLM ها به اختراع حقایقی معروف هستند که توهمات نامیده می شوند، که اگر شما بهتر ندانید ممکن است منطقی به نظر برسد. ترجمههای زبان به ندرت ۱۰۰٪ دقیق هستند، مگر اینکه توسط یک زبان مادری تأیید شده باشند، که معمولاً فقط برای عبارات رایج انجام میشود. کدهای تولید شده اغلب دارای اشکال هستند و گاهی امیدی به اجرا شدن ندارند. در حالی که LLM ها معمولاً برای جلوگیری از بیان اظهارات بحث برانگیز یا توصیه اقدامات غیرقانونی تنظیم می شوند، ممکن است با استفاده از اعلان های مخرب، این نرده ها را زیر پا بگذارید.
آموزش مدلهای زبان بزرگ به حداقل یک مجموعه بزرگ از متن نیاز دارد. نمونه های آموزشی عبارتند از ۱B Word Benchmark، Wikipedia، Toronto Books Corpus، مجموعه داده Common Crawl و مخازن عمومی GitHub منبع باز. دو مشکل بالقوه با مجموعه داده های متنی بزرگ، نقض حق نسخه برداری و زباله است. نقض حق نسخه برداری در حال حاضر موضوع چندین پرونده قضایی است. حداقل زباله ها را می توان پاک کرد. نمونه ای از مجموعه داده پاک شده Colossal Clean Crawled Corpus (C4) است، یک مجموعه داده ۸۰۰ گیگابایتی بر اساس مجموعه داده Crawl مشترک.
در کنار حداقل یک مجموعه آموزشی بزرگ، LLMها به تعداد زیادی پارامتر نیاز دارند که به عنوان وزن نیز شناخته میشوند. تعداد پارامترها در طول سال ها افزایش یافت، تا زمانی که رشد نکرد. ELMo (2018) دارای ۹۳.۶ میلیون پارامتر است. BERT (2018) در اندازه های ۱۰۰ میلیون و ۳۴۰ میلیونی منتشر شد. GPT (2018) از ۱۱۷ میلیون پارامتر استفاده می کند. و T5 (2020) دارای ۲۲۰ میلیون پارامتر است. GPT-2 (2019) دارای ۱.۶ میلیارد پارامتر است. GPT-3 (2020) از ۱۷۵ میلیارد پارامتر استفاده می کند. و PalM (2022) دارای ۵۴۰ میلیارد پارامتر است. GPT-4 (2023) دارای ۱.۷۶ تریلیون پارامتر است.
پارامترهای بیشتر یک مدل را دقیق تر می کند، اما مدل هایی با پارامترهای بالاتر نیز به حافظه بیشتری نیاز دارند و کندتر اجرا می شوند. در سال ۲۰۲۳، شاهد عرضه مدلهای نسبتاً کوچکتر در اندازههای مختلف هستیم: برای مثال، Llama 2 در اندازههای ۷ میلیارد، ۱۳ میلیارد و ۷۰ میلیارد عرضه میشود، در حالی که کلود ۲ دارای اندازههای پارامتر ۹۳ و ۱۳۷ میلیارد است. .
تاریخچه ای از مدل های هوش مصنوعی برای تولید متن
مدلهای زبان به آندری مارکوف برمیگردد، که در سال ۱۹۱۳ ریاضیات را در شعر به کار برد. مارکوف نشان داد که در یوجین اونگین پوشکین، احتمال ظاهر شدن یک کاراکتر به کاراکتر قبلی بستگی دارد، و به طور کلی، صامت ها و مصوت ها به متناوب تمایل دارند. امروزه، زنجیره های مارکوف برای توصیف رشته ای از رویدادها استفاده می شود که در آن احتمال هر رویداد به وضعیت رویداد قبلی بستگی دارد.
کار مارکوف توسط کلود شانون در سال ۱۹۴۸ برای تئوری ارتباطات، و دوباره توسط فرد جلینک و رابرت مرسر از IBM در سال ۱۹۸۵ برای تولید یک مدل زبان مبتنی بر اعتبارسنجی متقاطع (که آنها آن را تخمینهای حذف شده نامیدند) گسترش داد و برای واقعی اعمال شد. -تشخیص گفتار با واژگان بزرگ. اساساً، یک مدل زبان آماری احتمالات را به دنبالهای از کلمات اختصاص میدهد.
برای مشاهده سریع یک مدل زبان در عمل، کافی است چند کلمه را در جستجوی Google یا یک برنامه پیام متنی در تلفن خود تایپ کنید، در حالی که تکمیل خودکار روشن است.
در سال ۲۰۰۰، یوشوا بنجیو و همکارانش مقالهای منتشر کردند که جزئیات یک =”nofood” مدل زبان احتمالی عصبی که در آن شبکههای عصبی جایگزین احتمالات در یک مدل زبان آماری میشوند و نفرین ابعاد را دور میزنند و پیشبینیهای کلمات را بر روی یک مدل سهگرام هموار بهبود میبخشند (در آن زمان وضعیت هنر) بین ۲۰ تا ۳۵ درصد ایده مدلهای زبانی شبکه عصبی خود رگرسیون پیشخورنده هنوز هم امروزه مورد استفاده قرار میگیرد، اگرچه این مدلها اکنون میلیاردها پارامتر دارند و بر روی پیکرههای گسترده آموزش داده میشوند. از این رو اصطلاح “مدل زبان بزرگ.”
مدلهای زبان در طول زمان با هدف بهبود عملکرد، بزرگتر شدهاند. اما چنین رشدی جنبه های منفی دارد. مقاله ۲۰۲۱، درباره خطرات طوطیهای تصادفی: آیا مدلهای زبانی میتوانند خیلی بزرگ باشند؟، این سوال را مطرح می کند که آیا ما با روند بزرگتر-بهتر-بیش از حد پیش می رویم. نویسندگان پیشنهاد میکنند که ابتدا هزینههای زیستمحیطی و مالی را سنجیده و منابع را برای مدیریت و مستندسازی مجموعههای داده سرمایهگذاری کنید تا همه چیز را در وب مصرف کنید.
مدل های زبان و LLM توضیح داده شده
مدلهای زبان فعلی وظایف و اهداف مختلفی دارند و اشکال مختلفی دارند. به عنوان مثال، علاوه بر وظیفه پیشبینی کلمه بعدی در یک سند، مدلهای زبان میتوانند متن اصلی را تولید کنند، متن را طبقهبندی کنند، به سؤالات پاسخ دهند، احساسات را تجزیه و تحلیل کنند، موجودیتهای نامگذاری شده را تشخیص دهند، گفتار را تشخیص دهند، متن را در تصاویر و دست خط را تشخیص دهند. سفارشی کردن مدلهای زبان برای کارهای خاص، معمولاً با استفاده از مجموعههای آموزشی تکمیلی کوچک تا متوسط، تنظیم دقیق نامیده میشود.
برخی از کارهای میانی که به مدلهای زبان میروند به شرح زیر است:
- تقسیم بندی مجموعه آموزشی به جملات
- توکن سازی کلمه
- ساقه
- لماتیزه کردن (تبدیل به ریشه کلمه)
- برچسب گذاری POS (بخشی از گفتار)
- شناسایی و (احتمالا) کلید واژه
- تشخیص نهاد نامگذاری شده (NER)
- طبقه بندی متن
- قطع کردن (تجزیه جملات به عبارات معنی دار)
- وضوح ارتباط (یافتن تمام عباراتی که به یک موجودیت در یک متن اشاره می کنند)
چند مورد از این موارد به تنهایی به عنوان کار یا برنامه کاربردی مانند طبقه بندی متن نیز مفید هستند.
مدلهای زبان بزرگ با مدلهای زبان سنتی تفاوت دارند زیرا از یک شبکه عصبی یادگیری عمیق و یک مجموعه آموزشی بزرگ استفاده میکنند و به میلیونها یا بیشتر پارامتر یا وزن برای شبکه عصبی نیاز دارند. آموزش یک LLM موضوع بهینه سازی وزنه ها است تا مدل کمترین میزان خطای ممکن را برای کار تعیین شده خود داشته باشد. یک کار مثال، پیشبینی کلمه بعدی در هر نقطه از مجموعه است، معمولاً به شیوهای که خود نظارت دارد.
نگاهی به محبوب ترین LLM
انفجار اخیر مدلهای زبانی بزرگ توسط مقاله سال ۲۰۱۷، همه چیزی که نیاز دارید توجه است، آغاز شد، که ترانسفورمر را به عنوان “یک معماری ساده شبکه جدید … بر اساس مکانیسم های توجه، بدون تکرار و پیچیدگی به طور کامل” معرفی کرد.
در اینجا برخی از بهترین مدلهای زبان بزرگ که امروزه استفاده میشوند، آورده شده است.
پست های مرتبط
مدلهای زبان بزرگ: پایههای هوش مصنوعی مولد
مدلهای زبان بزرگ: پایههای هوش مصنوعی مولد
مدلهای زبان بزرگ: پایههای هوش مصنوعی مولد