۳۰ شهریور ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

مهار در BS در AI

مدل‌های زبان بزرگی که بر روی موارد مشکوک به صورت آنلاین آموزش داده شده‌اند، موارد مشابه بیشتری تولید خواهند کرد. بازیابی نسل افزوده یکی از راه‌های نزدیک‌تر شدن به حقیقت است.

مدل‌های زبان بزرگی که بر روی موارد مشکوک به صورت آنلاین آموزش داده شده‌اند، موارد مشابه بیشتری تولید خواهند کرد. بازیابی نسل افزوده یکی از راه‌های نزدیک‌تر شدن به حقیقت است.

به نظر می‌رسد حتی افرادی که اهل فناوری نیستند نیز درباره برکناری سام آلتمن شنیده‌اند. OpenAI در روز جمعه. روز بعد با دو دوست بودم (یکی در ساخت و ساز کار می کند و دیگری در بازاریابی) و هر دو در مورد آن صحبت می کردند. هوش مصنوعی مولد (genAI) به نظر می رسد بالاخره به جریان اصلی تبدیل شده است.

اما کاری که انجام نداده است، فرار از کشش گرانشی BS است، به عنوان آلن بلک ول تاکید کرده است. نه، منظورم این نیست که هوش مصنوعی خالی است، از نظر تبلیغاتی طولانی است و از نظر محتوایی کوتاه است. هوش مصنوعی در حال حاضر برای بسیاری از شرکت ها در بسیاری از صنایع ارائه می کند. حتی genAI، یک زیر مجموعه کوچک از بازار کلی هوش مصنوعی، یک تغییر دهنده بازی برای توسعه نرم افزار و فراتر از آن است. و با این حال بلک ول درست می گوید: “هوش مصنوعی به معنای واقعی کلمه مزخرف تولید می کند.” این چیزهایی را می سازد که بر اساس داده های آموزشی خوب به نظر می رسد.

با این وجود، اگر بتوانیم آن را به عنوان پروفسور هوش مصنوعی MIT رادنی «جدا کنیم» بروکس توضیح می دهد، genAI پتانسیل ایجاد تغییر بزرگ در زندگی ما را دارد.

معنی رو به رشد مجموعه داده های هوش مصنوعی برای مهندسی و مدیریت داده ها چیست؟

“ChatGPT یک تولید کننده مزخرف است”

حقیقت برای نحوه عملکرد مدل های زبان بزرگ اساسی نیست. LLMs ها “الگوریتم های یادگیری عمیقی هستند که می توانند با استفاده از مجموعه داده های بسیار بزرگ، محتوا را تشخیص، خلاصه، ترجمه، پیش بینی و تولید کنند.” توجه داشته باشید که “حقیقت” و “دانش” جایی در آن تعریف ندارند. LLM ها برای گفتن حقیقت به شما طراحی نشده اند. همانطور که در یک فروم OpenAI توضیح داده شد، “مدل های زبان بزرگ ماهیت احتمالی دارند و با تولید خروجی های احتمالی بر اساس الگوهایی که در داده های آموزشی مشاهده کرده اند عمل می کنند. در مورد مسائل ریاضی و فیزیکی، ممکن است فقط یک پاسخ صحیح وجود داشته باشد و احتمال ایجاد آن پاسخ ممکن است بسیار کم باشد.»

این یک راه خوب برای گفتن است که ممکن است نخواهید برای انجام مسائل ضرب اولیه برای شما به ChatGPT تکیه کنید، اما می تواند در ایجاد پاسخی در مورد تاریخچه جبر عالی باشد. در واقع، بلک ول، با هدایت جف هینتون، می‌گوید: «یکی از بزرگ‌ترین خطرات این نیست که چت‌بات‌ها فوق‌العاده باهوش می‌شوند، بلکه این است که متنی را تولید می‌کنند که فوق‌العاده متقاعدکننده باشد، بدون اینکه هوشمند باشد.

DataStax مترجم Schema GPT را به Astra Streaming مبتنی بر Apache Pulsar اضافه می کند

این مانند “اخبار جعلی” در مورد استروئیدها است. همانطور که بلک ول می گوید، “ما مزخرفات را خودکار کرده ایم.”

این تعجب آور نیست، زیرا منابع اولیه برای LLM های زیربنایی ChatGPT و سایر سیستم های GenAI عبارتند از توییتر، فیس بوک، Reddit، و “بایگانی های عظیم دیگر مزخرف”. با این حال، بلک‌ول می‌گوید: «هیچ الگوریتمی در ChatGPT وجود ندارد که بررسی کند کدام قسمت‌ها درست هستند»، به طوری که «خروجی به معنای واقعی کلمه مزخرف است.

چه باید کرد؟

“شما باید چیزها را با دقت در جعبه قرار دهید”

به گفته بروکس، کلید بدست آوردن ظاهری از دانش مفید از LLMها، «بوکس کردن» است. او می‌گوید: «شما باید [LLM] را با احتیاط وارد کنید تا دیوانگی بیرون نیاید و وسایل ساختگی بیرون نیایند.» اما چگونه می توان یک LLM را وارد کرد؟

یک راه مهم از طریق بازیابی تولید افزوده شده (RAG) است. من دوست دارم زاکاری پروسر آن را توصیف کند: “RAG مانند نگه داشتن یک نشانه است. کارت حاوی نقاط حیاتی برای دیدن LLM شما.” این راهی برای تقویت یک LLM با داده‌های اختصاصی است و به LLM زمینه و دانش بیشتری برای بهبود پاسخ‌هایش می‌دهد.

RAG به بردارها بستگی دارد، که یک عنصر اساسی است که در انواع موارد استفاده از هوش مصنوعی استفاده می‌شود. تعبیه برداری فقط یک لیست طولانی از اعداد است که ویژگی های شی داده را توصیف می کند، مانند یک آهنگ، یک تصویر، یک ویدیو، یا یک شعر، که در یک پایگاه داده برداری ذخیره شده است. آنها برای دریافت معنای معنایی اشیا در رابطه با اشیاء دیگر استفاده می شوند. اشیاء مشابه در فضای برداری با هم گروه بندی می شوند. هر چه دو جسم به هم نزدیکتر باشند، شباهت بیشتری دارند. (به عنوان مثال، “راگبی” و “فوتبال” نسبت به “فوتبال” و “بسکتبال” به یکدیگر نزدیکتر خواهند بود). سپس می‌توانید برای موجودیت‌های مرتبط که بر اساس ویژگی‌هایشان مشابه هستند، بدون تکیه بر مترادف‌ها یا تطابق کلمات کلیدی، پرس و جو کنید.

Snowflake ویژگی های جدید ربات چت AI و ML Studio را به Cortex اضافه می کند

همانطور که Proser نتیجه می گیرد، “از آنجایی که LLM اکنون به مرتبط ترین و اساسی ترین حقایق از پایگاه داده برداری شما دسترسی دارد، می تواند پاسخ دقیقی برای کاربر شما ارائه دهد. RAG احتمال توهم را کاهش می دهد. ناگهان، LLM شما بسیار بیشتر احتمال دارد که پاسخی واقعی به شما بدهد، نه صرفاً پاسخی که درست به نظر برسد. این نوعی “بوکس کردن” است که می تواند LLM ها را واقعاً مفید کند و هیاهو نباشد.

در غیر این صورت، این فقط مزخرفات خودکار است.

شاید به این مطالب علاقمند باشید