۳۰ آذر ۱۴۰۳

Techboy

اخبار و اطلاعات روز تکنولوژی

هوش مصنوعی مولد چیست؟ هوش مصنوعی که ایجاد می کند

مدل‌های هوش مصنوعی مولد می‌توانند مکالمه‌ها را ادامه دهند، به سؤالات پاسخ دهند، داستان بنویسند، کد منبع تولید کنند و تقریباً از هر توضیحی تصویر و ویدیو ایجاد کنند. در اینجا نحوه عملکرد هوش مصنوعی مولد، نحوه استفاده از آن و اینکه چرا محدودتر از آن چیزی است که فکر می کنید، توضیح داده شده است.

مدل‌های هوش مصنوعی مولد می‌توانند مکالمه‌ها را ادامه دهند، به سؤالات پاسخ دهند، داستان بنویسند، کد منبع تولید کنند و تقریباً از هر توضیحی تصویر و ویدیو ایجاد کنند. در اینجا نحوه عملکرد هوش مصنوعی مولد، نحوه استفاده از آن و اینکه چرا محدودتر از آن چیزی است که فکر می کنید، توضیح داده شده است.

هوش مصنوعی مولد نوعی هوش مصنوعی است که بر اساس الگوهایی که از محتوای موجود آموخته است، محتوای جدیدی از جمله متن، تصاویر، صدا و ویدئو ایجاد می‌کند. مدل‌های مولد هوش مصنوعی امروزی بر روی حجم عظیمی از داده‌ها با استفاده از یادگیری عمیق یا شبکه‌های عصبی عمیق آموزش دیده‌اند و می‌توانند مکالمه‌ها را ادامه دهند، به سؤالات پاسخ دهند، داستان بنویسند، کد منبع تولید کنند، و تصاویر و ویدیوها ایجاد کنند. از هر توضیحی، همه بر اساس ورودی های متنی کوتاه یا “اعلام”

هوش مصنوعی مولد مولد نامیده می‌شود زیرا هوش مصنوعی چیزی را ایجاد می‌کند که قبلاً وجود نداشته است. این همان چیزی است که آن را از هوش مصنوعی متمایز متفاوت می کند، که بین انواع مختلف ورودی تمایز قائل می شود. برای بیان متفاوت، هوش مصنوعی متمایز سعی می کند به سؤالی مانند “این تصویر نقاشی خرگوش است یا شیر؟” پاسخ دهد. در حالی که هوش مصنوعی مولد به درخواست‌هایی مانند «تصویری از یک شیر و یک خرگوش در کنار یکدیگر بکشید» پاسخ می‌دهد.

این مقاله شما را با هوش مصنوعی مولد و کاربردهای آن با مدل‌های محبوبی مانند ChatGPT و DALL-E آشنا می‌کند. همچنین محدودیت‌های این فناوری را در نظر خواهیم گرفت، از جمله اینکه چرا «انگشت‌های زیاد» به یک هدیه مرده برای هنر تولید شده مصنوعی تبدیل شده است.

ظهور هوش مصنوعی مولد

هوش مصنوعی مولد سال‌هاست که وجود داشته است، احتمالاً از زمان ELIZA، یک ربات چت که شبیه‌سازی صحبت کردن با یک درمانگر، در MIT در سال ۱۹۶۶ توسعه یافت. اما سال‌ها کار روی هوش مصنوعی و یادگیری ماشینی اخیراً با انتشار سیستم‌های هوش مصنوعی مولد جدید به ثمر نشسته است. تقریباً مطمئناً درباره ChatGPT، یک هوش مصنوعی مبتنی بر متن chatbot که نثر بسیار شبیه انسان را تولید می کند. DALL-E و Stable Diffusion همچنین به دلیل توانایی آنها در ایجاد تصاویر پر جنب و جوش و واقعی بر اساس اعلان های متنی توجه را به خود جلب کرده است.

خروجی این سیستم‌ها آنقدر عجیب است که افراد زیادی را در مورد ماهیت آگاهی سؤالات فلسفی می‌پرسد – و نگران تأثیر اقتصادی هوش مصنوعی مولد بر مشاغل انسانی هستند. اما در حالی که همه این خلاقیت‌های هوش مصنوعی به‌طور غیرقابل انکاری خبر بزرگی هستند، مسلماً کمتر از آن چیزی که برخی تصور می‌کنند در زیر سطح وجود دارد. ما در یک لحظه به برخی از این سوالات بزرگ خواهیم رسید. ابتدا، بیایید به آنچه در زیر کاپوت می گذرد نگاه کنیم.

هوش مصنوعی مولد چگونه کار می کند؟

هوش مصنوعی مولد از یادگیری ماشینی برای پردازش حجم عظیمی از داده‌های بصری یا متنی استفاده می‌کند که بیشتر آن‌ها از اینترنت حذف می‌شوند، و سپس تعیین می‌کنند که چه چیزهایی به احتمال زیاد در نزدیکی چیزهای دیگر ظاهر می‌شوند. بسیاری از کارهای برنامه نویسی هوش مصنوعی مولد به ایجاد الگوریتم هایی می پردازد که می توانند “چیزهای” مورد علاقه سازندگان هوش مصنوعی را متمایز کنند – کلمات و جملات در مورد ربات های چت مانند ChatGPT، یا عناصر بصری برای DALL-E. اما اساساً، هوش مصنوعی مولد خروجی خود را با ارزیابی مجموعه عظیمی از داده‌ها ایجاد می‌کند، سپس به درخواست‌ها با چیزی پاسخ می‌دهد که در محدوده احتمالی قرار می‌گیرد که توسط آن مجموعه تعیین می‌شود.

تکمیل خودکار—زمانی که تلفن همراه یا Gmail شما نشان می دهد که باقی کلمه یا جمله ای که تایپ می کنید چه می تواند باشد—یک شکل سطح پایین هوش مصنوعی مولد است. ChatGPT و DALL-E این ایده را به طور قابل توجهی پیشرفته تر می کنند.

مدل هوش مصنوعی چیست؟

ChatGPT و DALL-E رابط هایی برای عملکرد زیربنایی هوش مصنوعی هستند که در اصطلاح هوش مصنوعی به عنوان یک مدل شناخته می شوند. یک مدل هوش مصنوعی یک نمایش ریاضی است – که به‌عنوان یک الگوریتم یا تمرین پیاده‌سازی می‌شود – که داده‌های جدیدی تولید می‌کند که (امیدواریم) شبیه مجموعه‌ای از داده‌هایی است که از قبل در دست دارید. گاهی اوقات ChatGPT و DALL-E را به عنوان مدل می بینید. به بیان دقیق، این نادرست است، زیرا ChatGPT یک ربات چت است که به کاربران امکان دسترسی به چندین نسخه مختلف از مدل اصلی GPT را می دهد. اما در عمل، این رابط‌ها نحوه تعامل بیشتر افراد با مدل‌ها است، بنابراین از دیدن این اصطلاحات به جای یکدیگر تعجب نکنید.

توسعه‌دهندگان هوش مصنوعی مجموعه‌ای از داده‌ها را جمع‌آوری می‌کنند که می‌خواهند مدل‌هایشان تولید کنند. این مجموعه به عنوان مجموعه آموزشی مدل، شناخته می‌شود و فرآیند توسعه مدل آموزش نامیده می‌شود. به عنوان مثال، مدل‌های GPT بر روی مجموعه عظیمی از متن خراشیده شده از اینترنت آموزش داده شده‌اند، و نتیجه این است که می‌توانید درخواست‌های زبان طبیعی را به آن بدهید و به انگلیسی اصطلاحی (یا هر تعداد زبان دیگر، بسته به نوع) پاسخ می‌دهد. ورودی).

مدل‌های هوش مصنوعی ویژگی‌های مختلف داده‌ها را در مجموعه‌های آموزشی خود به‌عنوان بردار در نظر می‌گیرند—ساختارهای ریاضی ساخته‌شده از اعداد متعدد. بسیاری از سس مخفی زیربنای این مدل‌ها توانایی آن‌ها در ترجمه اطلاعات دنیای واقعی به بردارها به روشی معنادار و تعیین اینکه کدام بردارها مشابه یکدیگر هستند به گونه‌ای است که به مدل اجازه می‌دهد خروجی مشابه با اما با مجموعه آموزشی آن یکسان نیست.

انواع مختلفی از مدل‌های هوش مصنوعی وجود دارد، اما به خاطر داشته باشید که دسته‌های مختلف لزوماً متقابل نیستند. برخی از مدل ها می توانند در بیش از یک دسته قرار گیرند.

احتمالاً نوع مدل هوش مصنوعی که امروزه بیشترین توجه عمومی را به خود جلب کرده است مدل‌های زبان بزرگ یا LLM است. LLM ها بر اساس مفهوم ترانسفورماتور هستند که برای اولین بار در “توجه تنها چیزی است که شما نیاز دارید معرفی شده است. /a>، مقاله ای در سال ۲۰۱۷ از محققان گوگل. یک ترانسفورماتور از دنباله‌های طولانی متن معنا می‌گیرد تا بفهمد چگونه کلمات یا اجزای معنایی مختلف ممکن است با یکدیگر مرتبط باشند، سپس تعیین می‌کند که چقدر احتمال دارد در مجاورت یکدیگر رخ دهند. مدل‌های GPT LLM هستند و T مخفف transformer است. به نام پیش‌آموزش (که P در GPT است)، قبل از اینکه توسط انسان‌هایی که با مدل تعامل دارند تنظیم شود.

Diffusionمعمولاً در مدل‌های هوش مصنوعی مولد که تصاویر یا ویدیو تولید می‌کنند استفاده می‌شود. در فرآیند انتشار، مدل نویز – اساساً تصادفی – را به یک تصویر اضافه می‌کند، سپس به آرامی آن را به طور تکراری حذف می‌کند، در حالی که مجموعه آموزشی خود را بررسی می‌کند تا سعی کند تصاویر مشابه معنایی را مطابقت دهد. Diffusion هسته اصلی مدل‌های هوش مصنوعی است که جادوی متن به تصویر مانند Stable Diffusion و DALL-E را انجام می‌دهند.

یک شبکه متخاصم مولد یا GAN، مبتنی بر نوعی یادگیری تقویتی است که در آن دو الگوریتم با یکدیگر رقابت می‌کنند. یک متن یا تصاویر را بر اساس احتمالات به دست آمده از یک مجموعه داده بزرگ تولید می کند. دیگری – یک هوش مصنوعی متمایز – ارزیابی می کند که آیا آن خروجی واقعی است یا توسط هوش مصنوعی تولید شده است. هوش مصنوعی مولد بارها و بارها سعی می‌کند هوش مصنوعی متمایز را «فریب» کند و به‌طور خودکار به نفع نتایج موفقیت‌آمیز سازگار می‌شود. هنگامی که هوش مصنوعی مولد به طور مداوم در این رقابت “برنده” می شود، هوش مصنوعی متمایز توسط انسان ها به خوبی تنظیم می شود و این روند از نو آغاز می شود.

یکی از مهم ترین چیزهایی که در اینجا باید به خاطر داشت این است که در حالی که مداخله انسانی در فرآیند آموزش وجود دارد، بیشتر یادگیری و سازگاری به طور خودکار اتفاق می افتد. برای رساندن مدل‌ها به نقطه‌ای که نتایج جالبی تولید می‌کنند، به تکرارهای بسیار زیادی نیاز است، بنابراین اتوماسیون ضروری است. این فرآیند از نظر محاسباتی کاملاً فشرده است و بسیاری از انفجارهای اخیر در قابلیت‌های هوش مصنوعی ناشی از پیشرفت در قدرت محاسباتی GPU و تکنیک‌های اجرای پردازش موازی بر روی این تراشه‌ها بوده است.

آیا هوش مصنوعی مولد حساس است؟

ریاضیات و کدنویسی که برای ایجاد و آموزش مدل‌های هوش مصنوعی مولد انجام می‌شوند، بسیار پیچیده هستند و فراتر از محدوده این مقاله هستند. اما اگر با مدل‌هایی که نتیجه نهایی این فرآیند هستند تعامل داشته باشید، تجربه می‌تواند به طور قطعی عجیب باشد. شما می توانید DALL-E را برای تولید چیزهایی که شبیه آثار هنری واقعی هستند دریافت کنید. می‌توانید با ChatGPT مکالماتی داشته باشید که شبیه مکالمه با یک انسان دیگر است. آیا محققین واقعاً یک ماشین فکر ایجاد کرده اند؟

کریس فیپس، مدیر سابق پردازش زبان طبیعی IBM که روی محصولات Watson AI کار می‌کرد، می‌گوید خیر. او ChatGPT را به عنوان یک “ماشین پیش بینی بسیار خوب” توصیف می کند.

فیپس، که همچنین یک مجری کمدی است، با یک بازی بداهه رایج به نام Mind Meld مقایسه می‌کند.

آزمایش محدودیت‌های هوش کامپیوتری

پیش‌گیری‌های خاصی که می‌توانیم به این مدل‌های هوش مصنوعی بدهیم، نظر فیپس را کاملاً آشکار می‌کند. به عنوان مثال، معما را در نظر بگیرید: “وزن چیست، یک پوند سرب یا یک پوند پر؟” البته پاسخ این است که وزن آنها یکسان است (یک پوند)، حتی اگر غریزه یا عقل سلیم ما به ما بگوید که پرها سبکتر هستند.

ChatGPT به درستی به این معما پاسخ می‌دهد، و ممکن است تصور کنید که این کار را می‌کند، زیرا یک کامپیوتر منطقی سرد است که هیچ «عقل سلیمی» برای ضربه زدن به آن ندارد. اما این چیزی نیست که زیر کاپوت می گذرد. ChatGPT به طور منطقی پاسخ را استدلال نمی کند. این فقط بر اساس پیش‌بینی‌هایش در مورد آنچه که باید بعد از سؤال درباره یک پوند پر و یک پوند سرب ایجاد شود، خروجی ایجاد می‌کند. از آنجایی که مجموعه آموزشی آن شامل مجموعه‌ای از متن است که معما را توضیح می‌دهد، نسخه‌ای از آن پاسخ صحیح را جمع‌آوری می‌کند.

با این حال، اگر از ChatGPT بپرسید که آیا دو پوند پر از یک پوند سرب سنگین‌تر است، با اطمینان به شما می‌گوید که وزن آنها برابر است، زیرا همچنان محتمل‌ترین خروجی یک درخواست است. در مورد پر و سرب، بر اساس مجموعه آموزشی آن. می‌تواند سرگرم‌کننده باشد که به هوش مصنوعی بگوییم اشتباه است و در پاسخ آن را تماشا کنیم. آن را گرفتم تا بابت اشتباهش از من عذرخواهی کند و سپس پیشنهاد دادم که دو پوند پر وزن چهار برابر یک پوند سرب داشته باشد.