غلبه بر چالش‌های توسعه هوش مصنوعی

تبدیل توانمندی‌های خیره‌کننده هوش مصنوعی به برنامه‌های نرم‌افزاری پایدار چالش‌های جدید و تازه‌ای را به‌وجود می‌آورد، اما کلیدهای غلبه بر آن‌ها اساسی و کسل‌کننده‌اند.

دنبال‌کنندگان معمول هوش مصنوعی را در X دنبال کنید—آندرو انگ، پیج بیلی، دمیس هسابیس، تام وولف، سانتیاگو والداراما و غیره—و شروع به کشف الگوهایی در چالش‌های نوظهور هوش مصنوعی و چگونگی حل آن‌ها توسط توسعه‌دهندگان می‌کنید. در حال حاضر، این افراد برجسته حداقل دو نیروی مواجهه‌گر با توسعه‌دهندگان را نشان می‌دهند: دستاوردهای شگفت‌انگیز توانمندی که با مشکلات نرم‌افزاری بسیار آشنا (و سرسخت) همراه است. مدل‌ها مرتباً هوشمندتر می‌شوند؛ برنامه‌ها در همان نقاط خراب می‌شوند. فاصله بین دموی اولیه و محصول پایدار همچنان محلی است که بیشتر مهندسی در آن رخ می‌دهد.

تیم‌های توسعه چگونه از این بن‌بست عبور می‌کنند؟ با بازگشت به اصول پایه.

اشیا (عامل‌ها) از هم می‌پاشند

آندرو انگ بر روی نکته‌ای تأکید کرده است که بسیاری از سازندگان از طریق تجربه سخت‌آلود یاد گرفته‌اند: « وقتی عوامل داده‌ای شکست می‌خورند، اغلب به‌صورت بی‌صدا شکست می‌خورند — پاسخ‌های با اطمینان که در واقع اشتباه هستند را می‌دهند و کشف علت شکست می‌تواند دشوار باشد.» او بر ارزیابی سیستماتیک و قابلیت مشاهده برای هر گامی که یک عامل برمی‌دارد تأکید می‌کند، نه فقط دقت انتها به انتها. ممکن است واژه «کدنویسی احساس» را دوست داشته باشیم، اما توسعه‌دهندگان هوشمند به‌شدت به‌کارگیری تست‌های واحد، ردگیری‌ها و بررسی‌های سلامت برای برنامه‌های عامل، ابزارها و حافظه را تحمیل می‌کنند.

به عبارت دیگر، آن‌ها عامل‌ها را شبیه به سیستم‌های توزیع‌شده رفتار می‌دهند. هر مرحله را با OpenTelemetry ابزار می‌کنید، مجموعه‌های دادهٔ «طلایی» کوچک برای ارزیابی‌های قابل تکرار نگه می‌دارید و رگرسیون‌ها را روی برنامه‌ها و ابزارها همان‌طور که برای APIها انجام می‌دهید، اجرا می‌کنید. این موضوع زمانی بحرانی می‌شود که ما فراتر از برنامه‌های ساده حرکت کنیم و شروع به معماری‌سازی سامانه‌های عامل‌کننده کنیم، جایی که اندرو انگ اشاره می‌کند که خود عامل‌ها برای نوشتن و اجرای تست‌ها استفاده می‌شوند تا دیگر عامل‌ها صادق بمانند. این یک متا است، اما وقتی چارچوب تست مانند نرم‌افزار واقعی رفتار می‌کند — نسخه‌بندی‌شده، بازبینی‌شده و اندازه‌گیری‌شده — مؤثر است.

سانتیاگو والداراما همان هشدار را بازتاب می‌دهد، گاهی اوقات پیشنهاد یک گام بزرگ به عقب می‌کند. راهنمایی او به‌نوعی خوش‌طبعانه غیرپرتزویی است: از وسوسهٔ تبدیل همه چیز به یک عامل خودداری کنید. اگرچه «واقعاً وسوسه‌انگیز است که بدون دلیل پیچیدگی اضافه کنیم»، دور زدن این وسوسه سودمند است. اگر یک تابع ساده کافی است، از یک تابع ساده استفاده کنید چون همان‌طور که او می‌گوید «توابع عادی تقریباً همیشه برنده‌اند».

داده را اصلاح کنید، نه فقط مدل

قبل از اینکه حتی به‌بهبود مدل خود فکر کنید، باید بازیابی را اصلاح کنید. همان‌طور که انگ پیشنهاد می‌کند، اکثر «پاسخ‌های بد» از سیستم‌های RAG (تولید افزایشی بازیابی) خودساخته هستند — نتیجهٔ تقسیم‌بندی ناپخته، فقدان متادیتا یا پایگاه دانش نامنظم. این یک مشکل مدل نیست؛ یک مشکل داده است.

تیم‌هایی که موفق می‌شوند دانش را مانند یک محصول می‌دانند. آن‌ها کورپوس‌های ساختاریافته می‌سازند و گاهی از عامل‌ها برای استخراج موجودیت‌ها و روابط به یک گراف سبک استفاده می‌کنند. سیستم‌های RAG خود را مانند یک موتور جستجو ارزیابی می‌کنند: بر اساس تازگی، پوشش و نرخ موفقیت در برابر یک مجموعهٔ طلایی از سوالات. تقسیم‌بندی تنها یک پیش‌فرض کتابخانه‌ای نیست؛ یک رابط است که باید با سلسله‌مراتب‌های نام‌گذاری‌شده، عناوین و شناسه‌های پایدار طراحی شود.

و فراموش نکنید JSON. تیم‌ها به‌طور فزاینده‌ای از «متن آزاد و دعا کردن» به درخواست‌های مبتنی بر طرح‌واره با اعتبارسنج‌های سخت در مرز حرکت می‌کنند. این کار کسل‌کننده به‌نظر می‌رسد تا وقتی که تجزیه‌کننده‌هایتان دیگر خراب نمی‌شوند و ابزارهایتان دیگر اشتباه نمی‌کنند. خروجی محدود LLMها را تبدیل می‌کند از کارآموزان پرحرف به خدماتی که می‌توانند به‌صورت ایمن دیگر خدمات را فراخوانی کنند.

کاپی‌پایلوت‌های برنامه‌نویسی را بر ریل‌های ایمنی قرار دهید

آخرین تلاش OpenAI در مورد GPT-5-Codex کمتر «تکمیل خودکار» است و بیشتر به مسألهٔ «ربات‌های هوش مصنوعی» اشاره دارد که مخزن شما را می‌خوانند، خطاها را نشان می‌دهند و یک درخواست ادغام (pull request) باز می‌کنند، همان‌طور که هم‌بنیان‌گذار OpenAI، گرگ براکمن، پیشنهاد می‌کند. در همین زمینه، او مرور خودکار کد را در خط فرمان Codex برجسته کرده است، با اجرای موفق حتی زمانی که به مخزن «غلط» اشاره می‌شد (راه خود را پیدا کرد)، و در دسترس بودن عمومی GPT-5-Codex در Responses API. این یک سطح جدید از توانمندی آگاهی از مخزن است.

همان‌طور که والداراما می‌گوید، « اجازه دادن به هوش مصنوعی برای نوشتن تمام کد من، مانند پرداخت به یک ساملیر برای نوشیدن تمام شراب من است.» به‌عبارت دیگر، از ماشین برای تسریع کدی استفاده کنید که مایل به مالکیت آن هستید؛ قضاوت را برون‌سپاری نکنید. در عمل، این به این معناست که توسعه‌دهندگان باید حلقهٔ بین تغییرات پیشنهادی هوش مصنوعی و CI خود را محکم‌تر کنند (ادغام مستمر) و تست‌ها را بر روی هر تغییر تولید شده توسط هوش مصنوعی اعمال کنند و ترکیب‌ها را در ساخت‌های قرمز مسدود کنند (چیزی که به‌تازگی نوشتم).

تمام این موارد یادآوری دیگری است که ما هنوز به حالت خودکار در استفاده از genAI نرسیده‌ایم. برای مثال، DeepMind گوگل با Gemini ۲.۵ Deep Think نشان‌دهندهٔ «تفکر» قوی‌تر و بلندمدت شده است. این برای توسعه‌دهندگانی که نیاز دارند مدل‌ها بدون نظارت مداوم، منطق چندمرحله‌ای را زنجیره‌بندی کنند، مهم است. اما این شکاف قابلیت اطمینان بین یک جدول رده‌بندی و هدف سطح سرویس زمان بالا بودن را از بین نمی‌برد.

تمام این مشاوره‌ها برای کد مفید هستند، اما معادلهٔ بودجه‌ای نیز وجود دارد، همان‌طور که توماس تونگوز استدلال می‌کند. به‌راحتی فراموش می‌شود، اما متر همیشه در حال اندازه‌گیری تماس‌های API با مدل‌های پیشرفته است و ویژگی‌ای که در دموی اولیه درخشان به‌نظر می‌رسد می‌تواند در مقیاس بزرگ به یک سیاه‌چالهٔ مالی تبدیل شود. در همان زمان، برنامه‌های حساس به تأخیر نمی‌توانند برای یک مدل کند و گران‌قیمت مانند GPT‑۴ صبر کنند تا یک پاسخ ساده تولید کند.

این موضوع منجر به پیدایش یک نوع جدید از مهندسی هوش مصنوعی متمرکز بر بهینه‌سازی هزینه‑ عملکرد شد. هوشمندترین تیم‌ها این را به‌عنوان یک نگرانی معماری درجه یک، نه پس‌نگری، می‌پذیرند. آن‌ها مسیریاب‌های هوشمند یا «سلسله‌مراتب مدل‌ها» می‌سازند که پرسش‌های ساده را به مدل‌های ارزان‌تر و سریع‌تر (مانند Haiku یا Gemini Flash) می‌فرستند و مدل‌های پرهزینه و پرقدرت را برای وظایف استدلال پیچیده محفوظ می‌دارند. این رویکرد نیاز به طبقه‌بندی قوی هدف کاربر در ابتدا دارد — یک مسئلهٔ مهندسی کلاسیک که اکنون بر روی ارکستراسیون LLM اعمال می‌شود. علاوه بر این، تیم‌ها فراتر از Redis ساده برای ذخیره‌سازی موقت رفته‌اند. مرز جدید ذخیره‌سازی معنایی است، جایی که سامانه‌ها معنای پاسخ یک پرسش را نه فقط متن دقیق، ذخیره می‌کنند، به طوری که می‌توانند یک نتیجهٔ کش‌شده را برای پرسش‌های آیندهٔ معنایی مشابه ارائه دهند. این تبدیل بهینه‌سازی هزینه را به یک عمل اصلی و انضباطی می‌کند.

یک سیاه‌چالهٔ فوق‌العاده‌ بزرگ: امنیت

و سپس امنیت وجود دارد که در عصر هوش مصنوعی مولد به بُعدی جدید و سورئال دست یافته است. همان ریل‌های ایمنی که بر کد تولید شده توسط هوش مصنوعی اعمال می‌کنیم باید بر ورودی کاربر نیز اعمال شوند، زیرا هر پرسشی باید به‌عنوان ممکن است خصمانه رفتار شود.

ما فقط دربارهٔ آسیب‌پذیری‌های سنتی صحبت نمی‌کنیم. ما دربارهٔ تزریق پرامپت صحبت می‌کنیم، جایی که یک کاربر مخرب یک LLM را فریب می‌دهد تا دستورالعمل‌هایش را نادیده بگیرد و دستورات مخفی را اجرا کند. این یک خطر نظری نیست؛ در واقع در دنیای واقعی رخ می‌دهد و توسعه‌دهندگان اکنون با فهرست ۱۰ برتر OWASP برای برنامه‌های مدل‌های زبانی بزرگ روبرو هستند.

راه‌حل‌ها ترکیبی از بهداشت امنیتی قدیمی و جدید هستند. این به معنای ایزوله‌سازی دقیق ابزارهایی است که یک عامل می‌تواند استفاده کند، اطمینان از حداقل امتیاز. این به معنای پیاده‌سازی اعتبارسنجی خروجی سخت‌گیرانه و، مهم‌تر از آن، اعتبارسنجی نیت قبل از اجرای هر دستوری که توسط LLM تولید شده است. این دیگر فقط دربارهٔ تمیز کردن رشته‌ها نیست؛ بلکه دربارهٔ ساختن یک حاشیه‌حفاظ اطراف قدرت اما به‌طرز خطرناکی نرم‌پذیر استدلال مدل است.

استانداردسازی در راه؟

یکی از موفقیت‌های کم‌صدا در سال گذشته، پیشرفت مستمر «پروتکل زمینهٔ مدل» (Model Context Protocol) و دیگران به سمت تبدیل شدن به روشی استاندارد برای ارائه ابزارها و داده‌ها به مدل‌ها بوده است. MCP جذاب نیست، اما این همان چیزی است که آن را بسیار مفید می‌کند. این پروتکل رابط‌های مشترکی با کدهای اتصال کمتر وعده می‌دهد. در صنعتی که همه چیز روزانه تغییر می‌کند، این واقعیت که MCP بیش از یک سال بدون جایگزینی باقی مانده است یک دستاورد آرام است.

این همچنین فرصتی برای رسمی‌کردن دسترسی حداقل‑امتیاز برای هوش مصنوعی فراهم می‌کند. ابزارهای یک عامل را مانند APIهای تولیدی رفتار کنید: به آن‌ها حوزه‌ها، کوتاها و لاگ‌های نظارتی بدهید و برای اقدامات حساس تأییدهای صریح طلب کنید. قراردادهای ابزارهای سفت‌وسخت را تعریف کنید و گواهی‌نامه‌ها را همان‌طور که برای هر حساب سرویس دیگر می‌چرخانید، چرخاندن کنید. این یک انضباط قدیمی برای مشکلی جدید است.

در واقع، این عملی‌گرایی ساکت این روش‌های برتر نوظهور است که به روند کلی بزرگ‌تری اشاره می‌کند. چه دربارهٔ تست عامل‌ها، مسیردهی مدل، اعتبارسنجی پرامپت یا استانداردسازی ابزار صحبت کنیم، تم پایه‌ای یکسان است: صنعت هوش مصنوعی سرانجام به کار جدی، اغلب غیر‌پرتزویی تبدیل توانایی‌های خیره‌کننده به نرم‌افزار پایدار می‌پردازد. این حرفه‌سازی بزرگ یک رشتهٔ پیش‌ از قبل تخصصی است.

دور چرخهٔ هیجان‌زدگی به‌دنبال پنجره‌های زمینه‌ای بزرگ‌تر و مهارت‌های استدلال نوین خواهد گشت و این خوب است؛ این علم است. اما ارزش واقعی تجاری توسط تیم‌هایی که درس‌های سخت‌کسب‌شدهٔ دهه‌ها مهندسی نرم‌افزار را اعمال می‌کنند، باز می‌شود. آن‌ها داده را مانند یک محصول، APIها را مانند یک قرارداد، امنیت را مانند یک پیش‌نیاز و بودجه‌ها را مانند چیزهای واقعی می‌دانند. آیندهٔ ساختن با هوش مصنوعی، همان‌طور که می‌دانیم، کمتر شبیه به یک نمایش جادویی و بیشتر شبیه به یک پروژهٔ نرم‌افزاری به‌خوبی اداره‌شده است. و اینجایی است که پول واقعی وجود دارد.

اشیا (عامل‌ها) از هم می‌پاشند

داده را اصلاح کنید، نه فقط مدل

کاپی‌پایلوت‌های برنامه‌نویسی را بر ریل‌های ایمنی قرار دهید

یک سیاه‌چالهٔ فوق‌العاده‌ بزرگ: امنیت

استانداردسازی در راه؟

پست های مرتبط

غلبه بر چالش‌های توسعه هوش مصنوعی

شاید به این مطالب علاقمند باشید

غلبه بر چالش‌های توسعه هوش مصنوعی

غلبه بر چالش‌های توسعه هوش مصنوعی

غلبه بر چالش‌های توسعه هوش مصنوعی

غلبه بر چالش‌های توسعه هوش مصنوعی