علیرغم بررسی های درخشان ، یک مطالعه دقیق نشان می دهد که رمزگذارهای باتجربه برای انجام کارهای با هوش مصنوعی بیشتر طول می کشد ، در حالی که هنوز هم معتقد بودند که آنها سریعتر هستند.
توسعه دهندگان باتجربه می توانند ۱۹ ٪ بیشتر طول بکشد تا هنگام استفاده از دستیاران محبوب AI مانند Cursor Pro و Claude ، کارهای خود را انجام دهند و روایت غالب صنعت فناوری را در مورد ابزارهای کدگذاری هوش مصنوعی به چالش بکشد ، طبق یک مطالعه جامع جدید.
این تحقیق ، انجام شده توسط مدل ارزیابی و تحقیقات تهدید (METR) ، ۱۶ توسعه دهنده منبع باز فصلی را پیگیری کرد زیرا آنها ۲۴۶ وظیفه برنامه نویسی در دنیای واقعی را در مخازن بالغ با میانگین بیش از یک میلیون خط کد انجام دادند.
“We conduct a randomized controlled trial (RCT) to understand how early-2025 AI tools affect the productivity of experienced open-source developers working on their own repositories,” این مطالعه گفت.
شکاف ادراک عمیق است
شاید جالب ترین ارتباط بین ادراک و واقعیت باشد. قبل از شروع مطالعه ، توسعه دهندگان پیش بینی کردند که ابزارهای AI باعث کاهش زمان تکمیل آنها ۲۴ ٪ می شوند. حتی پس از تجربه کندی واقعی ، شرکت کنندگان تخمین زدند که هوش مصنوعی ۲۰ ٪ بهره وری خود را بهبود بخشیده است.
“وقتی مردم گزارش می دهند که هوش مصنوعی کار خود را تسریع کرده است ، ممکن است اشتباه باشد.”
این سوء برداشت فراتر از توسعه دهندگان فردی گسترش می یابد ، به طوری که کارشناسان اقتصاد پیش بینی می کنند هوش مصنوعی ۳۹ ٪ و کارشناسان یادگیری ماشین را پیش بینی می کنند ۳۸ ٪ سود را پیش بینی می کنند ، همه به طرز چشمگیری تأثیر واقعی را بیش از حد ارزیابی می کنند.
Sanchit Vir Gogia ، تحلیلگر و مدیر عامل شرکت در Greyhound Research ، هشدار داد که سازمان ها “اشتباه کردن رضایت از توسعه دهندگان برای بهره وری توسعه دهنده” را خطر می کنند ، با توجه به اینکه اکثر ابزارهای هوش مصنوعی تجربه کدگذاری را از طریق کاهش بار شناختی بهبود می بخشند ، اما همیشه به خروجی سریعتر ترجمه نمی شوند.
آزمایش کنترل شده در دنیای واقعی
این مطالعه از روش آزمایشی کنترل شده تصادفی استفاده کرد ، که در تحقیقات بهره وری هوش مصنوعی نادر است. محققان توضیح دادند: “برای اندازه گیری مستقیم تأثیر دنیای واقعی ابزارهای هوش مصنوعی بر توسعه نرم افزار ، ما ۱۶ توسعه دهنده باتجربه را از مخازن بزرگ منبع باز (میانگین ۲۲K+ ستاره و ۱ متر+ خط کد) که برای چندین سال به آنها کمک کرده اند ، استخدام کردیم.”
وظایف به طور تصادفی به استفاده از ابزار AI اجازه داده شده یا ممنوع است ، و توسعه دهندگان در درجه اول Claude 3.5 و ۳.۷ Sonnet در دوره مطالعه فوریه و ژوئن ۲۰۲۵ از Claude 3.5 و ۳.۷ استفاده می کنند. مقاله مطالعه افزود: همه شرکت کنندگان صفحه نمایش خود را ضبط کردند و بینش در مورد الگوهای استفاده واقعی را ارائه دادند و وظایف خود را به طور متوسط دو ساعت انجام دادند.
گوگیا استدلال کرد که این نشان دهنده “اصلاحی حیاتی به فرض بیش از حد ساده گرایانه است که کدگذاری با کمک AI به طور خودکار بهره وری توسعه دهنده را تقویت می کند” ، و نشان می دهد که شرکت ها باید “سخت گیری چارچوب های ارزیابی خود را بالا ببرند” و “مدل های تست و یادگیری را که فراتر از نیمکت های فروشنده است ، توسعه دهند.”
درک پارادوکس بهره وری
این تحقیق چندین عامل بهم پیوسته را که در کاهش سرعت مشاهده شده نقش دارد ، شناسایی کرد. علیرغم دستورالعمل استفاده از ابزارهای هوش مصنوعی فقط در صورت مفید بودن ، برخی از توسعه دهندگان گزارش دادند که فراتر از آنچه مولد بود ، آزمایش کنند. شرکت کنندگان در این مطالعه به طور متوسط پنج سال تجربه و ۱۵۰۰ تعهد در مخازن خود داشتند ، در حالی که محققان در انجام کارهایی که توسعه دهندگان تجربه قبلی بالایی داشتند ، کاهش سرعت بیشتری پیدا کردند.
مهمترین آنها ، توسعه دهندگان کمتر از ۴۴ ٪ پیشنهادات کد تولید شده توسط AI را پذیرفتند ، با ۷۵ ٪ گزارش دادند که آنها هر خط از خروجی AI را می خوانند و ۵۶ ٪ تغییرات اساسی را برای پاکسازی کد تولید شده AI انجام می دهند. کار بر روی پایه های بزرگ و بالغ با وابستگی های پیچیده و استانداردهای برنامه نویسی برای ابزارهای هوش مصنوعی که فاقد درک عمیق هستند ، به ویژه چالش برانگیز است.
“کندی ۱۹ ٪ مشاهده شده در بین توسعه دهندگان باتجربه ، کیفرخواست AI به عنوان یک کل نیست ، بلکه بازتابی از اصطکاک دنیای واقعی از ادغام پیشنهادات احتمالی در گردش کار قطعی است.
شواهد صنعت گسترده تر
یافته های METR با روندهای مشخص شده در Google 2024 تحقیق و ارزیابی devops (dora) بر اساس گزارش ها ، بر اساس گزارش ها ، بر اساس گزارش ها ، بر اساس گزارش ها ، بر اساس گزارش ها. در حالی که ۷۵ ٪ از توسعه دهندگان گزارش دادند که احساس تولید بیشتری با ابزارهای AI دارند ، داده ها داستان متفاوتی را نشان می دهد: هر ۲۵ ٪ افزایش در پذیرش AI 1.5 ٪ DIP در سرعت تحویل و افت ۷.۲ ٪ در ثبات سیستم را نشان می داد. علاوه بر این ، ۳۹ ٪ از پاسخ دهندگان گزارش داده اند که اعتماد به نفس کمی یا هیچ اعتماد به کد تولید شده توسط AI دارند.
این نتایج با مطالعات خوش بینانه قبلی متناقض است. تحقیقات از . Accenture و یکی دیگر از شرکت های Fortune 100 ، دریافتند که توسعه دهندگان با استفاده از GitHub Copilot به طور متوسط ۲۶ ٪ کارهای بیشتر را انجام داده اند. یک آزمایش کنترل شده جداگانه نشان داد که توسعه دهندگان وظایف برنامه نویسی را ۵۵.۸ ٪ سریعتر با GitHub Copilot انجام دادند. با این حال ، این مطالعات به طور معمول از وظایف ساده تر و جدا شده در مقایسه با سناریوهای پیچیده و واقعی در دنیای واقعی مورد بررسی در تحقیقات METR استفاده می کنند.
این یافته ها به عنوان شرکت ها میلیاردها دلار در ابزارهای برنامه نویسی هوش مصنوعی می ریزند ، با مطالعه METR اظهار داشت که GitHub گزارش ۴۱ ٪ از کد جدید اکنون تولید شده است. با این حال ، این تحقیق کسری اعتماد اساسی را نشان می دهد که ممکن است اثربخشی را تضعیف کند.
طبق گزارش DORA ، یکی از شرکت کنندگان ارزیابی کد AI را به عنوان “مانند روزهای ابتدایی Stackoverflow” توصیف کرد ، [وقتی] همیشه فکر می کردید که افراد در Stackoverflow واقعاً تجربه شده اند … و سپس ، شما فقط کپی و چسباندن مواد و موارد منفجر می شوید. ”
یک مسیر استراتژیک رو به جلو
با وجود بازده های بهره وری ، ۶۹ ٪ از شرکت کنندگان در مطالعه پس از پایان آزمایش ، با استفاده از مکان نما ادامه دادند و نشان می دهد که توسعه دهندگان جنبه های ارزش فراتر از سرعت خالص را نشان می دهند. مطالعه METR خاطرنشان کرد: “نتایج لزوماً عذاب ابزارهای کدگذاری AI را هجی نمی کنند” زیرا چندین عامل خاص برای تنظیم مطالعه آنها ممکن است به طور گسترده ای اعمال نشود.
Gogia به شرکتهای توصیه شده “طرز فکر نمونه کارها را” اتخاذ می کنند: استقرار کپی های هوش مصنوعی در جایی که آنها شناخت را تقویت می کنند (مستندات ، دیگ بخار ، آزمایشات) ، در حالی که در مناطقی که تخصص و آشنایی با کد کد بیشتر از اتوماسیون است. ” وی از درمان ابزارهای هوش مصنوعی “نه به عنوان یک شتاب دهنده جهانی بلکه به عنوان یک خلبان متنی” که نیاز به مدیریت و اندازه گیری دارد ، حمایت کرد.
پست های مرتبط
ابزارهای برنامه نویسی هوش مصنوعی می توانند توسعه دهندگان فصلی را ۱۹ ٪ کاهش دهند
ابزارهای برنامه نویسی هوش مصنوعی می توانند توسعه دهندگان فصلی را ۱۹ ٪ کاهش دهند
ابزارهای برنامه نویسی هوش مصنوعی می توانند توسعه دهندگان فصلی را ۱۹ ٪ کاهش دهند