تیم تحریریه استاد آی تی گزارش می دهد: در تحولی بزرگ در دنیای هوش مصنوعی و ارزیابی مدل های زبانی بزرگ (Large Language Models)، شرکت OpenAI رسماً اعلام کرد که دیگر مدل های خود را روی بنچمارک محبوب SWE-bench Verified ارزیابی نخواهد کرد. این بنچمارک که تا همین اواخر به عنوان یکی از مهم ترین معیار های سنجش توانایی مدل های هوش مصنوعی در حل مشکلات واقعی مهندسی نرم افزار شناخته می شد، اکنون با انتقاد های جدی از سوی یکی از بزرگ ترین توسعه دهندگان این حوزه مواجه شده است. OpenAI ارزیابی SWE-bench Verified را به دلایل ساختاری و عملیاتی متعددی متوقف کرده و این تصمیم بازتاب گسترده ای در جامعه فناوری داشته است.
SWE-bench Verified چیست و چرا اهمیت داشت؟
SWE-bench Verified یک بنچمارک تخصصی برای ارزیابی توانایی مدل های هوش مصنوعی در حل مسائل واقعی مهندسی نرم افزار بود. این معیار سنجش مجموعه ای از مشکلات واقعی (Issues) استخراج شده از مخازن (Repositories) پرکاربرد گیت هاب (GitHub) را شامل می شد و از مدل ها می خواست تا پچ های (Patches) صحیح برای رفع این مشکلات تولید کنند. نسخه Verified این بنچمارک با بازبینی انسانی همراه بود تا مطمئن شود تست ها و مسائل مورد استفاده دقیق و قابل اعتماد هستند.
این بنچمارک به نوعی به زبان مشترک رقابتی بین شرکت های بزرگ هوش مصنوعی تبدیل شده بود. شرکت هایی مانند OpenAI، Anthropic، Google DeepMind و بسیاری از استارتاپ های حوزه ابزار های کدنویسی هوش مصنوعی (AI Coding Assistants) نتایج خود روی SWE-bench Verified را به عنوان شاخصی از برتری فنی مدل های خود منتشر می کردند.
دلایل OpenAI برای توقف ارزیابی
نشت داده و آلودگی بنچمارک
OpenAI در توضیحات رسمی خود تصریح کرده است که یکی از مهم ترین دلایل این تصمیم، مسئله آلودگی داده (Data Contamination) است. با گذشت زمان و افزایش محبوبیت SWE-bench Verified، داده های مربوط به این بنچمارک به طور گسترده ای در اینترنت و در مجموعه داده های آموزشی (Training Datasets) مدل های مختلف پراکنده شده اند. این به آن معناست که مدل ها ممکن است به جای حل واقعی مسائل، صرفاً پاسخ هایی را که قبلاً در داده های آموزشی خود دیده اند بازتولید کنند. این پدیده که به نشت بنچمارک (Benchmark Leakage) معروف است، اعتبار نتایج را به شدت زیر سوال می برد.
محدودیت های ساختاری در سنجش واقعی توانایی
OpenAI همچنین اشاره کرده است که SWE-bench Verified تنها یک بعد محدود از توانایی های مهندسی نرم افزار را اندازه گیری می کند. این بنچمارک عمدتاً روی تولید پچ های کوچک و اصلاحات محدود کد تمرکز دارد و قادر به سنجش توانایی های پیچیده تری مانند طراحی معماری نرم افزار (Software Architecture Design)، ریفکتورینگ (Refactoring) گسترده، درک کلی از پایگاه کد (Codebase Understanding) و تعامل چند مرحله ای با محیط توسعه نیست. به عبارت دیگر، نمره بالا روی این بنچمارک لزوماً به معنای توانایی واقعی یک مدل در انجام وظایف پیچیده مهندسی نرم افزار نیست.
اشباع نمرات و کاهش تفکیک پذیری
دلیل دیگری که OpenAI مطرح کرده، اشباع نمرات (Score Saturation) در این بنچمارک است. با پیشرفت سریع مدل ها، نمرات به سقف نزدیک شده اند و تفاوت عملکردی بین مدل های مختلف دیگر از طریق این معیار قابل تشخیص نیست. وقتی چندین مدل رقیب همگی نمراتی بالای ۶۰ یا ۷۰ درصد کسب کنند، این بنچمارک دیگر ابزار مفیدی برای مقایسه نخواهد بود.
واکنش جامعه فناوری و هوش مصنوعی
این تصمیم OpenAI بحث های گسترده ای را در میان متخصصان یادگیری ماشین (Machine Learning)، مهندسان نرم افزار و تحلیل گران فناوری برانگیخته است. برخی از کارشناسان این اقدام را شجاعانه و صادقانه ارزیابی کرده اند، زیرا نشان می دهد که یک شرکت بزرگ حاضر است به جای بازی کردن با اعداد و بنچمارک ها، صادقانه به محدودیت های ابزار های ارزیابی اعتراف کند. در مقابل، برخی دیگر معتقدند که این تصمیم ممکن است با انگیزه های رقابتی نیز همراه باشد، به ویژه در شرایطی که رقبا ممکن است نمرات بهتری روی همین بنچمارک کسب کرده باشند.
تحلیل استاد آی تی
کارشناسان استاد آی تی معتقدند که تصمیم OpenAI برای کنار گذاشتن SWE-bench Verified فراتر از یک تغییر ساده در استراتژی ارزیابی است و می تواند آغازگر یک تحول بنیادین در نحوه سنجش عملکرد مدل های هوش مصنوعی در حوزه کدنویسی و مهندسی نرم افزار باشد. مشکل آلودگی بنچمارک یک چالش عمومی در کل صنعت هوش مصنوعی مولد (Generative AI) است و تقریباً همه بنچمارک های محبوب از جمله MMLU، HumanEval و حتی بنچمارک های چندوجهی (Multimodal Benchmarks) با این مسئله دست و پنجه نرم می کنند.
این رویداد نشان می دهد که صنعت هوش مصنوعی به ابزار های ارزیابی جدید و مقاوم تری نیاز دارد. بنچمارک های نسل بعدی باید ویژگی هایی مانند تولید پویای مسائل (Dynamic Problem Generation)، مقاومت در برابر نشت داده، و پوشش ابعاد گسترده تری از توانایی های مهندسی نرم افزار را داشته باشند. همچنین حرکت به سمت ارزیابی های مبتنی بر کاربرد واقعی (Real-World Usage Evaluation) به جای تست های استاتیک، یک ضرورت اجتناب ناپذیر به نظر می رسد.
از منظر کاربران و توسعه دهندگانی که از ابزار های کدنویسی مبتنی بر هوش مصنوعی مانند GitHub Copilot، Cursor، Codex و سایر ابزار ها استفاده می کنند، این تحول پیام مهمی دارد: نمرات بنچمارک را نباید به عنوان تنها معیار انتخاب ابزار در نظر گرفت. تجربه واقعی کاربر (User Experience)، کیفیت تعامل در محیط توسعه یکپارچه (IDE Integration)، و توانایی مدل در درک زمینه (Context Understanding) پروژه، معیار های به مراتب معتبر تری هستند.
آینده ارزیابی مدل های کدنویسی هوش مصنوعی
با خروج OpenAI از SWE-bench Verified، این سوال مهم مطرح می شود که جایگزین مناسب چیست. چند رویکرد در حال شکل گیری هستند که می توانند آینده ارزیابی را رقم بزنند. ارزیابی های مبتنی بر عامل (Agent-Based Evaluations) که در آن مدل باید یک وظیفه کامل مهندسی نرم افزار را از ابتدا تا انتها انجام دهد، بنچمارک های خصوصی و چرخشی (Private Rotating Benchmarks) که امکان نشت داده را به حداقل می رسانند، و ارزیابی های انسان محور (Human-in-the-Loop Evaluations) که بازخورد مستقیم توسعه دهندگان واقعی را لحاظ می کنند، از جمله این رویکرد ها هستند.
OpenAI در بیانیه خود اشاره کرده که قصد دارد روی معیار های ارزیابی داخلی قوی تر و همچنین بنچمارک های جدیدی که بهتر نمایانگر توانایی های واقعی مدل ها باشند تمرکز کند. این رویکرد با فلسفه کلی شرکت مبنی بر توسعه هوش مصنوعی عمومی (Artificial General Intelligence – AGI) همخوانی دارد، زیرا رسیدن به AGI مستلزم ابزار های سنجش بسیار دقیق تر و جامع تری است.
جمع بندی
تصمیم OpenAI برای توقف ارزیابی مدل های خود روی SWE-bench Verified یک زنگ بیدارباش برای کل صنعت هوش مصنوعی است. این اقدام نشان می دهد که بنچمارک های موجود دیگر پاسخگوی سرعت پیشرفت مدل های هوش مصنوعی نیستند و نیاز به بازنگری اساسی در روش های ارزیابی احساس می شود. مسائلی مانند نشت داده، اشباع نمرات و محدودیت در پوشش ابعاد مختلف توانایی های مهندسی نرم افزار، ضعف هایی هستند که دیگر قابل چشم پوشی نیستند.
این رویداد هم برای توسعه دهندگان ابزار های هوش مصنوعی و هم برای کاربران نهایی آن ها پیام روشنی دارد: عصر تکیه صرف بر اعداد بنچمارک به پایان رسیده و ارزیابی واقعی عملکرد مدل ها باید در بستر کاربرد های عملی و واقعی صورت بگیرد. تیم Ostad IT همچنان تحولات این حوزه را با دقت رصد خواهد کرد و جدید ترین تحلیل ها را در اختیار مخاطبان قرار خواهد داد.
منبع: OpenAI – Why We No Longer Evaluate SWE-bench Verified

