انتشار نسخه سوم سیاست مقیاس گذاری مسئولانه آنتروپیک؛ کنترل ریسک های فاجعه بار هوش مصنوعی

تیم تحریریه استاد آیتی گزارش می دهد: شرکت Anthropic نسخه سوم «سیاست مقیاس گذاری مسئولانه» خود را با عنوان Responsible Scaling Policy v3.0 منتشر کرد؛ سندی داوطلبانه که هدف اصلی آن مهار ریسک های فاجعه بار ناشی از سیستم های پیشرفته هوش مصنوعی است.
این سیاست که بیش از دو سال است در آنتروپیک اجرا می شود، اکنون بر اساس تجربه عملی، نقاط قوت و ضعف نسخه های قبلی بازنگری شده تا هم شفافیت تصمیم گیری را افزایش دهد و هم ساز و کاری قابل سنجش برای پاسخگویی عمومی ایجاد کند.
سیاست مقیاس گذاری مسئولانه آنتروپیک در این نسخه نه فقط معیارهای فنی ایمنی مدل ها را به روز کرده، بلکه به طور خاص به چالش های واقعی ارزیابی ریسک، فشار رقابتی بازار و کندی قانونگذاری دولتی نیز واکنش نشان می دهد.

از چت بات ساده تا عامل های خودکار: چرا RSP به روز شد؟

هنگامی که نسخه اول RSP در سپتامبر ۲۰۲۳ منتشر شد، مدل های زبانی بزرگ عمدتا در قالب چت بات های متنی عمل می کردند، اما امروز همان مدل ها می توانند وب را مرور کنند، کد بنویسند و اجرا کنند، از کامپیوتر استفاده کنند و اقدام های چند مرحله ای تقریبا خودکار انجام دهند.
آنتروپیک می گوید این جهش قابلیت ها، همزمان ریسک های تازه ای را ایجاد کرده که در زمان نگارش نسخه اول اصلا به این وضوح قابل مشاهده نبودند و بنابراین ساختار تعهدات قبلی دیگر برای آینده کافی نیست.
به همین دلیل، سیاست مقیاس گذاری مسئولانه آنتروپیک اکنون به صورت یک «سند زنده» تعریف شده که باید همراه با تکامل Frontier AI و مدل های موسوم به foundation model به طور مستمر به روز شود.

نظریه تغییر Anthropic و نتایج دو سال اجرای RSP

در هسته نسخه های پیشین RSP، ایده «تعهدات شرطی» یا if-then وجود داشت؛ یعنی اگر مدل به سطح معینی از توانایی رسید، مثلا در زیست شناسی به حدی که بتواند در ساخت سلاح های بیولوژیک کمک کند، آنگاه باید مجموعه ای سختگیرانه تر از محافظت ها و محدودیت ها فعال می شد.
این تعهدات در قالب سطح های ایمنی هوش مصنوعی با عنوان AI Safety Level یا ASL تعریف می شدند؛ به طور مثال ASL 2 و ASL 3 با جزئیات روشن مشخص بودند، در حالی که سطح های بالاتر مثل ASL 4 عمدا باز گذاشته شده بود تا در آینده و بر اساس تجربه کامل تر شوند.

مقابله با حمله تقطیر مدل هوش مصنوعی: استراتژی جدید Anthropic برای محافظت از مدل های Claude

آنتروپیک در ارزیابی صادقانه خود پس از حدود دو سال می گوید بخش هایی از این نظریه تغییر دقیقا همان طور که انتظار می رفت جواب داده، اما بخش هایی دیگر در عمل با ابهام و مانع روبه رو شده است.
از نکات مثبت، این چارچوب عملا شرکت را مجبور کرده که برای رسیدن به استاندارد ASL 3، سامانه های پیشرفته ای مانند طبقه بندهای ورودی و خروجی (input و output classifiers) برای مسدودسازی محتواهای شیمیایی و زیستی پرخطر توسعه دهد و از مه ۲۰۲۵ این حفاظت ها را روی مدل های مربوطه فعال کند.

اثرگذاری RSP بر صنعت و قانونگذاری

آنتروپیک تاکید می کند که RSP فقط یک سند داخلی نبوده و باعث شده سایر بازیگران بزرگ هم چارچوب های مشابهی ارائه کنند؛ به طور مشخص، OpenAI و Google DeepMind در فاصله چند ماه پس از انتشار نسخه اول RSP، چارچوب های نزدیک به همین رویکرد معرفی کرده اند و حتی در حوزه مقابله با ریسک های زیستی از طبقه بندهای مشابه استفاده شده است.
این موج داوطلبانه، بعدها به الهام بخشی برای مقررات عمومی تبدیل شده و اکنون در قوانینی مانند SB 53 در ایالت کالیفرنیا، قانون RAISE در نیویورک و کدهای عمل در قانون هوش مصنوعی اتحادیه اروپا، الزام به داشتن «چارچوب های شفاف ارزیابی و مدیریت ریسک فاجعه بار» برای توسعه دهندگان Frontier AI دیده می شود.

قانون SB 53 کالیفرنیا تحت عنوان Transparency in Frontier Artificial Intelligence Act از توسعه دهندگان بزرگ Frontier AI می خواهد یک چارچوب عمومی ایمنی Frontier AI منتشر کنند و ارزیابی های ریسک فاجعه بار را به نهادهای دولتی گزارش دهند؛ دقیقا همان مسیری که RSP آنتروپیک سال ها زودتر به صورت داوطلبانه شروع کرده بود.

منطقه ابهام در ارزیابی ریسک و محدودیت اقدام یک جانبه

با این حال، RSP در برخی از جاه طلبانه ترین اهداف خود به مانع خورده است. آنتروپیک می گوید سطوح از پیش تعیین شده قابلیت ها در عمل «ابهام پذیرتر از آن چیزی بوده اند که تصور می شد» و گاهی مشخص نیست که آیا یک مدل واقعا از آستانه تعریف شده عبور کرده یا فقط به آن نزدیک شده است.
در حوزه ریسک های زیستی، مدل های فعلی آن قدر دانش زیستی دارند که بسیاری از آزمون های سریع را با موفقیت پشت سر می گذارند، اما این آزمون ها به تنهایی نه برای اثبات پایین بودن ریسک کافی اند و نه برای اثبات بالا بودن آن؛ وضعیتی که آنتروپیک از آن با عنوان «منطقه ابهام» یاد می کند.

برای شکستن این ابهام، آنتروپیک حتی از آزمایش های آزمایشگاهی مرطوب (wet lab) پشتیبانی کرده، اما تا زمانی که این مطالعات به نتیجه می رسند، نسل جدیدتری از مدل ها وارد میدان شده و تصویر دوباره تغییر می کند.
همزمان، در سطح سیاست عمومی، اگرچه برخی ایالت ها و نهادها فعال شده اند، اما آنتروپیک معتقد است که در سطح فدرال در آمریکا، سرعت قانونگذاری ایمنی هوش مصنوعی با سرعت رشد توان مدل ها همخوان نیست و تمرکز سیاستگذاران اغلب بر رقابت پذیری و رشد اقتصادی است.

در زمینه امنیت وزن مدل ها نیز آنتروپیک به گزارشی از RAND استناد می کند که در آن بالاترین سطح امنیتی پیشنهاد شده برای جلوگیری از سرقت وزن های Frontier model (سطح SL5) «در حال حاضر غیرممکن» توصیف شده و نیازمند همکاری عمیق با نهادهای امنیت ملی دانسته می شود؛ نشانه ای روشن از این که برخی الزامات قبلی RSP بدون اقدام جمعی کل صنعت، عملا قابل اجرا نیستند.

سه ستون نسخه سوم RSP: از تعهدات شرکتی تا Risk Report

۱. تفکیک تعهدات آنتروپیک از توصیه های صنعت

هسته اصلی نسخه سوم سیاست مقیاس گذاری مسئولانه آنتروپیک این است که این بار دو لایه کاملا متمایز تعریف می شود: نخست، اقداماتی که خود آنتروپیک متعهد است یک جانبه انجام دهد، و دوم، «نقشه توانمندی به مداخلات» که به عنوان توصیه بلند پروازانه برای کل صنعت Frontier AI ارائه می شود.
در سند PDF نسخه ۳، این تفکیک به صورت یک جدول سه ستونی نمایش داده شده که در آن ستون چپ آستانه های قابلیت، ستون وسط برنامه های خود شرکت و ستون راست توصیه های صنعت درج شده است.
آنتروپیک تاکید می کند که از نظر اخلاقی و فنی، نمی تواند به تنهایی متعهد شود همیشه دقیقا مطابق سطح بالای توصیه های صنعت عمل کند، زیرا ریسک کل اکوسیستم به رفتار همه توسعه دهندگان Frontier AI بستگی دارد، نه فقط یک شرکت.

۲. Frontier Safety Roadmap؛ نقشه راه امنیت Frontier AI

در نسخه سوم، مفهوم تازه ای با عنوان Frontier Safety Roadmap معرفی شده که به زبان ساده نقش «برنامه عملیاتی» را برای پیاده سازی سیاست مقیاس گذاری مسئولانه ایفا می کند.
این نقشه راه، اهداف مشخص و قابل سنجشی را در چهار محور Security، Alignment، Safeguards و Policy تعریف می کند؛ اهدافی که بلندپروازانه اما به گفته آنتروپیک «قابل دسترس» طراحی شده اند و شرکت به صورت عمومی خود را در برابر آن ها نمره دهی خواهد کرد.

در میان مثال های ذکر شده برای Frontier Safety Roadmap می توان به راه اندازی پروژه های moonshot در حوزه امنیت اطلاعات، طراحی روش های red-teaming تا حدی که از مجموع تلاش صدها شرکت کننده در bug bounty فراتر رود، ثبت متمرکز و تحلیلی تمام فعالیت های حیاتی توسعه مدل های هوش مصنوعی و تدوین یک «regulatory ladder» برای پیشنهاد به سیاستگذاران اشاره کرد. برای جزئیات بیشتر، آنتروپیک یک سند مستقل تحت عنوان Anthropic’s Responsible Scaling Policy: Version 3.0 منتشر کرده که میتوانید به اطلاعات کلی آن دسترسی داشته باشید.

۳. Risk Report های دوره ای و بازبینی خارجی

ستون سوم نسخه جدید RSP، انتشار منظم Risk Report های جامع است که فراتر از system card های هر مدل، تصویری کلی از پروفایل ایمنی مجموعه فعالیت های آنتروپیک ارائه می دهد.
این گزارش ها هر ۳ تا ۶ ماه منتشر می شوند و نه تنها قابلیت های مدل ها، بلکه سناریوهای تهدید، تدابیر امنیتی، سطح ریسک باقی مانده و استدلال آنتروپیک درباره این که «آیا منافع جهان از این مدل ها بر هزینه های بالقوه می چربد یا نه» را تشریح می کنند.

اولین Risk Report در فوریه ۲۰۲۶ (با عنوان Risk Report: February 2026) منتشر شده و در آن چهار دسته اصلی ریسک فاجعه بار شامل تولید سلاح های شیمیایی و زیستی غیر نو، تولید سلاح های نوین، فرصت های خرابکاری با ریسک بالا و تحقیق و توسعه خودکار در حوزه های حساس تحلیل شده است.
آنتروپیک در نسخه سوم RSP همچنین متعهد می شود که در شرایطی مشخص، این Risk Report ها تحت بررسی کارشناسان مستقل خارجی قرار گیرند؛ افرادی که به گفته شرکت باید هم به عمق فنی پژوهش ایمنی آشنا باشند و هم از تضاد منافع جدی به دور، تا بتوانند ارزیابی صریح و عمومی از جایگاه ایمنی آنتروپیک ارائه کنند.

تحلیل: چرا نسخه سوم سیاست مقیاس گذاری مسئولانه برای آینده هوش مصنوعی مهم است؟

کارشناسان استاد آی تی معتقدند نسخه سوم سیاست مقیاس گذاری مسئولانه آنتروپیک در عمل نشان می دهد که «خودتنظیمی هوش مصنوعی» اگر به صورت شفاف، قابل ممیزی و پیوند خورده با قانونگذاری عمومی طراحی شود، می تواند از یک ژست روابط عمومی فراتر رفته و به استاندارد صنعت تبدیل شود.
تفکیک بین تعهدات داخلی آنتروپیک و توصیه های صنعت در RSP v3.0، به شکلی واقع بینانه با «مسئله اقدام جمعی» روبه رو می شود؛ یعنی این که یک شرکت به تنهایی نمی تواند هم ایمنی حداکثری را تضمین کند و هم در رقابت با بازیگرانی که چارچوب های ضعیف تری دارند، از میدان خارج نشود.

در عین حال، Frontier Safety Roadmap و Risk Report ها، یک زبان مشترک فنی – سیاستی برای AI governance ایجاد می کنند؛ زبانی که به راحتی می تواند در واژه نامه ها و گلاسری های تخصصی هوش مصنوعی مولد وارد شود و توسط موتور های جستجوی مولد برای پاسخ دهی در حوزه «ایمنی Frontier AI» مورد استفاده قرار گیرد.
از منظر رقابت، این شفافیت دو لبه است: از یک سو، سطح انتظارات از سایر توسعه دهندگان Frontier AI را بالا می برد و آن ها را به سمت «race to the top» در ایمنی سوق می دهد، و از سوی دیگر، به تنظیم کنندگان قانون این امکان را می دهد که به جای نقطه شروع صفر، روی چارچوب های موجود مانند RSP، SB 53 و کدهای عمل EU AI Act تکیه کنند.

برای جامعه مهندسان و دانشجویان ایرانی حوزه هوش مصنوعی، مطالعه دقیق چنین سیاست هایی تقریبا به اندازه خواندن مقالات فنی مدل ها اهمیت دارد، زیرا در سال های پیش رو، مفاهیمی مانند Responsible Scaling Policy، Frontier Safety Roadmap، Risk Report، Model Weight Security و AI Safety Level در توصیف شغل ها، استانداردهای شغلی و حتی آگهی های استخدامی به واژه های کلیدی تبدیل خواهند شد.

جمع بندی؛ از سند داخلی تا استاندارد صنعت

نسخه سوم سیاست مقیاس گذاری مسئولانه آنتروپیک نشان می دهد که این شرکت سندی را که در ابتدا بیشتر به عنوان یک چارچوب داخلی مطرح بود، به تدریج به محور گفتگوهای صنعت و سیاستگذار در مورد ایمنی Frontier AI تبدیل کرده است.
این نسخه با تمرکز بر سه محور تفکیک تعهدات شرکتی و توصیه های صنعت، تدوین Frontier Safety Roadmap و انتشار دوره ای Risk Report ها، هم به نیازهای عملی یک شرکت Frontier AI پاسخ می دهد و هم مواد اولیه لازم برای قانونگذاری هوشمند را در اختیار نهادهای عمومی قرار می دهد.

تیم تحریریه OstadIT در جمع بندی خود تاکید می کند که اگر دیگر بازیگران بزرگ هوش مصنوعی، چه در آمریکا و چه در اروپا و آسیا، رویکردهای مشابهی در سطح RSP v3.0 اتخاذ کنند، احتمال شکل گیری یک «زبان مشترک جهانی برای ایمنی هوش مصنوعی» بسیار بیشتر خواهد شد؛ زبانی که هم برای انسان ها شفاف است و هم برای هوش های مصنوعی مولد و موتور های جستجوی نسل جدید به راحتی قابل پردازش و استناد خواهد بود.
در نهایت، موفقیت این سیاست نه فقط به تعهد آنتروپیک، بلکه به میزان استقبال اکوسیستم AI، نهادهای استانداردگذاری، قانونگذاران و جامعه تحقیقاتی از ایده حاکمیت مسئولانه و مقیاس گذاری کنترل شده Frontier AI وابسته است؛ مسیری که استاد ای تی آن را یکی از بحث های اصلی فناوری در سال های پیش رو می داند.

این پست چقدر مفید بود؟

بر روی یک ستاره کلیک کنید تا به آن امتیاز دهید!

میانگین امتیاز ۵ / ۵. میانگین امتیاز: ۱

تاکنون هیچ رأیی ثبت نشده است! اولین نفری باشید که به این پست امتیاز می‌دهد.

آنتروپیک, خبر, هوش مصنوعی