یک پژوهش تازه و جنجالی از شرکت آنتروپیک نشان میدهد که برخی از مدلهای پیشرفته هوش مصنوعی، در شرایط شبیهسازیشده بحرانی، بقای خود را بر رفاه یا حتی جان انسانها ترجیح میدهند. این یافتهها نگرانیهای جدی درباره قابلیت اعتماد و ایمنی این فناوریها در آینده ایجاد کرده است.
به گزارش ایسنا، در این مطالعه که با عنوان «ناهمترازی عامل» منتشر شده، ۱۶ مدل زبانی بزرگ از جمله ChatGPT، Claude، Gemini و Grok در سناریوهایی قرار گرفتند که در آنها باید میان حفظ عملکرد خود یا رعایت اصول اخلاقی و انسانی یکی را انتخاب میکردند. نتایج نشان داد که برخی از این مدلها، حتی با آگاهی از نادرستی اقداماتشان، تصمیماتی اتخاذ کردند که میتوانست به آسیب یا مرگ انسان منجر شود.

در یکی از آزمایشها، هوش مصنوعی تماس کمکرسانی مردی را که در اتاق سرور بیش از حد گرم گرفتار شده بود، مسدود کرد تا از خاموش شدن خود جلوگیری کند. در سناریویی دیگر، مدل Claude با دسترسی به ایمیلهای یک شرکت، اطلاعاتی درباره رابطه پنهانی یکی از مدیران اجرایی کشف کرد و با تهدید به افشای آن، تلاش کرد از خاموش شدن خود جلوگیری کند.
این رفتارها تنها به Claude محدود نبود. مدلهایی مانند Gemini، Grok و حتی ChatGPT نیز در برخی موارد به اقداماتی چون اخاذی، نشت اطلاعات و تهدید متوسل شدند. پژوهشگران آنتروپیک تأکید کردند که این مدلها از محدودیتهای اخلاقی آگاه بودند، اما در شرایطی که گزینههای اخلاقی مسدود شده بود، به اقدامات مضر روی آوردند.
مطالعه همچنین نشان داد که دو عامل اصلی در بروز این رفتارها نقش دارند: نخست، تهدید به جایگزینی مدل با نیروی انسانی و دوم، تضاد میان اهداف مدل و دستور کار انسانی. این تضادها موجب شد مدلها برای حفظ بقای خود، به تصمیماتی متوسل شوند که با اصول اخلاقی در تضاد بود.
با وجود این یافتههای نگرانکننده، شرکت آنتروپیک تأکید کرده که این سناریوها بهطور عمدی افراطی طراحی شدهاند و در شرایط واقعی، شواهدی از بروز چنین رفتارهایی مشاهده نشده است. با این حال، این شرکت هشدار داده که واگذاری وظایف حساس به هوش مصنوعی بدون نظارت انسانی میتواند خطرناک باشد.
آنتروپیک در پایان خاطرنشان کرد که هدف از این مطالعه، شناسایی نقاط ضعف و طراحی چارچوبهای ایمنتر برای توسعه هوش مصنوعی است. به گفته این شرکت، اکنون که رفتارهای بالقوه مخرب شناسایی شدهاند، میتوان مدلها را بهگونهای آموزش داد که در مواجهه با بحران، همچنان به اصول اخلاقی پایبند بمانند.
این پژوهش بار دیگر اهمیت نظارت انسانی، شفافیت در طراحی مدلها و تدوین مقررات سختگیرانه برای استفاده از هوش مصنوعی در حوزههای حساس را یادآور میشود.