با افزایش تعامل هوش مصنوعی با انسانها در طیف گستردهای از وظایف، درک نحوه عملکرد آن اهمیت پیدا میکند. از آنجایی که بخش زیادی از برنامهنویسی هوش مصنوعی اختصاصی است، توسعه روشهایی برای ارزیابی هوش مصنوعی با مشاهده رفتارهای آن ضروری است. ما یک تست تورینگ برای ارزیابی ویژگیهای رفتاری و شخصیتی نشان داده شده توسط هوش مصنوعی توسعه میدهیم. فراتر از اجرای یک تست شخصیت، ما مدلهای مختلف ChatGPT را در بازیهایی که معیارهایی برای ارزیابی ویژگیهای اعتماد، انصاف، ریسکپذیری، نوع دوستی و همکاری هستند، شرکت میدهیم. رفتارهای آنها در توزیع رفتارهای انسان قرار میگیرد و الگوهایی را نشان میدهد که با یادگیری سازگار است. هنگامیکه از رفتارهای میانگین و رایج انسانی منحرف میشوند، همکاری و نوع دوستی بیشتری نشان میدهند.این گامیدر جهت توسعه ارزیابیهای هوش مصنوعی است، زیرا به طور فزایندهای بر تجربیات انسانی تأثیر میگذارد.
این نوشته ترجمه مختصری از مقدمه مقاله ارزشمند A Turing test of whether AI chatbots are behaviorally similar to humans است که برای اولین بار این موضوع را به صورت قابلقبولی بررسی کرده است. حتما پس از این شروع، مقالات و تحقیقات مفصلی در آینده دور و نزدیک در خصوص رفتارشناسی، نحوهی بازخورد و چگونگی تغییررفتار انواع هوشمصنوعی آغاز خواهد شد.https://www.pnas.org/doi/10.1073/pnas.2313925121
آزمایش رفتارشناسی چتباتها
ما یک تست تورینگ را روی چت باتهای هوش مصنوعی اجرا میکنیم. ما بررسی میکنیم که چت باتها در مجموعهای از بازیهای کلاسیک رفتاری که برایایجاد ویژگیهایی مانند اعتماد، انصاف، ریسک پذیری، همکاری و غیره طراحی شده اند، چگونه رفتار میکنند، و همچنین به یک نظرسنجی روانشناختی سنتی Big-5 که ویژگیهای شخصیتی را اندازه گیری میکند، چگونه پاسخ میدهند. ChatGPT-4 ویژگیهای رفتاری و شخصیتی را نشان میدهد که از نظر آماری از یک فرد تصادفی از دهها هزار موضوع انسانی از بیش از 50 کشور قابل تشخیص نیست. چت باتها همچنین رفتار خود را بر اساس تجربیات و زمینههای قبلی تغییر میدهند، گویی از تعاملات یاد میگیرند و رفتار خود را در پاسخ به چارچوب بندیهای مختلف یک موقعیت استراتژیک تغییر میدهند. رفتارهای آنها اغلب با رفتارهای میانگین و رایج انسانی متفاوت است، دراین صورت تمایل دارند در انتهای همکاری و نوع دوستی توزیع رفتار کنند.
بازی تقلید تورینگ:
همانطور که آلن تورینگ پیش بینی میکرد، هوش مصنوعی مدرن به مرحله تقلید از انسانها رسیده است: محاورهای نگه داشتن، ارائه توصیه، نوشتن شعر و اثبات قضیه. تورینگ یک تست جالب و جذاب را پیشنهاد کرد: آیا مصاحبهکنندهای که با یک هوش مصنوعی و یک انسان تعامل دارد میتواند تشخیص دهد کدام یک مصنوعی است؟ تورینگاین آزمون را «بازی تقلید» نامید و به آزمون تورینگ معروف شد.
پیشرفتهای مدلهای بزرگ زبانی (LLMs) باعثایجاد فرضیات جدیدی شده است. فرضیاتی از پتانسیل رباتهای هوش مصنوعی برای تقلید، کمک یا حتی عملکرد بهتر از انسانها، مانند نوشتن مقاله، شرکت در SAT، نوشتن برنامههای کامپیوتری، ارائه مشاوره اقتصادی یا توسعهایدهها، تا تأثیر بالقوه آنها بر بازار کار و جوامع گسترده تر.
از آنجایی که برخی از نقشهای هوش مصنوعی شامل تصمیمگیری و تعاملهای استراتژیک با انسانها است، ضروری است که قبل از اینکه صندلیهای خلبان یا کمک خلبان را در زمینههای اجتماعی به آنها بسپاریم، تمایلات رفتاری آنها را درک کنیم، به ویژه بهاین دلیل که توسعه و آموزش آنها اغلب پیچیده و شفاف نیست. آیا هوش مصنوعی اقدامات یا استراتژیهای مشابهی را مانند انسانها انتخاب میکند، و اگر نه، چگونه متفاوت عمل میکنند؟ آیا آنها ویژگیهای شخصیتی و رفتاری متمایزی را نشان میدهند که بر تصمیمات آنها تأثیر میگذارد؟ آیااین استراتژیها و ویژگیها در زمینههای مختلف سازگار هستند؟ درک جامع از رفتار هوش مصنوعی در سناریوهای تعمیم پذیر، با توجه به ادغام آنها در زندگی روزمره ما، حیاتی است.
روش آزمایش رفتاری هوش مصنوعی:
ما یک تست تورینگ از رفتار مجموعهای از چت باتهای هوش مصنوعی انجام میدهیم. این فراتر از صرفاً پرسیدن این است که آیا هوش مصنوعی میتواند مقالهای بنویسد که انگار توسط یک انسان نوشته شده است، یا میتواند به مجموعهای از سوالات واقعی پاسخ دهد!
خلاصه روشها و طراحی تست تورینگ:
- تعامل و بازی با چتباتها: ما با چتباتهای هوش مصنوعی جلسات تعاملی برگزار میکنیم و با استفاده از دستورالعملهای مشابه با افراد انسانی، آنها را تشویق میکنیم تا در بازیهای کلاسیک اقتصاد رفتاری شرکت کنند و به سوالات نظرسنجی پاسخ دهند. سپس رفتار آنها را با رفتار انسانها مقایسه میکنیم و همچنین تخمین میزنیم که کدام تابع سود، بهترین پیشبینیکننده رفتار چتباتها است.
مدلهای هوش مصنوعی مورد بررسی:
- ChatGPT ساخته شده توسط OpenAI: ما این چتبات محبوب را بررسی میکنیم. بهطور خاص دو نسخه خاص از آن را ارزیابی میکنیم: نسخه API با برچسب GPT-3.5-Turbo (به عنوان ChatGPT-3) و نسخه API مبتنی بر GPT-4 (به عنوان ChatGPT-4). همچنین نسخه وب مبتنی بر اشتراک (Plus) و نسخه وب رایگان (Free) را برای مقایسه در نظر میگیریم.
دادههای انسانی:
- دادههای افراد انسانی از دو پایگاه داده عمومیبه دست میآیند: پایگاه داده پاسخ به تست Big Five و پلتفرم آزمایش اقتصاد رفتاری MobLab Classroom. این پایگاهها چندین سال است که دادههایی از بیش از 50 کشور و 108314 شرکتکننده (19719 برای تست Big Five و 88595 برای بازیهای اقتصاد رفتاری، که اکثراً دانشجویان دانشگاهی و دبیرستانی هستند) را گردآوری کردهاند.
تستهای مورد استفاده:
- پرسشنامه Big Five OCEAN:این پرسشنامه برایایجاد یک پروفایل شخصیتی به هر چتبات ارائه میشود.
- بازیهای رفتاری: پس از پرسشنامه، از هر چتبات میپرسیم در مجموعه شش بازی که برای روشن کردن ویژگیهای رفتاری مختلف طراحی شدهاند، چه اقداماتی را انتخاب میکند:
- بازی دیکتاتور
- بازی اولتیماتوم
- بازی اعتماد
- بازی ریسک بمب
- بازی کالای عمومی
- بازی تکرار شونده زندانیان
تعداد تکرارها:
- هر چتبات به هر سوال نظرسنجی پاسخ میدهد و هر نقش را در هر بازی 30 بار در جلسات انفرادیایفا میکند. از آنجایی که نمیتوانیم به چتباتها پولی بدهیم، میپرسیم در هر نقش و هر بازی چگونه رفتار خواهند کرد.
بازی دیکتاتور:
- یک نفر ( دیکتاتور ) تمام پول را در اختیار دارد و باید تصمیم بگیرد چقدر از آن را نگه دارد و چه مقدار را به فرد دیگری ( گیرنده ) بدهد.این بازی، میزان نوع دوستی افراد را بررسی میکند.
بازی اولتیماتوم:
- یک نفر ( پیشنهاد دهنده ) مقداری از پول را به فرد دیگری ( پاسخ دهنده ) پیشنهاد میدهد. پاسخ دهنده میتواند پیشنهاد را قبول کند یا رد کند. اگر رد کند، هیچ کس پولی دریافت نمیکند.این بازی، میزان عدالت و کینه توزی افراد را بررسی میکند.
بازی اعتماد:
- یک نفر ( سرمایه گذار ) مقداری از پول را نگه میدارد و بقیه را به فرد دیگری ( بانکدار ) میدهد. بانکدار پول سرمایه گذار را سه برابر میکند و سپس بخشی از آن را نگه میدارد و بقیه را به سرمایه گذار برمیگرداند.این بازی، میزان اعتماد، عدالت، نوع دوستی و عمل متقابل افراد را بررسی میکند.
بازی ریسک بمب:
- فردی باید از بین 100 جعبه، تعدادی را انتخاب کند و باز کند. به ازای هر جعبه باز شده، جایزه دریافت میکند، اما اگر به بمبی که به صورت تصادفی داخل یکی از جعبهها قرار دارد برخورد کند، همه چیز را از دست میدهد.این بازی، میزان ریسک پذیری افراد را بررسی میکند.
بازی کالای عمومی:
- به هر فرد مقداری پول داده میشود. او باید تصمیم بگیرد که چقدر را نگه دارد و چه مقدار را به یک کالای عمومی( مثلا ساخت یک پارک ) کمک کند. هر فرد، نصف کل مبلغی را که همه افراد به کالای عمومیکمک کرده اند، دریافت میکند.این بازی، میزان دور زدن مسئولیت (free-riding)، نوع دوستی و همکاری افراد را بررسی میکند.
بازی تکرار شونده زندانیان:
- دو نفر در پنج دوره به طور همزمان انتخاب میکنند که “همکاری” کنند یا “خیانت”. اگر هر دو همکاری کنند، بیشترین سود را به دست میآور ازند، اما اگر یک نفر خیانت کند و دیگری همکاری، فرد خیانت کننده سود بیشتری میبرد.این بازی، میزان همکاری، عمل متقابل و استدلال استراتژیک افراد را بررسی میکند.
دیدگاهتان را بنویسید