تست تورینگ رفتارشناسی Chatbots

با افزایش تعامل هوش مصنوعی با انسان‌ها در طیف گسترده‌ای از وظایف، درک نحوه عملکرد آن اهمیت پیدا می‌کند. از آنجایی که بخش زیادی از برنامه‌نویسی هوش مصنوعی اختصاصی است، توسعه روش‌هایی برای ارزیابی هوش مصنوعی با مشاهده رفتارهای آن ضروری است. ما یک تست تورینگ برای ارزیابی ویژگی‌های رفتاری و شخصیتی نشان داده شده توسط هوش مصنوعی توسعه می‌دهیم. فراتر از اجرای یک تست شخصیت، ما مدل‌های مختلف ChatGPT را در بازی‌هایی که معیارهایی برای ارزیابی ویژگی‌های اعتماد، انصاف، ریسک‌پذیری، نوع دوستی و همکاری هستند، شرکت می‌دهیم. رفتارهای آنها در توزیع رفتارهای انسان قرار می‌گیرد و الگوهایی را نشان می‌دهد که با یادگیری سازگار است. هنگامی‌که از رفتارهای میانگین و رایج انسانی منحرف می‌شوند، همکاری و نوع دوستی بیشتری نشان می‌دهند.‌این گامی‌در جهت توسعه ارزیابی‌های هوش مصنوعی است، زیرا به طور فزاینده‌ای بر تجربیات انسانی تأثیر می‌گذارد.

این نوشته ترجمه مختصری از مقدمه مقاله ارزشمند A Turing test of whether AI chatbots are behaviorally similar to humans است که برای اولین بار این موضوع را به صورت قابل‌قبولی بررسی کرده است. حتما پس از این شروع، مقالات و تحقیقات مفصلی در آینده دور و نزدیک در خصوص رفتارشناسی، نحوه‌ی بازخورد و چگونگی تغییررفتار انواع هوش‌مصنوعی آغاز خواهد شد.https://www.pnas.org/doi/10.1073/pnas.2313925121

آزمایش رفتارشناسی چت‌بات‌ها

ما یک تست تورینگ را روی چت بات‌های هوش مصنوعی اجرا می‌کنیم. ما بررسی می‌کنیم که چت بات‌ها در مجموعه‌ای از بازی‌های کلاسیک رفتاری که برای‌ایجاد ویژگی‌هایی مانند اعتماد، انصاف، ریسک پذیری، همکاری و غیره طراحی شده اند، چگونه رفتار می‌کنند، و همچنین به یک نظرسنجی روانشناختی سنتی Big-5 که ویژگی‌های شخصیتی را اندازه گیری می‌کند، چگونه پاسخ می‌دهند. ChatGPT-4 ویژگی‌های رفتاری و شخصیتی را نشان می‌دهد که از نظر آماری از یک فرد تصادفی از ده‌ها هزار موضوع انسانی از بیش از 50 کشور قابل تشخیص نیست. چت بات‌ها همچنین رفتار خود را بر اساس تجربیات و زمینه‌های قبلی تغییر می‌دهند، گویی از تعاملات یاد می‌گیرند و رفتار خود را در پاسخ به چارچوب بندی‌های مختلف یک موقعیت استراتژیک تغییر می‌دهند. رفتارهای آنها اغلب با رفتارهای میانگین و رایج انسانی متفاوت است، در‌این صورت تمایل دارند در انتهای همکاری و نوع دوستی توزیع رفتار کنند.

بازی تقلید تورینگ:

همانطور که آلن تورینگ پیش بینی می‌کرد، هوش مصنوعی مدرن به مرحله تقلید از انسان‌ها رسیده است: محاوره‌ای نگه داشتن، ارائه توصیه، نوشتن شعر و اثبات قضیه. تورینگ یک تست جالب و جذاب را پیشنهاد کرد: آیا مصاحبه‌کننده‌ای که با یک هوش مصنوعی و یک انسان تعامل دارد می‌تواند تشخیص دهد کدام یک مصنوعی است؟ تورینگ‌این آزمون را «بازی تقلید» نامید و به آزمون تورینگ معروف شد.

پیشرفت‌های مدل‌های بزرگ زبانی (LLMs) باعث‌ایجاد فرضیات جدیدی شده است. فرضیاتی از پتانسیل ربات‌های هوش مصنوعی برای تقلید، کمک یا حتی عملکرد بهتر از انسان‌ها، مانند نوشتن مقاله، شرکت در SAT، نوشتن برنامه‌های کامپیوتری، ارائه مشاوره اقتصادی یا توسعه‌ایده‌ها، تا تأثیر بالقوه آنها بر بازار کار و جوامع گسترده تر.

از آنجایی که برخی از نقش‌های هوش مصنوعی شامل تصمیم‌گیری و تعامل‌های استراتژیک با انسان‌ها است، ضروری است که قبل از‌ اینکه صندلی‌های خلبان یا کمک خلبان را در زمینه‌های اجتماعی به آنها بسپاریم، تمایلات رفتاری آنها را درک کنیم، به ویژه به‌این دلیل که توسعه و آموزش آنها اغلب پیچیده و شفاف نیست. آیا هوش مصنوعی اقدامات یا استراتژی‌های مشابهی را مانند انسان‌ها انتخاب می‌کند، و اگر نه، چگونه متفاوت عمل می‌کنند؟ آیا آنها ویژگی‌های شخصیتی و رفتاری متمایزی را نشان می‌دهند که بر تصمیمات آنها تأثیر می‌گذارد؟ آیا‌این استراتژی‌ها و ویژگی‌ها در زمینه‌های مختلف سازگار هستند؟ درک جامع از رفتار هوش مصنوعی در سناریوهای تعمیم پذیر، با توجه به ادغام آنها در زندگی روزمره ما، حیاتی است.

روش آزمایش رفتاری هوش مصنوعی:

ما یک تست تورینگ از رفتار مجموعه‌ای از چت بات‌های هوش مصنوعی انجام می‌دهیم.‌ این فراتر از صرفاً پرسیدن ‌این است که آیا هوش مصنوعی می‌تواند مقاله‌ای بنویسد که انگار توسط یک انسان نوشته شده است، یا می‌تواند به مجموعه‌ای از سوالات واقعی پاسخ دهد!

خلاصه روش‌ها و طراحی تست تورینگ:

تعامل و بازی با چت‌بات‌ها: ما با چت‌بات‌های هوش مصنوعی جلسات تعاملی برگزار می‌کنیم و با استفاده از دستورالعمل‌های مشابه با افراد انسانی، آن‌ها را تشویق می‌کنیم تا در بازی‌های کلاسیک اقتصاد رفتاری شرکت کنند و به سوالات نظرسنجی پاسخ دهند. سپس رفتار آن‌ها را با رفتار انسان‌ها مقایسه می‌کنیم و همچنین تخمین می‌زنیم که کدام تابع سود، بهترین پیش‌بینی‌کننده رفتار چت‌بات‌ها است.

مدل‌های هوش مصنوعی مورد بررسی:

ChatGPT ساخته شده توسط OpenAI: ما ‌این چت‌بات محبوب را بررسی می‌کنیم. به‌طور خاص دو نسخه خاص از آن را ارزیابی می‌کنیم: نسخه API با برچسب GPT-3.5-Turbo (به عنوان ChatGPT-3) و نسخه API مبتنی بر GPT-4 (به عنوان ChatGPT-4). همچنین نسخه وب مبتنی بر اشتراک (Plus) و نسخه وب رایگان (Free) را برای مقایسه در نظر می‌گیریم.

داده‌های انسانی:

داده‌های افراد انسانی از دو پایگاه داده عمومی‌به دست می‌آیند: پایگاه داده پاسخ به تست Big Five و پلتفرم آزمایش اقتصاد رفتاری MobLab Classroom. ‌این پایگاه‌ها چندین سال است که داده‌هایی از بیش از 50 کشور و 108314 شرکت‌کننده (19719 برای تست Big Five و 88595 برای بازی‌های اقتصاد رفتاری، که اکثراً دانشجویان دانشگاهی و دبیرستانی هستند) را گردآوری کرده‌اند.

تست‌های مورد استفاده:

پرسشنامه Big Five OCEAN:‌این پرسشنامه برای‌ایجاد یک پروفایل شخصیتی به هر چت‌بات ارائه می‌شود.
بازی‌های رفتاری: پس از پرسشنامه، از هر چت‌بات می‌پرسیم در مجموعه شش بازی که برای روشن کردن ویژگی‌های رفتاری مختلف طراحی شده‌اند، چه اقداماتی را انتخاب می‌کند:
- بازی دیکتاتور
- بازی اولتیماتوم
- بازی اعتماد
- بازی ریسک بمب
- بازی کالای عمومی
- بازی تکرار شونده زندانیان

تعداد تکرارها:

هر چت‌بات به هر سوال نظرسنجی پاسخ می‌دهد و هر نقش را در هر بازی 30 بار در جلسات انفرادی‌ایفا می‌کند. از آنجایی که نمی‌توانیم به چت‌بات‌ها پولی بدهیم، می‌پرسیم در هر نقش و هر بازی چگونه رفتار خواهند کرد.

بازی دیکتاتور:

یک نفر ( دیکتاتور ) تمام پول را در اختیار دارد و باید تصمیم بگیرد چقدر از آن را نگه دارد و چه مقدار را به فرد دیگری ( گیرنده ) بدهد.‌این بازی، میزان نوع دوستی افراد را بررسی می‌کند.

بازی اولتیماتوم:

یک نفر ( پیشنهاد دهنده ) مقداری از پول را به فرد دیگری ( پاسخ دهنده ) پیشنهاد می‌دهد. پاسخ دهنده می‌تواند پیشنهاد را قبول کند یا رد کند. اگر رد کند، هیچ کس پولی دریافت نمی‌کند.‌این بازی، میزان عدالت و کینه توزی افراد را بررسی می‌کند.

بازی اعتماد:

یک نفر ( سرمایه گذار ) مقداری از پول را نگه می‌دارد و بقیه را به فرد دیگری ( بانکدار ) می‌دهد. بانکدار پول سرمایه گذار را سه برابر می‌کند و سپس بخشی از آن را نگه می‌دارد و بقیه را به سرمایه گذار برمی‌گرداند.‌این بازی، میزان اعتماد، عدالت، نوع دوستی و عمل متقابل افراد را بررسی می‌کند.

بازی ریسک بمب:

فردی باید از بین 100 جعبه، تعدادی را انتخاب کند و باز کند. به ازای هر جعبه باز شده، جایزه دریافت می‌کند، اما اگر به بمبی که به صورت تصادفی داخل یکی از جعبه‌ها قرار دارد برخورد کند، همه چیز را از دست می‌دهد.‌این بازی، میزان ریسک پذیری افراد را بررسی می‌کند.

بازی کالای عمومی:

به هر فرد مقداری پول داده می‌شود. او باید تصمیم بگیرد که چقدر را نگه دارد و چه مقدار را به یک کالای عمومی‌( مثلا ساخت یک پارک ) کمک کند. هر فرد، نصف کل مبلغی را که همه افراد به کالای عمومی‌کمک کرده اند، دریافت می‌کند.‌این بازی، میزان دور زدن مسئولیت (free-riding)، نوع دوستی و همکاری افراد را بررسی می‌کند.

بازی تکرار شونده زندانیان:

دو نفر در پنج دوره به طور همزمان انتخاب می‌کنند که “همکاری” کنند یا “خیانت”. اگر هر دو همکاری کنند، بیشترین سود را به دست می‌آور ازند، اما اگر یک نفر خیانت کند و دیگری همکاری، فرد خیانت کننده سود بیشتری می‌برد.‌این بازی، میزان همکاری، عمل متقابل و استدلال استراتژیک افراد را بررسی می‌کند.