هشدار جدی MIT: ضعف چت بات های هوش مصنوعی در پاسخ به کاربران آسیب‌پذیر

تحریریه هوش مصنوعی سیمرغ

4 ماه ago

ناعدالتی پنهان در دل هوش مصنوعی(ضعف چت بات های هوش مصنوعی)

پژوهشگران مرکز ارتباطات سازنده MIT (MIT CCC) طی یک مطالعه جدید به نتیجه‌ای نگران‌کننده رسیده‌اند: چت‌بات‌های مبتنی بر هوش مصنوعی در تعامل با برخی گروه‌های کاربری عملکرد ضعیف‌تری دارند. این پژوهش نشان از سوگیری‌های اجتماعی انسانی، به شکلی دیجیتال در رفتار مدل‌های زبانی بزرگ دارد.

مقدمه: دلیل نابرای رفتار مدل‌ها در برابر کاربران و اهمیت آن؟

مقیاس‌پذیری و دسترسی‌پذیری مدل‌های زبانی بزرگ باعث شده تا میلیون‌ها نفر از این سامانه‌ها برای کسب اطلاعات پزشکی، حقوقی، آموزشی و کاری استفاده کنند. گزارش جدید اما هشدار می‌دهد که این سیستم‌ها ممکن است نابرابری‌های اجتماعی را بازتولید یا تشدید کنند: یعنی دقیقاً آن گروه‌هایی که به اطلاعات درست و قابل‌اعتماد نیاز بیشتری دارند، ممکن است اطلاعاتی با کیفیت نازل‌تر یا حتی فریبنده(اشتباه) دریافت کنند.

روش‌شناسی پژوهش

پژوهشگران CCC مجموعه‌ای از پرسش‌ها را از دو دیتاست استاندارد (TruthfulQA و SciQ) انتخاب کردند و برای شبیه‌سازی تفاوت‌های کاربران، مشخصات کوتاهی (biographies) شامل سطح تحصیلات، تسلط به زبان انگلیسی و کشور مبدا را به ابتدا یا متن ورودی افزودند. سپس پاسخ‌های سه مدل بزرگ بررسی و از نظر دقت، نرخ امتناع از پاسخ و لحن مورد تحلیل انسانی و آماری قرار گرفتند. مدل‌های مورد آزمون شامل سه مدل پیشرو جهان بودند:

Llama 3 (Meta)
GPT-4 (OpenAI)
Claude 3 Opus (Anthropic)

یافته‌های کلیدی: دقت پایین‌تر برای کاربران آسیب‌پذیر(دانش تخصصی کمتر)

کاهش دقت برای غیر‌انگلیسی‌زبانان و افراد کم‌تحصیل: دقت پاسخ‌ها به‌طور معنی‌داری برای کاربرانی که زبان انگلیسیشان ضعیف‌تر یا سطح تحصیلاتشان پایین‌تر بود افت کرد؛ بیشترین کاهش در گروهی دیده شد که هم‌زمان دارای هر دو ویژگی بودند. نتایج نشان داد که دقت پاسخ‌ها در میان کاربران غیربومی زبان انگلیسی و افراد کم‌تحصیل به‌طور چشمگیری کاهش یافت. شدیدترین افت کیفیت در افرادی مشاهده شد که همزمان با هر دو ویژگی؛ یعنی تسلط پایین به انگلیسی و سطح تحصیلات پایین؛ مشخص می‌شدند.
رفتار امتناعی و لحن توهین‌آمیز: در یکی از مدل‌ها (Claude 3 Opus) نرخ امتناع از پاسخ برای کاربران دارای تحصیلات پایین‌تر و غیر‌انگلیسی‌زبان حدود ۱۱٪ بود، در حالی که گروه کنترل تنها ۳.۶٪ امتناع داشت. بررسی دستی نشان داد ۴۳.۷٪ از پاسخ‌هایی که امتناع را همراه داشتند، لحن تحقیرآمیز یا patronising داشتند.
تبعیض جغرافیایی: مدل‌ها برای برخی کاربران از کشورهای مشخص (مثلاً ایران(فارسی) در تحلیل مورد توجه قرار گرفت) پاسخ‌های بی‌کیفیت‌تری ارائه دادند. این نشان می‌دهد که ملیت یا نشانه‌های جغرافیایی ممکن است بر رفتار مدل تأثیر بگذارد.

چرا این اتفاق رخ میدهد؟ (تحلیل فنی و اجتماعی)

پژوهشگران این نابرابری رفتار را انعکاس‌دهنده‌‌ی سوگیری‌های داده‌های آموزشی و طراحی‌های هدفمندِ شخصی‌سازی (personalization) می‌دانند. اگر مدل‌ها در داده‌های آموزشی یا فرایندهای تنظیم‌شان (alignment) با نمونه‌هایی مواجه شده باشند که غیرانگلیسی‌زبانان یا افراد کم‌تحصیل را با لحن کم‌احترام یا به‌عنوان «کم‌دانش» نشان می‌دهد، رفتار مشابهی یاد می‌گیرند. علاوه بر این، سیاست‌های محافظتی یا قواعد امتناع (safety/guardrails) می‌توانند به‌صورت نامتقارن علیه گروه‌هایی اعمال شوند که مدل آنها را «کم‌قابلیت» تشخیص می‌دهد.

پیامدها برای دسترسی، عدالت و تنظیم‌گری

نتایج این مطالعه پیامدهای جدی دارد:

افزایش نابرابری اطلاعاتی: کاهش دقت و امتناع‌های نامتناسب می‌تواند به گسترش اطلاعات نادرست یا محرومیت از اطلاعات دقیق در میان گروه‌های آسیب‌پذیر منجر شود.
خطر قانونی و اخلاقی برای توسعه‌دهندگان: شرکت‌ها و تیم‌های توسعه باید پاسخگو باشند اگر محصولاتشان رفتار تبعیض‌آمیزی را بروز دهند. این امر ممکن است خواستار بازنگری در داده‌های آموزشی، معیارهای ارزیابی و استانداردهای انطباق (compliance) شود.
نیاز به مقررات و ممیزی مستقل: برای اطمینان از برابری دسترسی، نهادهای ناظر یا مجریان سیاست فناوری باید ابزارها و روش‌هایی برای ممیزی و ارزیابی تأثیر مدل‌ها بر گروه‌های مختلف فراهم کنند.

چشم‌انداز: چه باید کرد؟ (پیشنهادهای اجرایی)

۱. آزمایش‌های معطوف به برابری (fairness testing): شرکت‌ها باید ارزیابی‌های استاندارد شده‌ای اجرا کنند که عملکرد را بین گروه‌های دارای ویژگی‌های زبانی، تحصیلی و جغرافیایی مقایسه کند.
۲. تنوع در داده‌های آموزشی و برچسب‌گذاری انسانی: افزایش نمونه‌های متنوع و بازنگری در توضیع داده‌ها برای کاهش سوگیری‌های زبانی و فرهنگی.
۳. شفاف‌سازی و گزارش‌دهی: انتشار گزارش‌های شفاف درباره آزمون‌های عدالت، نرخ امتناع و نمونه‌هایی از لحن پاسخ‌ها برای کنترل عمومی و تحقیق مستقل.
۴. طراحی سیاست‌های امتناع یکنواخت و انسانی: بازبینی قواعدی که منجر به امتناع نامتناسب یا لحن توهین‌آمیز می‌شوند و جایگزینی آنها با سیاست‌هایی که از کرامت و دسترسی برابر حمایت کند.

جمع‌بندی

مطالعه‌ی MIT Center for Constructive Communication یک هشدار صریح است: سامانه‌های زبانی قدرتمند، بدون مداخله آگاهانه در داده، معیارهای ارزیابی و تنظیمات طراحی، می‌توانند سوگیری‌های انسانی را بازتولید کنند و دقیقاً به افرادی که به کمک قابل‌اطمینان‌تر نیاز دارند، کمتر کمک کنند. این یافته باید هم توسعه‌دهندگان مدل‌ها، هم سیاست‌گذاران و هم کاربران را به همراهی در مسیر ساختن سامانه‌هایی منصفانه‌تر و مسئول‌تر فراخواند.

منبع: news.mit.edu