ناعدالتی پنهان در دل هوش مصنوعی(ضعف چت بات های هوش مصنوعی)
پژوهشگران مرکز ارتباطات سازنده MIT (MIT CCC) طی یک مطالعه جدید به نتیجهای نگرانکننده رسیدهاند: چتباتهای مبتنی بر هوش مصنوعی در تعامل با برخی گروههای کاربری عملکرد ضعیفتری دارند. این پژوهش نشان از سوگیریهای اجتماعی انسانی، به شکلی دیجیتال در رفتار مدلهای زبانی بزرگ دارد.
مقدمه: دلیل نابرای رفتار مدلها در برابر کاربران و اهمیت آن؟
مقیاسپذیری و دسترسیپذیری مدلهای زبانی بزرگ باعث شده تا میلیونها نفر از این سامانهها برای کسب اطلاعات پزشکی، حقوقی، آموزشی و کاری استفاده کنند. گزارش جدید اما هشدار میدهد که این سیستمها ممکن است نابرابریهای اجتماعی را بازتولید یا تشدید کنند: یعنی دقیقاً آن گروههایی که به اطلاعات درست و قابلاعتماد نیاز بیشتری دارند، ممکن است اطلاعاتی با کیفیت نازلتر یا حتی فریبنده(اشتباه) دریافت کنند.
روششناسی پژوهش
پژوهشگران CCC مجموعهای از پرسشها را از دو دیتاست استاندارد (TruthfulQA و SciQ) انتخاب کردند و برای شبیهسازی تفاوتهای کاربران، مشخصات کوتاهی (biographies) شامل سطح تحصیلات، تسلط به زبان انگلیسی و کشور مبدا را به ابتدا یا متن ورودی افزودند. سپس پاسخهای سه مدل بزرگ بررسی و از نظر دقت، نرخ امتناع از پاسخ و لحن مورد تحلیل انسانی و آماری قرار گرفتند. مدلهای مورد آزمون شامل سه مدل پیشرو جهان بودند:
- Llama 3 (Meta)
- GPT-4 (OpenAI)
- Claude 3 Opus (Anthropic)
یافتههای کلیدی: دقت پایینتر برای کاربران آسیبپذیر(دانش تخصصی کمتر)
- کاهش دقت برای غیرانگلیسیزبانان و افراد کمتحصیل: دقت پاسخها بهطور معنیداری برای کاربرانی که زبان انگلیسیشان ضعیفتر یا سطح تحصیلاتشان پایینتر بود افت کرد؛ بیشترین کاهش در گروهی دیده شد که همزمان دارای هر دو ویژگی بودند. نتایج نشان داد که دقت پاسخها در میان کاربران غیربومی زبان انگلیسی و افراد کمتحصیل بهطور چشمگیری کاهش یافت. شدیدترین افت کیفیت در افرادی مشاهده شد که همزمان با هر دو ویژگی؛ یعنی تسلط پایین به انگلیسی و سطح تحصیلات پایین؛ مشخص میشدند.
- رفتار امتناعی و لحن توهینآمیز: در یکی از مدلها (Claude 3 Opus) نرخ امتناع از پاسخ برای کاربران دارای تحصیلات پایینتر و غیرانگلیسیزبان حدود ۱۱٪ بود، در حالی که گروه کنترل تنها ۳.۶٪ امتناع داشت. بررسی دستی نشان داد ۴۳.۷٪ از پاسخهایی که امتناع را همراه داشتند، لحن تحقیرآمیز یا patronising داشتند.
- تبعیض جغرافیایی: مدلها برای برخی کاربران از کشورهای مشخص (مثلاً ایران(فارسی) در تحلیل مورد توجه قرار گرفت) پاسخهای بیکیفیتتری ارائه دادند. این نشان میدهد که ملیت یا نشانههای جغرافیایی ممکن است بر رفتار مدل تأثیر بگذارد.
چرا این اتفاق رخ میدهد؟ (تحلیل فنی و اجتماعی)
پژوهشگران این نابرابری رفتار را انعکاسدهندهی سوگیریهای دادههای آموزشی و طراحیهای هدفمندِ شخصیسازی (personalization) میدانند. اگر مدلها در دادههای آموزشی یا فرایندهای تنظیمشان (alignment) با نمونههایی مواجه شده باشند که غیرانگلیسیزبانان یا افراد کمتحصیل را با لحن کماحترام یا بهعنوان «کمدانش» نشان میدهد، رفتار مشابهی یاد میگیرند. علاوه بر این، سیاستهای محافظتی یا قواعد امتناع (safety/guardrails) میتوانند بهصورت نامتقارن علیه گروههایی اعمال شوند که مدل آنها را «کمقابلیت» تشخیص میدهد.
پیامدها برای دسترسی، عدالت و تنظیمگری
نتایج این مطالعه پیامدهای جدی دارد:
- افزایش نابرابری اطلاعاتی: کاهش دقت و امتناعهای نامتناسب میتواند به گسترش اطلاعات نادرست یا محرومیت از اطلاعات دقیق در میان گروههای آسیبپذیر منجر شود.
- خطر قانونی و اخلاقی برای توسعهدهندگان: شرکتها و تیمهای توسعه باید پاسخگو باشند اگر محصولاتشان رفتار تبعیضآمیزی را بروز دهند. این امر ممکن است خواستار بازنگری در دادههای آموزشی، معیارهای ارزیابی و استانداردهای انطباق (compliance) شود.
- نیاز به مقررات و ممیزی مستقل: برای اطمینان از برابری دسترسی، نهادهای ناظر یا مجریان سیاست فناوری باید ابزارها و روشهایی برای ممیزی و ارزیابی تأثیر مدلها بر گروههای مختلف فراهم کنند.
چشمانداز: چه باید کرد؟ (پیشنهادهای اجرایی)
۱. آزمایشهای معطوف به برابری (fairness testing): شرکتها باید ارزیابیهای استاندارد شدهای اجرا کنند که عملکرد را بین گروههای دارای ویژگیهای زبانی، تحصیلی و جغرافیایی مقایسه کند.
۲. تنوع در دادههای آموزشی و برچسبگذاری انسانی: افزایش نمونههای متنوع و بازنگری در توضیع دادهها برای کاهش سوگیریهای زبانی و فرهنگی.
۳. شفافسازی و گزارشدهی: انتشار گزارشهای شفاف درباره آزمونهای عدالت، نرخ امتناع و نمونههایی از لحن پاسخها برای کنترل عمومی و تحقیق مستقل.
۴. طراحی سیاستهای امتناع یکنواخت و انسانی: بازبینی قواعدی که منجر به امتناع نامتناسب یا لحن توهینآمیز میشوند و جایگزینی آنها با سیاستهایی که از کرامت و دسترسی برابر حمایت کند.
جمعبندی
مطالعهی MIT Center for Constructive Communication یک هشدار صریح است: سامانههای زبانی قدرتمند، بدون مداخله آگاهانه در داده، معیارهای ارزیابی و تنظیمات طراحی، میتوانند سوگیریهای انسانی را بازتولید کنند و دقیقاً به افرادی که به کمک قابلاطمینانتر نیاز دارند، کمتر کمک کنند. این یافته باید هم توسعهدهندگان مدلها، هم سیاستگذاران و هم کاربران را به همراهی در مسیر ساختن سامانههایی منصفانهتر و مسئولتر فراخواند.
منبع: news.mit.edu

