سوگیری در هوش مصنوعی
بسیاری از سامانههای هوش مصنوعی، به ویژه مواردی که بر مبنای مدلهای یادگیری ماشین (Machine Learning) و یادگیری عمیق (Deep Learning) توسعه یافتهاند، از مدلهای پیشبینیکننده بهره میبرند. در این زمینه، اصطلاح «سوگیری در هوش مصنوعی» به وجود الگوهای جانبدارانه در نتایج یا خروجی پیشبینی این مدلها اشاره دارد. اما پرسشهای اساسی که در حال حاضر در مرکز مباحث اخلاقی پیرامون هوش مصنوعی قرار دارند، عبارتند از: سازوکارهای شکلگیری این سوگیریها کدامند؟ و چگونه میتوان آنها را مدیریت و کنترل نمود؟
تصمیمگیریهای الگوریتمی در سامانههای هوش مصنوعی، موجب طرح پرسشهای مهم اخلاقی شده است. ظهور و گسترش انواع گوناگون سوگیری در فرایندهای تصمیمسازی هوشمند، به شدت بر پذیرش عمومی و اعتماد به این فناوری نوظهور اثر گذاشته است. لذا برای طراحی و پیادهسازی سامانههایی که از هرگونه سوگیری مبرا باشند، داشتن درکی عمیق از اصول عدالت و انصاف امری ضروری است. این شناخت به تصمیمگیرندگان امکان میدهد تا بدون اعمال تعصب، تبعیض یا جانبداریهای ناعادلانه، تصمیماتی منصفانه و عادلانه اتخاذ کنند.
۱. سوگیری دادهها
سوگیری را میتوان به دو دستهی سوگیری داده و سوگیری الگوریتمی تقسیم کرد.
سوگیری داده زمانی رخ میدهد که در فرایند برچسبگذاری دادهها تنها از یک زاویهی محدود نمونهبرداری شود و سهم گروههای غالب در دادهها افزایش یابد. این امر منجر به ایجاد مجموعهدادهای با سوگیری میشود. برای بهبود این فرایند، میتوان اتصال مستقیمتری با منبع طبیعی گردآوری دادهها برقرار کرد. این موضوع در شکل ۲-۲ نشان داده شده است.
برای درک بهتر سوگیری داده، به یک مثال توجه کنیم: اگر روند درآمد یا سود یک شرکت تجارت الکترونیک را طی ۱۵ سال گذشته بررسی کنیم، شاهد یک روند صعودی خواهیم بود که تقریباً هر پنج سال یکبار دچار گسست (شکست روند) میشود. علت این گسستها معمولاً افزایش قیمت واحد محصولات است. حال اگر بخواهیم مدلی یادگیرنده ماشین برای پیشبینی درآمد دو سال آینده ایجاد کنیم، نمیتوانیم تمام دادههای ۱۵ سال گذشته را مستقیماً وارد مدل کنیم. اگر نقاط دادهای بهصورت تصادفی برای آموزش مدل انتخاب شوند، این کار باعث ایجاد سوگیری داده خواهد شد و چنین سوگیری میتواند به پیشبینیهای نادرست منجر شود.

۲. سوگیری الگوریتمی
سوگیری الگوریتمی تا حدی ناشی از سوگیری داده است، چرا که فرایند آموزش مدلهای یادگیری ماشین نمیتواند سوگیری موجود در دادهها را به طور کامل از میان ببرد. در نتیجه، مدلی نادرست آموزش میبیند و این امر به پیشبینیهایی با سوگیری منجر میشود.
برای کاهش سوگیری در فرایند آموزش و کاستن از سوگیری داده، لازم است پیشبینیهای مدل بهدرستی تبیین و تشریح شوند (بر اساس شکل ۱-۱). در سطح جهانی و نیز در مقیاس محلی، نتایج مدل پیشبینیکننده باید برای تمامی ذینفعان قابل تفسیر باشد. از این رو، همواره نیاز به یک چارچوب هوش مصنوعی تبیینپذیر (XAI) احساس میشود.
پلتفرمها و چارچوبهای هوش مصنوعی تبیینپذیر ابزارها و ساختارهای لازم را برای شفافسازی سوگیری در الگوریتمها و دادهها فراهم میکنند و به تصمیمگیرندگان کمک میکنند تا از وجود چنین سوگیریهایی آگاه شوند.
سامانههای هوش مصنوعی رفتاری هوشمند از خود بروز میدهند که میتواند بهرهوری چشمگیری در سامانههای تولیدی ایجاد کند و به توسعهی برنامههای هوشمند با قابلیت تصمیمگیری پیشرفته کمک نماید. با این حال، درک عملکرد هوش مصنوعی برای ذینفعان کسبوکار و کاربران معمولاً دشوار است.
زمانی که لایهی کاربردی یک نرمافزار از مدلهای هوش مصنوعی استفاده میکند، توضیح تصمیمات گرفتهشده توسط این سامانهها برای نهادهای نظارتی، مراجع قانونی و سایر سازمانهای مسئول به چالشی جدی بدل میشود.
وجود سوگیری در دادهها باعث میشود که تصمیمگیریهای مبتنی بر هوش مصنوعی نیز دچار سوگیری شوند و این میتواند به آسیبهای اعتباری برای سازمان منجر شود.
گاهی اوقات سامانههای هوش مصنوعی نتایجی تولید میکنند که نه تنها برای سازمان مطلوب نیست، بلکه حتی ممکن است مغایر با اهداف آن نیز باشد. افزون بر این، پیشبینیهای این سامانهها خارج از کنترل مستقیم سازمان انجام میشود.
در یک سناریوی توسعهی نرمافزار سنتی، به طور دقیق میدانیم که نرمافزار در چه شرایطی به درستی کار میکند و در چه شرایطی ممکن است دچار اشکال شود. اما در سامانههای تصمیمگیری مبتنی بر هوش مصنوعی، معمولاً نمیتوان با اطمینان پیشبینی کرد که این سامانهها تحت چه شرایطی عملکرد نادرستی خواهند داشت. پیشبینی این رفتار بسیار دشوار است.
فرایند کاهش سوگیری
برای کاهش میزان سوگیری و ارتقای استانداردهای اخلاقی، حکمرانی نقشی کلیدی ایفا میکند.
حکمرانی هوش مصنوعی به معنای پایبندی به مجموعهای از قواعد، رهنمودها، استانداردها، رویهها و فرآیندهایی است که بهواسطهی آنها میتوان سامانههای تصمیمگیری مبتنی بر هوش مصنوعی را مدیریت و کنترل کرد.
برای کاهش سوگیری دادهها، میتوان استانداردهای حاکمیتی مشخصی مانند ارزیابی دادهها و آزمونهای سختگیرانهی برنامههای کاربردی را تعریف و اعمال کرد.
۳. سوگیری در تفسیر
اگر پیشبینیهای یک مدل مطابق با خط فکری یا انتظار اولیه تولید نشوند، برخی از متخصصان تلاش میکنند با استفاده از همان معیارها و محاسبات ریاضی، روایت نتایج مدل را تغییر دهند. این کار باعث سردرگمی بیشتر کاربران نهایی یا کاربران تجاری میشود.
سوگیری در تفسیر به عنوان سوگیری در کاربرد مدلهای پیشبینیکننده شناخته میشود.
فرض کنید یک مدل یادگیری ماشین را با استفاده از جمعیت A آموزش دادهایم و نتایج مطلوبی به دست آوردهایم، اما سپس همان مدل را بدون آموزش مجدد بر روی جمعیت B اعمال کنیم؛ این روش که در یادگیری ماشین به عنوان یادگیری انتقالی (Transfer Learning) شناخته میشود، نمونهی کلاسیکی از سوگیری در تفسیر است.
دلیل این امر آن است که پیشبینیها ممکن است دچار سوگیری شوند، چرا که مدل بر روی جمعیتی با ویژگیها یا خصوصیات متفاوت آموزش دیده است.
سوگیری در فرایند آموزش الگوریتمی معمولاً ناشی از تلاش مداوم برای بهبود دقت مدل است. به طور معمول، برای این منظور از روشهایی چون هموارسازی دادهها (Smoothing) و تبدیل ویژگیها (Feature Transformation) مانند تبدیل لگاریتمی یا تبدیل توان دوم استفاده میشود.
گاهی اوقات نیز به منظور جلوگیری از بیشبرازش (Overfitting) در مراحل آموزش و آزمایش مدل، از تکنیکهای منظمسازی (Regularization) بهره میگیریم. این فرایند که شامل کاهش ضرایب مدل و انجام گامهای مرتبط است، در واقع به عنوان نوعی سوگیری الگوریتمی در مرحلهی آموزش مدل شناخته میشود.
۴. سوگیری در آموزش
سوگیری در مرحلهی آموزش یک سامانهی هوش مصنوعی زمانی رخ میدهد که مجموعهای نادرست از اَبَرپارامترها (Hyperparameters) انتخاب شود، نوع مدل به درستی تعیین نگردد، یا در تلاش برای دستیابی به دقت بالاتر، مدل بیشازحد آموزش داده شود (Overtraining).
در توسعهی مدلهای یادگیری ماشین، تنظیم اَبَرپارامترها و اعتبارسنجی متقابل (Cross Validation) نقشهای مهمی در پایداری و عملکرد مدل ایفا میکنند.
برای ارزیابی این که آیا یک الگوریتم از سوگیری رهایی یافته است یا خیر، باید دادههای گردآوریشده برای هدف مورد نظر، فرایند آموزش مدل، و مفروضات فرایند مدلسازی به دقت بررسی شوند.
به عنوان نمونه، فرض کنید قصد داریم میزان تمایل افراد به پرداخت هزینه برای اشتراک یک پلتفرم ارائهدهندهی خدمات محتوای ویدیویی آنلاین (OTT) را بر اساس ویژگیهای جمعیتشناختی و الگوهای هزینهکرد گذشتهی آنان پیشبینی کنیم.
آیا سامانهی هوش مصنوعی میتواند پیشبینی کند که افراد مایل به پرداخت چه میزان برای اشتراک یکماههی این سرویس هستند؟ و آیا در فرایند پیشبینی یا آموزش مدل، نوعی سوگیری وجود دارد؟
جدول ۲-۱. تفاوت میان رویکردهای رویهای و ارتباطی در سنجش سوگیری
رویکرد رویهای (Procedural) | رویکرد ارتباطی (Relational) |
---|---|
ویژهی الگوریتم است | ویژهی داده است |
بیشتر بر تکنیکها تمرکز دارد | مجموعه دادههای مختلف را با یکدیگر مقایسه میکند |
نوع وظایف از پیش مشخص است | نوع وظایف نامشخص است |
دو رویکرد متفاوت برای سنجش سوگیری
دو رویکرد متفاوت برای سنجش میزان سوگیری وجود دارد: رویکرد رویهای و رویکرد ارتباطی (رجوع شود به جدول ۲-۱).
اگر دادهها را از گروهها، کشورها، سنین، جنسیتها و نژادهای مختلف بهصورت متناسب و با رعایت نسبتهای مشابه جمعآوری کنیم، میتوان گفت که دادههای گردآوریشده برای هدف پیشبینی فاقد سوگیری هستند.
رویکرد ارتباطی در شناسایی وجود یا عدم وجود این نوع سوگیری در مجموعه دادهها مؤثر است.
از سوی دیگر، رویکرد رویهای بر فرایند آموزش الگوریتم برای انجام پیشبینی تمرکز دارد.
در برخی موارد، ممکن است نیاز باشد مدلهای متفاوتی برای گروههای سنی مختلف آموزش داده شود؛ زیرا ویژگیها و روابط میان متغیرها در گروههای سنی گوناگون لزوماً یکسان نیستند.

جدول ۲-۲. معیارهای سنجش سوگیری
معیارهای آماری (Statistical Measures) | معیارهای همگنی (Homogeneity Metrics) | معیارهای استنتاج علّی (Causal Reasoning Metrics) |
---|---|---|
مبتنی بر شاخصهای کمی است | شبیه به سنجهای از مجموعه ویژگیها به نظر میرسد | مشابه شرایط if/else است |
گاهی اوقات فاقد معنای کاربردی است | برای همه قابل فهم و معنادار است | بسیار کاربردی است |
امکان اعتبارسنجی وجود ندارد | امکان اعتبارسنجی وجود دارد | امکان اعتبارسنجی وجود دارد |
سه معیار رایج برای سنجش میزان سوگیری عبارتند از: معیارهای آماری، معیارهای مبتنی بر همگنی، و معیارهای مبتنی بر استنتاج علّی (مطابق با شکلهای ۱-۱ و ۱-۲).
معیارهای آماری بر پیشبینیهای مشابه برای گروههای مختلف بر اساس ویژگیهای جمعیتشناختی آنها تمرکز دارند. اگر نتایج پیشبینیشده برای گروههای مختلف تفاوت داشته باشد یا دقت مدل در گروههای مختلف یکسان نباشد، میتوان این سوگیری را از منظر آماری اندازهگیری کرد. معیارهای آماری به دلیل سادگی و عمومیت کاربرد، محبوبیت زیادی دارند؛ با این حال، برای برخی گروههای الگوریتمی به تنهایی کافی نیستند.
به عنوان یک رویکرد جایگزین، میتوان از معیارهای سنجش شباهت بهره گرفت. بر این اساس، اگر دو مشتری از نظر ویژگیهای دادهای کاملاً مشابه باشند، انتظار میرود که خروجی پیشبینی برای هر دو نیز یکسان باشد. اگر در نتایج پیشبینی اختلافی مشاهده شود، نشاندهندهی وجود سوگیری در الگوریتم نسبت به یک مشتری در مقایسه با دیگری است. در اینجا منظور از “مشتری”، یک نمونه از مجموعه دادهی آموزشی است؛ بهویژه در کاربردهایی نظیر پیشبینی ریزش مشتری (Churn Classification)، امتیازدهی اعتباری (Credit Scoring)، یا ارزیابی درخواستهای وام.
برای موفقیت این روش، لازم است معیارهای شباهت مناسبی برای سنجش میزان تشابه بین نمونههای دادهای تعیین شود. اگر دو نمونه دقیقاً یکسان باشند، میتوان آنها را کاملاً مشابه دانست؛ اما اگر در یک یا چند ویژگی تفاوت وجود داشته باشد، باید درصد شباهت محاسبه شود. به همین ترتیب، با افزایش تعداد ویژگیها (n ویژگی)، سنجش شباهت باید به صورت دقیقتری انجام شود.
این روش نیز خالی از محدودیت نیست؛ زیرا موفقیت آن به دقت معیار سنجش شباهت بستگی دارد: هرچه معیار شباهت قویتر باشد، نتایج معتبرتری به دست خواهد آمد.
سومین روش مهم برای سنجش میزان سوگیری، استنتاج علّی (Causal Reasoning) است که میتوان با ایجاد ساختارهایی شبیه به شروط if/else آن را پیادهسازی کرد. درک شروط if/else برای انسانها آسانتر است؛ از این رو، استفاده از استدلال علّی در طبقهبندی یک رکورد در یک دستهی دودویی (Binary Class) میتواند بینشی اضافی دربارهی وجود سوگیری در الگوریتم فراهم کند. در این رویکرد، شروط if/else/then بر اساس تمامی ویژگیهای موجود در مجموعه دادهی آموزشی تدوین میشوند.