تحلیل جامع سوگیری در هوش مصنوعی: از داده تا الگوریتم

0

سوگیری در هوش مصنوعی

بسیاری از سامانه‌های هوش مصنوعی، به ویژه مواردی که بر مبنای مدل‌های یادگیری ماشین (Machine Learning) و یادگیری عمیق (Deep Learning) توسعه یافته‌اند، از مدل‌های پیش‌بینی‌کننده بهره می‌برند. در این زمینه، اصطلاح «سوگیری در هوش مصنوعی» به وجود الگوهای جانبدارانه در نتایج یا خروجی پیش‌بینی این مدل‌ها اشاره دارد. اما پرسش‌های اساسی که در حال حاضر در مرکز مباحث اخلاقی پیرامون هوش مصنوعی قرار دارند، عبارتند از: سازوکارهای شکل‌گیری این سوگیری‌ها کدامند؟ و چگونه می‌توان آن‌ها را مدیریت و کنترل نمود؟

تصمیم‌گیری‌های الگوریتمی در سامانه‌های هوش مصنوعی، موجب طرح پرسش‌های مهم اخلاقی شده است. ظهور و گسترش انواع گوناگون سوگیری در فرایندهای تصمیم‌سازی هوشمند، به شدت بر پذیرش عمومی و اعتماد به این فناوری نوظهور اثر گذاشته است. لذا برای طراحی و پیاده‌سازی سامانه‌هایی که از هرگونه سوگیری مبرا باشند، داشتن درکی عمیق از اصول عدالت و انصاف امری ضروری است. این شناخت به تصمیم‌گیرندگان امکان می‌دهد تا بدون اعمال تعصب، تبعیض یا جانبداری‌های ناعادلانه، تصمیماتی منصفانه و عادلانه اتخاذ کنند.

۱. سوگیری داده‌ها

سوگیری را می‌توان به دو دسته‌ی سوگیری داده و سوگیری الگوریتمی تقسیم کرد.
سوگیری داده زمانی رخ می‌دهد که در فرایند برچسب‌گذاری داده‌ها تنها از یک زاویه‌ی محدود نمونه‌برداری شود و سهم گروه‌های غالب در داده‌ها افزایش یابد. این امر منجر به ایجاد مجموعه‌داده‌ای با سوگیری می‌شود. برای بهبود این فرایند، می‌توان اتصال مستقیم‌تری با منبع طبیعی گردآوری داده‌ها برقرار کرد. این موضوع در شکل ۲-۲ نشان داده شده است.

برای درک بهتر سوگیری داده، به یک مثال توجه کنیم: اگر روند درآمد یا سود یک شرکت تجارت الکترونیک را طی ۱۵ سال گذشته بررسی کنیم، شاهد یک روند صعودی خواهیم بود که تقریباً هر پنج سال یک‌بار دچار گسست (شکست روند) می‌شود. علت این گسست‌ها معمولاً افزایش قیمت واحد محصولات است. حال اگر بخواهیم مدلی یادگیرنده ماشین برای پیش‌بینی درآمد دو سال آینده ایجاد کنیم، نمی‌توانیم تمام داده‌های ۱۵ سال گذشته را مستقیماً وارد مدل کنیم. اگر نقاط داده‌ای به‌صورت تصادفی برای آموزش مدل انتخاب شوند، این کار باعث ایجاد سوگیری داده خواهد شد و چنین سوگیری می‌تواند به پیش‌بینی‌های نادرست منجر شود.

شکل ۱-۱ سوگیری در هوش مصنوعی

۲. سوگیری الگوریتمی

سوگیری الگوریتمی تا حدی ناشی از سوگیری داده است، چرا که فرایند آموزش مدل‌های یادگیری ماشین نمی‌تواند سوگیری موجود در داده‌ها را به طور کامل از میان ببرد. در نتیجه، مدلی نادرست آموزش می‌بیند و این امر به پیش‌بینی‌هایی با سوگیری منجر می‌شود.
برای کاهش سوگیری در فرایند آموزش و کاستن از سوگیری داده، لازم است پیش‌بینی‌های مدل به‌درستی تبیین و تشریح شوند (بر اساس شکل ۱-۱). در سطح جهانی و نیز در مقیاس محلی، نتایج مدل پیش‌بینی‌کننده باید برای تمامی ذی‌نفعان قابل تفسیر باشد. از این رو، همواره نیاز به یک چارچوب هوش مصنوعی تبیین‌پذیر (XAI) احساس می‌شود.
پلتفرم‌ها و چارچوب‌های هوش مصنوعی تبیین‌پذیر ابزارها و ساختارهای لازم را برای شفاف‌سازی سوگیری در الگوریتم‌ها و داده‌ها فراهم می‌کنند و به تصمیم‌گیرندگان کمک می‌کنند تا از وجود چنین سوگیری‌هایی آگاه شوند.

سامانه‌های هوش مصنوعی رفتاری هوشمند از خود بروز می‌دهند که می‌تواند بهره‌وری چشمگیری در سامانه‌های تولیدی ایجاد کند و به توسعه‌ی برنامه‌های هوشمند با قابلیت تصمیم‌گیری پیشرفته کمک نماید. با این حال، درک عملکرد هوش مصنوعی برای ذی‌نفعان کسب‌وکار و کاربران معمولاً دشوار است.
زمانی که لایه‌ی کاربردی یک نرم‌افزار از مدل‌های هوش مصنوعی استفاده می‌کند، توضیح تصمیمات گرفته‌شده توسط این سامانه‌ها برای نهادهای نظارتی، مراجع قانونی و سایر سازمان‌های مسئول به چالشی جدی بدل می‌شود.
وجود سوگیری در داده‌ها باعث می‌شود که تصمیم‌گیری‌های مبتنی بر هوش مصنوعی نیز دچار سوگیری شوند و این می‌تواند به آسیب‌های اعتباری برای سازمان منجر شود.
گاهی اوقات سامانه‌های هوش مصنوعی نتایجی تولید می‌کنند که نه تنها برای سازمان مطلوب نیست، بلکه حتی ممکن است مغایر با اهداف آن نیز باشد. افزون بر این، پیش‌بینی‌های این سامانه‌ها خارج از کنترل مستقیم سازمان انجام می‌شود.

در یک سناریوی توسعه‌ی نرم‌افزار سنتی، به طور دقیق می‌دانیم که نرم‌افزار در چه شرایطی به درستی کار می‌کند و در چه شرایطی ممکن است دچار اشکال شود. اما در سامانه‌های تصمیم‌گیری مبتنی بر هوش مصنوعی، معمولاً نمی‌توان با اطمینان پیش‌بینی کرد که این سامانه‌ها تحت چه شرایطی عملکرد نادرستی خواهند داشت. پیش‌بینی این رفتار بسیار دشوار است.

فرایند کاهش سوگیری

برای کاهش میزان سوگیری و ارتقای استانداردهای اخلاقی، حکمرانی نقشی کلیدی ایفا می‌کند.
حکمرانی هوش مصنوعی به معنای پایبندی به مجموعه‌ای از قواعد، رهنمودها، استانداردها، رویه‌ها و فرآیندهایی است که به‌واسطه‌ی آن‌ها می‌توان سامانه‌های تصمیم‌گیری مبتنی بر هوش مصنوعی را مدیریت و کنترل کرد.
برای کاهش سوگیری داده‌ها، می‌توان استانداردهای حاکمیتی مشخصی مانند ارزیابی داده‌ها و آزمون‌های سختگیرانه‌ی برنامه‌های کاربردی را تعریف و اعمال کرد.

۳. سوگیری در تفسیر

اگر پیش‌بینی‌های یک مدل مطابق با خط فکری یا انتظار اولیه تولید نشوند، برخی از متخصصان تلاش می‌کنند با استفاده از همان معیارها و محاسبات ریاضی، روایت نتایج مدل را تغییر دهند. این کار باعث سردرگمی بیشتر کاربران نهایی یا کاربران تجاری می‌شود.
سوگیری در تفسیر به عنوان سوگیری در کاربرد مدل‌های پیش‌بینی‌کننده شناخته می‌شود.
فرض کنید یک مدل یادگیری ماشین را با استفاده از جمعیت A آموزش داده‌ایم و نتایج مطلوبی به دست آورده‌ایم، اما سپس همان مدل را بدون آموزش مجدد بر روی جمعیت B اعمال کنیم؛ این روش که در یادگیری ماشین به عنوان یادگیری انتقالی (Transfer Learning) شناخته می‌شود، نمونه‌ی کلاسیکی از سوگیری در تفسیر است.
دلیل این امر آن است که پیش‌بینی‌ها ممکن است دچار سوگیری شوند، چرا که مدل بر روی جمعیتی با ویژگی‌ها یا خصوصیات متفاوت آموزش دیده است.

سوگیری در فرایند آموزش الگوریتمی معمولاً ناشی از تلاش مداوم برای بهبود دقت مدل است. به طور معمول، برای این منظور از روش‌هایی چون هموارسازی داده‌ها (Smoothing) و تبدیل ویژگی‌ها (Feature Transformation) مانند تبدیل لگاریتمی یا تبدیل توان دوم استفاده می‌شود.
گاهی اوقات نیز به منظور جلوگیری از بیش‌برازش (Overfitting) در مراحل آموزش و آزمایش مدل، از تکنیک‌های منظم‌سازی (Regularization) بهره می‌گیریم. این فرایند که شامل کاهش ضرایب مدل و انجام گام‌های مرتبط است، در واقع به عنوان نوعی سوگیری الگوریتمی در مرحله‌ی آموزش مدل شناخته می‌شود.

۴. سوگیری در آموزش

سوگیری در مرحله‌ی آموزش یک سامانه‌ی هوش مصنوعی زمانی رخ می‌دهد که مجموعه‌ای نادرست از اَبَرپارامترها (Hyperparameters) انتخاب شود، نوع مدل به درستی تعیین نگردد، یا در تلاش برای دستیابی به دقت بالاتر، مدل بیش‌ازحد آموزش داده شود (Overtraining).
در توسعه‌ی مدل‌های یادگیری ماشین، تنظیم اَبَرپارامترها و اعتبارسنجی متقابل (Cross Validation) نقش‌های مهمی در پایداری و عملکرد مدل ایفا می‌کنند.

برای ارزیابی این که آیا یک الگوریتم از سوگیری رهایی یافته است یا خیر، باید داده‌های گردآوری‌شده برای هدف مورد نظر، فرایند آموزش مدل، و مفروضات فرایند مدل‌سازی به دقت بررسی شوند.

به عنوان نمونه، فرض کنید قصد داریم میزان تمایل افراد به پرداخت هزینه برای اشتراک یک پلتفرم ارائه‌دهنده‌ی خدمات محتوای ویدیویی آنلاین (OTT) را بر اساس ویژگی‌های جمعیت‌شناختی و الگوهای هزینه‌کرد گذشته‌ی آنان پیش‌بینی کنیم.
آیا سامانه‌ی هوش مصنوعی می‌تواند پیش‌بینی کند که افراد مایل به پرداخت چه میزان برای اشتراک یک‌ماهه‌ی این سرویس هستند؟ و آیا در فرایند پیش‌بینی یا آموزش مدل، نوعی سوگیری وجود دارد؟

جدول ۲-۱. تفاوت میان رویکردهای رویه‌ای و ارتباطی در سنجش سوگیری

رویکرد رویه‌ای (Procedural)رویکرد ارتباطی (Relational)
ویژه‌ی الگوریتم استویژه‌ی داده است
بیشتر بر تکنیک‌ها تمرکز داردمجموعه داده‌های مختلف را با یکدیگر مقایسه می‌کند
نوع وظایف از پیش مشخص استنوع وظایف نامشخص است

دو رویکرد متفاوت برای سنجش سوگیری

دو رویکرد متفاوت برای سنجش میزان سوگیری وجود دارد: رویکرد رویه‌ای و رویکرد ارتباطی (رجوع شود به جدول ۲-۱).
اگر داده‌ها را از گروه‌ها، کشورها، سنین، جنسیت‌ها و نژادهای مختلف به‌صورت متناسب و با رعایت نسبت‌های مشابه جمع‌آوری کنیم، می‌توان گفت که داده‌های گردآوری‌شده برای هدف پیش‌بینی فاقد سوگیری هستند.
رویکرد ارتباطی در شناسایی وجود یا عدم وجود این نوع سوگیری در مجموعه داده‌ها مؤثر است.
از سوی دیگر، رویکرد رویه‌ای بر فرایند آموزش الگوریتم برای انجام پیش‌بینی تمرکز دارد.
در برخی موارد، ممکن است نیاز باشد مدل‌های متفاوتی برای گروه‌های سنی مختلف آموزش داده شود؛ زیرا ویژگی‌ها و روابط میان متغیرها در گروه‌های سنی گوناگون لزوماً یکسان نیستند.

شکل ۱-۲ معیارهای سنجش سوگیری

جدول ۲-۲. معیارهای سنجش سوگیری

معیارهای آماری (Statistical Measures)معیارهای همگنی (Homogeneity Metrics)معیارهای استنتاج علّی (Causal Reasoning Metrics)
مبتنی بر شاخص‌های کمی استشبیه به سنجه‌ای از مجموعه ویژگی‌ها به نظر می‌رسدمشابه شرایط if/else است
گاهی اوقات فاقد معنای کاربردی استبرای همه قابل فهم و معنادار استبسیار کاربردی است
امکان اعتبارسنجی وجود نداردامکان اعتبارسنجی وجود داردامکان اعتبارسنجی وجود دارد

سه معیار رایج برای سنجش میزان سوگیری عبارتند از: معیارهای آماری، معیارهای مبتنی بر همگنی، و معیارهای مبتنی بر استنتاج علّی (مطابق با شکل‌های ۱-۱ و ۱-۲).
معیارهای آماری بر پیش‌بینی‌های مشابه برای گروه‌های مختلف بر اساس ویژگی‌های جمعیت‌شناختی آن‌ها تمرکز دارند. اگر نتایج پیش‌بینی‌شده برای گروه‌های مختلف تفاوت داشته باشد یا دقت مدل در گروه‌های مختلف یکسان نباشد، می‌توان این سوگیری را از منظر آماری اندازه‌گیری کرد. معیارهای آماری به دلیل سادگی و عمومیت کاربرد، محبوبیت زیادی دارند؛ با این حال، برای برخی گروه‌های الگوریتمی به تنهایی کافی نیستند.

به عنوان یک رویکرد جایگزین، می‌توان از معیارهای سنجش شباهت بهره گرفت. بر این اساس، اگر دو مشتری از نظر ویژگی‌های داده‌ای کاملاً مشابه باشند، انتظار می‌رود که خروجی پیش‌بینی برای هر دو نیز یکسان باشد. اگر در نتایج پیش‌بینی اختلافی مشاهده شود، نشان‌دهنده‌ی وجود سوگیری در الگوریتم نسبت به یک مشتری در مقایسه با دیگری است. در اینجا منظور از “مشتری”، یک نمونه از مجموعه داده‌ی آموزشی است؛ به‌ویژه در کاربردهایی نظیر پیش‌بینی ریزش مشتری (Churn Classification)، امتیازدهی اعتباری (Credit Scoring)، یا ارزیابی درخواست‌های وام.
برای موفقیت این روش، لازم است معیارهای شباهت مناسبی برای سنجش میزان تشابه بین نمونه‌های داده‌ای تعیین شود. اگر دو نمونه دقیقاً یکسان باشند، می‌توان آن‌ها را کاملاً مشابه دانست؛ اما اگر در یک یا چند ویژگی تفاوت وجود داشته باشد، باید درصد شباهت محاسبه شود. به همین ترتیب، با افزایش تعداد ویژگی‌ها (n ویژگی)، سنجش شباهت باید به صورت دقیق‌تری انجام شود.
این روش نیز خالی از محدودیت نیست؛ زیرا موفقیت آن به دقت معیار سنجش شباهت بستگی دارد: هرچه معیار شباهت قوی‌تر باشد، نتایج معتبرتری به دست خواهد آمد.

سومین روش مهم برای سنجش میزان سوگیری، استنتاج علّی (Causal Reasoning) است که می‌توان با ایجاد ساختارهایی شبیه به شروط if/else آن را پیاده‌سازی کرد. درک شروط if/else برای انسان‌ها آسان‌تر است؛ از این رو، استفاده از استدلال علّی در طبقه‌بندی یک رکورد در یک دسته‌ی دودویی (Binary Class) می‌تواند بینشی اضافی درباره‌ی وجود سوگیری در الگوریتم فراهم کند. در این رویکرد، شروط if/else/then بر اساس تمامی ویژگی‌های موجود در مجموعه داده‌ی آموزشی تدوین می‌شوند.

Share.
Leave A Reply Cancel Reply
Exit mobile version