شبکه‌های عصبی مولد رقابتی(GANs) چیست: از ۰ تا ۹۹.۹!

0

شبکه‌های عصبی مولد رقابتی: مروری جامع و آکادمیک

فهرست دسترسی سریع

چکیده

شبکه‌های عصبی مولد رقابتی (GANs) یا Generative Adversarial Networks، چارچوبی نوآورانه برای مدل‌سازی مولد ضمنی، انقلابی در حوزه هوش مصنوعی مولد ایجاد کرده‌اند. این چارچوب که ایده اصلی آن در سال ۲۰۱۴ توسط ایان گودفلو و همکارانش مطرح شد، بر رقابتی با حاصل جمع صفر میان دو شبکه عصبی استوار است: شبکه مولد (Generator) و شبکه تفکیک‌کننده (Discriminator).

وظیفه شبکه مولد تولید داده‌های جدید (مانند تصاویر) است که از نمونه‌های واقعی قابل تشخیص نباشند. در مقابل، شبکه تفکیک‌کننده به عنوان یک داور، مسئول تشخیص تفاوت بین داده‌های واقعی و تولیدشده توسط شبکه مولد است. این رقابت پویا در نهایت به تولید داده‌های مصنوعیِ فوق‌واقع‌گرا منجر می‌شود.

با این حال، در ابتدا، پیاده‌سازی این شبکه‌ها با چالش‌های جدی مانند ناپایداری در آموزش، فروپاشی مُد (Mode Collapse) و گرادیان‌های محوشونده (Vanishing Gradients) مواجه بود. این مقاله به بررسی دقیق نوآوری‌های کلیدی‌ای می‌پردازد که این مشکلات را حل کردند:

  • شبکه‌های عصبی مولد رقابتی عمیق کانولوشنی (DCGANs): این شبکه‌ها با استفاده از معماری‌های پایدارتر، فرایند آموزش GANs را بهبود بخشیدند.
  • شبکه‌های عصبی مولد رقابتی Wasserstein (WGANs): با معرفی یک تابع هزینه جدید، به حل مشکل گرادیان‌های محوشونده کمک کرده و پایداری آموزش را به‌طور چشمگیری افزایش دادند.
  • شبکه‌های رشد تدریجی (Progressive GANs): این شبکه‌ها با شروع از تصاویر با وضوح پایین و افزایش تدریجی رزولوشن در طول آموزش، ساخت تصاویر با کیفیت فوق‌العاده بالا را ممکن ساختند.

علاوه بر این، در این گزارش، کاربردهای متنوع GANs در حوزه‌هایی مانند تولید تصاویر با وضوح بالا، غنی‌سازی داده‌های پزشکی و تبدیل تصویر به تصویر بررسی شده است. در پایان، این مقاله با بحثی انتقادی پیرامون چالش‌های ارزیابی دقیق و پیامدهای اخلاقی و اجتماعی تولید محتوای مصنوعی و فوق‌واقع‌گرا، به نتیجه‌گیری می‌رسد. این گزارش یک منبع جامع برای متخصصان و پژوهشگران علاقه‌مند به آخرین تحولات در حوزه مدل‌سازی مولد است.

۱. مقدمه

۱.۱. پیشینه: چشم‌انداز مدل‌سازی مولد

مدل‌های مولد دسته‌ای از الگوریتم‌ها هستند که برای درک توزیع آماری یک مجموعه داده آموزشی طراحی شده‌اند و آن‌ها را قادر می‌سازند تا نمونه‌های جدید و واقع‌گرایانه‌ای را از آن توزیع آموخته‌شده سنتز کنند.۳۱ قبل از ظهور شبکه‌های عصبی مولد رقابتی، حوزه مدل‌سازی مولد عمدتاً تحت سلطه مدل‌های چگالی صریح، مانند ماشین‌های بولتزمن بود.۱ این مدل‌ها به تعریف صریح یک تابع چگالی احتمال نیاز داشتند که اغلب از نظر محاسباتی غیرقابل حل بود و استفاده از تقریب‌ها و زنجیره‌های مارکوف پیچیده را در طول آموزش ضروری می‌کرد.۱

در سال ۲۰۱۴، چارچوب جدیدی توسط ایان گودفلو و همکارانش معرفی شد که اساساً این پارادایم را تغییر داد. آن‌ها شبکه‌های عصبی مولد رقابتی (GANs) را پیشنهاد دادند، رویکردی نوین که روشی برای مدل‌سازی چگالی ضمنی ارائه می‌کرد.۳۱ با صرف‌نظر از نیاز به تعریف صریح توزیع داده‌ها، GANs از موانع محاسباتی روش‌های قبلی، مانند نیاز به زنجیره‌های مارکوف یا شبکه‌های استنتاج تقریبی، دوری کردند و راهی مستقیم برای مدل‌سازی فرآیند مولد از طریق یک بازی رقابتی و دو نفره ارائه دادند.۱ این نوآوری مسیرهای جدیدی را برای سنتز داده‌های غنی و با ابعاد بالا، به ویژه تصاویر، گشود.

۱.۲. مروری بر گزارش

این مقاله مروری جامع و آکادمیک بر GANs ارائه می‌دهد و سیر تکامل و تأثیر این فناوری را دنبال می‌کند. ساختار مقاله به گونه‌ای طراحی شده است که خواننده را از اصول بنیادین به سمت پیشرفته‌ترین نوآوری‌ها و چالش‌ها هدایت کند. بخش ۲ مبانی نظری GANs را با تعریف اجزای اصلی و اصل بازی کمینه‌بیشینه که آموزش آن‌ها را هدایت می‌کند، تبیین می‌کند. بخش ۳ به تفصیل چالش‌های عمده‌ای را که در پیاده‌سازی‌های اولیه GANs پدیدار شدند، مانند ناپایداری در آموزش و فروپاشی مُد، تشریح می‌کند. بخش ۴ یک تحلیل زمانی از نوآوری‌های اصلی معماری و روش‌شناختی که این مسائل را حل کردند، ارائه می‌دهد. بخش ۵ کاربردهای گسترده GANs را در حوزه‌های مختلف بررسی و سودمندی عملی آن‌ها را برجسته می‌کند. بخش ۶ به پیچیدگی‌های پایدار ارزیابی عملکرد GANs می‌پردازد و پیامدهای عمیق اخلاقی و اجتماعی این فناوری را بررسی می‌کند. در نهایت، بخش ۷ یافته‌های کلیدی را خلاصه و نتیجه‌گیری‌هایی را در مورد مسیر آینده تحقیقات GAN ارائه می‌دهد.

۲. مبانی نظری شبکه‌های عصبی مولد رقابتی

۲.۱. پارادایم مولد-تفکیک‌کننده

در هسته خود، یک شبکه عصبی مولد رقابتی از دو شبکه عصبی مجزا—یک مدل مولد (G) و یک مدل تفکیک‌کننده (D)—تشکیل شده است که در یک رقابت با حاصل جمع صفر و رقابتی با یکدیگر قرار دارند.۵ مولد،

G، یک شبکه عصبی عمیق است که یک بردار نویز تصادفی، که اغلب با z نمایش داده می‌شود، را به عنوان ورودی خود می‌گیرد و این نویز را به یک نمونه داده مصنوعی، G(z)، تبدیل می‌کند که قصد دارد از ویژگی‌های آماری توزیع داده‌های واقعی تقلید کند.۳۴ هدف آن تولید خروجی‌هایی است که به قدری متقاعدکننده باشند که بتوانند به عنوان داده‌های واقعی تلقی شوند.۳۴

در مقابل، تفکیک‌کننده، D، به عنوان یک طبقه‌بندی‌کننده دودویی عمل می‌کند. این شبکه برای تشخیص نمونه‌های واقعی از داده‌های آموزشی اصلی و نمونه‌های مصنوعی تولید شده توسط مولد آموزش می‌بیند.۳۴ این رابطه رقابتی را می‌توان به یک تیم از جاعلان (مولد) تشبیه کرد که تلاش می‌کنند پول جعلی تولید کنند که از پول واقعی قابل تمایز نباشد، در حالی که پلیس (تفکیک‌کننده) برای شناسایی این جعل‌ها کار می‌کند.۱ قدرت چارچوب GAN در ظرافت این رابطه رقابتی نهفته است. تفکیک‌کننده به عنوان یک ‘تابع زیان آموخته‌شده’ برای مولد عمل می‌کند ۲، که یک سیگنال آموزشی ارائه می‌دهد که بسیار پیچیده‌تر و پویاتر از زیان‌های سنتی و دستی مانند خطای میانگین مربعات (MSE) است که تنها تفاوت‌های پیکسلی را جریمه می‌کند و اغلب منجر به خروجی‌های تار و غیرواقع‌گرایانه می‌شود.۲ با آموختن اینکه چه چیزی یک نمونه ‘واقعی’ از توزیع داده‌ها را تشکیل می‌دهد، تفکیک‌کننده یک سیگنال بازخورد غنی و سطح بالا را فراهم می‌کند که مولد را به سمت تولید نتایج از نظر بصری متقاعدکننده هدایت می‌کند.

۲.۲. بازی کمینه‌بیشینه (Minimax)

فرآیند آموزش یک GAN به صورت یک بازی دو نفره با حاصل جمع صفر و کمینه‌بیشینه رسمی می‌شود.۱ مولد،

G، به دنبال کمینه‌سازی تابع هدف است، در حالی که تفکیک‌کننده، D، به طور همزمان به دنبال بیشینه‌سازی آن است.۳ در این فرمول‌بندی، هدف تفکیک‌کننده این است که احتمال اختصاص داده‌شده به یک نمونه واقعی،

D(x)، و احتمال طبقه‌بندی صحیح یک نمونه جعلی، ۱−D(G(z))، را بیشینه کند.۳۴ هدف مولد این است که اصطلاح دوم را کمینه کند، که معادل ‘بیشینه‌کردن احتمال اشتباه کردن D’ است.۱ در یک تعادل نظری کامل، توزیع مولد،

pg​، دقیقاً با توزیع داده‌های واقعی، pdata​، مطابقت پیدا می‌کند.۳۴ در این مرحله، تفکیک‌کننده کاملاً گیج می‌شود، قادر به تمایز بین نمونه‌های واقعی و جعلی نخواهد بود و یک احتمال ۰.۵ برای تمام ورودی‌ها خروجی می‌دهد.۳۱

چهارچوب‌بندی آموزش GAN به عنوان یک بازی کمینه‌بیشینه، به جای یک مسئله بهینه‌سازی محض، منبع مستقیم هم قدرت نوآورانه و هم ناپایداری ذاتی آن است.۱ این ساختار نظریه بازی یک تعادل پویا و غیرهمگرا ایجاد می‌کند که مدیریت آن می‌تواند دشوار باشد.۵ موفقیت در آموزش یک شبکه مستقیماً بر دیگری تأثیر می‌گذارد و منجر به رفتار نوسانی می‌شود که در آن شبکه‌ها هرگز به یک راه‌حل پایدار نمی‌رسند.۴

۲.۳. تمایز GANs از سایر مدل‌های مولد

GANs از سایر مدل‌های مولد عمیق با رویکرد بنیادین خود به تخمین چگالی متمایز می‌شوند. به عنوان مدل‌های چگالی ضمنی، آن‌ها یاد می‌گیرند که نمونه‌هایی را بدون تعریف صریح تابع چگالی احتمال داده‌ها تولید کنند.۳۱ این یک انحراف کلیدی از مدل‌های چگالی صریح، مانند خودرمزنگارهای متغیر (VAEs)، است که به محاسبه یک تابع درست‌نمایی یا یک کران پایین آن نیاز دارند.۳۳

این رویکرد ضمنی یک مزیت قابل توجه را فراهم می‌کند: GANs می‌توانند خروجی‌های غنی و با ابعاد بالا را با وفاداری و وضوح قابل توجهی تولید کنند که توسط زیان ادراکی ارائه شده توسط تفکیک‌کننده هدایت می‌شود.۲ این قابلیت به آن‌ها امکان تولید تصاویر شفاف‌تر و واضح‌تر از سایر مدل‌ها را می‌دهد.۳۴ همچنین، GANها در مقایسه با PixelRNN زمان اجرای کمتری برای تولید نمونه نیاز دارند.۳۴ با این حال، این قدرت با یک بده‌بستان همراه است. از آنجا که هیچ تابع درست‌نمایی تعریف نشده است، وظایفی مانند تخمین حداکثر درست‌نمایی برای GANs غیرممکن می‌شود.۳۵ علاوه بر این، در تئوری، GANs می‌توانند هر توزیع احتمالی را تقریب بزنند و بر مشکلاتی مانند سوگیری نتایج نهایی در VAEها غلبه کنند.۳۴

۳. چالش‌های اصلی در آموزش GAN

با وجود ظرافت چارچوب نظری آن‌ها، آموزش پیاده‌سازی‌های اولیه GANs به دلیل مجموعه‌ای از چالش‌های پایدار و به هم‌پیوسته که پیشرفت این حوزه را متوقف کرده بود تا زمانی که راه‌حل‌های نوآورانه‌ای توسعه یافتند، بسیار دشوار بود.۴

۳.۱. ناپایداری در آموزش و عدم همگرایی

آموزش GANs عمدتاً به دلیل ناپایداری ذاتی فرآیند رقابتی دشوار است.۳۴ دینامیک آموزش با یک ‘تعادل پویا’ مشخص می‌شود که در آن مولد و تفکیک‌کننده به طور مداوم با استراتژی‌های در حال تغییر یکدیگر سازگار می‌شوند.۴ این فرآیند، که توسط یک تابع هدف غیرمحدب اداره می‌شود، می‌تواند منجر به رفتارهای غیرقابل پیش‌بینی، از جمله واگرایی و نوسانات، به جای همگرایی آرام به یک تعادل پایدار شود.۳۵

۳.۲. فروپاشی مُد: علل و پیامدها

فروپاشی مُد یک حالت شکست قابل توجه و رایج است که در آن مولد مجموعه‌ای محدود از خروجی‌های یکنواخت را تولید می‌کند و عملاً بخش‌های بزرگی از توزیع داده‌های واقعی را نادیده می‌گیرد.۶ این پدیده حتی در مقاله اصلی GAN با عنوان ‘سناریوی هلوتیکا’ نیز اشاره شده است.۶ این مشکل اغلب از عدم تعادل در سرعت‌های یادگیری دو شبکه ناشی می‌شود.۶ اگر تفکیک‌کننده خیلی آهسته یاد بگیرد، مولد می‌تواند یک نقطه ضعف واحد را پیدا کرده و با تولید مجموعه‌ای محدود از خروجی‌های متقاعدکننده، از آن بهره‌برداری کند.۶ این پدیده باعث می‌شود که آموزش به تولید پیوسته نمونه‌های یکسان منجر شود.۳۴

۳.۳. مشکل گرادیان‌های محوشونده

یک پارادوکس در فرآیند آموزش GANs وجود دارد: در حالی که توجیه نظری برای چارچوب بر اساس فرض یک تفکیک‌کننده بهینه است، دستیابی به این بهینگی می‌تواند به یک حالت شکست عملی معروف به گرادیان‌های محوشونده منجر شود.۵ هنگامی که تفکیک‌کننده بیش از حد قدرتمند می‌شود و یاد می‌گیرد که به طور کامل بین داده‌های واقعی و جعلی تمایز قائل شود، یک سیگنال گرادیان به مولد می‌دهد که به صفر نزدیک می‌شود.۱۲ این بدان معناست که مولد بازخورد مفید کمی یا هیچ بازخوردی در مورد چگونگی بهبود خروجی خود دریافت نمی‌کند.۷ این مشکل از تابع زیان اصلی GAN نشأت می‌گیرد که بر اساس واگرایی Jensen-Shannon است.۳۷ هنگامی که توزیع مولد و داده‌های واقعی همپوشانی قابل توجهی ندارند، واگرایی اشباع می‌شود و یک گرادیان تخت و بی‌اطلاعات ارائه می‌دهد.۳۷ این مشکل یک محدودیت بنیادین از چارچوب اصلی GAN را برجسته می‌کند و مستقیماً انگیزه توسعه معماری‌ها و توابع زیان جایگزینی را داد که یک سیگنال یادگیری پایدارتر و پیوسته‌تر ارائه می‌دهند.

چالشتوضیحاتراه‌حل‌های اصلی
ناپایداری در آموزشماهیت رقابتی فرآیند آموزش منجر به نوسانات و عدم همگرایی می‌شود و یافتن یک تعادل پایدار را دشوار می‌سازد.WGAN، Progressive GANs، محدودیت‌های معماری (DCGANs)، نرمال‌سازی طیفی ۵
فروپاشی مُدمولد مجموعه‌ای محدود و غیرمتنوع از خروجی‌ها را تولید می‌کند و در به دست آوردن کل توزیع داده‌ها شکست می‌خورد.Wasserstein GANs، تفکیک دسته‌ای کوچک (Minibatch Discrimination)، Unrolled GANs، Progressive GANs ۶
گرادیان‌های محوشوندهیک تفکیک‌کننده بسیار مؤثر یک سیگنال گرادیان ضعیف به مولد می‌دهد و یادگیری آن را متوقف می‌کند.Wasserstein GANs، جریمه گرادیان، نرمال‌سازی طیفی ۵
ساختار شبکه‌های عصبی مولد رقابتی(GANs)
ساختار شبکه‌های عصبی مولد رقابتی(GANs)

۴. نوآوری‌های معماری و روش‌شناختی

چالش‌های شناسایی‌شده در آموزش GANs اولیه، موجی از نوآوری سریع را به همراه داشت که منجر به خانواده‌ای از معماری‌ها و روش‌شناسی‌های آموزشی تخصصی شد که برای افزایش پایداری، کیفیت و تنوع طراحی شده بودند. بخش‌های زیر به شرح مفصل تأثیرگذارترین این پیشرفت‌ها می‌پردازد.

۴.۱. شبکه‌های عصبی مولد رقابتی عمیق کانولوشنی (DCGANs): تثبیت تولید تصویر

شبکه‌های DCGANs که در سال ۲۰۱۵ پیشنهاد شدند، یک گام مهم به جلو بودند، به ویژه برای وظایف تولید تصویر.۸ نوآوری اصلی DCGANs جایگزینی پرسپترون‌های چندلایه در GAN اصلی با شبکه‌های عصبی کانولوشنی (CNNs) هم برای مولد و هم برای تفکیک‌کننده بود.۸ این تغییر معماری یک پاسخ مستقیم به ناکارآمدی MLPهای ساده برای ماهیت با ابعاد بالا و دارای همبستگی مکانی داده‌های تصویری بود.۱۰

علاوه بر استفاده از CNNs، نویسندگان چندین محدودیت معماری کلیدی را برای ارتقاء پایداری آموزش معرفی کردند.۱۱ آن‌ها تمام لایه‌های پولینگ را با کانولوشن‌های گام‌دار (strided convolutions) در تفکیک‌کننده و کانولوشن‌های گام‌دار کسری (fractional-strided convolutions) در مولد جایگزین کردند.۱۱ همچنین نرمال‌سازی دسته‌ای (Batch Normalization) را برای تثبیت یادگیری و منظم‌سازی فرآیند آموزش در هر دو شبکه گنجاندند.۱۱ علاوه بر این، آن‌ها تمام لایه‌های پنهان کاملاً متصل را حذف کردند تا معماری‌های عمیق‌تر را ممکن سازند و از توابع فعال‌سازی ReLU در مولد (با خروجی Tanh) و LeakyReLU در تفکیک‌کننده استفاده کردند.۱۱ این اصلاحات بسیاری از مسائل پایداری آموزش را که GANs اولیه را آزار می‌دادند، حل کرد و یک پایه قوی و بنیادین برای سنتز تصویر ایجاد کرد، هرچند برخی از مسائل مانند فروپاشی مُد هنوز ممکن بود پابرجا بمانند.۸

۴.۲. شبکه‌های عصبی مولد رقابتی Wasserstein (WGANs) و فاصله Earth Mover

یک مشارکت کلیدی در پایداری GAN، شبکه‌های Wasserstein GAN (WGAN) بود که توسط آرجوفسکی و همکارانش در سال ۲۰۱۷ پیشنهاد شد.۴۰ WGAN اساساً تابع هدف را تغییر داد و واگرایی Jensen-Shannon مسئله‌ساز GAN اصلی را با فاصله Wasserstein-1، که با نام فاصله Earth Mover نیز شناخته می‌شود، جایگزین کرد.۴۱ این معیار، حداقل ‘کار’ مورد نیاز برای تبدیل یک توزیع احتمال به دیگری را اندازه‌گیری می‌کند و یک سیگنال زیان پیوسته و غیر اشباع‌شونده را حتی زمانی که توزیع‌ها همپوشانی ندارند، فراهم می‌کند.۳۷ این کار ‘سیگنال یادگیری بهتری’ به مولد داد ۳۷ و ‘منحنی‌های یادگیری معناداری’ را ایجاد کرد که می‌توانست برای عیب‌یابی و تنظیم ابرپارامترها استفاده شود.۴۰

در WGAN، تفکیک‌کننده به عنوان یک ‘منتقد’ تغییر نام می‌دهد.۳۷ به جای خروجی دادن یک امتیاز احتمال بین ۰ و ۱، منتقد یک امتیاز نامحدود را خروجی می‌دهد که مولد باید برای داده‌های جعلی آن را کمینه کند و تفکیک‌کننده باید برای داده‌های واقعی آن را بیشینه کند.۲۸ برای تضمین یک تقریب صحیح از فاصله Wasserstein، منتقد باید یک محدودیت پیوستگی K-Lipschitz را رعایت کند.۳۷ در حالی که پیاده‌سازی‌های اولیه این را با clipping وزن (Weight Clipping) اعمال می‌کردند، یک بهبود بعدی توسط گالراجانی و همکارانش ‘جریمه گرادیان’ (WGAN-GP) را معرفی کرد که مؤثرتر و پایدارتر است.۱۲ این روش با جریمه کردن نرم گرادیان‌های منتقد، محدودیت را اعمال می‌کند.۱۳

با وجود ظرافت نظری، تحقیقات بعدی دیدگاه دقیق‌تری نسبت به موفقیت WGAN ارائه داده‌اند. برخی از محققان استدلال می‌کنند که فایده عملی ممکن است از کمینه‌سازی فاصله Wasserstein واقعی نباشد، بلکه از منظم‌سازی (Regularization) فراهم‌شده توسط محدودیت Lipschitz باشد که منجر به گرادیان‌های هموارتر و یک فرآیند بهینه‌سازی پایدارتر می‌شود.۴۱ با این حال، باید توجه داشت که فرآیند آموزش WGAN و WGAN-GP اغلب کندتر از GAN معمولی است.۳۴

۴.۳. رشد تدریجی GANs

رشد تدریجی GANs (ProGANs)، که توسط NVIDIA توسعه یافت، یک روش‌شناسی آموزشی نوین را برای حل چالش دشوار تولید تصاویر با وضوح بالا معرفی کرد.۱۴ ایده اصلی این است که هم مولد و هم تفکیک‌کننده به صورت تدریجی در طول آموزش رشد کنند.۱۴ آموزش با تصاویر با وضوح بسیار پایین (مثلاً ۴x۴ پیکسل) آغاز می‌شود و با پیشرفت فرآیند، لایه‌های جدید به صورت هموار ‘فید می‌شوند’ تا جزئیات ریزتر و وضوح‌های بالاتر را مدیریت کنند.۱۵

این رویکرد با اجازه دادن به شبکه‌ها برای کشف ساختار درشت و بزرگ‌مقیاس داده‌ها قبل از تمرکز بر جزئیات ریزتر، مسئله یادگیری را ساده می‌کند، فرآیندی مشابه نحوه یادگیری انسان‌ها برای طراحی یا درک جهان.۱۵ این روش‌شناسی نه تنها پایداری را با جلوگیری از شوک‌های آموزشی ناگهانی که با تصاویر بزرگ‌مقیاس همراه است، به شدت بهبود می‌بخشد، بلکه زمان آموزش را نیز به طور قابل توجهی کاهش می‌دهد.۱۵ ProGANs نشان دادند که برای وظایف مولد پیچیده، روش‌شناسی آموزش می‌تواند به اندازه معماری یا تابع زیان مدل حیاتی باشد، و به طور مؤثری یک مشکل دشوار را به مجموعه‌ای از وظایف ساده‌تر و متوالی تبدیل می‌کند.۱۵ این رویکرد همچنین شامل روش‌هایی مانند “انحراف معیار دسته‌بندی کوچک” (Minibatch Standard Deviation) برای تشویق تنوع بیشتر در تصاویر تولیدی است.۱۶

۴.۴. GANs شرطی و تبدیل تصویر به تصویر

چارچوب GAN اصلی یک مدل مولد غیرشرطی است، به این معنی که نمونه‌ها را بدون هیچ کنترل خاصی بر خروجی تولید می‌کند.۲۰ این موضوع با معرفی GANs شرطی (cGANs) تغییر کرد، که با گنجاندن اطلاعات اضافی، یا یک ‘شرط’ (

y)، در هر دو شبکه مولد و تفکیک‌کننده، چارچوب اصلی را گسترش می‌دهند.۲۰ این کار تولید هدفمند و کنترل‌شده داده را ممکن می‌سازد و در توسعه تبدیل تصویر به تصویر نقش ابزاری داشته است.۴۵

۴.۴.۱. Pix2Pix: تبدیل تصویر جفت‌شده

Pix2Pix یک نمونه برجسته از یک cGAN است که برای وظایف تبدیل تصویر به تصویر طراحی شده و بر داده‌های آموزشی جفت‌شده تکیه دارد، جایی که یک نگاشت مستقیم بین دامنه ورودی و خروجی وجود دارد.۳۴ مولد آن بر اساس یک معماری U-Net با ‘اتصالات پرشی’ (skip connections) است که به اطلاعات سطح پایین اجازه می‌دهد مستقیماً از رمزگذار به رمزگشا منتقل شوند.۴۵ تفکیک‌کننده، که به عنوان ‘PatchGAN’ شناخته می‌شود، برای مدل‌سازی ساختارهای فرکانس بالا با طبقه‌بندی اصالت وصله‌های تصویری کوچک به جای کل تصویر طراحی شده است.۴۶ تابع زیان، زیان رقابتی cGAN را با یک عبارت فاصله L1 ترکیب می‌کند، که به کاهش تار شدن و کاهش آرتیفکت‌های بصری کمک می‌کند.۴۵

۴.۴.۲. CycleGAN: تبدیل تصویر بدون جفت

در حالی که Pix2Pix بسیار مؤثر بود، وابستگی آن به داده‌های آموزشی جفت‌شده یک محدودیت قابل توجه برای بسیاری از کاربردهای دنیای واقعی بود.۳۴ CycleGAN این مشکل را با معرفی یک روش برای ‘تبدیل تصویر به تصویر بدون جفت’ حل کرد.۴۷ نوآوری اصلی CycleGAN ‘زیان سازگاری چرخه‌ای’ (cycle-consistency loss) است، که این شهود را به تصویر می‌کشد که اگر یک تصویر از یک دامنه منبع به یک دامنه هدف تبدیل شود و سپس دوباره به عقب برگردانده شود، باید به شکل اصلی خود بازگردد.۴۸

این چارچوب دو مولد، G:X→Y و F:Y→X، و دو تفکیک‌کننده مربوطه را آموزش می‌دهد.۴۸ تابع زیان کلی، زیان‌های رقابتی برای هر دو مولد را با زیان سازگاری چرخه‌ای ترکیب می‌کند، که نگاشت را حتی در غیاب نمونه‌های جفت‌شده نیز معنادار می‌کند.۱۷ این پیشرفت، طیف گسترده‌ای از کاربردهای جدید را امکان‌پذیر ساخت، مانند تبدیل اسب‌ها به گورخرها و تبدیل عکس‌ها به نقاشی.۵۱

نوع GANنوآوری(ها)ی کلیدیمشکل(ها)ی حل‌شده
GAN اولیهآموزش رقابتی با بازی کمینه‌بیشینه و زیان واگرایی Jensen-Shannon.مدل‌سازی چگالی ضمنی؛ عدم نیاز به زنجیره‌های مارکوف یا استنتاج تقریبی ۵۲
DCGANاستفاده از CNNs با محدودیت‌های معماری خاص (مانند نرمال‌سازی دسته‌ای، کانولوشن‌های گام‌دار).ناپایداری در آموزش و کیفیت پایین تصاویر تولیدشده توسط GANهای اولیه ۸
WGANزیان فاصله Wasserstein-1 (فاصله Earth Mover) و محدودیت Lipschitz.گرادیان‌های محوشونده و فروپاشی مُد با ارائه یک سیگنال زیان پایدار و غیر اشباع‌شونده ۳۷
Progressive GANروش‌شناسی آموزش تدریجی، رشد شبکه‌ها از وضوح پایین به بالا.تولید تصاویر با وضوح بالا، ناپایداری در آموزش و همگرایی کند ۱۵
Pix2PixGAN شرطی با مولد U-Net و تفکیک‌کننده PatchGAN.تبدیل تصویر به تصویر جفت‌شده و تبدیل معنایی به عکس ۴۶
CycleGANزیان سازگاری چرخه‌ای برای داده‌های آموزشی بدون جفت.نیاز به داده‌های آموزشی جفت‌شده در تبدیل تصویر به تصویر ۴۸

۵. کاربردهای عملی و تأثیرات گسترده

نوآوری‌های معماری و روش‌شناختی در GANs طیف وسیعی از کاربردهای عملی را ممکن ساخته‌اند و آن‌ها را به عنوان یک فناوری بنیادین با تأثیرات قابل توجه در دنیای واقعی در صنایع متعدد تثبیت کرده‌اند.۳۴

image 14
Imge to image translation result of CycleGAN

۵.۱. بینایی ماشین و تولید محتوا

GANs در بینایی ماشین و تولید محتوای دیجیتال انقلابی ایجاد کرده‌اند.۱۹ آن‌ها به طور گسترده‌ای برای انواع وظایف، از جمله موارد زیر، استفاده می‌شوند:

  • سنتز تصویر و ویدئو: تولید تصاویر فوق‌واقع‌گرایانه از چهره‌های انسانی، مناظر و سایر اشیایی که در دنیای واقعی وجود ندارند.۲۱ این فناوری در بازی، تبلیغات و هنر برای ایجاد محتوای بصری جدید و منحصر به فرد استفاده می‌شود.۵۴
  • تبدیل تصویر به تصویر: تغییر تصاویر بین دامنه‌های مختلف، مانند تبدیل تصاویر سیاه و سفید به رنگی، تغییر فصل در یک صحنه، یا تولید تصاویر فوتورئالیستی از طرح‌ها.۲۱
  • فوق وضوح (Super-Resolution): افزایش وضوح تصاویر با کیفیت پایین با اضافه کردن جزئیات دقیق و واقع‌گرایانه، که به کاهش خطاهای رایج در افزایش مقیاس مانند تار شدن و پیکسل‌سازی کمک می‌کند.۵۵
  • انتقال سبک: اعمال سبک هنری یک تصویر به تصویری دیگر، که آثار هنری یا طراحی‌های جدیدی را خلق می‌کند.۵۴

توانایی GANs برای تولید تصاویر با کیفیت بالا و واقع‌گرایانه نتیجه مستقیم بهبودهای معماری DCGANs و WGANs است، در حالی که توسعه GANs شرطی پیش‌شرطی برای وظایف تبدیل تصویر به تصویر بود.۸

۵.۲. غنی‌سازی و سنتز داده

یک کاربرد حیاتی GANs تولید داده‌های مصنوعی برای غنی‌سازی مجموعه‌های داده محدود است.۵۴ این امر به ویژه برای آموزش مدل‌های یادگیری عمیق در حوزه‌هایی که داده‌ها کمیاب، گران یا به دست آوردن آن‌ها دشوار است، مانند بینایی ماشین، تشخیص گفتار و پردازش زبان طبیعی، ارزشمند است.۳۴ با تولید داده‌های اضافی و متنوع، GANs می‌توانند به طور مؤثری مجموعه‌های داده موجود را گسترش داده و عملکرد و استحکام مدل‌های یادگیری ماشین را بهبود بخشند.۲۱

۵.۳. کاربردها در مراقبت‌های بهداشتی و تحقیقات پزشکی

GANs پتانسیل عظیمی را در مراقبت‌های بهداشتی نشان داده‌اند، حوزه‌ای که با کمبود داده و مقررات سخت‌گیرانه حفظ حریم خصوصی مشخص می‌شود.۲۳ کاربردهای کلیدی شامل موارد زیر است:

  • تولید تصاویر پزشکی مصنوعی: GANs می‌توانند تصاویر پزشکی واقع‌گرایانه، مانند اسکن‌های MRI، CT و X-ray، را برای آموزش مدل‌های تشخیصی بدون به خطر انداختن حریم خصوصی بیمار ایجاد کنند.۲۳ این قابلیت به محققان اجازه می‌دهد تا مدل‌های جدیدی را در حالی که به محرمانگی بیمار پایبند هستند، توسعه دهند و به چالش‌های ناشی از مقرراتی مانند HIPAA و GDPR بپردازند.۲۲
  • غنی‌سازی داده برای بیماری‌های نادر: GANs می‌توانند نمونه‌های مصنوعی از شرایط نادر را تولید کنند تا مجموعه‌های داده بسیار نامتعادل را متعادل کنند، که برای آموزش مدل‌های تشخیصی مؤثر که بر روی پاتولوژی‌های کمتر رایج عملکرد ضعیفی ندارند، حیاتی است.۵۶
  • تشخیص ناهنجاری: با آموزش بر روی یک مجموعه داده از تصاویر سالم، GANs می‌توانند توزیع طبیعی اسکن‌های پزشکی را یاد بگیرند. هر گونه انحراف از این الگوی آموخته‌شده می‌تواند به عنوان یک ناهنجاری شناسایی شود، به طور بالقوه نشان‌دهنده یک بیماری یا وضعیت پاتولوژیک دیگر باشد.۲۲
صنعتکاربردهای اصلیمثال‌ها
بینایی ماشینسنتز تصویر، غنی‌سازی داده، فوق وضوحتولید چهره‌ها و مناظر واقع‌گرایانه انسانی؛ بهبود عکس‌های با وضوح پایین؛ ایجاد داده‌های آموزشی جدید برای تشخیص اشیاء ۲۱
رسانه و سرگرمیتولید محتوا، تولید ویدئو، انتقال سبکایجاد محتوای واقع‌گرایانه برای فیلم‌ها و بازی‌های ویدئویی؛ تولید آواتارهای جدید برای پروفایل‌های آنلاین؛ تبدیل عکس‌ها به نقاشی با سبک خاص ۲۱
مراقبت‌های بهداشتیسنتز تصاویر پزشکی مصنوعی، غنی‌سازی داده، تشخیص ناهنجاریایجاد اسکن‌های واقع‌گرایانه MRI/CT برای آموزش مدل‌های تشخیصی؛ غنی‌سازی مجموعه‌های داده برای بیماری‌های نادر؛ تشخیص تومورها یا سایر پاتولوژی‌ها در تصاویر پزشکی ۲۳
مالی و امنیتیتشخیص ناهنجاری، تولید داده برای محیط‌های محدودشناسایی تراکنش‌های جعلی با تشخیص الگوهای غیرمعمول؛ تولید داده‌های مصنوعی برای آزمایش مدل‌های امنیت سایبری ۵۴
تعامل انسان و رایانههدایت خودکار کمکی، تولید تصویر از متنپیش‌بینی صحنه‌های ترافیکی برای رانندگی خودکار؛ تولید تصاویر فوتورئالیستی از توصیفات متنی ۳۴
سنتز ۳Dسنتز مدل سه‌بعدی از تصاویر دوبعدیتولید مدل‌های سه‌بعدی برای معماری، طراحی یا بازی ۲۱

۶. ارزیابی و چالش‌های باقیمانده

با وجود موفقیت قابل توجه آن‌ها، GANs همچنان چالش‌های مهمی را برای محققان و متخصصان ایجاد می‌کنند. این‌ها صرفاً موانع فنی نیستند، بلکه شامل سؤالات عمیق اخلاقی و اجتماعی نیز می‌شوند که باید به آن‌ها پرداخته شود.

۶.۱. دشواری ارزیابی GAN

یک چالش عمده در تحقیقات GAN، فقدان یک معیار جهانی، عینی و استاندارد برای ارزیابی کیفیت و تنوع نمونه‌های تولیدشده است.۵۷ برخلاف وظایف یادگیری نظارت‌شده با برچسب‌های حقیقت زمینی واضح، GANs هیچ خروجی ‘درستی’ برای مقایسه ندارند.۲۷ این مشکل اندازه‌گیری ذاتی یک پیامد مستقیم از رویکرد ‘مدل‌سازی چگالی ضمنی’ آن‌ها است، زیرا هیچ تابع درست‌نمایی صریحی برای بیشینه‌سازی یا اندازه‌گیری وجود ندارد.۳۵

معیارهای ارزیابی رایج، مانند امتیاز Inception (IS) و فاصله Fréchet Inception (FID)، تلاش می‌کنند هم وفاداری (واقع‌گرایی) و هم تنوع تصاویر تولیدشده را کمی کنند، اما محدودیت‌های قابل توجهی دارند.۲۶ به عنوان مثال، IS می‌تواند در حضور فروپاشی مُد به طور گمراه‌کننده‌ای بالا باشد زیرا مستقیماً تصاویر تولیدشده را با توزیع داده‌های واقعی مقایسه نمی‌کند.۲۷ همچنین، FID، اگرچه جامع‌تر است، هنوز محدودیت‌هایی مربوط به اندازه و پیچیدگی مجموعه داده دارد.۲۶ دشواری ارزیابی عینی به این معنی است که ارزیابی عملکرد GAN اغلب به بازرسی دستی و ارزیابی بصری در کنار این معیارهای تقریبی ناقص تکیه دارد.۲۸

۶.۲. ملاحظات اخلاقی و پیامدهای اجتماعی

قدرت GANs برای ایجاد محتوای فوق‌واقع‌گرانه مصنوعی، یک معضل عمیق ‘کاربرد دوگانه’ (dual-use) را با چالش‌های اخلاقی قابل توجهی ارائه می‌دهد.۳۰ برجسته‌ترین نمونه، گسترش

دیپ‌فیک‌ها است که می‌توانند برای اهداف مخرب مانند اطلاعات نادرست، آزار و اذیت و کلاهبرداری استفاده شوند.۵۸ این فناوری با دشوار کردن فزاینده تمایز بین محتوای واقعی و ساختگی، اعتماد عمومی به رسانه‌ها و اطلاعات را از بین می‌برد.۵۸ سوءاستفاده از دیپ‌فیک‌ها به طور نامتناسبی گروه‌های آسیب‌پذیر، به ویژه زنان و اقلیت‌ها را هدف قرار می‌دهد.۵۸ علاوه بر این، چارچوب‌های قانونی فعلی برای همگام شدن با گسترش سریع این فناوری تلاش می‌کنند، اگرچه برخی از حوزه‌های قضایی شروع به اجرای قوانینی در مورد دیپ‌فیک‌های سیاسی و جنسی کرده‌اند.۳۰

هزینه محاسباتی بالای آموزش GANs پیشرفته، که می‌تواند هزاران دلار برای هر مدل هزینه داشته باشد ۵۹، یک ‘شکاف دسترسی’ قابل توجه ایجاد می‌کند.۵۹ این امر تعداد افرادی را که می‌توانند این فناوری را توسعه داده و به کار گیرند، محدود می‌کند و به طور بالقوه قدرت را در دست شرکت‌های بزرگ و مؤسسات تحقیقاتی با بودجه کافی متمرکز می‌کند.۵۹

۶.۳. مسیرهای آینده

تحقیقات آینده در زمینه GANs همچنان بر حل چالش‌های پایدار پایداری، تنوع و ارزیابی تمرکز خواهد کرد. این شامل بررسی معماری‌های نوین، بهبود توابع زیان، و توسعه روش‌شناسی‌های آموزشی قوی‌تر و مقیاس‌پذیرتر است.۳۴ این حوزه همچنین به سمت کاربردهای جدید، مانند تولید تصویر از متن و تولید ویدئو، در حال حرکت است.۲۳ روندهای اخیر حاکی از حرکت به سمت GANs ‘شرطی’ است که بر روی داده‌های محدود آموزش دیده‌اند، که بر تمرکز نوظهور بر تطبیق GANs با محدودیت‌های خاص و دنیای واقعی تأکید می‌کند.۲۰ این نشان می‌دهد که آینده این حوزه فقط در مورد ساخت مدل‌های بزرگ‌تر نیست، بلکه در مورد توسعه مدل‌های هوشمندتر و کارآمدتر برای کاربردهای تخصصی است که در آن‌ها داده‌ها اغلب کمیاب و کاملاً سازمان‌یافته نیستند.

۷. نتیجه‌گیری

۷.۱. خلاصه یافته‌ها

شبکه‌های عصبی مولد رقابتی یک پیشرفت بنیادین در مدل‌سازی مولد را نشان می‌دهند و مدل‌های چگالی صریح سنتی را با یک چارچوب رقابتی ضمنی و ظریف جایگزین می‌کنند. در حالی که در ابتدا با ناپایداری‌های آموزشی و فروپاشی مُد دست و پنجه نرم می‌کردند، این حوزه با مجموعه‌ای از راه‌حل‌های نوآورانه پاسخ داد—از محدودیت‌های معماری در DCGANs تا پیشرفت‌های نظری WGANs و آموزش روشمند ProGANs.۳۴ این نوآوری‌ها، سودمندی GANs را به طیف گسترده‌ای از حوزه‌ها، از خلق هنر واقع‌گرایانه تا غنی‌سازی مجموعه‌های داده پزشکی حیاتی، گسترش داده‌اند. تکامل این فناوری از مدل‌های غیرشرطی به شرطی و از جفت‌شده به بدون جفت، تلاشی مستمر برای غلبه بر محدودیت‌های عملی و گسترش کاربرد آن را منعکس می‌کند.

۷.۲. سخن پایانی

شبکه‌های عصبی مولد رقابتی چشم‌انداز هوش مصنوعی مولد را متحول کرده‌اند، اما مسیر آن‌ها هنوز به پایان نرسیده است. چالش‌های حل‌نشده در ارزیابی عینی و پیامدهای اخلاقی عمیق فناوری دیپ‌فیک به عنوان جبهه‌های تحقیقاتی کلیدی باقی مانده‌اند. این حوزه باید به توازن بین پیگیری قابلیت‌های مولد هرچه واقع‌گرایانه‌تر با توسعه حفاظ‌های قوی و چارچوب‌های اخلاقی برای تضمین استفاده مسئولانه از این فناوری ادامه دهد.۳۴ به عنوان یک فناوری بنیادین، GANs قبلاً قدرت عظیم خود را نشان داده‌اند، و مسیر آینده آن‌ها همچنان توانایی ما را در خلق و تعامل با واقعیت‌های دیجیتال مصنوعی شکل خواهد داد.

Share.
Leave A Reply