Alchemist: انقلابی در ویرایش تصاویر با کنترل دقیق مواد
مقدمه:تصور کنید که به سادگی با چند کلیک بتوانید رنگ، زبری، فلزی بودن و شفافیت اجسام در تصاویر واقعی را تغییر دهید. این دیگر یک رویا نیست! محققان MIT و گوگل با الگوریتم Alchemist توانستهاند این کار را به واقعیت تبدیل کنند. این تکنولوژی انقلابی که با هوش مصنوعی کار میکند، میتواند دنیای ویرایش تصویر و طراحی سه بعدی را متحول کند.
چالش همیشگی:کنترل دقیق ویژگیهای مواد در تصاویر یک کار پیچیده بوده و کاربردهای گستردهای در زمینههای مختلفی فراتر از گرافیک کامپیوتری دارد. این توانایی در حوزههای ویرایش تصویر، تبلیغات و تشخیص اصالت تصاویر بسیار کاربردی است. Alchemist با استفاده از قدرت مدلهای پیشرفته تولید تصویر از متن، روشی را برای ویرایش دقیق خصوصیات مواد در تصاویر ارائه میدهد. این مدلها با قدرت خارقالعاده خود در تولید تصاویر باکیفیت و واقعگرایانه، این امکان را فراهم میآورند که بر چهار ویژگی کلیدی مواد یعنی زبری، فلزی بودن، آلبیدو و شفافیت، به صورت دقیق و مجزا کنترل داشته باشیم.
علم نور و تأثیر آن بر مواد:
چگونگی مشاهدهی اشیاء تحت تأثیر مجموعه عواملی مانند هندسه سطح، منبع نور، لنز دوربین، علم رنگ، سنسور و … قرار دارد. اما مهمترین عامل در این میان، ویژگیهای ذاتی مواد است. در گرافیک کامپیوتری، برای تعریف این ویژگیها از تابع توزیع بازتاب دوطرفه (BRDF) استفاده میشود. روشهای سنتی اغلب از یک رویکرد رندر معکوس برای تفکیک و تخمین ویژگیهای پیچیده صحنه مانند هندسه و نورپردازی جهت تغییر مواد استفاده میکردند. اما روش Alchemist با حذف نیاز به اطلاعات اضافی مانند هندسه یا عمق سه بعدی، نقشههای محیط و برچسبهای مواد، رویکردی سادهتر و کارآمدتر را پیش روی ما قرار میدهد.
چالشهای پیش روی Alchemist:
- کمبود مجموعه دادههای دنیای واقعی با برچسبهای دقیق ویژگیهای مواد: این موضوع باعث میشود تا آموزش مدل با دادههای نظارتشده دشوار شود.شکاف بین ماهیت گسسته کلمات و ماهیت پیوسته پارامترهای مواد: مدلهای تولید تصویر از متن با عباراتی مانند “طلایی”، “چوبی” یا “پلاستیکی” آموزش داده میشوند که اغلب فاقد جزئیات ریز در مورد مواد هستند.
راه حل Alchemist برای این چالشها:
- ایجاد مجموعه داده مصنوعی: برای غلبه بر مشکل کمبود دادههای واقعی، Alchemist با رندر کردن یک مجموعه داده مصنوعی با مواد و نقشههای محیطی مبتنی بر فیزیک، برچسبگذاری دقیق ویژگیهای مواد را برای آموزش مدل امکانپذیر کرده است.کانالهای ورودی اضافی و الهام از InstructPix2Pix: برای حل چالش دوم، Alchemist از کانالهای ورودی اضافی به یک مدل انتشار پیشآموزشیافته استفاده میکند. این فرآیند با الهام از مدل InstructPix2Pix، با دستورالعملهای متنی برای بهبود مدل همراه شده است.
نتایج خارقالعاده:
با وجود اینکه Alchemist تنها بر روی ۵۰۰ صحنه مصنوعی با ۱۰۰ شیء سه بعدی منحصر به فرد آموزش دیده است، این مدل به طور مؤثری کنترل ویژگیهای مواد را به تصاویر ورودی واقعی تعمیم میدهد و راهحلی برای کنترل پیوسته مواد در تصاویر ارائه میدهد.
مزایای Alchemist:
- ویرایش آسان و دقیق ویژگیهای مواد در تصاویر واقعی بدون نیاز به تخصص در زمینه رندر سنتی.امکان ویرایش روان و باکیفیت ویژگیهای زبری، فلزی بودن، آلبیدو و شفافیت تصاویر.تعمیمپذیری بالا به تصاویر واقعی با وجود آموزش بر روی دادههای مصنوعی.
آینده Alchemist:
این تکنولوژی با پتانسیلهای بینظیر خود میتواند انقلابی در دنیای طراحی محصول، فیلمسازی، بازیهای کامپیوتری و سایر زمینههای مرتبط ایجاد کند. انتشار کد این پروژه در آیندهای نزدیک، میتواند امکان استفاده از Alchemist را برای عموم فراهم کند و شاهد تحولات شگرفی در حوزه پردازش تصویر باشیم.
ویدئو