ChatGPT Images: ساخت و ادیت تصاویر با یک دستور متنی

تحریریه هوش مصنوعی سیمرغ

6 ماه ago

ChatGPT Images جدید معرفی شد؛ جهشی بزرگ در تولید و ویرایش تصویر با هوش مصنوعی

OpenAI در تاریخ ۱۶ دسامبر ۲۰۲۵ از نسخه جدید ChatGPT Images رونمایی کرد؛ قابلیتی که با تکیه بر مدل پرچم‌دار جدید تولید تصویر این شرکت، تجربه ساخت و ویرایش تصاویر را وارد مرحله‌ای پیشرفته‌تر می‌کند. این نسخه که در API با نام GPT-Image-1.5 عرضه شده، دقت بالاتر، سرعت بیشتر و تبعیت بهتر از دستورالعمل‌ها را به همراه دارد.

به گفته OpenAI، هدف از این به‌روزرسانی آن است که کاربران، چه در حال ساخت یک تصویر از صفر باشند و چه در حال ویرایش یک عکس موجود، دقیقاً به همان خروجی‌ای برسند که در ذهن دارند.

ویرایش‌های دقیق بدون از بین رفتن جزئیات مهم

یکی از مهم‌ترین پیشرفت‌های ChatGPT Images جدید، پایبندی بسیار دقیق‌تر به نیت کاربر در ویرایش تصاویر است. زمانی که کاربر تغییری را درخواست می‌کند، مدل تنها همان بخش موردنظر را تغییر می‌دهد و عناصر کلیدی مانند:

نورپردازی
ترکیب‌بندی تصویر
ظاهر افراد و شباهت چهره‌ها

را در خروجی و حتی در ویرایش‌های بعدی حفظ می‌کند.

این ویژگی باعث شده ویرایش عکس‌ها کاربردی‌تر شود؛ از تغییر لباس و مدل مو گرفته تا اعمال فیلترهای سبکی و حتی دگرگونی‌های مفهومی، بدون آنکه «هویت» تصویر اصلی از بین برود. OpenAI این تجربه را به‌نوعی «استودیوی خلاق در جیب شما» توصیف می‌کند.

Combine the two men and the dog in a 2000s film camera-style photo of them looking bored at a kids birthday party.

Add chaotic kids in the background throwing things and screaming.

Change the man on the left to a hand-drawn retro anime style, the dog to plushie style, keep the man on the right and background scenery the way they are.

Put them all in OpenAI sweaters that look like this.

توانمندی بالا در انواع ویرایش تصویری

مدل جدید در انواع مختلف ویرایش عملکرد قابل‌توجهی دارد، از جمله:

افزودن عناصر جدید
حذف اشیای ناخواسته
ترکیب چند تصویر با یکدیگر
ادغام و ترنسپوز عناصر
تغییر سبک بخشی از تصویر بدون دست‌کاری سایر بخش‌ها

این سطح از کنترل باعث می‌شود کاربران بتوانند تغییرات دلخواه را اعمال کنند، بدون آنکه کیفیت کلی تصویر افت کند یا جزئیات مهم از بین برود.

خلاقیت بیشتر در دگرگونی‌های تصویری

ChatGPT Images جدید تنها به ویرایش محدود نمی‌شود. این مدل در تحول‌های خلاقانه (Creative Transformations) نیز پیشرفت چشمگیری داشته است. افزودن متن، تغییر چیدمان، طراحی پوستر، تبلیغات، نقاشی، استایل‌های هنری مختلف و حتی بازآفرینی مفهومی تصاویر، همگی با حفظ عناصر مهم تصویر اولیه انجام می‌شوند.

نکته قابل‌توجه اینکه بسیاری از این قابلیت‌ها از طریق پریست‌ها و سبک‌های آماده در تجربه جدید Images در ChatGPT قابل استفاده‌اند و الزاماً به نوشتن پرامپت‌های پیچیده نیاز ندارند.

تبعیت بهتر از دستورالعمل‌ها

OpenAI تأکید کرده که این مدل نسبت به نسخه اولیه، دستورالعمل‌ها را به‌مراتب قابل‌اعتمادتر دنبال می‌کند. این موضوع به‌ویژه در پروژه‌های پیچیده اهمیت دارد؛ جایی که روابط بین عناصر باید دقیقاً مطابق انتظار کاربر حفظ شوند.

نمونه‌هایی مانند طراحی شبکه‌های چنددرچند، ترکیب اشیای متنوع در یک ساختار مشخص یا تولید تصاویر با قوانین دقیق، حالا با خطای کمتر و خروجی قابل‌پیش‌بینی‌تری انجام می‌شوند.

پیشرفت محسوس در رندر متن داخل تصاویر

یکی از چالش‌های همیشگی مدل‌های تولید تصویر، نمایش متن بوده است. در GPT-Image-1.5 این بخش بهبود قابل‌توجهی داشته و مدل اکنون قادر است:

متن‌های کوچک‌تر
نوشته‌های متراکم‌تر
ساختارهای متنی پیچیده‌تر

را با دقت بالاتر و خوانایی بهتر رندر کند. این ویژگی برای اینفوگرافیک‌ها، پوسترها، تبلیغات و حتی شبیه‌سازی صفحات روزنامه یا رابط‌های گرافیکی اهمیت زیادی دارد.

فضای جدید و اختصاصی Images در ChatGPT

در کنار بهبود مدل، OpenAI از یک فضای اختصاصی Images در ChatGPT نیز رونمایی کرده است. این بخش که از طریق نوار کناری (در وب و موبایل) در دسترس قرار می‌گیرد، تجربه تولید تصویر را سریع‌تر و ساده‌تر می‌کند.

برخی امکانات این فضا عبارت‌اند از:

فیلترها و پرامپت‌های آماده و ترند
شروع سریع فرآیند خلاقیت بدون نوشتن دستور پیچیده
امکان ادامه تولید تصاویر جدید هم‌زمان با پردازش تصاویر قبلی

همچنین تصاویر حالا تا ۴ برابر سریع‌تر تولید می‌شوند که فرآیند آزمون و خطا و ایده‌پردازی را بسیار روان‌تر می‌کند.

بهبود کیفیت کلی و محدودیت‌ها

OpenAI اعلام کرده که با اجرای مجدد مثال‌های نسخه اولیه، بهبودهای مشخصی در خروجی‌ها دیده می‌شود؛ از جمله طبیعی‌تر شدن تصاویر، مدیریت بهتر چهره‌های متعدد و جزئیات بصری.

با این حال، این شرکت تأکید می‌کند که مدل همچنان بی‌نقص نیست و در برخی حوزه‌ها مانند سبک‌ها، چندچهره‌ای‌ها یا موارد چندزبانه، محدودیت‌هایی وجود دارد. با وجود این، این نسخه یک گام معنادار رو به جلو محسوب می‌شود.

GPT-Image-1.5 در API؛ مناسب برندها و کسب‌وکارها

مدل GPT-Image-1.5 هم‌زمان در API نیز عرضه شده و تمامی این بهبودها را در اختیار توسعه‌دهندگان قرار می‌دهد. از جمله مزایای آن در استفاده تجاری می‌توان به موارد زیر اشاره کرد:

حفظ بهتر لوگوها و هویت بصری برند
مناسب برای تولید تصاویر مارکتینگ و تجارت الکترونیک
ساخت کاتالوگ کامل محصولات از یک تصویر مرجع
کاهش حدود ۲۰ درصدی هزینه ورودی و خروجی تصاویر نسبت به نسخه قبلی

به همین دلیل، شرکت‌هایی در حوزه طراحی، تجارت الکترونیک، ابزارهای خلاق و نرم‌افزارهای مارکتینگ از این مدل استفاده کرده‌اند.

زمان دسترسی

نسخه جدید ChatGPT Images هم‌اکنون برای تمام کاربران ChatGPT در سراسر جهان در حال انتشار است و در API نیز در دسترس توسعه‌دهندگان قرار دارد. نسخه قبلی ChatGPT Images نیز همچنان به‌صورت یک GPT سفارشی قابل استفاده خواهد بود.

OpenAI در پایان تأکید می‌کند که این تنها آغاز مسیر است و در آینده، بهبودهای بیشتری در زمینه ویرایش‌های دقیق‌تر، جزئیات غنی‌تر و پشتیبانی بهتر از زبان‌ها ارائه خواهد شد.

همراه ما در کانال ایتا جامعه هوش مصنوعی ایران | هوش مصنوعی سیمرغ بمانید.

منبع: OpenAI