Gemini 2.5 Flash Image («nano-banana») گامی مهم بهسمت ویرایش تصویریِ کنترلشده و پایدار است؛ با این حال موفقیت عملی آن به نحوهٔ بهکارگیری، مقررات و آگاهی کاربران بستگی دارد.
Gemini 2.5 Flash Image: ویرایش تصاویر با دقت بیسابقه
گوگل دیپمایند نسخهٔ جدید مدل تصویری خود را با نام Gemini 2.5 Flash Image (که در میانهٔ سروصداها «nano-banana» لقب گرفت) رونمایی کرده است. نکتهٔ برجسته این نسخه، توانایی انجام ویرایشهای دقیق و حفظ یکپارچگی شخصیتها (یک شخص، حیوان خانگی یا محصول) در چند تصویر و چند دورِ ویرایشی است؛ قابلیتی که پیشتر یکی از نقاط ضعف ابزارهای ویرایش تصویری مبتنی بر هوش مصنوعی بود.
ویژگیهای کلیدی مدل “nano-banana”
- حفظ یکپارچگی شخصیتها:
کاربران میتوانند افراد، حیوانات خانگی یا محصولات را در صحنههای مختلف بدون تغییر ظاهر اصلی آنها ویرایش کنند. این شامل تغییر لباس، مدل مو، دوره زمانی یا محیط است. - ترکیب چند تصویر:
مدل قادر است چند تصویر را با هم ترکیب کرده و تغییرات خاصی بر اساس دستور زبان طبیعی اعمال کند. این امکان برای ایجاد صحنههای جدید یا آزمایش ایدههای طراحی بسیار کاربردی است. - ویرایش چندمرحلهای (Multi-turn Editing):
کاربران میتوانند چندین تغییر متوالی را روی تصویر خود اعمال کنند؛ مثلاً اضافه کردن مبلمان، تغییر دکوراسیون، یا اعمال الگوهای مختلف از تصاویر دیگر. - ایمنی و علامتگذاری تصاویر:
هر تصویر تولیدشده شامل علامت واضح AI و یک واترمارک دیجیتال نامرئی SynthID است. گوگل اعلام کرده که SynthID حتی پس از ویرایشهای رایج قابل شناسایی باقی میماند، تا اصالت تصاویر مصنوعی قابل تأیید باشد.
کاربردها و مزایا
- تبلیغات و برندینگ: حفظ ظاهر محصول یا کاراکتر در کمپینهای تصویری متعدد؛ مناسب برای تولید مجموعهٔ تصاویر همپوشان (consistency).
- تولید محتوای محصول: نمایش محصول از زوایا و محیطهای مختلف بدون نیاز به فتوشاتهای متعدد.
- نمونهسازی سریع در طراحی داخلی و تبلیغات: تغییر دکور، افزودن مبلمان یا الگوها در یک اتاق بهصورت مرحلهای.
- خلاقیت و هنر دیجیتال: ترکیب عناصر از تصاویر گوناگون برای خلق آثار جدید با حفظ یک هویت بصری.
دسترسی و قیمتگذاری (برای توسعهدهندگان)
Gemini 2.5 Flash Image هماکنون در دسترس توسعهدهندگان از طریق Gemini API، Google AI Studio و Vertex AI قرار گرفته و در حالت پیشنمایش عرضه شده است. قیمت اعلامشده برای خروجی تصویر: $۳۰ به ازای هر ۱,۰۰۰,۰۰۰ توکن خروجی؛ هر تصویر (تا ابعاد ۱۰۲۴×۱۰۲۴) برابر با حدود ۱۲۹۰ توکن خروجی محاسبه شده که تقریبا معادل $۰.۰۳۹ به ازای هر تصویر است. جزئیات قیمت و مستندات توسعهدهندگان در داکیومنتهای رسمی قابلدسترسی است.
۱. دسترسی از طریق Google AI Studio
- وارد Google AI Studio شوید؛ این سکوی وبی امکانات تعامل بدون کدنویسی با مدلهای هوش مصنوعی را مهیا میکند. مدل Gemini 2.5 Flash Image در حالت پیشنمایش (preview) در این محیط قابل دسترسی است.
- در AI Studio، میتوانید از قالبهای آماده مانند «ویرایش تصویر از طریق فرمان متنی» (prompt-based image editing) بهره ببرید که امکان ادغام چند تصویر، ویرایش مرحلهای، و حفظ یکپارچگی شخصیتها را فراهم میکنند.
۲. استفاده از Gemini API
- برای استفاده برنامهمحور، مدل در قالب API قابل استفاده است. مدل با نام
gemini-2.5-flash-image-preview
از طریق API در دسترس قرار دارد. - برای شروع:
- به Google Cloud Console وارد شوید.
- فعالسازی API مربوط به Vertex AI یا Gemini API را انجام دهید.
- کلید API را ایجاد کرده و در کدتان برای احراز هویت استفاده کنید.
- درخواستها با قالبهای استاندارد، شامل ورودیهای متنی و تصویری، به مدل ارسال میشوند.
۳. استفاده از Vertex AI (برای سازمانها و پروژههای بزرگ)
- اگر سازمان یا پروژه تحت پلتفرم Google Cloud دارید:
- به Vertex AI مراجعه کرده و مدل را از Model Garden انتخاب کنید.
- مدل
gemini-2.5-flash-image-preview
در حالت پیشنمایش قابل مشاهده و استفاده است. - برای فعالسازی، نیاز به پروژه فعال با Billing و همچنین فعالکردن APIهاست.
- دسترسی معمولاً نیازمند هماهنگی با نماینده فروش یا حساب Google Cloud شماست.
۴. دسترسی از طریق Adobe Firefly و Adobe Express
- گوگل مدل خود را در Adobe Firefly و Adobe Express نیز ادغام کرده است.
- کاربران این ابزارها میتوانند ضمن ساخت تصاویر استایلی و گرافیکهای متنوع، از قدرت Gemini 2.5 Flash Image نیز بهرهمند شوند.
- برای مدت محدود (تا سپتامبر ۲۰۲۵)، کاربران Pro فایرفلای امکان تولید نامحدود با این مدل را دارند.
۵. استفاده در رابط کاربری (اپ Gemini)
- در اپلیکیشن Gemini (نسخه موبایل/وب)، ویرایش تصاویر با محوریت حفظ شباهت شخصیتها فعال شده است.
- شما میتوانید تصویری را بارگذاری کرده، تغییراتی مانند تغییر لباس، ترکیب با محیط جدید یا اضافهکردن المانهای دیگر را بدون از دست دادن شباهت سوژه اعمال کنید.
blog.google
چکیده دسترسی بهصورت جدول:
پلتفرم | نحوه دسترسی و توضیح |
---|---|
Google AI Studio | بدون نیاز به کد، در محیط وب، با قالبهای آماده برای ویرایش و تولید تصویر. |
Gemini API | برنامهمحور، با کلید API، ارسال تصویر و متن، استفاده از مدل gemini-2.5-flash-image-preview . |
Vertex AI | برای کاربردهای سازمانی، نیاز به پروژه فعال، فعالسازی API، دسترسی در Model Garden. |
Adobe Firefly/Express | ادغام در ابزارهای Firefly و Express برای خلاقیت بصری، با تولید نامحدود برای کاربران Pro. |
اپلیکیشن Gemini | ویرایش مستقیم تصاویر در اپ، با تمرکز بر حفظ یکپارچگی شخصیت. |
ℹ نکات مهم برای شروع
- برای توسعهدهندگان: با استفاده از Google AI Studio سریعترین راه برای آشنایی بدون نیاز به کدنویسی است. در ادامه، با Gemini API و محیطهای برنامهنویسی مانند Python وارد مرحله توسعه شوید.
Google Developers Blogapidog - برای تیمهای سازمانی یا کسبوکارها: ورود از طریق Vertex AI با امکان پیادهسازی و استقرار مدل در تولید توصیه میشود. حتماً حساب Google Cloud با فاکتورینگ فعال داشته باشید.
Google Cloud - برای تولیدکنندگان محتوا: استفاده از Adobe Firefly یا اپ Gemini، سادهترین تجربه کاربری را فراهم میکند.
ایمنی، اخلاق و ریسکهای احتمالی
با وجود پیشرفت فنی، «nano-banana» همانگونه که امکان خلق محتوای سازگار و واقعنمایانه را فراهم میکند، نگرانیهایی دربارهٔ سوءاستفاده (مثلاً ساخت دیپفیکها یا تصاویر گمراهکننده) نیز بهوجود آورده است. گوگل برای کاهش این خطرات از واترمارکهای مرئی و نامرئی (SynthID) استفاده میکند، اما برخی کارشناسان رسانهای بر این باورند که این تدابیر کامل نیست و نیاز به شفافیت و ابزارهای تشخیص قویتر دارد. در نتیجه، استفادهٔ مسئولانه و سیاستگذاری روشن برای انتشار و توزیع تصاویر تولیدشده ضروری است.
نتیجهگیری
معرفی مدل Gemini 2.5 Flash Image یا “nano-banana” نشاندهنده پیشرفت چشمگیر گوگل در حوزه ویرایش تصاویر با هوش مصنوعی است. این مدل، با قابلیتهای منحصربهفرد خود، تجربهای متفاوت از کنترل دقیق و ترکیب تصاویر را برای توسعهدهندگان و کاربران فراهم کرده است.