Gemini 2.5 Flash Image («nano-banana») گامی مهم بهسمت ویرایش تصویریِ کنترلشده و پایدار است؛ با این حال موفقیت عملی آن به نحوهٔ بهکارگیری، مقررات و آگاهی کاربران بستگی دارد.
فهرست دسترسی سریع
نانوبنانا چیست؟
گوگل اخیراً از NanoBanana (با نام دیگر Gemini 2.5 Flash Image) رونمایی کرده است؛ مدلی که با معماری مولتیمودال بومی ساخته شده و قادر است متن و تصویر را در یک مرحله پردازش کند.
این ویژگی، قابلیتهایی مثل ویرایش تعاملی تصاویر، ترکیب چند تصویر، رندر متون دقیق و منطق پیشرفته را ممکن میسازد.
Gemini 2.5 Flash Image: ویرایش تصاویر با دقت بیسابقه
گوگل دیپمایند نسخهٔ جدید مدل تصویری خود را با نام Gemini 2.5 Flash Image (که در میانهٔ سروصداها «nano-banana» لقب گرفت) رونمایی کرده است. نکتهٔ برجسته این نسخه، توانایی انجام ویرایشهای دقیق و حفظ یکپارچگی شخصیتها (یک شخص، حیوان خانگی یا محصول) در چند تصویر و چند دورِ ویرایشی است؛ قابلیتی که پیشتر یکی از نقاط ضعف ابزارهای ویرایش تصویری مبتنی بر هوش مصنوعی بود.
ویژگیهای کلیدی مدل “nano-banana”
- تبدیل متن به تصویر: تولید تصاویر باکیفیت از توضیحات ساده یا پیچیده.
- ویرایش تصویر با متن: افزودن، حذف یا تغییر عناصر، استایل یا رنگها.
- حفظ یکپارچگی شخصیتها:
کاربران میتوانند افراد، حیوانات خانگی یا محصولات را در صحنههای مختلف بدون تغییر ظاهر اصلی آنها ویرایش کنند. این شامل تغییر لباس، مدل مو، دوره زمانی یا محیط است. - ترکیب چند تصویر:
مدل قادر است چند تصویر را با هم ترکیب کرده و تغییرات خاصی بر اساس دستور زبان طبیعی اعمال کند. این امکان برای ایجاد صحنههای جدید یا آزمایش ایدههای طراحی بسیار کاربردی است. - اصلاح تدریجی یا ویرایش چندمرحلهای (Multi-turn Editing):
کاربران میتوانند چندین تغییر متوالی را روی تصویر خود اعمال کنند؛ مثلاً اضافه کردن مبلمان، تغییر دکوراسیون، یا اعمال الگوهای مختلف از تصاویر دیگر. - ایمنی و علامتگذاری تصاویر:
هر تصویر تولیدشده شامل علامت واضح AI و یک واترمارک دیجیتال نامرئی SynthID است. گوگل اعلام کرده که SynthID حتی پس از ویرایشهای رایج قابل شناسایی باقی میماند، تا اصالت تصاویر مصنوعی قابل تأیید باشد. - رندر متن: ایجاد تصاویر با متن واضح و درست (برای لوگو، پوستر، نمودار و …).
کاربردها و مزایا
- تبلیغات و برندینگ: حفظ ظاهر محصول یا کاراکتر در کمپینهای تصویری متعدد؛ مناسب برای تولید مجموعهٔ تصاویر همپوشان (consistency).
- تولید محتوای محصول: نمایش محصول از زوایا و محیطهای مختلف بدون نیاز به فتوشاتهای متعدد.
- نمونهسازی سریع در طراحی داخلی و تبلیغات: تغییر دکور، افزودن مبلمان یا الگوها در یک اتاق بهصورت مرحلهای.
- خلاقیت و هنر دیجیتال: ترکیب عناصر از تصاویر گوناگون برای خلق آثار جدید با حفظ یک هویت بصری.
کاربردی دیگر مدل نانوبنانا nano-banana گوگل حذف اشیاء از تصاویر و ایجاد مدلهای سه بعدی از آنها برای بازیها است!
الف) صحنههای فوتورئالیستی (واقعگرایانه)
برای تولید تصاویر واقعی باید مثل یک عکاس فکر کنید. زاویه دوربین، نوع لنز، نورپردازی و جزئیات دقیق باعث میشود نتیجه طبیعیتر باشد.
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
# Generate an image from a text prompt
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents="A photorealistic close-up portrait of an elderly Japanese ceramicist with deep, sun-etched wrinkles and a warm, knowing smile. He is carefully inspecting a freshly glazed tea bowl. The setting is his rustic, sun-drenched workshop with pottery wheels and shelves of clay pots in the background. The scene is illuminated by soft, golden hour light streaming through a window, highlighting the fine texture of the clay and the fabric of his apron. Captured with an 85mm portrait lens, resulting in a soft, blurred background (bokeh). The overall mood is serene and masterful.",
)
image_parts = [
part.inline_data.data
for part in response.candidates[0].content.parts
if part.inline_data
]
if image_parts:
image = Image.open(BytesIO(image_parts[0]))
image.save('photorealistic_example.png')
image.show()
ب) تصاویر استیکر و ایلوستریشن (Illustration)
برای طراحی استیکر، آیکون یا المانهای گرافیکی، سبک موردنظر، ویژگیهای کلیدی و پسزمینه سفید را حتماً ذکر کنید.
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
# Generate an image from a text prompt
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents="A kawaii-style sticker of a happy red panda wearing a tiny bamboo hat. It's munching on a green bamboo leaf. The design features bold, clean outlines, simple cel-shading, and a vibrant color palette. The background must be white.",
)
image_parts = [
part.inline_data.data
for part in response.candidates[0].content.parts
if part.inline_data
]
if image_parts:
image = Image.open(BytesIO(image_parts[0]))
image.save('red_panda_sticker.png')
image.show()
پ) متن دقیق در تصویر (لوگو یا پوستر)
نانوبنانا در رندر متن عملکردی بسیار خوب از خود به نمایش گذاشته است. کافی است نوع فونت، سبک طراحی و رنگبندی را مشخص کنید.
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
# Generate an image from a text prompt
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents="Create a modern, minimalist logo for a coffee shop called 'The Daily Grind'. The text should be in a clean, bold, sans-serif font. The design should feature a simple, stylized icon of a a coffee bean seamlessly integrated with the text. The color scheme is black and white.",
)
image_parts = [
part.inline_data.data
for part in response.candidates[0].content.parts
if part.inline_data
]
if image_parts:
image = Image.open(BytesIO(image_parts[0]))
image.save('logo_example.png')
image.show()
ت) موکاپ محصول و عکاسی تبلیغاتی
برای ساخت تصاویر تبلیغاتی یا شات محصول، نورپردازی استودیویی، زاویه دوربین و جزئیات محصول را توضیح دهید.
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
# Generate an image from a text prompt
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents="A high-resolution, studio-lit product photograph of a minimalist ceramic coffee mug in matte black, presented on a polished concrete surface. The lighting is a three-point softbox setup designed to create soft, diffused highlights and eliminate harsh shadows. The camera angle is a slightly elevated 45-degree shot to showcase its clean lines. Ultra-realistic, with sharp focus on the steam rising from the coffee. Square image.",
)
image_parts = [
part.inline_data.data
for part in response.candidates[0].content.parts
if part.inline_data
]
if image_parts:
image = Image.open(BytesIO(image_parts[0]))
image.save('product_mockup.png')
image.show()
ث) طراحی مینیمالیستی و فضای خالی (Negative Space)
این نوع طراحی برای پسزمینه وبسایت، پرزنتیشن یا پوسترها مناسب است. کافی است یک عنصر ساده با فضای خالی زیاد توصیف کنید.
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
# Generate an image from a text prompt
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents="A minimalist composition featuring a single, delicate red maple leaf positioned in the bottom-right of the frame. The background is a vast, empty off-white canvas, creating significant negative space for text. Soft, diffused lighting from the top left. Square image.",
)
image_parts = [
part.inline_data.data
for part in response.candidates[0].content.parts
if part.inline_data
]
if image_parts:
image = Image.open(BytesIO(image_parts[0]))
image.save('minimalist_design.png')
image.show()
ج) طراحی استوریبورد (Comic / Storyboard)
برای روایت تصویری یا طراحی استوریبورد، هر صحنه را واضح توصیف کنید: شخصیتها، محیط و حالوهوای نورپردازی.
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
# Generate an image from a text prompt
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents="A single comic book panel in a gritty, noir art style with high-contrast black and white inks. In the foreground, a detective in a trench coat stands under a flickering streetlamp, rain soaking his shoulders. In the background, the neon sign of a desolate bar reflects in a puddle. A caption box at the top reads \"The city was a tough place to keep secrets.\" The lighting is harsh, creating a dramatic, somber mood. Landscape.",
)
image_parts = [
part.inline_data.data
for part in response.candidates[0].content.parts
if part.inline_data
]
if image_parts:
image = Image.open(BytesIO(image_parts[0]))
image.save('comic_panel.png')
image.show()
دسترسی و قیمتگذاری (برای توسعهدهندگان)
Gemini 2.5 Flash Image هماکنون در دسترس توسعهدهندگان از طریق Gemini API، Google AI Studio و Vertex AI قرار گرفته و در حالت پیشنمایش عرضه شده است. قیمت اعلامشده برای خروجی تصویر: $۳۰ به ازای هر ۱,۰۰۰,۰۰۰ توکن خروجی؛ هر تصویر (تا ابعاد ۱۰۲۴×۱۰۲۴) برابر با حدود ۱۲۹۰ توکن خروجی محاسبه شده که تقریبا معادل $۰.۰۳۹ به ازای هر تصویر است. جزئیات قیمت و مستندات توسعهدهندگان در داکیومنتهای رسمی قابلدسترسی است.
۱. دسترسی از طریق Google AI Studio
- وارد Google AI Studio شوید؛ این سکوی وبی امکانات تعامل بدون کدنویسی با مدلهای هوش مصنوعی را مهیا میکند. مدل Gemini 2.5 Flash Image در حالت پیشنمایش (preview) در این محیط قابل دسترسی است.
- در AI Studio، میتوانید از قالبهای آماده مانند «ویرایش تصویر از طریق فرمان متنی» (prompt-based image editing) بهره ببرید که امکان ادغام چند تصویر، ویرایش مرحلهای، و حفظ یکپارچگی شخصیتها را فراهم میکنند.
۲. استفاده از Gemini API
- برای استفاده برنامهمحور، مدل در قالب API قابل استفاده است. مدل با نام
gemini-2.5-flash-image-preview
از طریق API در دسترس قرار دارد. - برای شروع:
- به Google Cloud Console وارد شوید.
- فعالسازی API مربوط به Vertex AI یا Gemini API را انجام دهید.
- کلید API را ایجاد کرده و در کدتان برای احراز هویت استفاده کنید.
- درخواستها با قالبهای استاندارد، شامل ورودیهای متنی و تصویری، به مدل ارسال میشوند.
۳. استفاده از Vertex AI (برای سازمانها و پروژههای بزرگ)
- اگر سازمان یا پروژه تحت پلتفرم Google Cloud دارید:
- به Vertex AI مراجعه کرده و مدل را از Model Garden انتخاب کنید.
- مدل
gemini-2.5-flash-image-preview
در حالت پیشنمایش قابل مشاهده و استفاده است. - برای فعالسازی، نیاز به پروژه فعال با Billing و همچنین فعالکردن APIهاست.
- دسترسی معمولاً نیازمند هماهنگی با نماینده فروش یا حساب Google Cloud شماست.
۴. دسترسی از طریق Adobe Firefly و Adobe Express
- گوگل مدل خود را در Adobe Firefly و Adobe Express نیز ادغام کرده است.
- کاربران این ابزارها میتوانند ضمن ساخت تصاویر استایلی و گرافیکهای متنوع، از قدرت Gemini 2.5 Flash Image نیز بهرهمند شوند.
- برای مدت محدود (تا سپتامبر ۲۰۲۵)، کاربران Pro فایرفلای امکان تولید نامحدود با این مدل را دارند.
۵. استفاده در رابط کاربری (اپ Gemini)
- در اپلیکیشن Gemini (نسخه موبایل/وب)، ویرایش تصاویر با محوریت حفظ شباهت شخصیتها فعال شده است.
- شما میتوانید تصویری را بارگذاری کرده، تغییراتی مانند تغییر لباس، ترکیب با محیط جدید یا اضافهکردن المانهای دیگر را بدون از دست دادن شباهت سوژه اعمال کنید.
blog.google
چکیده دسترسی بهصورت جدول:
پلتفرم | نحوه دسترسی و توضیح |
---|---|
Google AI Studio | بدون نیاز به کد، در محیط وب، با قالبهای آماده برای ویرایش و تولید تصویر. |
Gemini API | برنامهمحور، با کلید API، ارسال تصویر و متن، استفاده از مدل gemini-2.5-flash-image-preview . |
Vertex AI | برای کاربردهای سازمانی، نیاز به پروژه فعال، فعالسازی API، دسترسی در Model Garden. |
Adobe Firefly/Express | ادغام در ابزارهای Firefly و Express برای خلاقیت بصری، با تولید نامحدود برای کاربران Pro. |
اپلیکیشن Gemini | ویرایش مستقیم تصاویر در اپ، با تمرکز بر حفظ یکپارچگی شخصیت. |
چند نمونه تصویر تولید شده به همراه پرامپت مربوطه:
پرامپت استفاده شده در این تغییر:
Keep the eyes, facial features, and expression unchanged. Only add the new glasses to the person without altering the eyes or skin.
💡آموزش تنظیمات مدل نانو بنانا:
👈🏻 Token count
نشون میده الان چند توکن از ظرفیت مکالمه استفاده شده (هر کلمه یا بخش جمله یه توکن حساب میشه).
👈🏻 Temperature (1)
درجه خلاقیت یا تصادفی بودن خروجی.
مقدار پایینتر (مثل ۰.۲ یا ۰.۳): خروجی دقیقتر، قابل پیشبینیتر.
مقدار بالاتر (۱ یا بیشتر): خروجی خلاقانهتر، متنوعتر، ولی شاید غیرقابلاعتمادتر.
👈🏻 Advanced settings
تنظیمات پیشرفته برای کنترل ریزتر خروجی.
👈🏻 Safety settings (Edit)
فیلترهای محتوایی برای جلوگیری از تولید خروجی نامناسب.
👈🏻 Add stop sequence
میشه یه توالی (مثلاً “###”) مشخص کنی که مدل وقتی بهش رسید، تولید متن رو قطع کنه.
👈🏻 Output length (8192)
حداکثر طول خروجی که مدل میتونه تولید کنه (بر حسب توکن).
👈🏻 Top P (0.95)
بهش میگن nucleus sampling.
اینکه چه بخشی از توزیع احتمالاتی مدل در نظر گرفته بشه را مدیریت میکنه.
اگر پایین باشه (مثلاً ۰.۵): خروجی محدودتر و متمرکزتری خواهید داشت.
اگر بالاتر باشه (۰.۹۵ یا ۱): خروجی متنوعتر و با جزئیات بیشتری خواهید داشت.
پرامپت استفاده شده:
place the 3 women from image in chairs talking happily to each other in image 2 corresponding to the matching colored circles. blend in environment as hyper real. enhance final result
ℹ نکات مهم برای شروع
- برای توسعهدهندگان: با استفاده از Google AI Studio سریعترین راه برای آشنایی بدون نیاز به کدنویسی است. در ادامه، با Gemini API و محیطهای برنامهنویسی مانند Python وارد مرحله توسعه شوید.
Google Developers Blogapidog - برای تیمهای سازمانی یا کسبوکارها: ورود از طریق Vertex AI با امکان پیادهسازی و استقرار مدل در تولید توصیه میشود. حتماً حساب Google Cloud با فاکتورینگ فعال داشته باشید.
Google Cloud - برای تولیدکنندگان محتوا: استفاده از Adobe Firefly یا اپ Gemini، سادهترین تجربه کاربری را فراهم میکند.
ایمنی، اخلاق و ریسکهای احتمالی
با وجود پیشرفت فنی، «nano-banana» همانگونه که امکان خلق محتوای سازگار و واقعنمایانه را فراهم میکند، نگرانیهایی دربارهٔ سوءاستفاده (مثلاً ساخت دیپفیکها یا تصاویر گمراهکننده) نیز بهوجود آورده است. گوگل برای کاهش این خطرات از واترمارکهای مرئی و نامرئی (SynthID) استفاده میکند، اما برخی کارشناسان رسانهای بر این باورند که این تدابیر کامل نیست و نیاز به شفافیت و ابزارهای تشخیص قویتر دارد. در نتیجه، استفادهٔ مسئولانه و سیاستگذاری روشن برای انتشار و توزیع تصاویر تولیدشده ضروری است.
نتیجهگیری
معرفی مدل Gemini 2.5 Flash Image یا “nano-banana” نشاندهنده پیشرفت چشمگیر گوگل در حوزه ویرایش تصاویر با هوش مصنوعی است. این مدل، با قابلیتهای منحصربهفرد خود، تجربهای متفاوت از کنترل دقیق و ترکیب تصاویر را برای توسعهدهندگان و کاربران فراهم کرده است.