هوش مصنوعی نانو بنانا - ادیت تصاویر
مدل هوش مصنوعی گوگل با نام Gemini 2.5 Flash Image (nano-banana) گام مهم تیم هوش مصنوعی گوگل بهسمت ادیت تصاویر بصورت پایدار است؛ با این حال موفقیت عملی آن به نحوهٔ بهکارگیری، دستورالعملها و آگاهی کاربران نسبت به نحوه استفاده از آن بستگی دارد.
گوگل اخیراً از NanoBanana (با نام دیگر Gemini 2.5 Flash Image) رونمایی کرده است؛ مدلی که با معماری مولتیمودال بومی ساخته شده و قادر است متن و تصویر را در یک مرحله پردازش کند.
این ویژگی، قابلیتهایی مثل ویرایش تعاملی تصاویر، ترکیب چند تصویر، رندر متون دقیق و منطق پیشرفته را ممکن میسازد.
گوگل دیپمایند نسخهٔ جدید مدل تصویری خود را با نام Gemini 2.5 Flash Image (که در میانهٔ سروصداها «nano-banana» لقب گرفت) رونمایی کرده است. نکتهٔ برجسته این نسخه، توانایی انجام ویرایشهای دقیق و حفظ یکپارچگی شخصیتها (یک شخص، حیوان خانگی یا محصول) در چند تصویر و چند دورِ ویرایشی است؛ قابلیتی که پیشتر یکی از نقاط ضعف ابزارهای ویرایش تصویری مبتنی بر هوش مصنوعی بود.
یکی از ویژگیهای کلیدی نانو بنانا، حفظ شباهت و یکپارچگی چهرهها در تصاویر است؛ قابلیتی که همیشه یکی از چالشهای اصلی مدلهای ویرایشگر تصویر بوده است. افزون بر این، کاربران میتوانند چندین عکس را بهطور همزمان بارگذاری کرده، سبکهای هنری مختلف را منتقل کنند و حتی در چند مرحله با پرامپتهای متوالی، تغییرات دلخواه خود را اعمال کنند.
این محبوبیت گسترده باعث شده که جمینی در رتبهبندی فروشگاهها جهشی چشمگیر داشته باشد؛ اکنون در اپ استور جایگاه دوم بخش Productivity و در پلی استور رتبه ۱۳ جدول اپلیکیشنهای رایگان را در اختیار دارد. حضور ایموجی موز در نوار پرامپت جمینی و حتی حساب کاربری اختصاصی @NanoBanana، نشان میدهد که گوگل بهطور رسمی این نام غیررسمی را پذیرفته است.
به موازات این دستاورد، گوگل فوتوز نیز نسخهی Veo 3 را برای تبدیل عکس به ویدئو منتشر کرده که کیفیت بالاتری نسبت به Veo 2 ارائه میدهد و اکنون برای تمامی کاربران در دسترس است.
کاربردی دیگر مدل نانوبنانا nano-banana گوگل حذف اشیاء از تصاویر و ایجاد مدلهای سه بعدی از آنها برای بازیها است!
برای تولید تصاویر واقعی باید مثل یک عکاس فکر کنید. زاویه دوربین، نوع لنز، نورپردازی و جزئیات دقیق باعث میشود نتیجه طبیعیتر باشد.
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
# Generate an image from a text prompt
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents="A photorealistic close-up portrait of an elderly Japanese ceramicist with deep, sun-etched wrinkles and a warm, knowing smile. He is carefully inspecting a freshly glazed tea bowl. The setting is his rustic, sun-drenched workshop with pottery wheels and shelves of clay pots in the background. The scene is illuminated by soft, golden hour light streaming through a window, highlighting the fine texture of the clay and the fabric of his apron. Captured with an 85mm portrait lens, resulting in a soft, blurred background (bokeh). The overall mood is serene and masterful.",
)
image_parts = [
part.inline_data.data
for part in response.candidates[0].content.parts
if part.inline_data
]
if image_parts:
image = Image.open(BytesIO(image_parts[0]))
image.save('photorealistic_example.png')
image.show()
from google import genai
from PIL import Image
from io import BytesIO
# Configure the client with your API key
client = genai.Client(api_key="YOUR_API_KEY")
prompt = """Create a photorealistic image of an orange cat
with a green eyes, sitting on a couch."""
# Call the API to generate content
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=prompt,
)
# The response can contain both text and image data.
# Iterate through the parts to find and save the image.
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("cat.png")
برای طراحی استیکر، آیکون یا المانهای گرافیکی، سبک موردنظر، ویژگیهای کلیدی و پسزمینه سفید را حتماً ذکر کنید.
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
# Generate an image from a text prompt
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents="A kawaii-style sticker of a happy red panda wearing a tiny bamboo hat. It's munching on a green bamboo leaf. The design features bold, clean outlines, simple cel-shading, and a vibrant color palette. The background must be white.",
)
image_parts = [
part.inline_data.data
for part in response.candidates[0].content.parts
if part.inline_data
]
if image_parts:
image = Image.open(BytesIO(image_parts[0]))
image.save('red_panda_sticker.png')
image.show()
نانوبنانا در رندر متن عملکردی بسیار خوب از خود به نمایش گذاشته است. کافی است نوع فونت، سبک طراحی و رنگبندی را مشخص کنید.
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
# Generate an image from a text prompt
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents="Create a modern, minimalist logo for a coffee shop called 'The Daily Grind'. The text should be in a clean, bold, sans-serif font. The design should feature a simple, stylized icon of a a coffee bean seamlessly integrated with the text. The color scheme is black and white.",
)
image_parts = [
part.inline_data.data
for part in response.candidates[0].content.parts
if part.inline_data
]
if image_parts:
image = Image.open(BytesIO(image_parts[0]))
image.save('logo_example.png')
image.show()
برای ساخت تصاویر تبلیغاتی یا شات محصول، نورپردازی استودیویی، زاویه دوربین و جزئیات محصول را توضیح دهید.
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
# Generate an image from a text prompt
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents="A high-resolution, studio-lit product photograph of a minimalist ceramic coffee mug in matte black, presented on a polished concrete surface. The lighting is a three-point softbox setup designed to create soft, diffused highlights and eliminate harsh shadows. The camera angle is a slightly elevated 45-degree shot to showcase its clean lines. Ultra-realistic, with sharp focus on the steam rising from the coffee. Square image.",
)
image_parts = [
part.inline_data.data
for part in response.candidates[0].content.parts
if part.inline_data
]
if image_parts:
image = Image.open(BytesIO(image_parts[0]))
image.save('product_mockup.png')
image.show()
این نوع طراحی برای پسزمینه وبسایت، پرزنتیشن یا پوسترها مناسب است. کافی است یک عنصر ساده با فضای خالی زیاد توصیف کنید.
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
# Generate an image from a text prompt
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents="A minimalist composition featuring a single, delicate red maple leaf positioned in the bottom-right of the frame. The background is a vast, empty off-white canvas, creating significant negative space for text. Soft, diffused lighting from the top left. Square image.",
)
image_parts = [
part.inline_data.data
for part in response.candidates[0].content.parts
if part.inline_data
]
if image_parts:
image = Image.open(BytesIO(image_parts[0]))
image.save('minimalist_design.png')
image.show()
برای روایت تصویری یا طراحی استوریبورد، هر صحنه را واضح توصیف کنید: شخصیتها، محیط و حالوهوای نورپردازی.
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
# Generate an image from a text prompt
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents="A single comic book panel in a gritty, noir art style with high-contrast black and white inks. In the foreground, a detective in a trench coat stands under a flickering streetlamp, rain soaking his shoulders. In the background, the neon sign of a desolate bar reflects in a puddle. A caption box at the top reads \"The city was a tough place to keep secrets.\" The lighting is harsh, creating a dramatic, somber mood. Landscape.",
)
image_parts = [
part.inline_data.data
for part in response.candidates[0].content.parts
if part.inline_data
]
if image_parts:
image = Image.open(BytesIO(image_parts[0]))
image.save('comic_panel.png')
image.show()
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client(api_key="YOUR_API_KEY")
prompt = """Using the image of the cat, create a photorealistic,
street-level view of the cat walking along a sidewalk in a
New York City neighborhood, with the blurred legs of pedestrians
and yellow cabs passing by in the background."""
image = Image.open("cat.png")
# Pass both the text prompt and the image in the 'contents' list
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[prompt, image],
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("cat2.png")
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client(api_key="YOUR_API_KEY")
prompt = "Restore and colorize this image from 1932"
image = Image.open("lunch.jpg") # "Lunch atop a Skyscraper, 1932"
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[prompt, image],
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("lunch-restored.png")
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client(api_key="YOUR_API_KEY")
prompt = "Make the girl wear this t-shirt. Leave the background unchanged."
image1 = Image.open("girl.png")
image2 = Image.open("tshirt.png")
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[prompt, image1, image2],
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("girl-with-tshirt.png")
برای رسیدن به نتایج بهتر با کمک مدل Nano Banana، دانستن روشهای مؤثر پرامپتدهی اهمیت ویژهای دارد. در این بخش، شما را با کلیدهای موفقیت در تولید تصاویر خلاقانه و دقیق آشنا میکنیم:
هرچه اطلاعات بیشتری درباره موضوع، رنگها، نورپردازی و ترکیببندی ارائه دهید، کنترل بیشتری هم روی خروجی خواهید داشت. همیشه به یاد داشته باشید مدل هیچ چیزی از ذهن یا تصورات شما نمیداند و یک پیشگو نیست. بنابراین ذکر جزئیات دقیق باعث خواهد شد تا مدل دقیقاً همان چیزی را تولید کند که در ذهن شماست.
توضیح دادن هدف یا حس مورد نظرتان در تصویر به هر مدلی، تاثیری مستقیم بر تولید اثری خلاقانه دارد. آیا میخواهید یک تصویر واقعی باشد یا فضایی فانتزی و سورئال؟ این توضیحات، نتایج تولید شده را بهطور چشمگیری بهبود میبخشد.
پرامپتهای اولیه همیشه کامل نیستند. از قابلیت ویرایش محاورهای مدل استفاده کنید و با اعمال تغییرات جزئی و اصلاحات تدریجی، تصویر نهایی را به بهترین شکل ممکن شکل دهید. (برای یادگیری نحوه نوشتن پرامپت به مقاله آموزشی “اصول و تکنیکهای استاندارد پرامپت نویسی” و “آموزش نوشتن پرامپت چت جی پی تی Chatgpt” مراجعه نمایید.)
برای صحنههای پیچیده، پرامپت خود را به دستورات واضح و شفاف و چند بخشی تقسیم کنید. این کار کمک میکند مدل هر بخش از تصویر را بهطور مستقل پردازش نموده و نتیجه دقیقتر و منسجمتری تولید شود.
بهجای استفاده از دستورات منفی مانند “بدون ماشین”، صحنه مورد نظر خود را به صورت مثبت توصیف کنید: “یک خیابان خالی و آرام بدون ترافیک”. این شیوه باعث تولید خروجی طبیعیتر و نزدیکتر به تصور شما خواهد شد.
از اصطلاحات عکاسی و سینمایی برای هدایت ترکیببندی تصویر استفاده کنید: “نمای واید”، “ماکرو شات” یا “زاویه پایین”. این نکته، قدرت شما در طراحی صحنه و روایت تصویری نیز افزایش میدهد.
Gemini 2.5 Flash Image هماکنون در دسترس توسعهدهندگان از طریق Gemini API، Google AI Studio و Vertex AI قرار گرفته و در حالت پیشنمایش عرضه شده است. قیمت اعلامشده برای خروجی تصویر: $۳۰ به ازای هر ۱,۰۰۰,۰۰۰ توکن خروجی؛ هر تصویر (تا ابعاد ۱۰۲۴×۱۰۲۴) برابر با حدود ۱۲۹۰ توکن خروجی محاسبه شده که تقریبا معادل $۰.۰۳۹ به ازای هر تصویر است. جزئیات قیمت و مستندات توسعهدهندگان در داکیومنتهای رسمی قابلدسترسی است.
تولید تصویر با نانو بنانا به ازای هر تصویر ۰٫۰۳۹ دلار هزینه دارد. با ۱ دلار می توانید تقریباً ۲۵ تصویر تولید کنید
gemini-2.5-flash-image-preview
از طریق API در دسترس قرار دارد.pip install -U google-genai
# Install the Pillow library for image manipulation
pip install Pillow
npm install @google/genai
gemini-2.5-flash-image-preview
در حالت پیشنمایش قابل مشاهده و استفاده است.پلتفرم | نحوه دسترسی و توضیح |
---|---|
Google AI Studio | بدون نیاز به کد، در محیط وب، با قالبهای آماده برای ویرایش و تولید تصویر. |
Gemini API | برنامهمحور، با کلید API، ارسال تصویر و متن، استفاده از مدل gemini-2.5-flash-image-preview . |
Vertex AI | برای کاربردهای سازمانی، نیاز به پروژه فعال، فعالسازی API، دسترسی در Model Garden. |
Adobe Firefly/Express | ادغام در ابزارهای Firefly و Express برای خلاقیت بصری، با تولید نامحدود برای کاربران Pro. |
اپلیکیشن Gemini | ویرایش مستقیم تصاویر در اپ، با تمرکز بر حفظ یکپارچگی شخصیت. |
پرامپت استفاده شده در این تغییر:
Keep the eyes, facial features, and expression unchanged. Only add the new glasses to the person without altering the eyes or skin.
👈🏻 Token count
نشون میده الان چند توکن از ظرفیت مکالمه استفاده شده (هر کلمه یا بخش جمله یه توکن حساب میشه).
👈🏻 Temperature (1)
درجه خلاقیت یا تصادفی بودن خروجی.
مقدار پایینتر (مثل ۰.۲ یا ۰.۳): خروجی دقیقتر، قابل پیشبینیتر.
مقدار بالاتر (۱ یا بیشتر): خروجی خلاقانهتر، متنوعتر، ولی شاید غیرقابلاعتمادتر.
👈🏻 Advanced settings
تنظیمات پیشرفته برای کنترل ریزتر خروجی.
👈🏻 Safety settings (Edit)
فیلترهای محتوایی برای جلوگیری از تولید خروجی نامناسب.
👈🏻 Add stop sequence
میشه یه توالی (مثلاً “###”) مشخص کنی که مدل وقتی بهش رسید، تولید متن رو قطع کنه.
👈🏻 Output length (8192)
حداکثر طول خروجی که مدل میتونه تولید کنه (بر حسب توکن).
👈🏻 Top P (0.95)
بهش میگن nucleus sampling.
اینکه چه بخشی از توزیع احتمالاتی مدل در نظر گرفته بشه را مدیریت میکنه.
اگر پایین باشه (مثلاً ۰.۵): خروجی محدودتر و متمرکزتری خواهید داشت.
اگر بالاتر باشه (۰.۹۵ یا ۱): خروجی متنوعتر و با جزئیات بیشتری خواهید داشت.
پرامپت استفاده شده:
place the 3 women from image in chairs talking happily to each other in image 2 corresponding to the matching colored circles. blend in environment as hyper real. enhance final result
با وجود پیشرفت فنی، «nano-banana» همانگونه که امکان خلق محتوای سازگار و واقعنمایانه را فراهم میکند، نگرانیهایی دربارهٔ سوءاستفاده (مثلاً ساخت دیپفیکها یا تصاویر گمراهکننده) نیز بهوجود آورده است. گوگل برای کاهش این خطرات از واترمارکهای مرئی و نامرئی (SynthID) استفاده میکند، اما برخی کارشناسان رسانهای بر این باورند که این تدابیر کامل نیست و نیاز به شفافیت و ابزارهای تشخیص قویتر دارد. در نتیجه، استفادهٔ مسئولانه و سیاستگذاری روشن برای انتشار و توزیع تصاویر تولیدشده ضروری است.
معرفی مدل Gemini 2.5 Flash Image یا “nano-banana” نشاندهنده پیشرفت چشمگیر گوگل در حوزه ویرایش تصاویر با هوش مصنوعی است. این مدل، با قابلیتهای منحصربهفرد خود، تجربهای متفاوت از کنترل دقیق و ترکیب تصاویر را برای توسعهدهندگان و کاربران فراهم کرده است.
چطوری عکسهای قدیمی خانوادگی را با کمک هوش مصنوعی Gemini و مدل «Nano Banana» ترمیم کنیم؟ (قدمبهقدم و عملی)
تقریباً همه ما عکسهای قدیمی و لکهداری داریم که گنجینهای از خاطرات زندگی ما هستند، اما متأسفانه، خطوخشها، رنگپریدگی یا پارگیها بسیاری از آنها را تقریباً غیرقابل استفاده کرده است.
خبر خوب اینجاست: اکنون میتوانید با استفاده از مدل تصویری جدید گوگل (Nano Banana) در پلتفرم Gemini، این عکسها را در عرض چند دقیقه ترمیم و حتی رنگی کنید! این کار با نتایجی واقعگرایانه و کمهزینه انجام میشود.
در ادامه، یک راهنمای کوتاه، دقیق و عملی برای علاقهمندان به عکسهای میراث خانوادگی آماده کردهام—راهنمایی که خودم آن را امتحان کردهام و نتیجه داده است.
این روش به دو دلیل اصلی برای ترمیم عکسهای قدیمی شما موثر است:
Nano-Banana بهطور خاص برای ویرایش و بازسازی تصاویر توسعه داده شده است. این مدل قادر است:
کلید موفقیت شما در استفاده از هوشمصنوعی Gemini این است که بدانید چگونه با مدل صحبت کنید یا درخواست خود را مطرح نمایید. شما باید:
بسیار عالی. در اینجا راهنمای کامل، گامبهگام و نکات کلیدی برای شروع ترمیم عکسهای میراث خانوادگی شما با استفاده از ابزار Nano Banana در پلتفرم جِمینی (Gemini) آمده است.
برای شروع ترمیم عکسهای قدیمی خود، این پنج گام ساده را دنبال کنید:
همانطور که گفته شد، پرامپتهای انگلیسی اغلب نتایج دقیقتری میدهند. کافیست متن مورد نظر را کپی و در بخش گفتگو یا پرامپت وارد کنید:
هدف: رفع آسیبها بدون تغییر رنگهای اصلی (سیاهوسفید یا سپیا).
Restore this photograph to its original quality by repairing scratches, folds, discoloration, and missing details. Keep the people, objects, and background realistic while preserving the original style, lighting, and colors. Do not add new elements or alter the identity of the people—only repair the damaged areas.
هدف: رفع آسیبها و افزودن رنگهایی طبیعی و واقعگرایانه.
Restore this photograph to its original quality by repairing scratches, folds, discoloration, and missing details. Then carefully colorize the image, keeping skin tones, clothing, objects, and background realistic. Preserve the original style, lighting, and atmosphere without adding new elements or changing the identity of the people.
برای اینکه بیشترین بهره را از Nano-Banana ببرید و به بهترین نتایج برسید، این نکات را در ذهن داشته باشید:
۱۰۰ فرد تأثیرگذار حوزه هوش مصنوعی از دید رسانه هوش مصنوعی سیمرغ هوش مصنوعی در…
ChatGPT Pulse آغازگر نسلی تازه از دستیارهای هوش مصنوعی است؛ این مدل از پاسخ به…
نقشه راه فریلنسرها برای تامین امنیت آینده شغلی در عصر هوش مصنوعی فهرست دسترسی سریعنقشه…
راهنمای راهاندازی مدل Grok 4 در Cursor با استفاده از xAI API مدلهای هوش مصنوعی…
مرورگرها مدتهاست فقط وسیلهای برای باز کردن وبسایتها بودهاند، اما حالا با معرفی مرورگر Genspark…
بهینهسازی پرامپتها در GPT-5 با استفاده از «Prompt Optimizer» با معرفی خانواده مدلهای GPT-5، اوپناِیآی…