اخبار و مقالات

رونمایی از چت‌بات پیشرفته OpenAI با قابلیت مکالمه صوتی

پایگاه خبری هوش مصنوعی سیمرغ – OpenAI جدیدترین چت‌بات پیشرفته خود را که قابلیت مکالمه صوتی دارد، امروز عرضه کرده است؛ البته فعلاً برای برخی کاربران.

چت‌بات جدید: نسل بعدی دستیارهای صوتی

این چت‌بات جدید نشان‌دهنده تلاش OpenAI برای ورود به نسل جدیدی از دستیاران صوتی مجهز به هوش مصنوعی مانند سیری و الکسا است، اما با قابلیت‌های بسیار بیشتر برای مکالمات طبیعی و روان‌تر. این چت‌بات گامی در جهت توسعه کامل‌تر عوامل هوش مصنوعی است. چت‌بات صوتی جدید ChatGPT می‌تواند لحن‌های مختلف صدا را تشخیص دهد، به وقفه‌ها پاسخ دهد و به سوالات در زمان واقعی پاسخ دهد. همچنین آموزش دیده است تا صدایی طبیعی‌تر داشته باشد و با استفاده از صداها، طیف گسترده‌ای از احساسات را منتقل کند.

قابلیت‌های جدید GPT-4o

قابلیت صوتی این چت‌بات با مدل جدید GPT-4o از OpenAI که ترکیبی از قابلیت‌های صوتی، متنی و تصویری است، پشتیبانی می‌شود. برای جمع‌آوری بازخورد، این شرکت ابتدا چت‌بات را برای “گروه کوچکی از کاربران” که اشتراک ChatGPT Plus دارند، عرضه می‌کند، اما اعلام کرده که این چت‌بات را تا پاییز برای همه مشترکین ChatGPT Plus در دسترس قرار خواهد داد. هزینه اشتراک ChatGPT Plus ماهیانه ۲۰ دلار است. OpenAI اعلام کرده است که به مشتریانی که در موج اول عرضه قرار دارند، در برنامه ChatGPT اطلاع داده و دستورالعمل‌های استفاده از مدل جدید را ارائه خواهد داد.

تاخیر در راه‌اندازی به دلیل بهبود ایمنی

قابلیت صوتی جدید که در ماه مه اعلام شد، یک ماه دیرتر از برنامه اولیه راه‌اندازی می‌شود، زیرا شرکت اعلام کرده که نیاز به زمان بیشتری برای بهبود ویژگی‌های ایمنی مانند توانایی مدل برای تشخیص و رد محتوای ناخواسته داشته است. همچنین، این شرکت اعلام کرده که زیرساخت خود را برای ارائه پاسخ‌های زمانی واقعی به میلیون‌ها کاربر آماده می‌کند.

آزمایش‌های گسترده و مکانیزم‌های ایمنی

OpenAI اعلام کرده است که توانایی‌های صوتی مدل را با بیش از ۱۰۰ “رد‌تیمر” خارجی که وظیفه داشتند مدل را برای یافتن نقص‌ها آزمایش کنند، امتحان کرده است. این تسترها به ۴۵ زبان صحبت کرده و نماینده ۲۹ کشور بودند.

این شرکت می‌گوید که چندین مکانیزم ایمنی را در نظر گرفته است. به عنوان مثال، برای جلوگیری از استفاده مدل برای ایجاد دیپ‌فیک‌های صوتی، چهار صدای پیش‌فرض را با همکاری بازیگران صداپیشه ایجاد کرده است. GPT-4o صدای دیگران را تقلید نمی‌کند و یا ایجاد نمی‌کند.

جلوگیری از سوءاستفاده و مشکلات حقوقی

هنگامی که OpenAI برای اولین بار GPT-4o را معرفی کرد، شرکت با انتقاداتی درباره استفاده از صدایی به نام “Sky” که بسیار شبیه به بازیگر اسکارلت جوهانسون بود، مواجه شد. جوهانسون بیانیه‌ای منتشر کرد و گفت که شرکت برای استفاده از صدایش از او اجازه خواسته بود که او نپذیرفت. او گفت که شوکه شده است که صدایی “بسیار شبیه” به صدای او در دمو مدل شنیده شد. OpenAI انکار کرده که این صدا صدای جوهانسون است، اما استفاده از Sky را متوقف کرده است.

ماجرای صدای Sky و انتقادات

این شرکت همچنین در چندین دعوی حقوقی بر سر ادعای نقض حق نسخه‌برداری درگیر است. OpenAI می‌گوید که فیلترهایی را برای شناسایی و مسدود کردن درخواست‌های تولید موسیقی یا سایر صوت‌های دارای حق نسخه‌برداری به کار گرفته است. همچنین اعلام کرده که همان مکانیزم‌های ایمنی را که در مدل متنی خود استفاده می‌کند، در GPT-4o به کار برده تا از نقض قوانین و تولید محتوای مضر جلوگیری کند.

در آینده، OpenAI قصد دارد ویژگی‌های پیشرفته‌تری مانند اشتراک‌گذاری ویدئو و صفحه نمایش را نیز اضافه کند که می‌تواند دستیار را کاربردی‌تر کند. در دمو ماه مه، کارکنان دوربین‌های تلفن خود را به سمت یک تکه کاغذ نشانه رفتند و از مدل هوش مصنوعی خواستند تا در حل معادلات ریاضی کمک کند. همچنین صفحه نمایش کامپیوترهای خود را به اشتراک گذاشته و از مدل خواستند تا در حل مسائل کدنویسی کمک کند. OpenAI می‌گوید این ویژگی‌ها اکنون در دسترس نخواهند بود، اما در تاریخ نامعلومی در آینده اضافه خواهند شد.

تحریریه هوش مصنوعی سیمرغ

Recent Posts

۱۰۰ فرد تأثیرگذار حوزه هوش مصنوعی در ایران، آمریکا و سایر نقاط جهان

۱۰۰ فرد تأثیرگذار حوزه هوش مصنوعی از دید رسانه هوش مصنوعی سیمرغ هوش مصنوعی در…

6 روز ago

ChatGPT Pulse: دستیار هوشمند شما

ChatGPT Pulse آغازگر نسلی تازه از دستیارهای هوش مصنوعی است؛ این مدل از پاسخ به…

1 هفته ago

از تهدید تا فرصت: نقشه راه فریلنسرها برای امنیت آینده شغلی

نقشه راه فریلنسرها برای تامین امنیت آینده شغلی در عصر هوش مصنوعی فهرست دسترسی سریعنقشه…

2 هفته ago

راهنمای راه‌اندازی مدل‌ Grok 4 در Cursor با استفاده از xAI API

راهنمای راه‌اندازی مدل‌ Grok 4 در Cursor با استفاده از xAI API مدل‌های هوش مصنوعی…

2 هفته ago

مرورگر هوش مصنوعی جنسپارک Genspark

مرورگرها مدت‌هاست فقط وسیله‌ای برای باز کردن وب‌سایت‌ها بوده‌اند، اما حالا با معرفی مرورگر Genspark…

2 هفته ago

Prompt Optimizer یا پرامپت آپتیمایزر چیست؟

بهینه‌سازی پرامپت‌ها در GPT-5 با استفاده از «Prompt Optimizer» با معرفی خانواده مدل‌های GPT-5، اوپن‌اِی‌آی…

2 هفته ago