فعال شدن قابلیت صوتی #OpenAI برای تعدادی از کاربران #ChatGPT
پایگاه خبری هوش مصنوعی سیمرغ – OpenAI جدیدترین چتبات پیشرفته خود را که قابلیت مکالمه صوتی دارد، امروز عرضه کرده است؛ البته فعلاً برای برخی کاربران.
این چتبات جدید نشاندهنده تلاش OpenAI برای ورود به نسل جدیدی از دستیاران صوتی مجهز به هوش مصنوعی مانند سیری و الکسا است، اما با قابلیتهای بسیار بیشتر برای مکالمات طبیعی و روانتر. این چتبات گامی در جهت توسعه کاملتر عوامل هوش مصنوعی است. چتبات صوتی جدید ChatGPT میتواند لحنهای مختلف صدا را تشخیص دهد، به وقفهها پاسخ دهد و به سوالات در زمان واقعی پاسخ دهد. همچنین آموزش دیده است تا صدایی طبیعیتر داشته باشد و با استفاده از صداها، طیف گستردهای از احساسات را منتقل کند.
قابلیت صوتی این چتبات با مدل جدید GPT-4o از OpenAI که ترکیبی از قابلیتهای صوتی، متنی و تصویری است، پشتیبانی میشود. برای جمعآوری بازخورد، این شرکت ابتدا چتبات را برای “گروه کوچکی از کاربران” که اشتراک ChatGPT Plus دارند، عرضه میکند، اما اعلام کرده که این چتبات را تا پاییز برای همه مشترکین ChatGPT Plus در دسترس قرار خواهد داد. هزینه اشتراک ChatGPT Plus ماهیانه ۲۰ دلار است. OpenAI اعلام کرده است که به مشتریانی که در موج اول عرضه قرار دارند، در برنامه ChatGPT اطلاع داده و دستورالعملهای استفاده از مدل جدید را ارائه خواهد داد.
قابلیت صوتی جدید که در ماه مه اعلام شد، یک ماه دیرتر از برنامه اولیه راهاندازی میشود، زیرا شرکت اعلام کرده که نیاز به زمان بیشتری برای بهبود ویژگیهای ایمنی مانند توانایی مدل برای تشخیص و رد محتوای ناخواسته داشته است. همچنین، این شرکت اعلام کرده که زیرساخت خود را برای ارائه پاسخهای زمانی واقعی به میلیونها کاربر آماده میکند.
OpenAI اعلام کرده است که تواناییهای صوتی مدل را با بیش از ۱۰۰ “ردتیمر” خارجی که وظیفه داشتند مدل را برای یافتن نقصها آزمایش کنند، امتحان کرده است. این تسترها به ۴۵ زبان صحبت کرده و نماینده ۲۹ کشور بودند.
این شرکت میگوید که چندین مکانیزم ایمنی را در نظر گرفته است. به عنوان مثال، برای جلوگیری از استفاده مدل برای ایجاد دیپفیکهای صوتی، چهار صدای پیشفرض را با همکاری بازیگران صداپیشه ایجاد کرده است. GPT-4o صدای دیگران را تقلید نمیکند و یا ایجاد نمیکند.
هنگامی که OpenAI برای اولین بار GPT-4o را معرفی کرد، شرکت با انتقاداتی درباره استفاده از صدایی به نام “Sky” که بسیار شبیه به بازیگر اسکارلت جوهانسون بود، مواجه شد. جوهانسون بیانیهای منتشر کرد و گفت که شرکت برای استفاده از صدایش از او اجازه خواسته بود که او نپذیرفت. او گفت که شوکه شده است که صدایی “بسیار شبیه” به صدای او در دمو مدل شنیده شد. OpenAI انکار کرده که این صدا صدای جوهانسون است، اما استفاده از Sky را متوقف کرده است.
این شرکت همچنین در چندین دعوی حقوقی بر سر ادعای نقض حق نسخهبرداری درگیر است. OpenAI میگوید که فیلترهایی را برای شناسایی و مسدود کردن درخواستهای تولید موسیقی یا سایر صوتهای دارای حق نسخهبرداری به کار گرفته است. همچنین اعلام کرده که همان مکانیزمهای ایمنی را که در مدل متنی خود استفاده میکند، در GPT-4o به کار برده تا از نقض قوانین و تولید محتوای مضر جلوگیری کند.
در آینده، OpenAI قصد دارد ویژگیهای پیشرفتهتری مانند اشتراکگذاری ویدئو و صفحه نمایش را نیز اضافه کند که میتواند دستیار را کاربردیتر کند. در دمو ماه مه، کارکنان دوربینهای تلفن خود را به سمت یک تکه کاغذ نشانه رفتند و از مدل هوش مصنوعی خواستند تا در حل معادلات ریاضی کمک کند. همچنین صفحه نمایش کامپیوترهای خود را به اشتراک گذاشته و از مدل خواستند تا در حل مسائل کدنویسی کمک کند. OpenAI میگوید این ویژگیها اکنون در دسترس نخواهند بود، اما در تاریخ نامعلومی در آینده اضافه خواهند شد.
۱۰۰ فرد تأثیرگذار حوزه هوش مصنوعی از دید رسانه هوش مصنوعی سیمرغ هوش مصنوعی در…
ChatGPT Pulse آغازگر نسلی تازه از دستیارهای هوش مصنوعی است؛ این مدل از پاسخ به…
نقشه راه فریلنسرها برای تامین امنیت آینده شغلی در عصر هوش مصنوعی فهرست دسترسی سریعنقشه…
راهنمای راهاندازی مدل Grok 4 در Cursor با استفاده از xAI API مدلهای هوش مصنوعی…
مرورگرها مدتهاست فقط وسیلهای برای باز کردن وبسایتها بودهاند، اما حالا با معرفی مرورگر Genspark…
بهینهسازی پرامپتها در GPT-5 با استفاده از «Prompt Optimizer» با معرفی خانواده مدلهای GPT-5، اوپناِیآی…