پایگاه خبری هوش مصنوعی سیمرغ – OpenAI جدیدترین چتبات پیشرفته خود را که قابلیت مکالمه صوتی دارد، امروز عرضه کرده است؛ البته فعلاً برای برخی کاربران.
چتبات جدید: نسل بعدی دستیارهای صوتی
این چتبات جدید نشاندهنده تلاش OpenAI برای ورود به نسل جدیدی از دستیاران صوتی مجهز به هوش مصنوعی مانند سیری و الکسا است، اما با قابلیتهای بسیار بیشتر برای مکالمات طبیعی و روانتر. این چتبات گامی در جهت توسعه کاملتر عوامل هوش مصنوعی است. چتبات صوتی جدید ChatGPT میتواند لحنهای مختلف صدا را تشخیص دهد، به وقفهها پاسخ دهد و به سوالات در زمان واقعی پاسخ دهد. همچنین آموزش دیده است تا صدایی طبیعیتر داشته باشد و با استفاده از صداها، طیف گستردهای از احساسات را منتقل کند.
قابلیتهای جدید GPT-4o
قابلیت صوتی این چتبات با مدل جدید GPT-4o از OpenAI که ترکیبی از قابلیتهای صوتی، متنی و تصویری است، پشتیبانی میشود. برای جمعآوری بازخورد، این شرکت ابتدا چتبات را برای “گروه کوچکی از کاربران” که اشتراک ChatGPT Plus دارند، عرضه میکند، اما اعلام کرده که این چتبات را تا پاییز برای همه مشترکین ChatGPT Plus در دسترس قرار خواهد داد. هزینه اشتراک ChatGPT Plus ماهیانه ۲۰ دلار است. OpenAI اعلام کرده است که به مشتریانی که در موج اول عرضه قرار دارند، در برنامه ChatGPT اطلاع داده و دستورالعملهای استفاده از مدل جدید را ارائه خواهد داد.
تاخیر در راهاندازی به دلیل بهبود ایمنی
قابلیت صوتی جدید که در ماه مه اعلام شد، یک ماه دیرتر از برنامه اولیه راهاندازی میشود، زیرا شرکت اعلام کرده که نیاز به زمان بیشتری برای بهبود ویژگیهای ایمنی مانند توانایی مدل برای تشخیص و رد محتوای ناخواسته داشته است. همچنین، این شرکت اعلام کرده که زیرساخت خود را برای ارائه پاسخهای زمانی واقعی به میلیونها کاربر آماده میکند.
آزمایشهای گسترده و مکانیزمهای ایمنی
OpenAI اعلام کرده است که تواناییهای صوتی مدل را با بیش از ۱۰۰ “ردتیمر” خارجی که وظیفه داشتند مدل را برای یافتن نقصها آزمایش کنند، امتحان کرده است. این تسترها به ۴۵ زبان صحبت کرده و نماینده ۲۹ کشور بودند.
این شرکت میگوید که چندین مکانیزم ایمنی را در نظر گرفته است. به عنوان مثال، برای جلوگیری از استفاده مدل برای ایجاد دیپفیکهای صوتی، چهار صدای پیشفرض را با همکاری بازیگران صداپیشه ایجاد کرده است. GPT-4o صدای دیگران را تقلید نمیکند و یا ایجاد نمیکند.
جلوگیری از سوءاستفاده و مشکلات حقوقی
هنگامی که OpenAI برای اولین بار GPT-4o را معرفی کرد، شرکت با انتقاداتی درباره استفاده از صدایی به نام “Sky” که بسیار شبیه به بازیگر اسکارلت جوهانسون بود، مواجه شد. جوهانسون بیانیهای منتشر کرد و گفت که شرکت برای استفاده از صدایش از او اجازه خواسته بود که او نپذیرفت. او گفت که شوکه شده است که صدایی “بسیار شبیه” به صدای او در دمو مدل شنیده شد. OpenAI انکار کرده که این صدا صدای جوهانسون است، اما استفاده از Sky را متوقف کرده است.
ماجرای صدای Sky و انتقادات
این شرکت همچنین در چندین دعوی حقوقی بر سر ادعای نقض حق نسخهبرداری درگیر است. OpenAI میگوید که فیلترهایی را برای شناسایی و مسدود کردن درخواستهای تولید موسیقی یا سایر صوتهای دارای حق نسخهبرداری به کار گرفته است. همچنین اعلام کرده که همان مکانیزمهای ایمنی را که در مدل متنی خود استفاده میکند، در GPT-4o به کار برده تا از نقض قوانین و تولید محتوای مضر جلوگیری کند.
در آینده، OpenAI قصد دارد ویژگیهای پیشرفتهتری مانند اشتراکگذاری ویدئو و صفحه نمایش را نیز اضافه کند که میتواند دستیار را کاربردیتر کند. در دمو ماه مه، کارکنان دوربینهای تلفن خود را به سمت یک تکه کاغذ نشانه رفتند و از مدل هوش مصنوعی خواستند تا در حل معادلات ریاضی کمک کند. همچنین صفحه نمایش کامپیوترهای خود را به اشتراک گذاشته و از مدل خواستند تا در حل مسائل کدنویسی کمک کند. OpenAI میگوید این ویژگیها اکنون در دسترس نخواهند بود، اما در تاریخ نامعلومی در آینده اضافه خواهند شد.