رونمایی از چت‌بات پیشرفته OpenAI با قابلیت مکالمه صوتی

فعال شدن قابلیت صوتی #OpenAI برای تعدادی از کاربران #ChatGPT

پایگاه خبری هوش مصنوعی سیمرغ – OpenAI جدیدترین چت‌بات پیشرفته خود را که قابلیت مکالمه صوتی دارد، امروز عرضه کرده است؛ البته فعلاً برای برخی کاربران.

چت‌بات جدید: نسل بعدی دستیارهای صوتی

این چت‌بات جدید نشان‌دهنده تلاش OpenAI برای ورود به نسل جدیدی از دستیاران صوتی مجهز به هوش مصنوعی مانند سیری و الکسا است، اما با قابلیت‌های بسیار بیشتر برای مکالمات طبیعی و روان‌تر. این چت‌بات گامی در جهت توسعه کامل‌تر عوامل هوش مصنوعی است. چت‌بات صوتی جدید ChatGPT می‌تواند لحن‌های مختلف صدا را تشخیص دهد، به وقفه‌ها پاسخ دهد و به سوالات در زمان واقعی پاسخ دهد. همچنین آموزش دیده است تا صدایی طبیعی‌تر داشته باشد و با استفاده از صداها، طیف گسترده‌ای از احساسات را منتقل کند.

قابلیت‌های جدید GPT-4o

قابلیت صوتی این چت‌بات با مدل جدید GPT-4o از OpenAI که ترکیبی از قابلیت‌های صوتی، متنی و تصویری است، پشتیبانی می‌شود. برای جمع‌آوری بازخورد، این شرکت ابتدا چت‌بات را برای “گروه کوچکی از کاربران” که اشتراک ChatGPT Plus دارند، عرضه می‌کند، اما اعلام کرده که این چت‌بات را تا پاییز برای همه مشترکین ChatGPT Plus در دسترس قرار خواهد داد. هزینه اشتراک ChatGPT Plus ماهیانه ۲۰ دلار است. OpenAI اعلام کرده است که به مشتریانی که در موج اول عرضه قرار دارند، در برنامه ChatGPT اطلاع داده و دستورالعمل‌های استفاده از مدل جدید را ارائه خواهد داد.

تاخیر در راه‌اندازی به دلیل بهبود ایمنی

قابلیت صوتی جدید که در ماه مه اعلام شد، یک ماه دیرتر از برنامه اولیه راه‌اندازی می‌شود، زیرا شرکت اعلام کرده که نیاز به زمان بیشتری برای بهبود ویژگی‌های ایمنی مانند توانایی مدل برای تشخیص و رد محتوای ناخواسته داشته است. همچنین، این شرکت اعلام کرده که زیرساخت خود را برای ارائه پاسخ‌های زمانی واقعی به میلیون‌ها کاربر آماده می‌کند.

آزمایش‌های گسترده و مکانیزم‌های ایمنی

OpenAI اعلام کرده است که توانایی‌های صوتی مدل را با بیش از ۱۰۰ “رد‌تیمر” خارجی که وظیفه داشتند مدل را برای یافتن نقص‌ها آزمایش کنند، امتحان کرده است. این تسترها به ۴۵ زبان صحبت کرده و نماینده ۲۹ کشور بودند.

این شرکت می‌گوید که چندین مکانیزم ایمنی را در نظر گرفته است. به عنوان مثال، برای جلوگیری از استفاده مدل برای ایجاد دیپ‌فیک‌های صوتی، چهار صدای پیش‌فرض را با همکاری بازیگران صداپیشه ایجاد کرده است. GPT-4o صدای دیگران را تقلید نمی‌کند و یا ایجاد نمی‌کند.

جلوگیری از سوءاستفاده و مشکلات حقوقی

هنگامی که OpenAI برای اولین بار GPT-4o را معرفی کرد، شرکت با انتقاداتی درباره استفاده از صدایی به نام “Sky” که بسیار شبیه به بازیگر اسکارلت جوهانسون بود، مواجه شد. جوهانسون بیانیه‌ای منتشر کرد و گفت که شرکت برای استفاده از صدایش از او اجازه خواسته بود که او نپذیرفت. او گفت که شوکه شده است که صدایی “بسیار شبیه” به صدای او در دمو مدل شنیده شد. OpenAI انکار کرده که این صدا صدای جوهانسون است، اما استفاده از Sky را متوقف کرده است.

ماجرای صدای Sky و انتقادات

این شرکت همچنین در چندین دعوی حقوقی بر سر ادعای نقض حق نسخه‌برداری درگیر است. OpenAI می‌گوید که فیلترهایی را برای شناسایی و مسدود کردن درخواست‌های تولید موسیقی یا سایر صوت‌های دارای حق نسخه‌برداری به کار گرفته است. همچنین اعلام کرده که همان مکانیزم‌های ایمنی را که در مدل متنی خود استفاده می‌کند، در GPT-4o به کار برده تا از نقض قوانین و تولید محتوای مضر جلوگیری کند.

در آینده، OpenAI قصد دارد ویژگی‌های پیشرفته‌تری مانند اشتراک‌گذاری ویدئو و صفحه نمایش را نیز اضافه کند که می‌تواند دستیار را کاربردی‌تر کند. در دمو ماه مه، کارکنان دوربین‌های تلفن خود را به سمت یک تکه کاغذ نشانه رفتند و از مدل هوش مصنوعی خواستند تا در حل معادلات ریاضی کمک کند. همچنین صفحه نمایش کامپیوترهای خود را به اشتراک گذاشته و از مدل خواستند تا در حل مسائل کدنویسی کمک کند. OpenAI می‌گوید این ویژگی‌ها اکنون در دسترس نخواهند بود، اما در تاریخ نامعلومی در آینده اضافه خواهند شد.

تحریریه هوش مصنوعی سیمرغ