رونمایی از مدل اکتاو شرکت Hume: انقلابی در فناوری تبدیل متن به گفتار
شرکت Hume با معرفی مدل پیشرفته «اکتاو» (Octave)، گام بلندی در حوزه هوش مصنوعی و فناوری تبدیل متن به گفتار (TTS) برداشته است. این مدل، که نخستین مدل زبانی بزرگ (LLM) بهویژه برای تولید گفتار طراحی شده، امکان خلق هر نوع صدایی را تنها با یک دستور متنی فراهم میکند و کاربران میتوانند لحن، احساسات، و سبک بیان را بهدلخواه تنظیم کنند.
مدل اکتاو با درک عمیق زمینه متن، سرعت، تأکید، و بیان را مانند یک گوینده واقعی تنظیم میکند و از سیستمهای سنتی TTS که صرفاً کلمات را بهصورت مکانیکی میخوانند، فراتر میرود. در یک مطالعه، این مدل موفق شد عملکرد بهتری نسبت به ElevenLabs، یکی از پیشگامان این حوزه، از خود نشان دهد:
- ۷۱.۶ درصد از شرکتکنندگان کیفیت صدای اکتاو را ترجیح دادند.
- ۵۱.۷ درصد معتقدند کیفیت خروجی آن طبیعیتر است و به صدای انسانی نزدیک تر است.
- ۵۷.۷ درصد معتقد بودند مدل اکتاو با توصیفات صوتی مطابقت بیشتری دارد.
اکنون کاربران میتوانند با استفاده از استودیوی خلاقیت (Creator Studio) این شرکت، صداهایی منحصربهفرد تولید کنند، دستورالعملها را برای تنظیم احساسات و نحوه ارائه (مانند طنز، نجوا و غیره) تغییر دهند، و محتوایی طولانیمدت بسازند. مدل اکتاو با درک معنا و تأثیر آن بر بیان، گفتاری احساسی و مشابه انسان تولید میکند که تجربهای بینظیر در حوزه TTS ارائه میدهد.
ویژگیهای کلیدی مدل اکتاو:
تولید صدا: با یک دستور ساده، هر صدایی که تصور کنید، از «مربی مدیتیشن با لهجه جنوبی» تا «کارآگاه فیلم نوآر» خلق میشود.
دستورالعملهای بازیگری: اکتاو نخستین سیستم TTS است که قابلیت دریافت دستورات زبانی طبیعی برای تغییر احساسات و سبک گفتار را دارد.
بیان آگاه از زمینه: این مدل با آموزش روی دادههای زبانی ۱۰۰۰ برابر بیشتر از سیستمهای سنتی، متن را مانند یک بازیگر انسانی درک کرده و احساسات، طعنه، سرعت، و تأکید مناسب را بهطور طبیعی منتقل میکند.
جالبتر اینکه، با وجود قابلیتهای برتر، اکتاو نسبت به رقبا هزینهای مقرونبهصرفهتر دارد. این نوآوری میتواند تحول عمیقی در تولید محتوا، از پادکست و دوبله تا کاربردهای تجاری و هنری ایجاد کند.