تبدیل متن به صدا با مدل اکتاو از هیوم

تحریریه هوش مصنوعی سیمرغ

1 سال ago

رونمایی از مدل اکتاو شرکت Hume: انقلابی در فناوری تبدیل متن به گفتار

شرکت Hume با معرفی مدل پیشرفته «اکتاو» (Octave)، گام بلندی در حوزه هوش مصنوعی و فناوری تبدیل متن به گفتار (TTS) برداشته است. این مدل، که نخستین مدل زبانی بزرگ (LLM) به‌ویژه برای تولید گفتار طراحی شده، امکان خلق هر نوع صدایی را تنها با یک دستور متنی فراهم می‌کند و کاربران می‌توانند لحن، احساسات، و سبک بیان را به‌دلخواه تنظیم کنند.

مدل اکتاو با درک عمیق زمینه متن، سرعت، تأکید، و بیان را مانند یک گوینده واقعی تنظیم می‌کند و از سیستم‌های سنتی TTS که صرفاً کلمات را به‌صورت مکانیکی می‌خوانند، فراتر می‌رود. در یک مطالعه، این مدل موفق شد عملکرد بهتری نسبت به ElevenLabs، یکی از پیشگامان این حوزه، از خود نشان دهد:

۷۱.۶ درصد از شرکت‌کنندگان کیفیت صدای اکتاو را ترجیح دادند.
۵۱.۷ درصد معتقدند کیفیت خروجی آن طبیعی‌تر است و به صدای انسانی نزدیک تر است.
۵۷.۷ درصد معتقد بودند مدل اکتاو با توصیفات صوتی مطابقت بیشتری دارد.

اکنون کاربران می‌توانند با استفاده از استودیوی خلاقیت (Creator Studio) این شرکت، صداهایی منحصربه‌فرد تولید کنند، دستورالعمل‌ها را برای تنظیم احساسات و نحوه ارائه (مانند طنز، نجوا و غیره) تغییر دهند، و محتوایی طولانی‌مدت بسازند. مدل اکتاو با درک معنا و تأثیر آن بر بیان، گفتاری احساسی و مشابه انسان تولید می‌کند که تجربه‌ای بی‌نظیر در حوزه TTS ارائه می‌دهد.

ویژگی‌های کلیدی مدل اکتاو:
تولید صدا: با یک دستور ساده، هر صدایی که تصور کنید، از «مربی مدیتیشن با لهجه جنوبی» تا «کارآگاه فیلم نوآر» خلق می‌شود.
دستورالعمل‌های بازیگری: اکتاو نخستین سیستم TTS است که قابلیت دریافت دستورات زبانی طبیعی برای تغییر احساسات و سبک گفتار را دارد.
بیان آگاه از زمینه: این مدل با آموزش روی داده‌های زبانی ۱۰۰۰ برابر بیشتر از سیستم‌های سنتی، متن را مانند یک بازیگر انسانی درک کرده و احساسات، طعنه، سرعت، و تأکید مناسب را به‌طور طبیعی منتقل می‌کند.

جالب‌تر اینکه، با وجود قابلیت‌های برتر، اکتاو نسبت به رقبا هزینه‌ای مقرون‌به‌صرفه‌تر دارد. این نوآوری می‌تواند تحول عمیقی در تولید محتوا، از پادکست و دوبله تا کاربردهای تجاری و هنری ایجاد کند.

استیبل دیفیوژن۳.۵(Stable Diffusion)

تلگرام