معرفی Runner H
در دنیای پرشتاب امروز، جایی که زمان ارزشمندترین دارایی ماست، ایدهی سپردن کارهای تکراری و زمانبر به هوش مصنوعی، دیگر یک فانتزی علمی-تخیلی نیست، بلکه به واقعیتی ملموس تبدیل شده است. هوش مصنوعی دیگر صرفاً به تجزیه و تحلیل دادهها یا پاسخ به سوالات محدود نمیشود؛ اکنون، عاملهای هوش مصنوعی (AI Agents) در حال ورود به مرحلهای جدید هستند که نه تنها میتوانند ایدهها را درک کنند، بلکه به طور مستقل و فعالانه آنها را به اجرا درآورند. در این میان، Runner H، محصولی انقلابی از H Company، نمونهای درخشان از این نسل جدید از هوش مصنوعی است که نویدبخش آیندهای روشن برای اتوماسیون وب و فراتر از آن است. بیایید با هم به عمق قابلیتها و فناوریهای پشت پرده این “سیمرغ” دنیای اتوماسیون بپردازیم.
از Notion تا اجرا: واقعیت یک رویا
تصور کنید لیستی از وظایف روزانه خود را در Notion ثبت کردهاید. این لیست شامل کارهایی مانند “بررسی ایمیلها”، “پاسخ به ۱۰ درخواست پشتیبانی”، “بهروزرسانی اطلاعات مشتریان در CRM” یا حتی “پر کردن فرمهای آنلاین” است. اکنون Runner H پا به میدان میگذارد. این سیستم هوشمند قادر است لیست وظایف شما را بخواند و سپس، بدون دخالت انسانی، تک تک آنها را با دقت و سرعت بالا به انجام برساند. این توانایی، فراتر از اتوماسیونهای ساده “اگر-آنگاه” (If-Then) است و نشاندهندهی درک عمیقتر و قابلیتهای اجرایی پیچیدهتر هوش مصنوعی است.
قلب تپنده Runner H: پیشتازی در بنچمارکها
یکی از شاخصهای اصلی عملکرد یک عامل هوش مصنوعی، توانایی آن در پیمایش و تعامل با محیطهای پیچیده مانند وب است. WebVoyager یک بنچمارک معتبر و شناختهشده در این زمینه است که عملکرد عاملهای هوش مصنوعی را در سناریوهای واقعی وبگردی و انجام وظایف ارزیابی میکند. نتایج ارزیابیهای گستردهی Runner H 0.1 در WebVoyager، به وضوح برتری قابل توجه این عامل را نسبت به رقبای خود اثبات میکند.
جدول ۱: مقایسه نرخ موفقیت در WebVoyager
عامل هوش مصنوعی | نرخ موفقیت (WebVoyager) |
---|---|
Runner H 0.1 | ۶۷% |
Emergence AgentE | ۶۱% |
Anthropic Computer Use | ۵۲% |
WebVoyager Original Implementation | ۴۹.۹% |
همانطور که در جدول ۱ مشاهده میشود، Runner H با نرخ موفقیت ۶۷٪، نه تنها از نسخهی اصلی WebVoyager (۴۹.۹٪) و Anthropic Computer Use (۵۲٪) که توسط Anthropic ارائه شده، بلکه از Emergence AgentE (۶۱٪) که به عنوان یکی از بهترین عاملهای متن-محور شناخته میشود، نیز پیشی گرفته است. این دادهها، که در نوامبر ۲۰۲۴ و به صورت تقریباً همزمان از ایالات متحده آمریکا جمعآوری شدهاند، نشاندهندهی استحکام و قابلیت اطمینان فناوری پشت پرده Runner H در مواجهه با وبسایتهای زنده و عمومی است. استفاده از روش ارزیابی خودکار مبتنی بر GPT-4o، که پاسخ عامل را با اسکرینشاتهای جمعآوری شده مقایسه میکند، دقت و صحت نتایج را تضمین میکند.
چشمان تیزبین Runner H: H-VLM (مدل زبان بصری)
برای اینکه یک عامل هوش مصنوعی بتواند در محیط وب تعامل مؤثری داشته باشد، نیاز به “دیدن” و “درک” رابطهای کاربری گرافیکی دارد. اینجاست که H-VLM، مدل زبان بصری (Vision Language Model) اختصاصی Runner H، وارد عمل میشود. این مدل ۳ میلیارد پارامتری به طور خاص برای درک، تفسیر و تعامل با اطلاعات بصری آموزش دیده است.
H-VLM در انجام وظایف زیر توانایی بالایی دارد:
- توصیف و مکانیابی عناصر: قادر به شناسایی و مشخص کردن موقعیت دکمهها، فرمها، تصاویر و سایر عناصر در یک اسکرینشات است.
- استخراج اطلاعات کلیدی: میتواند متن و اطلاعات مهم را از تصاویر و اسکرینشاتها استخراج کند.
- تفسیر نمودارها و اسناد: قادر به درک ساختار و محتوای نمودارها، چارتها و اسناد پیچیده است.
در بنچمارک Screenspot، که توانایی مدلها را در انجام اقدامات روی رابط کاربری گرافیکی (مانند کلیک کردن روی یک دکمه بر اساس دستورالعمل متنی) ارزیابی میکند، H-VLM عملکرد خیرهکنندهای از خود نشان داده است. این مدل، با دقت ۸۰٪، به مراتب دقیقتر از مدلهای بسیار بزرگتر عمومی مانند Sonnet 3.5 (با دقتی تا ۲۵٪) یا GPT-4o (با دقت ۱۴٪) عمل میکند.
جدول ۲: مقایسه دقت Screenspot بر اساس اندازه مدل
مدل | اندازه (میلیارد پارامتر) | دقت Screenspot |
---|---|---|
H VLM 3B | ۳ | ۸۰% |
SeeClick | ۹ | ۵۳% |
Qwen2-VL 7B (Alibaba) | ۷ | ۴۳% |
Sonnet 3.5 (Anthropic) | NA | ۲۵% |
Fuyu (Adept) | ۸ | ۲۰% |
Pixtral Large (Mistral) | ۱۲۴ | ۲۰% |
Sonnet 3.5 – computer use (Anthropic) | NA | ۱۴% |
GPT-4o (OpenAI) | NA | ۱۴% |
Pixtral 12B (Mistral) | ۱۲ | ۷% |
Phi 3.5 (Microsoft) | ۴ | ۴% |
این برتری نشان میدهد که H-VLM نه تنها از نظر دقت بسیار قوی است، بلکه به دلیل اندازه کوچکتر (۳ میلیارد پارامتر)، هزینههای سرویسدهی آن نیز به مراتب کمتر و سرعت آن بیشتر است. این ویژگیها برای کاربرد در مقیاس وسیع و دنیای واقعی حیاتی هستند.
مغز متفکر Runner H: H-LLM (مدل زبان بزرگ)
علاوه بر چشمان تیزبین H-VLM، Runner H به یک “مغز” قدرتمند نیز نیاز دارد. این نقش را H-LLM، خانوادهای از مدلهای زبان بزرگ داخلی H Company، ایفا میکند. این مدلها به طور خاص برای “عصر عاملهای هوشمند” طراحی شدهاند و هم مهارتهای برنامهنویسی بنیادی و هم توانایی تصمیمگیری در سطح بالا را دارا هستند.
H-LLM ستون فقرات H-VLM را تشکیل میدهد و همچنین میتواند به تنهایی در نقشهای متنی برای عاملها به کار گرفته شود. جالب اینجاست که مدل دو میلیارد پارامتری H-LLM در تستهای میانگین عملکرد کد و فراخوانی توابع، از بسیاری از مدلهای بزرگتر نیز بهتر عمل کرده است. این نتایج شامل بنچمارکهای معتبر HumanEval، HumanEval+، MBPP، MBPP+ برای کد و مجموعه دادههای BFCL برای فراخوانی توابع است. برای اطمینان از ارزیابی منصفانه، دادههای آموزشی با حذف هر سند حاوی همپوشانی ۸-گرم کلمات با پرامپتهای بنچمارکهای اصلی پاکسازی شدهاند.
**جدول ۳: میانگین عملکرد کد و فراخوانی توابع (بر اساس %) **
مدل | BFCL non-live exec accuracy | BFCL non-live acc accuracy | BFCL irrelevance accuracy | Function Calling Average | HumanEval | HumanEval+ | MBPP | MBPP+ | Code Average | Average performance |
---|---|---|---|---|---|---|---|---|---|---|
H-2B-lt | ۸۳.۵% | ۷۸.۶% | ۲۰.۸% | ۶۰.۹% | ۷۵.۶% | ۶۹.۵% | ۷۰.۱% | ۶۱.۳% | ۶۹.۱% | ۶۵.۰% |
Llama3.2 3B-lt | ۴۲.۱% | ۲۲.۰% | ۸۲.۵% | ۴۸.۸% | ۶۱.۵% | ۵۳.۶% | ۶۳.۴% | ۵۲.۶% | ۵۷.۸% | ۵۳.۳% |
Mistral-3B-lt | ۸۴.۱% | ۷۹.۹% | ۹.۵% | ۵۷.۸% | ۷۵.۶% | ۷۰.۷% | ۵۹.۵% | ۵۲.۳% | ۶۴.۵% | ۶۱.۲% |
Llama3.1 8B-lt | ۷۵.۸% | ۷۵.۵% | ۱۷.۰% | ۵۶.۱% | ۶۷.۰% | ۵۷.۹% | ۷۱.۶% | ۶۱.۶% | ۶۴.۵% | ۶۰.۳% |
Mistral-8B-lt | ۸۷.۵% | ۸۳.۸% | ۵.۴% | ۵۸.۹% | ۷۹.۲% | ۷۳.۱% | ۶۷.۲% | ۵۷.۱% | ۶۹.۲% | ۶۴.۰% |
همانطور که در جدول ۳ مشاهده میشود، H-2B-lt با میانگین عملکرد ۶۵٪، از تمام مدلهای دیگر از جمله Mistral-8B-lt (۶۴٪) و Llama3.2 3B-lt (۵۳.۳٪) پیشی گرفته است. این نتایج نشاندهندهی توانایی بالای مدلهای اختصاصی H Company در حوزههای تخصصی است.
Studio: پلتفرم جامع برای سازندگان اتوماسیون
Runner H فقط یک عامل هوش مصنوعی نیست؛ بلکه بخشی از یک اکوسیستم بزرگتر به نام Studio است. Studio پلتفرمی است که به توسعهدهندگان – و در آینده به همه – امکان میدهد تا به راحتی اتوماسیونهای قوی و آماده تولید را در مقیاس بزرگ ایجاد کنند.
از ویژگیهای کلیدی Studio میتوان به موارد زیر اشاره کرد:
- اتوماسیون وب با زبان طبیعی: Runner H با درک دستورالعملهای زبان طبیعی، طراحی خودکار خطوط لوله اتوماسیون وب را امکانپذیر میسازد و نیاز به کارهای دستی و خستهکننده را از بین میبرد.
- انطباق با تغییرات UI و خودترمیمشوندگی: این عامل هوشمند قادر است به طور خودکار با تغییرات در رابط کاربری وبسایتها سازگار شود و خطاهای احتمالی را رفع کند، که منجر به اتوماسیونهای پایدارتر و کمتر شکننده میشود.
- تمرکز بر ارزش افزوده: توسعهدهندگان میتوانند به جای صرف زمان برای نگهداری از انتخابگرهای شکننده، بر روی معنای واقعی جریان کارها و توسعهی با ارزشتر تمرکز کنند.
- کاربردهای متنوع: Studio به شما اجازه میدهد تا اتوماسیونهای پیچیده برای سناریوهای مختلفی مانند:
- تجارت الکترونیک سرتاسر: از کشف محصول تا تأیید سفارش.
- آنبوردینگ خدمات مالی: پیشپر کردن فرآیندهای تأیید چند مرحلهای، آپلود اسناد و بررسیهای انطباق.
نگاهی به آینده: برنامه، ببین، اجرا کن، تکرار کن!
تیمهای مهندسی و تحقیقاتی H Company، با پیگیری چشمانداز بزرگ خود، گامهای عظیمی برداشتهاند. Runner H قادر است اتوماسیون در سطح تولید را با قابلیت اطمینان بیشتری نسبت به روشهای سنتی (مانند اتوماسیون صفحهنمایش) انجام دهد – به طور کارآمد، بیدردسر و در مقیاس بزرگ.
این سفر تنها آغاز راه است. چشمانداز نهایی H Company، تعامل با Runner H به همان اندازه طبیعی است که با یک همکار انسانی تعامل میکنیم. در آینده، شاهد پیشرفتهای بیشتری خواهیم بود:
- بهبود دقت و کارایی هزینه: از طریق تکنیکهای پیچیدهی مقیاس بزرگ مانند یادگیری تقویتی و تقطیر.
- قابلیتهای اشکالزدایی و آموزش: اضافه شدن این قابلیتها به Studio، توسعهدهندگان را قادر میسازد تا Runner H را برای انجام وظایف خاص خود آموزش دهند.
- تقویت جامعه توسعهدهندگان: از طریق محتوای فنی، پشتیبانی و رویدادها.
- استانداردهای امنیتی در سطح سازمانی: اطمینان از عملکرد ایمن و قابل اعتماد Runner H.
نتیجهگیری
Runner H و پلتفرم Studio، نشاندهندهی یک گام بزرگ رو به جلو در دموکراتیزه کردن عاملهای هوش مصنوعی هستند. H Company معتقد است که با کاهش پیچیدگی، فضای بیشتری برای نوآوری ایجاد میشود. با صرف زمان کمتر برای کارهای خستهکننده، آزادی تمرکز بر اهداف معنادار و خلاقیت فراهم میآید. و در نهایت، وقتی هوش مصنوعی را برای خود به کار میگیریم، میتوانیم کارهای مهمتری انجام دهیم.
این فقط اولین قدم در مسیر تحول است. Runner H نویدبخش عصری جدید است که در آن سیستمهای هوشمند میتوانند وظایف پیچیده را با قابلیت اطمینان بالا انجام دهند و به ما این امکان را میدهند تا بر روی آنچه واقعاً مهم است، متمرکز شویم. آیندهای که در آن هوش مصنوعی نه تنها ابزاری برای پاسخ به سوالات، بلکه همکار فعالی برای اجرای وظایف ماست، در حال شکلگیری است.
منبع: https://www.hcompany.ai