فناوری

مدل Fara-7B مایکروسافت با وظایف پیچیده رونمایی شد + ویدیو

مدل Fara-7B مایکروسافت چگونه وب را می‌بیند

این مدل با همان ابزارهایی که انسان استفاده می‌کند، یعنی ماوس و صفحه‌کلید، رابط‌های کاربری را پیمایش می‌کند. مدل با مشاهده تصویری صفحات وب از طریق اسکرین‌شات‌ها، مختصات دقیق را برای اقداماتی مانند کلیک‌ کردن، تایپ‌ کردن و اسکرول‌ کردن پیش‌بینی می‌کند.

این مدل برخلاف بسیاری از سیستم‌ها به accessibility trees متکی نیست؛ ساختارهایی که مرورگرها برای توصیف صفحات وب به خوانشگرهای صفحه استفاده می‌کنند. در عوض، Fara-7B تنها به داده بصری در سطح پیکسل تکیه می‌کند. این روش ایجنت را قادر می‌سازد در سایت‌هایی با کد پیچیده یا مبهم نیز تعامل دقیقی داشته باشد.

به‌ گفته Yash Lara، مدیر ارشد محصول در مایکروسافت ریسرچ، پردازش همه ورودی‌های بصری روی دستگاه، نوعی «حاکمیت پیکسلی» ایجاد می‌کند، چرا که اسکرین‌شات‌ها و فرایند استدلالی ایجنت هرگز از دستگاه خارج نمی‌شود. او توضیح داد که این رویکرد به سازمان‌ها امکان می‌دهد به الزامات سختگیرانه حوزه‌های قانون‌گذاری‌شده مانند HIPAA و GLBA پایبند بمانند.

مدل Fara-7B مایکروسافت رونمایی شد

در آزمون‌های بنچمارک، این رویکرد تصویری عملکرد چشمگیری ایجاد کرده است. در WebVoyager، یکی از بنچمارک‌های استاندارد ایجنت‌های وب، Fara-7B موفق شد به نرخ موفقیت ۷۳.۵ درصد برسد؛ رقمی که از سیستم‌های بزرگ‌تر مانند GPT-4o در حالت CUA و مدل UI-TARS-1.5-7B نیز بهتر است.

کارایی و سرعت مدل Fara-7B مایکروسافت

مدل Fara-7B در مقایسه‌ها تنها در حدود ۱۶ مرحله یک وظیفه را کامل کرده است، در حالی که مدل UI-TARS-1.5 به حدود ۴۱ مرحله نیاز داشته است. این موضوع نشان می‌دهد که این مدل در عین کوچک بودن، از لحاظ کارایی بهینه است.

رونمایی از مدل Fara-7B مایکروسافت با وظایف پیچیده

مدیریت ریسک‌ها

شرکت مایکروسافت هشدار می‌دهد که Fara-7B نیز مانند دیگر مدل‌ها ممکن است دچار خطا، توهم یا کاهش دقت در وظایف پیچیده شود. برای کاهش این ریسک‌ها، مدل به‌گونه‌ای آموزش دیده است تا Critical Points را تشخیص دهد؛ نقاطی که انجام یک اقدام غیرقابل بازگشت مانند ارسال ایمیل یا تأیید تراکنش مالی نیازمند تأیید کاربر است. ایجنت در چنین لحظاتی مکث می‌کند و اجازه کاربر را درخواست می‌کند.

به‌ گفته Lara، حفظ تعادل میان این نقاط حساس و تجربه کاربری روان یک چالش کلیدی است و وجود رابط‌هایی مانند Magentic-UI برای مداخله کاربر ضروری می‌باشد.

فشرده‌سازی پیچیدگی در یک مدل کوچک

توسعه مدل Fara-7B بخشی از روند رو به رشد دانش‌تقطیر مایکروسافت است؛ جایی که توانایی‌های سیستم‌های بزرگ در مدلی کوچک و کارآمد فشرده می‌شود. مایکروسافت برای جمع‌آوری داده آموزشی به‌جای اتکا به داده پرهزینه انسانی، از یک خط داده مصنوعی مبتنی بر Magentic-One استفاده کرده است. در این سیستم چندایجنتی، یک Orchestrator برنامه‌ریزی می‌کرد و یک WebSurfer وظایف را در وب انجام می‌داد و ۱۴۵ هزار مسیر موفقیت‌آمیز تولید می‌شد.

سپس این داده‌ها در یک مدل تکی یعنی Fara-7B قرار گرفت؛ مدلی که بر پایه Qwen2.5-VL-7B ساخته شده است و از پنجره متنی بزرگ ۱۲۸ هزار توکنی و قابلیت اتصال قوی متن و تصویر بهره می‌برد.

مدل Fara-7B مایکروسافت معرفی شد

چشم‌انداز آینده

نسخه فعلی بر داده ثابت تکیه دارد، اما نسخه‌های آینده به جای بزرگ‌تر شدن بر «هوشمندتر شدن» تمرکز دارند. مایکروسافت قصد دارد با روش‌هایی مثل یادگیری تقویتی در محیط‌های ایزوله، رفتار ایجنت را به‌صورت زنده ارتقا دهد.

این مدل اکنون در Hugging Face و Microsoft Foundry با مجوز MIT عرضه شده است، اما Lara هشدار می‌دهد که Fara-7B هنوز آماده محیط‌های حساس عملیاتی نیست و بیشتر برای آزمایش و نمونه‌سازی اولیه مناسب است.

Source link

تیم تحریریه جهانی مگ

تیم تحریریه jahanimag.ir مجموعه‌ای از نویسندگان، پژوهشگران و تولیدکنندگان محتواست که با دقت، تخصص و نگاه حرفه‌ای تلاش می‌کند معتبرترین اطلاعات، تازه‌ترین اخبار و بهترین تحلیل‌ها را در اختیار خوانندگان قرار دهد. ما با تکیه بر استانداردهای روز تولید محتوا، همواره در تلاشیم تا تجربه‌ای لذت‌بخش، قابل اعتماد و الهام‌بخش برای مخاطبان خود خلق کنیم.

نوشته های مشابه

دکمه بازگشت به بالا