مدل Fara-7B مایکروسافت با وظایف پیچیده رونمایی شد + ویدیو
مدل Fara-7B مایکروسافت چگونه وب را میبیند
این مدل با همان ابزارهایی که انسان استفاده میکند، یعنی ماوس و صفحهکلید، رابطهای کاربری را پیمایش میکند. مدل با مشاهده تصویری صفحات وب از طریق اسکرینشاتها، مختصات دقیق را برای اقداماتی مانند کلیک کردن، تایپ کردن و اسکرول کردن پیشبینی میکند.
این مدل برخلاف بسیاری از سیستمها به accessibility trees متکی نیست؛ ساختارهایی که مرورگرها برای توصیف صفحات وب به خوانشگرهای صفحه استفاده میکنند. در عوض، Fara-7B تنها به داده بصری در سطح پیکسل تکیه میکند. این روش ایجنت را قادر میسازد در سایتهایی با کد پیچیده یا مبهم نیز تعامل دقیقی داشته باشد.
به گفته Yash Lara، مدیر ارشد محصول در مایکروسافت ریسرچ، پردازش همه ورودیهای بصری روی دستگاه، نوعی «حاکمیت پیکسلی» ایجاد میکند، چرا که اسکرینشاتها و فرایند استدلالی ایجنت هرگز از دستگاه خارج نمیشود. او توضیح داد که این رویکرد به سازمانها امکان میدهد به الزامات سختگیرانه حوزههای قانونگذاریشده مانند HIPAA و GLBA پایبند بمانند.

در آزمونهای بنچمارک، این رویکرد تصویری عملکرد چشمگیری ایجاد کرده است. در WebVoyager، یکی از بنچمارکهای استاندارد ایجنتهای وب، Fara-7B موفق شد به نرخ موفقیت ۷۳.۵ درصد برسد؛ رقمی که از سیستمهای بزرگتر مانند GPT-4o در حالت CUA و مدل UI-TARS-1.5-7B نیز بهتر است.
کارایی و سرعت مدل Fara-7B مایکروسافت
مدل Fara-7B در مقایسهها تنها در حدود ۱۶ مرحله یک وظیفه را کامل کرده است، در حالی که مدل UI-TARS-1.5 به حدود ۴۱ مرحله نیاز داشته است. این موضوع نشان میدهد که این مدل در عین کوچک بودن، از لحاظ کارایی بهینه است.

مدیریت ریسکها
شرکت مایکروسافت هشدار میدهد که Fara-7B نیز مانند دیگر مدلها ممکن است دچار خطا، توهم یا کاهش دقت در وظایف پیچیده شود. برای کاهش این ریسکها، مدل بهگونهای آموزش دیده است تا Critical Points را تشخیص دهد؛ نقاطی که انجام یک اقدام غیرقابل بازگشت مانند ارسال ایمیل یا تأیید تراکنش مالی نیازمند تأیید کاربر است. ایجنت در چنین لحظاتی مکث میکند و اجازه کاربر را درخواست میکند.
به گفته Lara، حفظ تعادل میان این نقاط حساس و تجربه کاربری روان یک چالش کلیدی است و وجود رابطهایی مانند Magentic-UI برای مداخله کاربر ضروری میباشد.
فشردهسازی پیچیدگی در یک مدل کوچک
توسعه مدل Fara-7B بخشی از روند رو به رشد دانشتقطیر مایکروسافت است؛ جایی که تواناییهای سیستمهای بزرگ در مدلی کوچک و کارآمد فشرده میشود. مایکروسافت برای جمعآوری داده آموزشی بهجای اتکا به داده پرهزینه انسانی، از یک خط داده مصنوعی مبتنی بر Magentic-One استفاده کرده است. در این سیستم چندایجنتی، یک Orchestrator برنامهریزی میکرد و یک WebSurfer وظایف را در وب انجام میداد و ۱۴۵ هزار مسیر موفقیتآمیز تولید میشد.
سپس این دادهها در یک مدل تکی یعنی Fara-7B قرار گرفت؛ مدلی که بر پایه Qwen2.5-VL-7B ساخته شده است و از پنجره متنی بزرگ ۱۲۸ هزار توکنی و قابلیت اتصال قوی متن و تصویر بهره میبرد.

چشمانداز آینده
نسخه فعلی بر داده ثابت تکیه دارد، اما نسخههای آینده به جای بزرگتر شدن بر «هوشمندتر شدن» تمرکز دارند. مایکروسافت قصد دارد با روشهایی مثل یادگیری تقویتی در محیطهای ایزوله، رفتار ایجنت را بهصورت زنده ارتقا دهد.
این مدل اکنون در Hugging Face و Microsoft Foundry با مجوز MIT عرضه شده است، اما Lara هشدار میدهد که Fara-7B هنوز آماده محیطهای حساس عملیاتی نیست و بیشتر برای آزمایش و نمونهسازی اولیه مناسب است.