Fable 5 בדיוק קבע שיא ביצועי עבודה עצמאי של AI חדש – אבל הוא עדיין לא יכול להחליף בני אדם
עקוב אחר ZDNET: הוסף אותנו כמקור מועדף בגוגל.
נקודות המפתח של ZDNET
- Fable 5 מאיץ את שיעור ההצלחה של AI במשימות מרוחקות ל-16%.
- יכולות AI נשארות בכל המפה.
- ובכל זאת, כישורי הסוכנים "הוכפלו פי ארבעה תוך פחות משמונה חודשים", אמר CAIS.
לאחר הפסקה קצרה, דגם ה-Fable 5 המהולל של Anthropic חוזר, והוא מאפס את הרף לאוטומציה של העבודה.
ממשלת ארה"ב אישרה מחדש את המודל – שלדברי אנתרופיק חולק קווי דמיון עם Mythos 5, שעדיין זמין רק לשימוש של ארגונים נבחרים – ב-30 ביוני. אבל לפני שהוא נשלף, המרכז לבטיחות בינה מלאכותית (CAIS) נבדק Fable 5 על שלה מדד העבודה מרחוק (RLI), שוחרר באוקטובר 2025. הוא העיף את ה-Opus 4.8 של Anthropic ואת ה-GPT-5.5 של OpenAI, כל אחד חדש יחסית ונחשב למרשים, מהמים.
כמו כן: איך לנצח את אלגוריתם הבינה המלאכותית ולקבל את משרת החלומות שלך
RLI מודד "באיזו תדירות סוכני AI יכולים להשלים פרויקטים עצמאיים אמיתיים בעלי ערך כלכלי […] באיכות שלקוח משלם באמת יקבל", הסביר CAIS במחקר. אלה יכולים לכלול עיצוב גרפי ממוחשב, ניתוח נתונים, עבודת וידאו ועוד. כמו במבחני יכולת אנושית דומים אחרים, כל תוצר שהמודלים יוצרים מוערך על ידי בני אדם מול תוצר סטנדרטי מקצועי. שיעור האוטומציה המתקבל משקף את התפלגות הפרויקטים שבהם המעריכים מצאו את העבודה המקצועית או טובה יותר מהעבודה האנושית.
CAIS ביקשה מ-Fable 5, GPT-5.5 ו-Opus 4.8 לעצב דגם תלת-ממדי של טבעת אירוסין, ליצור מודעת וידאו ולמפות תכנית קומה, בין שאר הבדיקות. חוקרים נתנו לכל דגם קבצי קלט שנוצרו על ידי אדם כדי להתחיל, בדומה לאופן שבו הייתם מכינים פרילנסר אנושי עם מסמכים ומידע רלוונטיים לעבודה.
כמו כן: Mythos של Anthropic מתפתח מהר מהצפוי, מדווחת סוכנות הבטיחות בינה מלאכותית
Fable 5 הגיע לשיעור אוטומציה של 16.1%, שיא עבור המדד – ואופוס 4.8 כפול, שקיבל ציון של 8.3%. GPT-5.5 הגיע למקום השלישי עם 6.3%, אך CAIS ציין שכל שלושת הדגמים קיבלו ציון גבוה יותר מכל דגם שהוא הוערך עד כה.
"להקשר, המנהיג הקודם שפורסם עמד על 4.17% (אופוס 4.6 עם פיגום קלוד קווורק), והתחום הגיע לרמה של 2.5% כאשר RLI שוחרר", אמר CAIS. "הגבול גדל פי ארבעה תוך פחות משמונה חודשים, אות קונקרטי לכמה מהר מתקדמים סוכני AI בעלי יכולת כלכלית".
שיעורי אוטומציה שנמדדו על ידי CAIS מול רף ה-RLI שלה.
נִפרָד
CAIS ציינה שהבדיקות שלה נקטעו על ידי כך שהממשלה סגרה את Fable 5 באמצע יוני, אבל שאפילו תוצאות חלקיות אלו מייחדות את המודל.
"אפילו תחת ההנחה במקרה הגרוע ביותר ש-Fable 5 נכשל בכל פרויקט חסר, שיעור האוטומציה שלו עדיין יהיה 14.6%, גבוה מכל מודל אחר", אמרו החוקרים.
מה זה אומר עבור פרילנסרים
אמנם קצב האצת מודל הבינה המלאכותית הוא משמעותי תוך מספר חודשים בלבד, אבל זה לא מתורגם אוטומטית להחלפת עבודה עצמאית או אובדן על פני השטח. 16 אחוז עדיין לא קרובים ל-100%. מעבר לכך, למרות רווחים ניכרים, בינה מלאכותית אינה פתרון מושך ללא רבב עבור כל ארגון; חששות אבטחה וחסימות דרכים אחרות לאימוץ הופכים לעתים קרובות את שילוב כלי הבינה המלאכותית לאיטיים ותהליכים מרובי שלבים עבור רוב החברות, לפחות כדי להתחיל. על מנת להחליף באופן מלא פרילנסרים אנושיים, ארגונים יצטרכו ככל הנראה רשת של סוכנים כדי לבדוק אלמנטים כמו איכות עבודה, תקציב וציר זמן; הפשרה היא לא אחד לאחד.
כמו כן: הזמנתי את תאומים וקלוד לכתוב את תשובות המייל שלי – אבל רק אחת נשמעת כמוני
CAIS ניסתה להחליף את המעריך האנושי ב"שופט LLM", כביכול כדי לראות כמה רחוק הניסוי הזה יכול להתרחק באופן סביר מהאדם שבלולאה, אבל המודל נכשל.
"הערכת תוצר RLI היא כשלעצמה משימה תובענית וסוכנת", הסביר CAIS. "לעשות את זה כמו שצריך פירושו לפתוח את הקבצים של הפרויקט ביישומים המקצועיים הנכונים, להפעיל את היישומים האלה בצורה מוכשרת, ולגבש שיקול דעת כפי שלקוח היה עושה, מיומנויות השימוש במחשב שהסוכנים של היום עדיין החלשים בהם."
כמו כן: איך אני מגדיר מגבלות שימוש ב-OpenAI API כדי לעצור הוצאות יתר של סוכן וסיוטים אחרים של חיוב בינה מלאכותית
עם זאת, שיפור היכולות יכול לכווץ כמה הזדמנויות עצמאיות עבור חברות ספציפיות שכבר מצליחות לשלב בינה מלאכותית. בנוסף, אם מיומנויות השימוש במחשב הן המגבלה הנוכחית ומוכנות להשתפר בהתבסס על ההשקעה של התעשייה במודלים יותר ויותר סוכנים, החסימה הזו עלולה בסופו של דבר להיעלם. בקצב המודלים השתפרו בהשוואה לאמות מידה אחרות שמודדות מיומנות סוכן, שעשויה להגיע מוקדם יותר ממה שאנו יכולים לדמיין.
אם כבר מדברים על זמן: CAIS גם גילתה שכאשר משימה לוקחת יותר זמן לאדם, זה לא בהכרח אומר שיהיה קשה יותר ל-AI להשלים. ניתוח אופק זמן זה נכון לגבי קידוד, למשל, אך לא למערך הרחב יותר של משימות מרוחקות עבורן מודדים RLI. כרגע, קשה להסיק מכך מסקנות לעתיד.
"חלק מהעבודה המהירה לאיש מקצוע מיומן נשארת מחוץ להישג יד [for AI]כמו תמלול מוזיקה או בדיקת הפעלה של משחק בזמן אמת, בעוד שעבודה אחרת שתיקח לאדם שעות, כמו אמנות דיגיטלית או קידוד, מסתיימת על ידי הדגמים הנוכחיים תוך דקות", כתב CAIS.