הבכורה האנתרופית של קלוד אופוס 4.8, מקניטת את ההשקה הקרובה של 'דוגמניות ברמת Mythos'
ביום חמישי השיקה אנתרופיק את קלוד אופוס 4.8, הגרסה העדכנית והמתקדמת ביותר של דגם הדגל שלה בינה מלאכותית. זה זמין בכל מקום באותו מחיר כמו קודמו, Opus 4.7 (5$ למיליון אסימוני קלט ו-25$ למיליון אסימוני פלט).
Opus 4.8 מתגאה בציונים מובילים בתעשייה במשימות כמו קידוד סוכן ושימוש סוכן במחשב, וזה שווה את הקורס למודל אנתרופי חדש. המבדיל העיקרי שמודגש על ידי החברה הוא "הכנות" של הדגם – ובהרחבה, האמינות הכוללת שלו.
לפי חברה פוסט בבלוגOpus 4.8 מתמחה בתפיסת טעויות משלה וסימון שלהן למשתמשים: "בעיה כללית עם מודלים של AI היא שלפעמים הם קופצים למסקנות, וטוענים בביטחון שהתקדמו בעבודתם למרות שהראיות דלות", כתבה החברה. "בודקים מוקדמים מדווחים ש-Opus 4.8 נוטה יותר לסמן אי ודאות לגבי עבודתו ופחות סביר להעלות טענות שאינן נתמכות."
לדוגמה, מייקל רן, עמית השקעות בכיר בחברת ניהול הנכסים ברידג'ווטר, צוטט בפוסט של Anthropic בבלוג ואמר כי Opus 4.8 הצליח "לסמן באופן יזום בעיות עם התשומות והפלטים של ניתוח, משהו שמודלים אחרים החמיצו באופן שגרתי והותירו למשתמשים לתפוס."
אופוס 4.8 גם מציג סיכון "נמוך משמעותית" להתנהגויות לא מיושרות ומסוכנות, כולל יצירת תוכן מיני מזיק ו"ערעור הדמוקרטיה הליברלית", על פי המודל של המודל כרטיס מערכת.
זרימות עבודה דינמיות ושליטה במאמץ
בנוסף למודל החדש, Anthropic הכריזה גם על השקת "זרימות עבודה דינמיות", תכונה חדשה הזמינה כעת כתצוגה מקדימה של מחקר, המאפשרת לקלוד להתמודד עם משימות קידוד מורכבות יותר על ידי פריסת מאות סוכני משנה שיכולים לעבוד במקביל זה לזה.
משתמשים יכולים לצפות לשיפור ניכר מ-Opus 4.8, במיוחד עבור משימות קידוד גדולות יותר, אבל זה לא משנה משחק. אנתרופיק אף ניסתה לגדר ציפיות, וכתבה בפוסט החדש בבלוג שלה ש-Opus 4.8 הוא "שיפור צנוע אך מוחשי מקודמו", Opus 4.7. הדגם הזה הופיע לראשונה לפני קצת יותר מחודש וקיבל תגובה מוקדמת פושטת ממשתמשים, שחלקם התלוננו שהתכונה "חשיבה אדפטיבית" שלו גרמה לו לפעמים להשקיע יותר מדי זמן במשימות שהיו אמורות להיות מהירות וקלות, ולא מספיק זמן במשימות שראויות למאמץ נוסף.
אולי בתגובה ישירה לתלונה הזו, אנתרופיק הודיעה ביום חמישי גם על השקת פאנל חדש של "בקרת מאמץ" (שנמצא בתפריט הנפתח של בורר הדגמים) עבור קלוד, המאפשר לך לבחור ידנית את כמות המאמץ – והאסימונים – שאתה רוצה שהיא תוציא במשימה נתונה. הוא מוגדר ל"נמוך" כברירת מחדל, ותוכל להעביר אותו ל"בינוני", "גבוה" ו-"מקסימום", או להפעיל מצב חשיבה מסתגלת.
"דוגמניות ברמה של מיתוס"
אנתרופיק גם הקניטה את הופעת הבכורה הקרובה של "מחלקה חדשה של מודל" עם יכולות שלכאורה נמצאות בשוויון לאלו של מיתוסהדוגמנית המסתורית שמעבירה צמרמורת קרה בעמוד השדרה של עמק הסיליקון. החברה עדיין לא פרסמה את המודל לציבור, תוך ציון כוחו חסר התקדים של המודל וסיכוני אבטחת הסייבר שלו.
לפי הפוסט החדש שלה בבלוג, Anthropic עובדת כעת על בדיקת אמצעי הגנה עבור Mythos ומצפה לשחרר "דגמים מסוג Mythos לכל הלקוחות שלנו בשבועות הקרובים".
ברור שזה מאוד מעורפל, כנראה בכוונה. הזמן יגיד אם הדגמים החדשים הללו עומדים בשמועות המוקדמות ומרסנות הפרדיגמה שהסתובבו סביב Mythos, או ש(סביר להניח יותר מאשר לא) קטגוריית הדגמים החדשה היא גרסה מרוככת באופן מהותי של ה-behemoth המקורי. מפתחי בינה מלאכותית, אחרי הכל, נוטים לשפר את היכולות והסכנות של הדגמים שלהם לפני שהם משוחררים, וברוב המקרים, המציאות לא ממש עונה על הציפיות. (זוכרים את כל ההתרגשות מכך ש-GPT-5 הוא AGI?) ואז שוב, אולי אנתרופיק באמת מוכנה לשחרר מודלים מטלטלים עולמיים שנחשבו לאיום קיומי על הביטחון העולמי רק לפני כמה חודשים. הזמן יגיד, ואנו נדווח ברגע שנדע יותר.