אנתרופיק משיקה את אופוס 4.8, עם כנות כתכונה הרוצחת שלה
עקוב אחר ZDNET: הוסף אותנו כמקור מועדף בגוגל.
נקודות המפתח של ZDNET
- קלוד אופוס 4.8 מבטיח תשובות AI כנות יותר.
- זרימות עבודה דינמיות יכולות להפעיל מאות סוכני משנה של קלוד.
- מצב מהיר נהיה זול יותר, בעוד התמחור הרגיל של Opus נשאר על כנו.
דיוגנס היה פילוסוף יווני מהמאה הרביעית לפני הספירה הידוע באמנות המיצג שלו. אומרים שהוא שוטט ב רחובות אתונה באמצע היום, נושא פנס דולק, זועק: "אני מחפש אדם ישר". אם המיתוס הזה היה מודרניזציה לימינו, כולנו היינו מחפשים בינה מלאכותית כנה.
אנתרופיק מכריזה ומשחררת את קלוד אופוס 4.8, מודל שפה גדול שלדעתה היה יכול לספק את משימתו של דיוגנס.
"אחד השיפורים הבולטים ב-Opus 4.8 הוא הכנות שלו", אמרה החברה ביום חמישי בפוסט בבלוג.
כמו כן: סוכני קלוד שלך יכולים 'לחלום' עכשיו – איך עובד הפיצ'ר החדש של אנתרופיק
כעת, אולי, דגם החזית החדש הזה יתנהג טוב יותר. Anthropic מדווח כי אופוס 4.8 נוטה פחות להעלות טענות שאינן נתמכות. זה גם סביר יותר לומר לך כאשר אין ודאות לגבי תשובה.
"הדבר בא לידי ביטוי בהערכות שלנו, שמראות שלאופוס 4.8 יש סבירות נמוכה פי 4 מקודמו לאפשר לפגמים בקוד שהוא נכתב לעבור ללא הערה", אמרה החברה.
ב-Cloud Code, מצאתי את Opus 4.7 כשיפור משמעותי לעומת 4.6. בעוד ש-4.6 לעתים קרובות מפרש הוראות שגוי או מספק תוצאות שגויות, אופוס 4.7 אומר לי באופן קבוע שהדרך שבה הוא הסתכל לראשונה על בעיה לא עבדה, והיא נוקטת בטקטיקה אחרת. מטלות הפרויקט האחרונות הראו מידה רבה יותר של הבנה מאשר עם 4.6.
אז בהתחשב בקפיצה באיכות מ-4.6 ל-4.7, שהיתה בולטת באופן סובייקטיבי למדי לאורך מפגשים רבים, אני מקווה שנראה את אותו הדבר בזינוק מ-4.7 ל-4.8.
וגם: 5 המיתוסים של אפוקליפסת הקידוד האגנית
נראה שזה המקרה, לפחות לפי טום פריצ'רד, מהנדס צוות ב-Spotify, שכבר בדק את אופוס 4.8.
"לקלוד אופוס 4.8 יש כושר שיפוט טוב יותר באופן ניכר. ב-Cloud Code, הוא שואל את השאלות הנכונות, תופס את הטעויות של עצמו, דוחק לאחור כאשר תוכנית לא נכונה, ובונה ביטחון סביב מחקרים מורכבים ורב-שירותיים לפני ביצוע שינויים גדולים. זה מודל נהדר לבנות איתו", אמר בפוסט בבלוג.
זה יהיה נחמד.
עניין של מאמץ
לקלוד קוד יש את היכולת להגדיר מאמץ מאז 4.7 לפחות (לפחות, אז שמתי לב לזה לראשונה). המאמץ הוא בעצם מדד לכמה AI ממריץ המודל על בעיה, נמדד באסימונים.
ב-Opus 4.8, ברירת המחדל של קלוד קוד של מאמץ גבוה מייצרת את מה שהחברה אמרה הוא "האיזון הכולל הטוב ביותר בין איכות וחוויית משתמש". במשימות קידוד, ברירת מחדל זו מוציאה מספר דומה של אסימונים לרמת ברירת המחדל המוצעת ב- Claude Code Opus 4.7, אך עם ביצועים טובים יותר.
כמו כן: Mythos של Anthropic מתפתח מהר מהצפוי, מדווחת סוכנות הבטיחות בינה מלאכותית
יכולת המאמץ הזו עוברת כעת קלוד.אי ו- Cowork. עם הגדרות מאמץ גבוהות יותר, קלוד "יחשוב בתדירות גבוהה יותר ויותר עמוק". עם ערכת מאמץ נמוכה יותר, קלוד מגיב מהר יותר, והמשתמשים יגלו שחווית ה-AI שלהם מצטמצמת פחות.
זרימות עבודה דינמיות
בזמן ההשקה, תכונה זו לא הוגדרה במלואה, אבל היא מעניינת. הושק כתצוגה מקדימה של מחקר, Opus 4.8 יכול לתכנן עבודה, להפעיל מאות סוכני משנה מקבילים בהפעלה אחת, ולאמת פלטים לפני דיווח. תכונה זו מיועדת למשימות בקנה מידה גדול מאוד. הדוגמה שנתנה אנטרופיק הייתה הגירה בקנה מידה של בסיס קוד על פני מאות אלפי קווים.
נראה שקלוד יכול ליצור ולנהל את זרימת העבודה ככל שהמשימה מתפתחת. במקום לברוח מתוכנית קבועה, סוכנים יכולים לשנות את סדרי העדיפויות והמשימות שלהם על סמך מה שהם מוצאים בזמן עבודתם. זה יכול להיות חזק.
כמו כן: הכלי Claude Security החדש של Anthropic סורק את בסיס הקוד שלך לאיתור פגמים – ועוזר לך להחליט מה לתקן קודם
אנתרופיק אמרה שסוכני המשנה מאמתים את התוצאות שלהם לפני שהם מדווחים למשתמשים. אם קלוד מתאם מאות סוכני משנה, המשתמשים צריכים את זה כדי להבחין באי ודאות, הנחות רעות ותפוקות כושלות.
מעניין, זה מתקשר ישר לטענות היושר שנדונו בתחילת המאמר. אם קלוד מתכוון להשיק "אלפי סוכנים", השגת תוצאות אמינות ובדוקות באמת חשובה, כי אין שום סיכוי שפיקוח אנושי יכול לעמוד בקצב בעצמו.
יכולת זרימות העבודה הדינמיות תהיה זמינה למשתמשי קלוד קוד בתוכניות Enterprise, Team ומקס.
מחיר וזמינות
אנתרופיק אמר כי קלוד אופוס 4.8 זמין בכל מקום ביום חמישי דרך קלוד ו-API של קלוד כקלוד-אופוס-4-8.
בפועל, במיוחד אם אתה משתמש ב-Cloud Code, ייתכן שתגלה שתצטרך להפעיל מחדש את ההפעלה שלך או לחכות יום בערך עד ש-Claude Code יבחין בכך. כשAnthropic קפצה על Opus 4.6 ל-4.7, כל הזמן שאלתי את קלוד קוד באיזה דגם הוא משתמש, ורק למחרת בבוקר הוא הפסיק לדווח על Opus 4.6 והתחיל לדווח על Opus 4.7.
התמחור הכולל לא השתנה מאז אופוס 4.7. תמחור רגיל מבוסס אסימון נשאר 5 דולר למיליון אסימוני קלט ו-25 דולר למיליון אסימוני פלט.
כמו כן: מנהל זה מציע 4 דרכים להיות חדשן מצליח בעידן הבינה המלאכותית הסוכנת
מהחברה נמסר כי מצב מהיר, המאפשר לדגם לעבוד במהירות של פי 2.5 מהמצב הרגיל, יהיה "פי שלושה יותר זול ממה שהיה בדגמים קודמים". אמנם אני לא מוציא על מצב מהיר, אבל אני רואה את הערעור. צפיתי בא מִגרָשׁ של YouTube, מחכה שקלוד קוד יגיב להנחיה, שעה אחרי שעה.
האם אתה מעדיף שקלוד יגיב מהר יותר במאמץ נמוך יותר או יחשוב יותר במאמץ גבוה יותר? ספר לנו בתגובות למטה.
אתה יכול לעקוב אחר עדכוני הפרויקט היומיומיים שלי ברשתות החברתיות. הקפד להירשם ל עלון העדכונים השבועי שליועקבו אחרי בטוויטר/X ב- @DavidGewirtzבפייסבוק בכתובת Facebook.com/DavidGewirtzבאינסטגרם בכתובת Instagram.com/DavidGewirtzבבלוסקי בשעה @DavidGewirtz.comוב-YouTube ב- YouTube.com/DavidGewirtzTV.