מעקב אחר דגמי בינה מלאכותית: שיעורי אי-ההתאמה של Opus 4.8 דומים ל-Claude Mythos Preview

Elyse Betters Picaro/ZDNET

עקוב אחר ZDNET: הוסף אותנו כמקור מועדף בגוגל.

מעבדות AI שולחות דגמים חדשים ללא הפסקה. עם זאת, מלבד היותו טוב ומהיר יותר מקודמיהם, לא מובטח שכל דגם חדש יהווה שינוי צעד משמעותי, למרות שיחסי הציבור של החברה עשויים להיות פואטיים לגביהם. נקודות החוזק של המודל מופיעות בהקשר: היכן חסרים או מצטיינים מודלים מתחרים? לאילו דגמים יש התמחויות יוצאות דופן, ואילו רק מדביקים את הסטנדרטים של התעשייה?

כמו כן: כיצד אנו בודקים AI ב-ZDNET

המעקב אחר שחרור הדגמים שלנו עוזר לך להבין היכן דוגמניות עומדות אחת לשנייה, והאם הם שווים בדיקה מעמיקה יותר. אמנם איננו בודקים כל עדכון דגם או דגם ברשימה זו, אך תמיד נכלול את המרכיבים העיקריים שאתה צריך לדעת, יחד עם בדיקת המומחים המעשית שלנו, במידת הצורך. אנו כוללים גם ציון מומחה עבור דגמים מסוימים. סקרנים כיצד אנו בודקים AI? בדוק את הפירוט הזה של התהליך שלנו.

הנה כמה מהדגמים הגדולים ביותר של 2026 עד כה ומה לדעת עליהם. אנו נעדכן את הרשימה הזו בכל פעם שיגיע דגם חדש בולט.

סגור עבודה 4.8

אנתרופית | 28 במאי 2026

מה זה עושה: מחליף את Opus 4.7 החל מהיום (באותו מחיר), Opus 4.8 מציע מצבי חשיבה מהירים יותר בשליש מהעלות של הגרסה הקודמת, לפי Anthropic. כמו רוב הדגמים של אנתרופיק, 4.8 מעניק עדיפות ליכולות הקידוד, עם ציון גבוה מ-4.7 בשני אמות מידה של קידוד, אך אינו עולה במלואו על ה-GPT 5.5 של OpenAI. זה גם "מגיע לשיאים חדשים במדדים שלנו לגבי תכונות פרו-חברתיות כמו תמיכה באוטונומיה של המשתמש ופעולה לטובת המשתמש", ציינה החברה במהדורה, אם כי ההגדרות למה זה אומר נותרות עכורות.

כמו כן: Anthropic משיקה את אופוס 4.8, עם כנות כתכונה הרוצחת שלה

למה זה חשוב: Anthropic תמיד נתנה עדיפות לבטיחות ופרשנות של דגם, אבל נראה שהיא מדגישה עוד יותר את הסטנדרט הזה עם מהדורה זו. החברה מסרה כי ל-Opus 4.7 היה שיעור כנות של 92%, בנוסף להיותו פחות סיקופנטי ונוטה להזיות באופן כללי. העובדה שלטענתה 4.8 מראה שיעורי אי-יישור נמוכים "באופן מהותי" מ-4.7 מעידה על סטנדרט גבוה יותר ויותר לבטיחות הדגמים, במיוחד משום שאנתרופיק השווה את היישור של 4.8 לזה של Mythos Preview.

GPT-5.5 מיידי

OpenAI | 5 במאי 2026

מה זה עושה: אמר OpenAI בהודעתו שהגרסה הקלה יותר של ה-GPT-5.5 של OpenAI שיצאה זה עתה היא פחות מילולית מקודמו, GPT-5.3 Instant. הוא גם ציין פחות הזיות ושיפור העובדתיות, ואמר כי "GPT-5.5 Instant יצר 52.5% פחות טענות הזויות מאשר הנחיות GPT-5.3 Instant on-hierries המכסים תחומים כמו רפואה, משפטים ופיננסים."

כמו כן: Mythos של Anthropic מתפתח מהר מהצפוי, מדווחת סוכנות הבטיחות בינה מלאכותית

למה זה עניינים: GPT-5.5 Instant מחליף את GPT-5.3 כדגם ברירת המחדל ב-ChatGPT. שוב, בעוד שהציפייה היא שכל מודל בינה מלאכותית חדש נעשה יעיל יותר, קל יותר לשימוש ומרכיב פחות דברים, שיפור משמעותי בהזיות עבור מודל שרוב האנשים משתמשים בהם לשאילתות מהירות עשוי להיות פחות מידע שגוי שמתפשט בקרב ההמונים. זה קריטי במיוחד בהתחשב בכמה אנשים משתמשים ב-ChatGPT לשאלות בריאות יומיומיות, למשל.

(גילוי נאות: זיף דייויס, חברת האם של ZDNET, הגישה תביעה נגד OpenAI באפריל 2025, בטענה שהיא הפרה זכויות יוצרים של זיף דייויס בהדרכה ובהפעלת מערכות הבינה המלאכותית שלה.)

נמוטרון 3 ננו אומני

Nvidia | 28 באפריל, 2026

מה זה עושה: הדגם האחרון במשפחת הנמוטרון הפתוחה של Nvidia, מספק לסוכנים קלט רב-מודאלי. זה אומר שהם יכולים "לתפוס ולהגיב על פני קלט חזותי, אודיו וטקסטואלי בתוך לולאת תפיסה-פעולה משותפת אחת", לפי Nvidiaובכך מאחד יכולות מרובות למערכת אחת.

כמו כן: בינה מלאכותית היא מרוץ חימוש, וארה"ב רוצה 9 מיליארד דולר בשבבי-על של Nvidia כדי לעמוד בקצב

למה זה עניינים: בדרך כלל, מערכות של סוכנים צריכות להשתמש במודלים נפרדים לדיבור, חזון וטקסט, כלומר הם קופצים על פני מסמכים, וידאו ואודיו כדי להשלים משימות מרובות שלבים. זה מאט את זרימות העבודה, מערער את איסוף סוכני ההקשר וגוברת עלויות מסקנות. הגישה של Nvidia, אם היא תעבוד, תייעל את התהליך הזה ותפחית את השימוש באסימונים, ותחסוך לך כסף. נסה את זה ב-Huging Face.

GPT-5.5

OpenAI | 23 באפריל, 2026

ציון מומחה: 93/100

מה זה עושה: בודק ZDNET דיוויד Gewirtz נתן טכנית ל-GPT-5.5 ציון A-, אך אמר כי "ניתן לתאר אותו באופן רדוקטיבי כטוב ומהיר יותר מ-GPT-5.4", בתקווה שהיא הציפייה המינימלית לדגם חדש. עם זאת, באופן ספציפי, המודל השתפר בקידוד סוכן, זיהוי ברור של מושגים, מחקר מדעי ודיוק עובדתי.

כמו כן: העברתי את GPT-5.5 למבחן של 10 סיבובים: הוא קיבל 93/100, איבד נקודות רק בגלל התלהבות

למה זה חשוב: בעוד שהדגם עצמו אולי אינו מקדים את קודמו המיידי, התפנית המהירה מ-5.4 ל-5.4 – פחות מחודשיים – מעידה באיזו מהירות הקידוד הסוכן מאיץ את מחזור השחרור של המודל של OpenAI. בזמן שדיוויד גווירץ מתמוטט, החברה, בדומה למעבדות גבול אחרות המשתמשות בבינה מלאכותית לבניית בינה מלאכותית, שולחת עדכונים בקצב הולך וגובר באופן אקספוננציאלי.

תמונות ChatGPT 2

OpenAI | 23 באפריל, 2026

מה זה עושה: זמן קצר לאחר מכן השקיעה של סורהמודל הווידיאו הגנרטיבי והפלטפורמה החברתית שלה, OpenAI הכריזה בצורה קצת מבלבלת על Images 2. בודק המודלים של ZDNET David Gewirtz קיבל מבט מוקדם על Images 2 לפני שחרורו והתרשם. הוא אמנם לא נתן לדגם הזה ציון מומחה רשמי, אבל הוא אמר שזה כיף, קפיצת מדרגה עצומה, ולמעשה שימושי לעבודה.

למה זה חשוב: נראה היה ש-OpenAI יצאה ממשחק מוצרי הבינה המלאכותית הצרכנית יותר כשהיא הפסיקה את סורה, לאחר שספגה מכות על ידי אנתרופיק בהבטחת חוזי ארגונים משתלמים. זה ש-OpenAI עדיין יצא עם תמונות 2 בתוך נרטיב ההפניה מחדש מצביע על כך שהיא רואה במחוללי תמונות רלוונטיים מספיק ל-AI ארגוני – במיוחד בעקבות קלוד עיצוב של אנתרופיק.

סגור עבודה 4.7

אנתרופית | 16 באפריל, 2026

מה זה עושה: מגיע יחסית מהר אחרי אופוס 4.6, הדגם הזה מתהדר בשיאים חדשים בכנות, ירידה בהזיות והזיות. נראה שגם יש לו כישרון לאבטחת סייבר, שכן הוא מגבה את קלוד סקיוריטי החדש, שיצא זמן קצר לאחר הדגם עצמו – אבל לא, זה לא Mythos, כפי שחשדו רבים.

כמו כן: הכלי Claude Security החדש של Anthropic סורק את בסיס הקוד שלך לאיתור פגמים – ועוזר לך להחליט מה לתקן קודם

למה זה חשוב: הזיות וכנות הן מהבעיות הקשות ביותר, הקשות לפתרון, שמטרידות אפילו את הדוגמניות הטובות ביותר. עבור אנתרופיק לתבוע הישגים כה משמעותיים בתחומים אלה, זה לא דבר של מה בכך עבור מעבדת בינה מלאכותית שלוקחת את הבטיחות ברצינות.

קלוד מיתוס (תצוגה מקדימה)

אנתרופית | 7 באפריל, 2026

מה זה עושה: זהו אחד קשה כי Mythos למעשה אינו זמין לציבור. אנתרופיק יצרה סערה תקשורתית למדי כאשר מיקמה את הדגם החדש לשימוש כללי כעוצמתי מכדי לשחרר אותו כרגיל. בעוד שהדגם הוא ככל הנראה שינוי צעד מדגמים קודמים של אנתרופים, החברה נבהלה במיוחד בגלל האיום הביטחוני שהוא מהווה, קובעים זאת "הוא מסוגל להפליא במשימות אבטחת מחשבים."

בתגובה לכך, Anthropic הובילה את Project Glasswing, מאמץ שיתופי עם מספר מעבדות AI מתחרות, כולל גוגל, Nvidia ומיקרוסופט, כמו גם רשויות אבטחה כמו Palo Alto Networks, "כדי לעזור לאבטח את התוכנה הקריטית ביותר בעולם, ולהכין את התעשייה לפרקטיקות שכולנו נצטרך לאמץ כדי להקדים את תוקפי הסייבר".

כמו כן: אפל, גוגל ומיקרוסופט מצטרפות לפרויקט Glasswing של Anthropic כדי להגן על התוכנה הקריטית ביותר בעולם

למה זה חשוב: אם נאמין להנחיה של Anthropic לפיה Mythos מהווה איום משמעותי על התוכנה העולמית – עד כדי כך שרק שותפים בודדים נבחרים יכולים לגשת אליה – ייתכן שמנגנוני אבטחת סייבר כפי שהם לא יהיו מוכנים לעמוד בחזית המתפתחת במהירות של יכולות המודל. Mythos אולי לא הדגם היחיד בקליבר שלו, אלא פשוט הראשון מבין רבים שיגיעו ברגע שמעבדות אחרות ישיגו פריצות דרך דומות.

לעת עתה, רק כמה שבועות לאחר יציאתו, Mythos עוזרת לתפוס באגים בתוכנה בהמוניהם.

GPT-5.4

OpenAI | 5 במרץ 2026

מה זה עושה: OpenAI מסגרתה את הדגם החדש הזה, ששוחרר בקושי שלושה חודשים לאחר GPT-5.2, כפי שתוכנן במיוחד לעבודה מקצועית. על פי הבדיקות של החברה עצמה (שיש לקחת תמיד עם גרגר מלח עד לאימות על ידי צד שלישי), GPT-5.4 תואם או מתעלה על אנשי מקצוע אנושיים ב-83% מהמקרים.

למה זה חשוב: ככל שחברות בינה מלאכותית מתמקדות יותר בהשגת אמון ארגוני (וחוזים) תוך שבח מה שבינה מלאכותית יכולה לעשות, הן זקוקות למודלים שיכולים להתמודד עם משימות מורכבות הקשורות לעבודה במינימום סיכון, עיכוב או עלויות גבוהות באופן מופרז. לכל התקדמות מודל שמציגה יכולת בתהליכי עבודה מקצועיים יש סיכוי טוב יותר להילקח ברצינות על ידי חברות הנאבקות לאמץ AI, אם כי שום דבר לא מבטיח אינטגרציה חלקה.

כמו כן: ה-GPT-5.4 החדש של OpenAI תומך בני אדם בעבודה ברמה מקצועית בבדיקות – ב-83%

סגור עבודה 4.6

אנתרופית | 5 בפברואר 2026

מה זה עושה: מודל זה הגדיר מחדש במהירות את הסטנדרט לעבודה סוכנת אוטונומית, במיוחד עבור קידוד. זה לא מפתיע בהתחשב בסמכותה של אנתרופיק בבניית מודלים מיומנים במיוחד במשימות תכנות. Opus 4.6 גם הדגים שיפור במשימות מורכבות וארוכות יותר בסך הכל.

למה זה חשוב: היכולת של Opus 4.6 להתמודד עם משימות בצורה טובה יותר בעצמה פירושה שאתה יכול להוריד אליו בצורה מהימנה יותר מזרימת העבודה שלך – משהו שהצעות סוכניות בדרך כלל מתקשות איתו.

כמו כן: אנתרופיק אומר שקלוד אופוס 4.6 החדש שלה יכול לתקן את תוצרי העבודה שלך בניסיון הראשון

GPT-5.3-Codex

OpenAI | 5 בפברואר 2026

מה זה עושה: מודל הקידוד החדש הזה – שלדברי OpenAI עזר לבנות ולפתוח באגים בעצמו – ניתן להפרעה ולנתב מחדש באמצע המשימה, אשר, אם זה נכון, מהווה ברכה עצומה עבור מפתחים המשתמשים בו בפרויקטים מורכבים או משתנים עם המון ניסוי וטעייה. GPT-5.3-Codex מתגאה גם בזמני ריצה של למעלה מיממה ובהבנה טובה יותר של כוונת המשתמש.

כמו כן: דגם ה-Spark החדש של OpenAI מקודד פי 15 מהר יותר מ-GPT-5.3-Codex – אבל יש מלכוד

למה זה חשוב: OpenAI מנסה להדביק את ההובלה של Anthropic בקידוד סוכן (ובמקרה או שלא, הוציאה את 5.3 Codex באותו יום שבו השיקה Anthropic את Opus 4.6). בעוד שמומחי ZDNET מעדיפים לעתים קרובות את קלוד קוד על פני כלים אחרים לקידוד אווירה, המעבר השמועות של OpenAI לכיוון לקוחות ארגוניים והרחק מכלי צרכנים מהנים עלול בסופו של דבר לסגור את הפער הזה.

Source link

Evil Deads, מדורג

אתה יכול בקלות לסרוק קודי QR שכבר נמצאים בטלפון שלך

איך אני מתייג את הקבצים שלי כדי להימנע מחיפוש אינסופי ומתיקיות לא מאורגנות

לטלפון החדש הראשון של Acer מזה שנים יש מסך מאחור

The best all-in-one computers of 2026: Expert tested and reviewed

גב המשקפיים החכמים מגיע לגבהים חדשים של סלבריטאים

You may have missed

האם עתידה של Virat Kohli בטוח? שובמן גיל חושף שיחות עם החובט הבכיר לקראת ENG נגד IND ODI

רשימת הטרמינלים פוגשת את Terminator במותחן המדע הבדיוני 2 שעות של Prime Video