אנתרופית מתנצלת על אחד ממעקות הבטיחות בדגם Fable 5 שלה, ותשנה אותו
דגם ה-Fable 5 של אנתרופיק הוא הגרסה המטופשת של Mythos, שהוא בתורו הדגם כל כך חזק עד כדי כך שהוא עלול לסכן לכאורה את העולם אם הוא ישוחרר ללא מעקות בטיחות. רוב מעקות הבטיחות, במיוחד אלה שנועדו למנוע ממשתמשים להשתמש ב-Fable לבניית נשק סייבר או ביו, בולטים מאוד.
אבל מעקה בטיחות אחד, שמטרתו למנוע ממשתמשים להשתמש ב-Fable 5 כדי לאמן דגמי AI אחרים, היה בלתי נראה, מה שעורר תצוגות חריגות של זעם משתמשים.
claude fable 5 nerf למחקר בינה מלאכותית גרר את התגובה הכי כועסת של חוקרי בינה מלאכותית שראיתי בחיי
— איתן קבאלרו (@ethanCaballero) 10 ביוני 2026
ועכשיו אנתרופיק ביקשה החזרות. מעקה הבטיחות הבלתי נראה השנוי במחלוקת ייעשה גלוי. ב א הצהרה ל-Wiredכתב אנתרופיק "אנחנו משנים את אמצעי ההגנה של Fable 5 לפיתוח LLM חזיתי כדי להפוך אותם לגלויים."
"עשינו את ההחלפה השגויה ואנחנו מתנצלים על כך שלא הגענו לאיזון נכון", נכתב בהודעה.
בדגם'כרטיס מערכת שלאנתרופיק הודיעה מראש על מה שהיא ניסתה לעשות:
"בניגוד להתערבויות שלנו לאבטחת סייבר, ביולוגיה וכימיה, וניסיונות זיקוק, אמצעי ההגנה הללו לא יהיו גלויים למשתמש. משל 5 לא יחזור למודל אחר. במקום זאת, אמצעי ההגנה יגבילו את האפקטיביות באמצעות שיטות כמו שינוי מיידי, וקטורי היגוי או כוונון עדין יעיל בפרמטרים (PEFT).
במילים אחרות, כאשר הנחיות משל 5 הראו סימנים מובהקים של משתמש מפתח LLM גבול, במקום לעשות את מה שהוא עושה עם הנחיות לגבי ביולוגיה, כימיה או אבטחת סייבר ולעבור למודל נחות, או פשוט לסרב לבקשה, זה היה משנה בשקט את ההנחיה על מנת ליצור תוצאות שגויות עם פוטנציאל לעכב את פיתוח המודל של המשתמש.
השימוש במודל כדי להכשיר מודל אחר מנוגד לתנאי השירות של Anthropic, אך המשתמשים עדיין הרגישו שאמצעי זה מהווה הפרה של אמון המשתמשים. משתמש Reddit CheatCodesOf Life תנסח את זה ככה: "לא הייתי משתמש בדבר הזה בשביל שום דבר למען האמת. סירוב או שגיאת HTTP-4xx לתוכן זה הוגן מספיק, אבל זה בעצם לקחת את הכסף שלך ולהרעיל את בסיס הקוד שלך."