טכנולוגיה

אנתרופית מתנצלת על אחד ממעקות הבטיחות בדגם Fable 5 שלה, ותשנה אותו

נתן בן דוד (Natan Ben-David) 4 שעות ago 1 min read

דגם ה-Fable 5 של אנתרופיק הוא הגרסה המטופשת של Mythos, שהוא בתורו הדגם כל כך חזק עד כדי כך שהוא עלול לסכן לכאורה את העולם אם הוא ישוחרר ללא מעקות בטיחות. רוב מעקות הבטיחות, במיוחד אלה שנועדו למנוע ממשתמשים להשתמש ב-Fable לבניית נשק סייבר או ביו, בולטים מאוד.

אבל מעקה בטיחות אחד, שמטרתו למנוע ממשתמשים להשתמש ב-Fable 5 כדי לאמן דגמי AI אחרים, היה בלתי נראה, מה שעורר תצוגות חריגות של זעם משתמשים.

claude fable 5 nerf למחקר בינה מלאכותית גרר את התגובה הכי כועסת של חוקרי בינה מלאכותית שראיתי בחיי

— איתן קבאלרו (@ethanCaballero) 10 ביוני 2026

ועכשיו אנתרופיק ביקשה החזרות. מעקה הבטיחות הבלתי נראה השנוי במחלוקת ייעשה גלוי. ב א הצהרה ל-Wiredכתב אנתרופיק "אנחנו משנים את אמצעי ההגנה של Fable 5 לפיתוח LLM חזיתי כדי להפוך אותם לגלויים."

"עשינו את ההחלפה השגויה ואנחנו מתנצלים על כך שלא הגענו לאיזון נכון", נכתב בהודעה.

בדגם'כרטיס מערכת שלאנתרופיק הודיעה מראש על מה שהיא ניסתה לעשות:

"בניגוד להתערבויות שלנו לאבטחת סייבר, ביולוגיה וכימיה, וניסיונות זיקוק, אמצעי ההגנה הללו לא יהיו גלויים למשתמש. משל 5 לא יחזור למודל אחר. במקום זאת, אמצעי ההגנה יגבילו את האפקטיביות באמצעות שיטות כמו שינוי מיידי, וקטורי היגוי או כוונון עדין יעיל בפרמטרים (PEFT).

במילים אחרות, כאשר הנחיות משל 5 הראו סימנים מובהקים של משתמש מפתח LLM גבול, במקום לעשות את מה שהוא עושה עם הנחיות לגבי ביולוגיה, כימיה או אבטחת סייבר ולעבור למודל נחות, או פשוט לסרב לבקשה, זה היה משנה בשקט את ההנחיה על מנת ליצור תוצאות שגויות עם פוטנציאל לעכב את פיתוח המודל של המשתמש.

השימוש במודל כדי להכשיר מודל אחר מנוגד לתנאי השירות של Anthropic, אך המשתמשים עדיין הרגישו שאמצעי זה מהווה הפרה של אמון המשתמשים. משתמש Reddit CheatCodesOf Life תנסח את זה ככה: "לא הייתי משתמש בדבר הזה בשביל שום דבר למען האמת. סירוב או שגיאת HTTP-4xx לתוכן זה הוגן מספיק, אבל זה בעצם לקחת את הכסף שלך ולהרעיל את בסיס הקוד שלך."

Source link

Post navigation

Previous טראמפ כנראה לא יבטל את CUSMA, עסקת הסחר שלו עם קנדה ומקסיקו. הנה הסיבה
Next ארה"ב ואיראן תוקפות זו את זו שוב, והפסקת האש תלויה על חוט

כתיבת תגובה לבטל
האימייל לא יוצג באתר. שדות החובה מסומנים *
התגובה שלך *
שם *

אימייל *

אתר

שמור בדפדפן זה את השם, האימייל והאתר שלי לפעם הבאה שאגיב.

Related Stories

מה קורה אם AI גורם לאבטלה של 25%? לאנתרופי יש מושג של תוכנית 1 min read

טכנולוגיה

מה קורה אם AI גורם לאבטלה של 25%? לאנתרופי יש מושג של תוכנית

נתן בן דוד (Natan Ben-David) 12 דקות ago

מסגרת מעכבת את משלוחי Laptop 13 Pro בחודש 1 min read

טכנולוגיה

מסגרת מעכבת את משלוחי Laptop 13 Pro בחודש

נתן בן דוד (Natan Ben-David) 28 דקות ago

Not everything you can bet on is gambling, says CFTC in new prediction markets proposal 8 min read

טכנולוגיה

Not everything you can bet on is gambling, says CFTC in new prediction markets proposal

נתן בן דוד (Natan Ben-David) 44 דקות ago

לכריסטופר נולאן אין טלפון סלולרי, אבל אתה צריך אחד להזמין בתיאטרון שלו 1 min read

טכנולוגיה

לכריסטופר נולאן אין טלפון סלולרי, אבל אתה צריך אחד להזמין בתיאטרון שלו

נתן בן דוד (Natan Ben-David) שעה 1 ago

משחקי Game Boy Advance האהובים על Engadget 1 min read

טכנולוגיה

משחקי Game Boy Advance האהובים על Engadget

נתן בן דוד (Natan Ben-David) שעה 1 ago

שבט גראנד טראוורס מאתגר את חוקי המשחקים המאיים על פעילות קזינו מישיגן קריסטל שורס 1 min read

טכנולוגיה

שבט גראנד טראוורס מאתגר את חוקי המשחקים המאיים על פעילות קזינו מישיגן קריסטל שורס

נתן בן דוד (Natan Ben-David) 2 שעות ago

חיפוש
Recent Posts
חמשת השחקנים הטובים ביותר שכדאי לצפות בהם בקנדה נגד בוסניה והרצגובינה גביע העולם בכדורגל 2026 רגל. Edin Džeko, Jonathan David

כוכב אמרדייל מגלה כי קיילב "האפופלקטי" יהפוך לכהה הרבה יותר

לגן החיות לילדים שנהרס בשריפה שהרגה כמעט את כל החיות לא היה רישיון שכן עולה כי צב בודד שרד תופת

מה קורה אם AI גורם לאבטלה של 25%? לאנתרופי יש מושג של תוכנית

3 סיבות עיקריות מדוע הודו צריכה לבחור את Ruturaj Gaikwad בנבחרת ODI

Recent Comments
אין תגובות להציג.
Archives

יוני 2026

מאי 2026

אפריל 2026

מרץ 2026

פברואר 2026

Categories

חדשות

טכנולוגיה

כלכלה

ספורט

עסקים

תרבות

You may have missed

חמשת השחקנים הטובים ביותר שכדאי לצפות בהם בקנדה נגד בוסניה והרצגובינה גביע העולם בכדורגל 2026 רגל. Edin Džeko, Jonathan David 1 min read

ספורט

חמשת השחקנים הטובים ביותר שכדאי לצפות בהם בקנדה נגד בוסניה והרצגובינה גביע העולם בכדורגל 2026 רגל. Edin Džeko, Jonathan David

דנה לוי (Dana Levy) דקה1 ago

כוכב אמרדייל מגלה כי קיילב "האפופלקטי" יהפוך לכהה הרבה יותר 1 min read

תרבות

כוכב אמרדייל מגלה כי קיילב "האפופלקטי" יהפוך לכהה הרבה יותר

דנה לוי (Dana Levy) 7 דקות ago

לגן החיות לילדים שנהרס בשריפה שהרגה כמעט את כל החיות לא היה רישיון שכן עולה כי צב בודד שרד תופת 1 min read

עסקים

לגן החיות לילדים שנהרס בשריפה שהרגה כמעט את כל החיות לא היה רישיון שכן עולה כי צב בודד שרד תופת

שירה כהן (Shira Cohen) 11 דקות ago

מה קורה אם AI גורם לאבטלה של 25%? לאנתרופי יש מושג של תוכנית 1 min read

טכנולוגיה

מה קורה אם AI גורם לאבטלה של 25%? לאנתרופי יש מושג של תוכנית

נתן בן דוד (Natan Ben-David) 12 דקות ago

Copyright © All rights reserved. | Magnitude by AF themes.