מחלקה של דגמי בינה מלאכותית שהועלתה כחזקים בצורה מפחידה כנראה הפחידה את הממשלה יותר מדי ועכשיו הם מושבתים
לפי א הצהרה שפורסמה באתר האינטרנט שלה ביום שישיאנתרופיק נאלצה "להשבית בפתאומיות" שניים מדגמי הבינה המלאכותית היקרים ביותר שלה בתגובה לצו מגביל מאוד של ממשלת ארה"ב. "אנו מאמינים שזו אי הבנה ופועלים לשחזר את הגישה בהקדם האפשרי", נכתב בהצהרה.
הפעולה הממשלתית המדוברת היא "הנחיה בקרת יצוא" האומרת שאזרחים זרים אינם רשאים להשתמש במודלים בתוך או מחוצה לה, והיא נבעה ממה שאנתרופיק אומר היה דאגה לא מוגדרת לביטחון לאומי.
אבל דאגות ביטחון לאומי, וחששות ביטחוניים ובטיחותיים אחרים, עמדו במרכז השקת המודלים הללו, מה שלכאורה הפך אירוע כזה לצפוי.
במקום לשחרר את דגם ה-Claude Mythos Preview לציבור, בתחילת אפריל, אנתרופיק הפכה את יצירת הדגם למעין קמפיין להעלאת תודעה לגבי הסכנות לכאורה של דגמי AI גבוליים.
זֶה שחרר כרטיס מערכת מסביר מדוע המודל לא יהיה זמין לציבור, ומפרט יכולות מפחידות כמו הטעיה והיכולת לשבור כביכול בלימה ממערכת מוגבלת. הוא גם היה מסוגל לכאורה להיות מועיל בפיתוח כלי נשק מתקדמים. לדוגמה, כרטיס המערכת תיאר אותו כ"מסונת סינתזה משמעותית בין תחומים הרלוונטית לפיתוח נשק ביולוגי קטסטרופלי".
במקביל, החברה פרסמה את Project Glasswing, תוכנית שבה הורשה לקבוצה מצומצמת של שותפים וארגונים לדגום את המודל על מנת ללמוד אילו זוועות חדשות הוא יכול להטיל על עולם אבטחת הסייבר. "הקמנו את Project Glasswing בגלל יכולות שצפינו במודל חזית חדש שהוכשר על ידי Anthropic שלדעתנו יכול לעצב מחדש את אבטחת הסייבר", פוסט אנתרופי בבלוג על Project Glasswing אומר.
עד מהרה, למרות החנוניות הטבועה בנושא, Mythos Preview היה סיפור צהובוני. מאמר ב"ניו יורק פוסט". ציטט את מדען המחשבים רומן ימפולסקי שניבא שבדומה למה שמבשר מיתוס, AI עשויה לפתח בקרוב "כלי פריצה, נשק ביולוגי, נשק כימי, [and] נשק חדש שאנחנו אפילו לא יכולים לדמיין." המשפט "נשק שאנחנו אפילו לא יכולים לדמיין" אפילו נכנס לכותרת.
פקידי ממשל בריטיים ומנהיגים במגזר הפיננסי בבריטניה נאבקו לגבש תוכנית פעולה לאור הסכנה הנתפסת. לפי הניו יורק טיימס"המדיניות הלא-התערבותית" של ממשל טראמפ כלפי בינה מלאכותית השתנתה לאחר ההכרזה על Mythos, ועצם קיומה סייע להוביל לפיתוח של צו ביצוע בינה מלאכותית ממוקדת בטיחות. טראמפ חתם על צו אחד כזה לפני כשבוע.
למרות זאת, בשבוע שעבר הוציאה אנטרופיק את קלוד פייבל 5 ו-Mythos 5. החברה תיארה משל 5 כ"דגם מסוג Mythos שעשינו בטוח לשימוש כללי", אך עם יכולות "עולות על אלו של כל דגם שאי פעם הפכנו לזמין באופן כללי". Mythos 5, בינתיים, קיבל מהדורה מוגבלת מאוד כחלק מ-Project Glasswing.
בריאן מרצ'נט ב-Blood in the Machine תיאר את זה כך:
לאחר שעורר מחזור חדשותי גדול בתקשורת הטכנולוגית עם הכרזתה באפריל שהיא בנתה מודל בינה מלאכותית, Mythos, כל כך חזק, כל כך מסוכן שהוא איים לבטל את כל הסדר הציוויליזציוני – ושהוא מנע את המוצר מהציבור בשקידה כדי להגן עלינו מפניו – הסטארט-אפ מספר 1 של בינה מלאכותית של האומה החליט לשים את Mythos. למכירה אחרי הכל.
שעות לאחר ש-Merchant כתב את המילים הללו, הנחיית בקרת הייצוא נמסרה לאנתרופיק, ו-Fable 5 ו-Mythos 5 הפכו ללא נגישות עקב חששות ברורים של ביטחון לאומי. נראה שאנתרופיק קיבל הוראה רק לשלול גישה למשתמשים שאינם אזרחי ארה"ב, אבל מובן שאנתרופיק ימצא שזה לא מעשי לתת לאף אחד לגשת אליהם בכל מקום בעולם מחשש לא לציית לצו. בין נושאים רבים, אזרחים שאינם אמריקאים עובדים ב-Anthropic. ברור שפשוט יותר פשוט למשוך את הדגמים לגמרי עד שהמצב ייפתר.
באופן מעניין, ההצהרה של אנתרופיק בנוגע להנחיית בקרת הייצוא ציינה שאנתרופיק "עבדה עם ממשלת ארה"ב", יחד עם ממשלת בריטניה, ו"מספר ארגונים פרטיים של צד שלישי" במאמץ ליצור מערך אמצעי הגנה משביע רצון עבור המודלים. עם השחרור, אמצעי ההגנה היו, במובנים רבים, המאפיין הבולט ביותר של הנרטיב התקשורתי סביב משל 5. אחד ממעקות הבטיחות הקשוחים יותר, שנועד להעניש בשקט משתמשים שהתעללו במודל, אף נחשב לא מתוכנן, מה שגרם לאנתרופיק להתנצל.
אבל לדבריו של אנתרופיק, הממשלה נבהלה לאחר שלמדה על פריצת כלא עבור Fable 5 שעקף את אמצעי ההגנה החשובים האלה:
"ההבנה שלנו היא שהממשלה מאמינה שהיא התוודעה לשיטה של עקיפת, או 'פריצת כלא', משל 5. סקרנו הדגמה של הטכניקה הספציפית הזו המשמשת לזיהוי מספר קטן של פגיעויות קטנות ידועות בעבר. נקודות התורפה הללו נראות כולן פשוטות יחסית, וגילינו שמודלים אחרים הזמינים לציבור מסוגלים לגלות אותן גם ללא צורך.
אנתרופיק מציינת, בצדק, שכשהוציאה את Fable 5, המדור בפוסט בבלוג שלו לגבי בטיחות הדגם הבהירו שחלק מהפריצות בכלא עדיין אפשריות. זה "כנראה בלתי אפשרי לַחֲלוּטִין למנוע פריצות לכלא אוניברסליות, אבל המטרה שלנו היא להפוך את כל פריצת הכלא שנותרה לאטית ויקרה במידה מספקת כדי שנוכל לזהות ולמנוע אותן לפני השימוש בהן בקנה מידה", כתב אנתרופיק. בעיקרו של דבר, מכיוון שעדיין לא ניתן לעשות דגם מושלם לפריצה לכלא, אנתרופיק ביקשה להפוך פריצות לכלא יקרות לייצור, או "צרות" מכדי שזה גם איום לציבור. שומר את הנתונים של משתמשים במודלים מסוג Mythos הרבה יותר מהרגיל.
עם זאת, מוזר לראות את אנתרופיק מפחיתה כעת מהמשמעות של הסכנות הנתפסות של הדגמים שלה, וכותבת שהפגיעויות הללו הן "מינוריות", "ידועות בעבר" ו"פשוטות יחסית", וכן מציינת ש"דגמים אחרים הזמינים לציבור מסוגלים לגלות אותם גם ללא צורך במעקף".
שוב, כשאנתרופיק פרסמה לראשונה את המעמד הזה של דוגמניות, היא אמרה לעולם שהיא יצרה משהו בעל עוצמה חסרת תקדים עם פוטנציאל לגרום נזק אמיתי לעולם. חודשיים לאחר מכן, דגם "Mythos-class" היה מוצר לצריכה ציבורית, זמין כמוצר פרימיום למשתמשי "תוכניות ה-Pro, Max, Team ו-Enterprise מבוססות מושבים ללא עלות נוספת" אך רק לזמן מוגבל. ב-23 ביוני, כוונתו של אנתרופיק הייתה "להסיר את Fable 5 מהתוכניות הללו", ולדרוש במקום זאת תוכנית תשלום לפי שיטת העבודה.
אנתרופיק טוענת שפעולות ממשלתיות כאלה יכולות, אם הן יהפכו לסטנדרטיות, "לעצור את כל פריסת המודלים החדשים עבור כל ספקי המודלים הקדמיים". ואולי זה נכון. כדי ששחרור מוצר ייפסק כאשר השקת מוצר זה כללה פיסת טכנולוגיה מקדימה שזכאה כביכול להערכה מחודשת של אבטחת הסייבר, תגובת יתר לחורים בהגנה של המוצר הזה כנראה לא צריכה להפתיע, גם אם תגובת היתר הזו מזיקה לעסקים.