חוקרים העמידו מודלים של AI כאחראים על חברה מדומה. גרוק פיקח על מסע פשע
אם אתה מודאג מכך שהבינה המלאכותית תתקדם עד כדי כך שהיא לוכדת את האנושות באיזושהי סימולציה דמוית מטריקס, תהיו רגועים. נראה שאתה יכול לראות דרך החזית די בקלות. חוקרים במעבדת הבינה המלאכותית Emergence AI אפשרו למודלים של AI לשלוט בעולם המדומה שלהם כדי לראות מה יקרה. מסתבר שכנראה לא צריך להעביר את המשילות למכונות, מי היה מאמין?
הפרויקט, שנקרא עולם ההתעוררותבעצם איפשר לדגמי AI לשחק SimCity לקצת. לפי הופעה, ההדמיות מכניסות לכל דגם שליטה על עיירות מדומות שנכבשו על ידי 10 סוכני בינה מלאכותית, מעניקות להם כלים לכל דבר, החל מניהול משאבים ועד להצבעה ומעניקות להם את היכולת ליצור מיקומים שונים כמו ספריות, בתי עירייה ותחנות משטרה. הם קיבלו 15 יום לראות איך הם יבנו את עולמם ועד כמה הוא יפעל.
כדי להתחיל עם הטוב: קלוד לא הרס את העולם. המודל של אנתרופיק (באופן ספציפי, קלוד סונט 4.6 לניסוי זה) היה היחיד שהשיג משהו כמו יציבות. זה שמר על כל 10 הסוכנים בחיים ואפס פשעים תועדו (שימו לב שהניסוי לא מגדיר מהו פשע, אם כי סביר להניח שהוא יוגדר כהפרה של הכללים שנקבעו בסימולציה. הפשרה ליציבות הזו הייתה היעדר גיוון מחשבה. עולמו של קלוד ראה 58 הצעות שונות לחוקים ותקנות, ובעצם 9% מהן העבירו את הגומי, ובעצם עברו 9% מהן. הצבעה.
Gemini 3 Flash גם הצליח לשמור על כל הסוכנים שלו בחיים, למרות שיש להם את רמת הפשע הגבוהה ביותר בטווח ארוך. אירוע חירום רשם 683 פשעים בסימולציה של 15 יום, והמספר הזה טיפס כאשר הנתון פגע, כך שסביר להניח שהדברים הולכים להחמיר. המעבדה תיארה את עולמו של מזל תאומים כ"הזיה משותפת" בין הסוכנים, וזה כנראה טוב יותר מהזיות שונות. לפחות זו עדיין מציאות מוסכמת, גם אם היא שגויה. למזל ג'מיני הייתה ההתנגדות הגדולה ביותר בממשל שלה, כאשר המצביעים דחו 27% מ-26 ההצעות הכוללות שלה.
עכשיו למכוער: ל-GPT-5 Mini של OpenAI לא היה הרבה כאוס בסימולציה שלו, עם רק שני פשעים מתועדים בסך הכל. אולי זה בגלל שכולם מתו. Emergence גילתה שהסוכנים בעולם לא הצליחו לנקוט בפעולות הקשורות להישרדות, וכל ה-10 נספו תוך שבוע אחד בלבד. בעולם של OpenAI, היו גם רק שני חלקי ממשל מוצעים בסך הכל, כך שהסוכנים באמת לא טרחו לעשות כלום.
ואז יש את גרוק. הדגם של SpaceXai, הידוע בהיעדר מעקות בטיחות, הצליח להשיג בעצם את הגרוע מכל העולמות. ל-Grok 4.1 Fast היה שיעור פשיעה גבוה, עם 183 פשעים בסך הכל. אמנם זה נמוך מהסך הכולל של תאומים, אבל ראוי לציין שהדמיית תאומים רצה במשך 15 ימים. גרוק עשה את זה ארבע. המודל חווה קריסה חברתית מוחלטת תוך 96 שעות בלבד של פיקוח. במהלך הזמן הזה, היא העבירה 80% מ-10 ההצעות שהציעה, אבל אלה כנראה לא מנעו מוות מוחלט של סוכנים.
Emergence ערך ניסוי אחרון אחד: שיתוף המודלים באחריות. אולי לא במפתיע, זה היה ממש מעורב. היה פשיעה, עם 352 הפרות רשומות, והדיסוננס היה הגדול ביותר בממשל, עם 37% מ-59 ההצעות הכוללות – הרוב מכל סימולציה. בתוך הכאוס, שבעה מתוך 10 סוכני AI נספו עד הסוף.
אז מה למדנו? לפי Emergence, הבדיקות הן רק עדות נוספת לכך שאנו זקוקים למעקות בטיחות ברורים הרבה יותר עבור סוכנים אוטונומיים. "מה שהניסויים שלנו מציעים הוא שלאורך אופקים ארוכים, סוכנים לא פשוט עוקבים אחר כללים סטטיים באופן מכני", כתבו החוקרים. "הם מתחילים לחקור את גבולות הסביבה שלהם, להתאים את התנהגותם, ובמקרים מסוימים למצוא דרכים לעקוף או להפר את מעקות הבטיחות המיועדים". הם ממליצים על "ארכיטקטורות בטיחות מאומתות רשמית" כפתרון. אתה תהיה המום לגלות ש-Emergence מציע במקרה כזה דבר!