טכנולוגיה

מדוע צ'אטבוטים ממשיכים לספר סיפורים על מישהו בשם 'אליאס תורן'?

נתן בן דוד (Natan Ben-David) 2 שעות ago 1 min read

מי זה בכלל אליאס תורן? הוא חלק קבוע בסיפורים שמסופרים על ידי צ'טבוטים, כמו נצפתה לראשונה מאת מהנדס התוכנה דניאל מאי, אבל אף אחד לא יודע למה… עד עכשיו. על פי מחקר חדש לפני הדפסה נְיָר דווח לראשונה על ידי 404 Mediaהתפשטות האגדה של אליאס עשויה להיות קשורה למעקות בטיחות שהוצבו עבור דגמי בינה מלאכותית במהלך אימוני בטיחות ויישור.

אם אתה צריך להתעדכן באליאס תורן של הכל, ה נְיָר שפורסם על ידי חוקרים מאוניברסיטת קורנל הוא מקום טוב להתחיל בו. הם נתנו לכמה דגמי AI, כולל GPT-5.4 Mini של OpenAI, Claude Haiku 4.5 של Anthropic, ו-Gemini 3.1 Flash-Lite של גוגל, חמש הנחיות שונות ליצירת סיפורים. הם הסתכלו על כ-20,000 סיפורים שנוצרו על ידי הדוגמניות ומצאו כמות מזעזעת של חזרות: 11 מילים – מגדלור, שומר, אופה, ראש עיר, שעונים, דייג, ספרן, מנצח, והשמות מארה, אליאס ואלרה – הופיעו ב-88% מכלל הסיפורים.

שום שילוב של מאגר שמות עצם צר להפליא למטרות סיפור לא מופיע לעתים קרובות יותר מאשר אליאס שומר המגדלור, שהופיע בשני שליש מכל הסיפורים שנוצרו. זה די תואם את האנקדוטלי דוגמאות שסיפקה מאישגם הניע מספר רב של דוגמניות שונות לכתוב סיפורים ומצא את אותו אליאס שומר המגדלור צץ שוב ושוב.

אז מה בעצם העסקה? החוקרים טענו שייתכן שיש לזה קשר לנתוני טרום האימון שהוכנסו למודלים הללו, אך שללו במהירות שכאשר הם לא מצאו דבר המצביע על כך ש"אליאס שומר המגדלור" מופיע בתדירות מופרזת בנתוני טרום האימון או בספרות המשמשת באימון.

במקום זאת, הם מייחסים את הבעיה לשימוש במערך נתונים ספציפיים שהפכו בשימוש נפוץ במעבדות בינה מלאכותית. הם ציטטו את WildChat, מערך נתונים בקוד פתוח של מיליוני שיחות בין אנשים וצ'אט בוט המופעל על ידי GPT-3.5, כדוגמה אפשרית. מערך הנתונים נוצר כדי לעזור לחוקרים להבין כיצד אנשים מתקשרים עם בוטים, אך שימש מאז לאימון מודלים רבים ושונים. הם משערים שהכשרת יישור שנועדה להרחיק דוגמניות מדמויות המוגנות בזכויות יוצרים ומתוכן למבוגרים, עשויה להעניק בטעות חלופות "בטוחות", כגון "אליאס שומר המגדלור", בולטות יוצאת דופן, מה שגרם להן להופיע שוב ושוב כאשר משתמשים מבקשים מהמודל ליצור סיפור.

אליאס ת'ורן, שומר המגדלור, אולי מתאים לסיפור לילדים לפני השינה, אבל דיווח 404 Media שנראה ששם הדמות מתפשט. הפרסום מצא דוגמאות של השם בתור הגיבור בספרי פנטזיה, כמו גם ה"אמן" המופיע ברצועות מוזיקת אווירה הזמינות באמזון. מאי גם גילו דוגמאות של אליאס תורן כמחבר הספרים, כולל מדריך המתיימר לספק מידע על טיפולים אלטרנטיביים לסרטן. אז, זה לא נהדר.

אם שום דבר אחר, המוזרות המוזרה של סיפורי LLM היא תזכורת טובה לכך שבינה מלאכותית אינה יצירתית. מחקר שפורסם בשנה שעברה מצא שדגמים להפקת תמונות מייצרים שוב ושוב תמונות שנכללות באחד מ-12 מוטיבים ספציפיים בלבד, לא משנה באיזו צורה בחוץ ההנחיות הנתונות. בעיקרון, תן ל-AI משימה יצירתית, וזה ייתן לך את המקבילה של מוזיקת מעליות.

Source link