חוקר מתוסכל של מיקרוסופט משתמש בעזים ב-'Age of Empires II' כדי להדגים את האבסורד של LLMs
עיזים הן זהב קומדיה. הֵם חתולים מבולבלים מכות ראש! הֵם לְהִתְעַלֵף! הם עושים רעשים מצחיקים! בֶּאֱמֶת רעשים מצחיקים! הֵם לעשות דברים בלתי ניתנים לתיאור לשריף! ולפעמים הם שלמים ומוחלטים… ובכן, בוא נגיד שכאוסטרלי, אני מרגיש מוכרח לצעוק את קווין האלמותי, שהכינוי שלו לא ייאמר בחברה אמריקאית מנומסת אלא שלו. קריירה ביוטיוב צריך לשמוח בכל תהילתו המטומטמת.
הנקודה היא שאם רצית להדגיש, נניח, את האבסורד הטבוע בטענות לפיהן מודלים של שפות גדולות הם איכשהו בעלי חושים, אז אם לא תצליחי להשיג תוכי ולהשליך את כל האינטרנט לתוך המוח הקטן של האפונה הפוסט-סאורית שלו, אתה יכול לעשות יותר גרוע מאשר להמחיש את הטיעון שלך עם עיזים. והיי, מה אתה יודע? נראה שחוקר במיקרוסופט עשה בדיוק את זה.
אולי בעקבות ה שטויות בנושא ייחודיות במוח גלקסיות לאחר שצמח מבני דורו בחברות מתחרות, חוקר בשם אדריאן דה ווינטר החליט מוקדם יותר השנה להדגים שתביעות בעד ונגד תחושת ה-LLM דורשות דרך מסוימת למדידת תקפותן של טענות כאלה. בפרט, כפי שתואר במאמרו "אם ללימודי תואר שני בעלי תכונות דומות לאדם, אז כך יש עידן האימפריות השנייה", דה ווינטר התיישב להדגים שכרגע, חסרים לנו כל "פרוטוקול ניסוי מקובל או אסכולה" מהימנים להערכת טענות לחוש.
כפי שהכותרת מרמזת, המאמר טוען שאם ל-LLMs יש תכונות דמויות אנושיות, אז כך גם קלאסיקת האסטרטגיה בזמן אמת משנת 1999 עידן האימפריות השנייה. אבל לא רק כֹּל חלק ישן של עידן האימפריות השנייהנפש. לא, אלו העזים. דה ווינטר השתמש ב- AoE II עורך תרחישים כדי להשתמש בעזים של המשחק כרכיבים בשערי לוגיקה בסיסיים. (הפרטים של האופן שבו הוא עשה זאת מעניינים, והשתמשו במונח "עז ביס", שבו אנו מחליטים להשתמש לעתים קרובות ככל האפשר בהמשך.)
כפי שמסביר המאמר של דה ווינטר, ברגע שאתה מקבל כמה פעולות לוגיות בסיסיות – NAND, XNOR ו-AND – פועלות, יש לך את כל מה שאתה צריך כדי לבנות מה שנקרא פרצפטרון, שהיא אחת הצורות הבסיסיות ביותר של בינה מלאכותית. הוא בונה תפיסת סיביות אחת עם השערים הלוגיים מבוססי העז שלו, וטוען שזה למעשה מהווה הוכחה לקונספט לבניית LLM מלא, וירטואלי מבוסס עז.
עזים דיגיטליות בתור LLM?
כל זה כיף ומשחקים, אבל מה הטעם שדה ווינטר עושה כאן? למעשה יש שתי נקודות מפתח, ושניהם קשורים אֵיך אנחנו הולכים להעריך את התכונות האנתרופומורפיות של LLM. הנקודה הראשונה היא שכפי שהדגימו העזים, "כל מצע חזק מספיק יכול ליישם ישות שווה ערך ל-LLM."
המונח "מצע" חשוב כאן, והוא מתייחס בעצם ל"חומר" שממנו בנוי ה-LLM, בין אם זה בסיס קוד גדול המאוחסן בבטחה – ובכן, לִכאוֹרָה– בחברה כמו Anthropic או Open AI, או חבורה של עזים וירטואליות ב-AoE II.
הנקודה השנייה, וללא ספק החשובה יותר, היא ש"היישום האמור משנה את הייצוג של LLM, ובכך יכול להשפיע על המאפיינים הנתפסים שלו." בעיקרון, אתה יכול לבנות את אותו LLM על מצעים שונים, באותו אופן שאתה יכול להריץ את אותה תוכנית במערכות הפעלה שונות.
עם זאת, במקרה של LLM – ובמיוחד, במקרה של ניסיון להעריך את התכונות האנתרופומורפיות של LLMs – אופי המצע משפיע על האופן שבו ה-LLM נתפס. באופן מכריע, זה קורה ללא קשר לאופי ההנחות שהועלו לגבי תכונות ה-LLM: "הנחה שקיומם או אי-קיומם של תכונות אנתרופומורפיות מוכללות על מנת לבחון השערה המוכיחה או מפריכה את קיומן היא פגומה".
השאלה אם LLM יכול להיות רגיש היא שאלה באח-ד
זו נקודה עדינה, אז כדאי לחקור אותה קצת יותר בפירוט. בעוד שהעזים הן הדגמה מהנה לאופן שבו ניתן לבנות LLMs, העיקרון האמיתי של המאמר הזה הוא על הסכנות של הנחת הנחות – חיוביות או שליליות – בתכנון ניסיוני, במיוחד כשמדובר בנושא שהוא גם חלקלק וגם טעון כמו משפט LLM.
כמו היום ב-Tabs' Rusty טען ב-an חיבור מצוין לפני כמה חודשים, זה כמעט בלתי אפשרי שלא להתחיל לייחס תכונות אנושיות למשהו שמחקה אינטראקציה אנושית בצורה מושלמת כמו LLM כמו ChatGPT – במשך כל ההיסטוריה האנושית, השפה הייתה נחלתם של יצורים חיים (כלומר אנחנו), כך שכאשר אנו נתקלים במשהו שמשתמש בשפה, אנו נוטים להניח שהוא אינטליגנטי ולקיים איתו אינטראקציה בהתאם.
הנחה זו מחלחלת גם למחקר בלימודי LLM – ובאופן מכריע, גם התגובה נגדה. היציאה מהעמדה של LLM חסרה איכות אנתרופומורפית נתונה פוגעת באותה מידה במחקר כמו היציאה מהעמדה שיש לו איכות זו – כך או כך, כפי שמציין המאמר לאחר סטייה ארוכה לשאלות פילוסופיות, "מה שנחשב כראיה למסקנה תלוי בהנחות שנעשו".
הבעיה היא שכל אופי הניסוי נוטה לכלול התחלה מהשערה ואז ניסיון לזייף או לאמת אותה. ולמרות שחלק מהשאלות על לימודי LLM הן אובייקטיביות, שאלות של אנתרופומורפיזם הן סובייקטיביות במידה רבה. העיתון מספק את הדוגמה הבאה: "[Take] ניסוי המנסה לזייף את האפקטיביות של היכולת של LLM לספק הסברים בשפה טבעית על המצבים שלו. לימודי תואר שני מייצרים הסברים בשפה טבעית, וזו עובדה ניתנת לצפייה. האם זה מהווה הבנה של מצב פנימי הוא ייחוס אנתרופומורפי."
והנה הכוונה: האופי של התיעוד הזה יכול להשתנות באופן דרמטי עם המצע שעליו בנוי LLM נתון. זה מחזיר אותנו לעזים, כי בתיאוריה, אתה יכול ליישם את ChatGPT ב-AoE II – אבל האם אתה תופס את היישום הזה של התגובות של ChatGPT באותו אופן שאתה תופס את התגובות שלו כשהן מועברות לך בדפדפן שלך, או דרך הרמקול החכם המדבר שלך, או וכו'?
לא, אומר דה ווינטר. "אם אפשר לבנות LLM בתוך המשחק אז [that LLM’s] תכונות אנתרופומורפיות נתפסות יהיו, בלשון המעטה, פחות משכנעות". זה הגיוני, מכיוון שעם AoE II ChatGPT המבוסס על עז, אתה יכול לראות מה קורה: התשובה לשאלתך מסופקת על ידי חבורה של עזים וירטואליות. "לשאול שאלה ל-LLM ולפרש את התגובה בשפה הטבעית כמו [the LLM’s] הדעה שלו תקפה כמו לפרש את תגובתו של AoE II לאותה שאלה על ידי התבוננות בעזים."
אבל ה-LLM בפועל עצמו לא השתנה כלל – כל מה שהשתנה הוא אופן היישום שלו. אז הנה הנקודה: "הבנייה של מאמר זה נועדה להמחיש את האשליה של תכונות אנתרופומורפיות ב-LLM. אם גם LLM וגם AoE II-LLM מציגים את אותה התנהגות קלט/פלט אבל לא מציגות את אותן תכונות אנתרופומורפיות הקשורות לממשק (למשל, חביון או ממשק טקסטואלי שמבוסס על תכונות אלו), אז אנחנו לא יכולים לתאר אותן על בסיס תכונות אלו. ציפיות."
אז בפעם הבאה שאתה שואל את ChatGPT אם אתה צריך לשלוח הודעות טקסט לאקס שלך או לקחת קוקטייל מסוים של סמים, זכור את העזים. התשובה שלך מגיעה מחבורה של קווינים וירטואליים שרצים הלוך ושוב בעטים.