אני רואה הרבה את התחזית שנראה החלפה מאיסבית של עבדות של בני אדם ע"י בינה מלאכותית, אבל מצד שני בגדול העולם ינהג כרגיל, ולא נראה דברים מטורפים קורים. אשמח להסבר ממי שחושב שזה מה שיקרה. אני לא מצליח להבין איך תרחיש כזה יכול לעבוד.
אתחיל דווקא מכאן: אני מקבל את זה שאני לא יודע שום דבר בוודאות בחיים, ושהכל אפשרי.
יתכן וברגע שיהיה AGI הוא מיד ישפר את עצמו לרמה על אנושית.
אבל יתכן גם שברגע שיהיה AGI יהיו שנים רבות של התקדמות רבה אבל איטית בתחום.
אפילו יתכן ש-AGI לעולם לא יגיע כי הוא לא אפשרי (אני לא מאמין שזה נכון).
אין לי כדור בדולח ולכן אני לא יכול להגיד מה מהתרחישים יקרה. אבל רק לשניים מהם יש לי מה לעשות בנידון (על כן פתחתי את הדיון השני).
כל המשך הטענות שלי למטה הן פשוט קונטרה לתרחיש שאתה מצייר. זה לא אומר שאני לא מסכים שזה אולי אפילו התרחיש הסביר (קשה לי מדי לשערך את הסבירות בנקודת הזמן הזאת), אני פשוט לא מסכים איתך שיש תרחיש אחד שהוא ודאי, במיוחד במשהו שאני חושב שאתה מסכים איתי שאנחנו מבינים בו עדיין יחסית מעט.
1) מה השימוש הכי יעיל של AGI יקר כזה? שיפור התוכנה של עצמו ושיפור החומרה, עליה הוא רץ.
מתנצל אם אני משתמש בז'רגון טכני, פשוט אני הולך לזרוק הרבה כיוונים שונים שאני לא יכול להסביר את כולם בזמן סביר.
נניח היפותטית שהמודל הזה יהיה מודל שפה במובן שהוא יפלוט טוקנים (מילים) כמו LLMים היום, שמחיר טוקן יהיה 100$-1000$ ושבשביל לשפר את עצמו (אני מניח שב"תוכנה" התכוונת לארכיטקטורה או למשקולות שלו) או החומרה של עצמו הוא יצטרך לפלוט מיליארדי טוקנים (נניח שיהיו לו הרבה טוקנים של "מחשבה" שהוא ירצה להשתמש בהם בצורה פזרנית [1]). האם זה בהכרח השימוש הכי יעיל? אולי עדיין, אבל עוד שימושים אפשריים:
Knowledge distillation עבור מודלים קטנים יותר מארכיטקטורה זהה על דאטהסט מצומצם ואיכותי (שאולי לא יהיו AGI, אבל יהיו הרבה יותר טובים ממודלים שהתאמנו ללא KD), שימוש במעט תשובות של המודל לאימונים בסגנון DPO (שהידע והניסיון הנוכחיים מראים שנדרש יחסית מעט דאטה עד להתכנסות הליך האופטימיזציה), שימוש בחלקים ספציפיים מהמודל לתתי משימות או לדומיינים מסויימים וכו'....זה לא AGI, אבל על הדרך זה יוצר מודלים שפיזבילי כלכלית להשתמש בהם ועשויים להיות ממש חזקים.
*כל הדברים שכתבתי מניחים שמודלי AGI יהיו דומים ל-LLMים של היום במבנה ובטכניקות, אין לי מושג מה הסבירות שזה נכון.
שימושים מחקריים מאוד חשובים אחרים בדרך ל-AGI בשימוש ב-AGI קיים ויקר:
1) חקר של המודל בשביל ללמוד האם ניתן ליצור inductive bias ארכיטקטוני שיביא אותנו לאותם ביצועים עם הרבה פחות פרמטרים \ FLOPS \ ניצולת טוקנים טובה יותר.
2) חקר של בעיית ה-super-alignment (שמאוד מטרידה את openAI) על נסיין אמיתי ומוגבל, לפני שאנחנו משיגים ומאפשרים AGI מהיר שהרבה יותר גורמים יכולים להשתמש בהם בחוסר זהירות.
3) חקר של הליך האופטימיזציה שעבר בשביל לדייק אותו עבור AGIs עתידיים (מבחינת שימוש בדאטה, שכבות, וכל מיני היפר-פרמטרים שאולי נבחרו שרירותית, מכבידים על המודל ולא נחוצים בפועל).
[1]
2) גם ללא סעיף 1, טכנולוגיות משתפרות ונהיות זולות יותר עם הזמן, בייחוד בתחום המחשוב. המחשב הראשון שניצח את אלוף העולם בשחמט היה מחשב ענק עם שילוב של מעבדים רגילים ומעבדים ייחודיים, שפותחו במיוחד בשביל משחק שחמט. היום מחשב קטן ב-30$ מריץ תוכנה שמנצחת את אלוף העולם ללא תחרות. וזה עוד בלי שיפור עצמי. עם שיפור עצמי זה הולך לקרות הרבה יותר מהר.
מצד אחד סביר להניח שאכן החומרות הולכות ומשתפרות עם הזמן, אבל אי אפשר להיות בטוחים בזה שזה יספיק:
1) מה אם AGI אמיתי דורש כח חישוב ששווה ערך לכמעט כל כח המחשוב שיש לגוגל היום? גוגל אולי יוכלו להריץ אותו לקצת, אבל לא מופרך להאמין שכמות הזמן עד שכח המחשוב הזה יהיה נגיש לעוד שחקנים יקח משהו כמו 10-15 שנים.
2) מה אם חוק מור ימות עד אז, או יתקע ונצטרך לחכות 20 שנים לפריצת דרך? (יכול להיות שה-AGI יוכל לסייע בזה, אבל זה יהיה
מאוד יקר ואיטי להפעיל אותו לבעיה כזו, ראה דוגמה למעלה)
וכו'. כאמור, אני לא טוען שזה סביר שחוק מור ימות או שבהכרח יהיה כלכך יקר להפעיל AGI, אני פשוט לא יודע.
לדעתי תרחיש כזה קרוב לבלתי אפשרי בגלל מה שכתבתי בסעיף הקודם. זה יהיה בדיוק הרגע של שיפור מעריכי(ויותר ממעריכי). אני לא רואה שום מנגנון שיכול לעצור את זה בשלב הזה. סביר שזה יעצר בהמשך, אבל ברמה דרמטית הרבה יותר גבוהה מתבונה אנושית.
כל הטענה שלי היא שלא אני ולא אתה יודעים בשלב הזה מה בלתי אפשרי ומה לא, אנחנו מדברים על מנגנון שעדיין לא התחילו לגלות אותו.
מכל המנגנונים שכן קיימים ברשתות נוירונים אני יכול לספר לך שמהניסיון שלי, זה הרבה פעמים לא מתנהג כמו שאתה מצפה שזה יתנהג.
דוגמת מאקרו כמו double descent [2],היא תופעה שאף אחד עדיין לא הצליח להביא לה הסבר משכנע שהתקבל כקונצנזוס, למיטב ידיעתי. למה שמודלים ימשיכו להשתפר? לא ברור.
למה שתהיה תקרה בשיפור של AGI? נשמע לי כמו משהו שהרבה יותר לגיטימי שיהיה לא ברור ועדיין אפשרי. אבל ניחושים יכולים להיות: (1) שלא יהיה לנו מספיק דאטה אמיתי, וביצועים של אימון על דאטה סינתטי יגיעו ל-plateau ב-AGIs, או (2) שהדומיינים עליהם נאמן את ה-AGIs הראשונים לא יספיקו. למשל, אולי נאמן אותם על טקסט ותמונה, אבל בלי דומיינים נוספים הם לא יצליחו להתפתח (למשל, נהיה חייבים להוסיף גם וידאו. או שאולי מידע מהעולם הפיזי שנוכל לאסוף רק עם רובוטים מוכוונים לזה, וכו'). כל הדברים האלו עשויים להיות פתירים, וסביר מאוד ש-AGI יוכל אפילו לפתור אותם בעצמו (בהנחה וזה יהיה הגיוני כלכלית, ראה דיון למעלה), אבל פשוט יקח הרבה זמן.
[2]
en.wikipedia.org