הקשר שבין שני הנושאים שבכותרת, הרחוקים כל כך זה מזה, איננו מקרי. חקר החידות הספרותיות וההיסטוריות הקשורות ביצירות הגדולות קיבל תנופה עצומה עם המצאת המחשב. רק מחשב מסוגל להתמודד עם מיליוני מילים של יצירות שונות, להשוות ביניהן ולהסיק מסקנות מרחיקות לכת. אבל מאחורי כל מחשב חכם חייב לעמוד גם חוקר חכם. אחד מאלה הוא פרופסור משה קופל, מן המחלקה למתמטיקה באוניברסיטת בר אילן.
אם הייתי מתמלל את שיחתי המוקלטת עם משה קופל ומזין אותה למחשב הייתי יכול לקבל בקלות פרופיל די מדוייק של האיש שלפניי. התוכנה, שקופל עצמו פיתח, היתה קובעת לערך את גילו (50), שפת האם שלו (אנגלית), השכלתו (פרופסור). אם היה מדבר עמי אנגלית, שפה בה אין הבחנה בין זכר לנקבה בנטיות הפועל, היה המחשב קובע כי בן שיחי הוא גבר ולא אשה. אם הייתי מצרף לאינטליגנציה המלאכותית של המחשב גם אינטליגנציה אנושית הייתי מגיע למסקנה כי פרופסור קופל, מן המחלקה למדעי המחשב בבר-אילן, הוא בראש ובראשונה איש תלמוד. הוא נושם תלמוד מאז היותו ילד בבית הוריו (חסידי גור חרדים) בניו יורק. לפי עדותו, עד שקיבל דוקטורט והיה לחבר במכון ללימודים מתקדמים בפרינסטון, "לא פתחתי ספר חולין לפני זמן מנחה".
אבל פרופסור קופל הוא מתמטיקאי ואיש מחשבים ועיקר עיסוקו במילים. הרבה מילים. מיליוני מילים. מילים בכל שפה. הוא לא בלשן של מילים אלא בלש של מילים. המילים יכולות לגלות לו אם הטקסט נכתב בידי גבר או אשה, אם הטקסט חובר בידי מי שחתום עליו או שהוא מזוייף ועוד כהנה וכהנה. טקסטים בשבילו הם כמו חומר גנטי לבדיקת DNA, או כמו טביעת אצבעות במעבדה לזיהוי פלילי.
סיווג לאינטרנט
שאלתי את פרופסור קופל איך הגיע לתחום הזה?
"התחלתי בכך בעת ששימשתי יועץ בחברה לענייני איחזור מידע. ומאיחזור מידע הגענו לכל מיני בעיות מעניינות לגבי טקסטים. למשל בעיה כמו באתר 'יהו' באינטרנט. לאתר מגיעים מיליארדי דפים שיש לסווג כל אחד מהם בקטגוריה הנכונה. אי אפשר להושיב אלפי ספרנים שיעשו את העבודה הזו והיינו צריכים למצוא דרך לסיווג אוטומטי.
רוב העבודה היתה לסווג טקסטים על פי הנושא. האם הטקסט עוסק בספורט או בארכאולוגיה. השאלה היא כמה משקל לתת לכל מונח. מן העבודה הזו הגענו לשאלות של סיווג טקסטים על פי מחבריהם ועל פי מאפיינים אחרים".
128 מיליון מילים
בעשר השנים האחרונות גילו החוקרים העוסקים בתחום את הכוח העצום הטמון במחשב כדי לפענח תעלומות הקשורות בטקסטים. במחשב של מפעל השו"ת בבר-אילן יש 128 מיליון מילים, שנכתבו משך כאלפיים שנים, בעברית ובארמית. לגבי טקסטים רבים קיימות שאלות בלתי פתורות: מי חיבר אותם, איזה חיבור קודם לחברו, מהו המקור של חיבור או פרגמנט (מתוך קבוצה גדולה של גירסות שונות של אותו טקסט) ועוד שאלות רבות.
בכל השאלות הללו עוסקים חוקרים במדעי היהדות שנים רבות בכלים אנושיים. כולנו יודעים כי "אין שני נביאים מתנבאים בסיגנון אחד" (סנהדרין פט.). השאלה היא האם האינטואיציה של החוקר די בה כדי לקבוע את זהותו של מחבר. במקרים רבים כן. המשורר חיים נחמן ביאליק, שהוציא לאור את כתבי שלמה איבן גבירול, ניחש לא פעם נכונה איזה שיר שייך למשורר ואיזה נכנס בטעות לקורפוס שלו. לא פעם תיקן שיבושים והשלים מילים חסרות בכתבי היד. תיקונים שנתגלו כנכונים, כשנמצאו מאוחר יותר כתבי יד באיכות טובה יותר. חוקרים וביבליוגרפים אינם מסתפקים באינטואיציה ומגייסים לעזרתם את הכלים ההיסטוריים פילולוגיים. במהלך השנים חוללו חוקרים, כמו גרשום שלום ותלמידיו, נפלאות בזיהוי מחבריהם של כתבים עלומי שם ובחשיפת פסאודאפיגרפים וטעויות בייחוס.
כוחו של המחשב
מה מוסיף המחשב למחקר בתחום הזה?
המחשב, אומר פרופסור קופל, נותן בידינו מכשיר לבדיקה סטטיסטית מדוייקת של מאפייני טקסט, שמוח אנושי אינו יכול לעבד. מה שקרוי "סיגנון הכותב" מורכב מפרמטרים לשוניים רבים האופיניים לאותו כותב: מילים ומשפטים. שמות עצם, שמות תואר, שמות גוף , שמות מספר, שמות עצם מופשטים, שמות עצם קיבוציים, פעלים, תארי הפועל, מילות יחס, מילות חיבור, מילות קריאה, מילות שאלה, תחיליות וסיומות. וכמובן הבחנה בין זכר לנקבה, סמיכות, נטיות לרבבותיהן וכו'.
כשבוחנים את מאפייני הטקסט יש לסנן מתוכו את מאפייני התקופה בה נכתב, את הסביבה התרבותית בה חי הכותב, את הטרמינולוגיה המקובלת בנושא אליו מתייחס הטקסט וגורמים רבים אחרים.לאחר סינון מסתבר שלכל כותב יש סימני זיהוי האופייניים רק לו מבחינת שימוש באוצר מילים, באותיות שימוש תחיליות וסיומות, במבנה המשפטים ובמרכיבים רבים אחרים. כל טקסט מכיל טביעת אצבע, מעין DNA של המחבר. השמיים הם הגבול לשימושים האפשריים בגילוי זה.
מי חיבר את הזוהר
כאן הגיע המקום לשאלת השאלות בתחום מדעי היהדות: מי חיבר את ספר הזוהר הקדוש. על חשיבותו של ספר זה בתרבות היהודית כותב פרופסור ישעיהו תשבי (בספרו "משנת הזוהר"):
"הזוהר הוא ספר חיים: חיי האדם היהודי ונבכי רוחו משתקפים בו כמות שהם על אורותיהם וצלליהם, ואין כמעט פינת חיים שמאמריו אינם נוגעים בה נגיעה כלשהי… באמצעות הדרשה המיסטית השכיל בעל הזוהר לחרוז ממקרא למשנה וממשנה לאגדה ולתפילה, לכרוך אותם יחד ולשקפם כחטיבה אחת באספקלריה של רוח הקבלה. מבחינה זו הזוהר הוא אוצר בלום של ערכי היהדות כולה".
על רקע זה ברור שנודעת חשיבות רבה לשאלה מי חיבר את הספר.
ספר הזוהר הופיע בספרד במאה ה-13 ויוחס לרבי שמעון בר יוחאי, התנא שהיה מתלמידי ר' עקיבא.. כבר בתקופת הופעתו נתעוררו ויכוחים בקרב חכמי ישראל בספרד, אם הספר הוא אכן קדמון.
אחד הגורמים שליבה את הויכוח היה חיבור של המקובל ר' יצחק דמן עכו, שחי בעכו. בשנת 1291 בעקבות כיבוש העיר בידי המוסלמים, הוא עזבה ויצא לספרד "לחקור כיצד נמצא בזמנו ספר הזוהר". חקירתו הובילה אותו לר' משה די לאון מן העיר די ווד אל חג'ארה (גואדאלאחארה) אשר הפיץ לראשונה את הספר. די לאון הבטיח להראות לו את כתב היד הקדמון ממנו העתיק את הספר, אך נפטר בטרם הספיק לעשות זאת. אשתו של די לאון, אותה נטש כשהתעשר בעקבות הכנסותיו מהפצת הספר, מסרה עדות. אמנם לא ליצחק דמן עכו אלא לאשה אחרת. ואשה זו ציטטה מפי אשת די לאון את הדברים הבאים: "כה יעשה לי אלוקים וכה יוסיף אם מעולם ספר זה היה עם אישי, אבל מראשו ולבו מדעתו ושכלו כתב כל מה שכתב".
טעותו של גרשום שלום
העדות הזו לא הכריעה את הוויכוח שנמשך עד ימינו. גרשום שלום, מניח היסוד לחקר הקבלה המודרנית, הביע במאמר בוסר ראשוני את הדעה כי הספר אכן חובר בידי ר' שמעון בר יוחאי ולא בידי ר' משה די לאון. הוא חזר בו מדעה זו וכל השנים לא אהב שהזכירו לו טעות נעורים זו.
המסקנה של המחקר המודרני היא שהספר חובר במאה השלוש עשרה וכי איננו חיבור אחיד. השוואת הזוהר לכתביו הקבליים של ר' משה די לאון (שנכתבו עברית) הביאו את שלום למסקנה שר' משה די לאון חיבר את החלק העיקרי של הזוהר וכי ספריו העבריים מבוססים על אותם המקורות כמו הזוהר.
לא נעשתה השוואה
על רקע זה המתנתי לפסק דינו של המחשב של קופל, אך תשובה לצערי לא קבלתי. הסיבה הראשונית היתה שבעת עריכת המחקר עדיין לא היו כתבי ר' משה די לאון מצויים בקבצים דיגיטאליים. אבל גם אם החומר היה מוקלד לא ברור אם המחשב היה משיג תוצאות משמעותיות כשמדובר בהשוואת טקסטים הכתובים בשתי שפות).
בלית ברירה נבדק רק הטקסט של הזוהר עצמו והמסקנות שהגיעו אליהן מבדיקה חלקית זו מעניינות למדי. מספר פרופסור קופל:
"לקחנו שלושה חלקים של הזוהר, רעיא מהימנא, מדרש הנעלם ואידרא רבא. שאלנו את המחשב: האם נכתבו על ידי אדם אחד. ואם לא, מה ההשפעה ההדדית בין הכתבים הללו. מצאנו שבקלות ניתן להבחין בהבדל סיגנוני בין שלושת החלקים הללו של הזוהר ולמסקנה שהם חוברו בידי מחברים שונים. ניסינו גם לבדוק בשיטות שונות את הקשר בין שלושת החלקים הללו, מי קרוב יותר למי, אך לא הגענו למסקנה חד משמעית".
בין הריטבא לרשב"א
תוצאות משמעותיות יותר השיגו פרופסור קופל ואנשי צוותו כשהשוו את כתבי ר' שלמה בן אדרת (הרשב"א) מול כתבי ר' יום טוב אבן אשבילי (הריטב"א). הראשון נולד ב-1235 ונפטר ב-1310 והשני חי בסוף המאה ה-12 ונפטר לפני 1342. שניהם היו מגדולי חכמי ישראל בספרד ושניהם כתבו תשובות לשאלות הילכתיות רבות. מטרת המחקר היתה לברר אם יש תשובות המיוחסות לאחד החכמים וחוברו על ידי האחר.
וכך פעל התהליך לפי פרופסור קופל:
"תחילה לקחנו חלק מן החומר כדי 'לאמן' את המערכת. כלומר לתת למחשב חומרים של שני המחבים, שהזיהוי שלהם אינו מוטל בספק, ולהטיל עליו להכיר את ההבדלים ביניהם. ואז אני אומר למחשב: עכשיו אתה חושב שאתה יודע את ההבדלים בין הרשב"א לבין הריטב"א. אנחנו רוצים לבחון אותך ונראה אם תדע לזהות חומר שאינו מוכר לך. אנחנו מזינים למחשב חומרים שאנחנו יודעים בוודאות שנכתבו על ידי הריטב"א או הרשב"א. בבחינה הזו המחשב איננו מרמה ואיננו מעתיק, ומצאנו שהוא זיהה את מחברי הטקסטים ברמת דיוק של 95 אחוזים. הצלחה דומה היתה למחשב גם בזיהוי ההבדלים בין הרשב"א לרמב"ן.
הספר "הקדמון" של בן איש חי
"באחרונה היפנה אותנו פרופסור שלמה זלמן הבלין מהמחלקה לתלמוד לבעיה הקשורה בבן איש חי, תלמיד חכם בן המאה ה-19 מבגדד. בן איש חי כתב ספר שאלות ותשובות בשם "רב פעלים". הוא גם הוציא ספר שאלות ותשובות בשם "תורה לשמה". במבוא לספר השני הוא כותב שמצא אותו בגניזה והוא נכתב בידי איזה רב לא ידוע. פרופסור הבלין ביקש לדעת מי חיבר את הטקסט השני. בדקנו ומצאנו את התשובה: בן איש חי חיבר את שני הספרים".
זיהוי מוצלח אחר היה בתחום מדרשי הלכה. יש ספרים שלפי החוקרים נחשבים דבי ר' עקיבא ויש ספרים שנחשבים דבי ר' ישמעאל. רצינו לבדוק אם המחשב יוכל להבחין ביניהם בלי שנאמר לו מה לחפש. נתברר שיכול היה להבחין ביניהם בצורה מושלמת.
בדיקת כתבי שקספיר
גם בדיקת כתבי שקספיר גרמה אכזבה. כידוע מתהלכת זה שנים אגדה כאילו כתבי שקספיר נכתבו בידי בן דורו, כריסטופר מרלו. מרלו נולד באותה שנה בה נולד שקספיר 1564 ונרצח בתיגרה בשנת 1593 בהיותו בן 29. הוא התחבר לקושרים קתוליים נגד המלכה אליזבת. ב-1587 החל קריירה של מחזאי ונחשב לסולל הדרך לשקספיר. במקביל עבד בשרות החשאי. האגדה נולדה על רקע נסיבות רציחתו של מרלו. האגדה ידעה לספר כי הוא בעצם לא נרצח והמשיך לכתוב שנים רבות בהסתר יצירות המיוחסות לשקספיר. האגדה תפסה תאוצה לכל מיני כיוונים ובארצות הברית יש אף אשה אחת שטוענת כי מרלו היה יהודי. בקרב החוקרים קיימת שאלה רק לגבי יצירה אחת – אדוארד השלישי.
מספר פרופסורר קופל: "בבדיקה ראשונית העלינו שלפי התוכנה שלנו חיבר מרלו את אדוארד השלישי המיוחס לשקספיר. וזה נגד דעת רוב החוקרים.
הגילוי הזה יכול היה להיות סנסציה עולמית, אך בדיקה נוספת העלתה שטעינו. המחשב ידע אמנם להבחין בקלות בין כל כתבי שקספיר לכל כתבי מרלו. אבל לא נכון היה להשוות בין כלל היצירות של שני האישים אלא בין יצירותיו הראשונות של שקספיר לבין אדוארד השלישי. (מרלו נרצח ב-1593 ושקספיר התחיל לכתוב ב-1590 לערך). בדיקה זו לא העלתה באורח מובהק שמדובר ביצירה של מרלו והמחקר נגנז"
בין גברים לנשים.
ההשג של קופל ואנשי ציוותו שזכה להדים הרבים ביותר היה היכולת להבחין בין טקסט שנכתב בידי גברים לבין טקס שנכתב בידי נשים. מה שמשכנע במחקר הזה ובתוצאותיו הוא שקופל וציוותו לא חיפשו תכונות מיוחדות אצל נשים ורק הזינו את המחשב בטקסטים (כתובים אנגלית) שנכתבו על ידי בני שני המינים. המחשב הוא שבחן את אלפי המילים וחלקי הדיבר השונים והעלה את הצימוקים שבאמצעותם ניתן להבחין בין הכותב לכותבת.
מספר המאפיניינים שנמצאו הוא בין מאה למאתיים.
כך למשל מצא המחשב כי נשים משתמשות בכינויי גוף
(I, YOU, HE, SHE) בכ-30 עד 40 אחוז יותר מגברים. גברים משתמשים יותר בביטויים החלטיים (כמו למשל: THOSE. THAT, THESE,). נשים משתמשות הרבה יותר במילים שליליות: NOT,
NOR ,NEVER. נשים משתמשות יותר במילים המנסות ליצור קשר עם הקורא. גברים לעומת זאת מרבים להשתמש במאפיינים אינפורמטיביים. ההבדלים בין גברים לנשים נמצאו בכל סוגי הטקסטים: ספרות בידיונית ולא בידיונית, אמנות, הגות, אמונה, ביוגרפיות, פנאי, מחקרים מדעיים, מסמכים מסחריים וכדומה.
האם יכול המחשב לזהות בני אדם שהזהות המינית שלהם לא ברורה? בעת שראיינתי את פרופסור קופל הוא הביע את אמונתו שהתשובה תהיה חיובית אף שהדבר לא נבדק. כמה ימים לאחר מכן כשהתקשרתי אליו בטלפון סיפר לי כי ה-BBC עשה נסוי ושלח לו שני טקסטים הלקוחים מתוך עיתון וטקסט אחד של מכתב. קופל נתבקש לזהות את מין הכותבים. בטקסטים העיתונאיים הוא זיהה מיד מי גבר ומי אשה ולגבי המכתב קבע שמדובר במישהו "שמשתדל יותר מדי להיות אשה". זו היתה פגיעה בול בשידור חי.
המאמר של קופל (שפורסם בעיתונות המדעית) עורר התעניינות עצומה ותוכנו הועתק בגדולי העיתונים בעולם. לא חולף יום מבלי שהוא מקבל טלפונים ודואל מכל העולם. מובן שלא חסרים גם מבקרים חריפים מחוגים פמיניסטיים ש"ממש שחטו אותנו". כתב עת אחד דחה את המאמר בנימוק שהכותבים צריכים להצהיר על העמדה הפמיניסטית שלהם. עוד קבעו "שעצם העובדה שאנחנו מניחים שיש שני מינים ולא רצף מוכיח על הדעה הקדומה שלנו".
בצוות החוקרים של קופל נמצאת גם אשה, ענת שמעוני. כדי להסיר לזות שפתיים מן הקוראים בחוץ לארץ שאינם יודעים אולי שענת הוא שם של אשה הוסיפו למאמר גם את שמה השני, רחל.
פלילים ופסיכיאטריה
השימושים האפשריים בטכניקה הזו לזיהוי טקסטים טומנת בחובה אינסוף אפשרויות. אחת מהן היא לצרכי זיהוי פלילי. אחד הדוקטורנטים של קופל עשה עבודה במחלקה לזיהוי פלילי של המשטרה לזיהוי קולי. כבר היום יכול החוקר המשטרתי להשתמש בטכניקה הזו על מנת לגלות מאפיינים רבים של כותב מכתב איום למשל: גיל, שפת אם, השכלה, מין.
במחקרים שנערכו באחרונה במחלקתו של קופל, ופורסמו בעיתונות המדעית, נתברר כי הטכנולוגיה שפיתח עשויה להיות בעלת ערך עצום לחקירות משטרה ולגורמים פליליים.
נקח למשל מקרה שאלמוני כותב מכתב איום. המכתס מודפז במדפסת אין עליו טביעת אצבעות ושופ ממצא אחר שמעבדה לזיהוי פלילי יכולה לגלות על פיו את זהות הכותב.
כאן באים קופל וצוותו לעזרת החוקרים. אם יש בידי החוקרים אוסף של טקסטים של אנשים חשודים שזהותם ידועה, יכולה התוכנה של קופל לקבוע ברמת דיוק של קרוב ל-100 אחוזים כי כותב מכתב האיום לא נמנה עם האנשים שבקבוצת הטקסטים של האנשים החשודים. או לקבוע לגבי שליש עד 40 אחוזים שהכותב הוא פלוני או אלמוני. ולרוב הזיהוי הזה כמעט ודאי.
השיטה הזאת לא חייבת להיות דווקא לצרכים בטחוניים או פליליים. אם למשל בנק מפרסם מודעת מבוקשים למשרה ומקבל כמה מאות מכתבים. במקום לבדוק כל אחד מן המכתבים ידנית אפשר לבצע בדיקות אופי וכדומה עליו דובר כבר קודם ולגלות אנשם מתחזים על ידי השוואה למשל לטקסטים שכותבים בני קבוצת גיל מסויימת באינטרנט. אילו הונהגה שיטה זו בפרשת שוד הברינקס השוד הזה לא היה מתרחש.
תחום נוסף שפרופסור קופל תולה בו תקוות רבות הוא התחום הפסיכיאטרי. יש בעיה של השגת טקסטיפ מתאימים וצינעת הפרט. אך כשתיפטר הבעיה יאפשר הדבר לקבוע פרמטרים שמזהים מחלת נפש אצל כותב.
מאמר זה הוא הרחבה ועידכון של מאמר שפרסמתי באוגוסט 2006. פיתוחיו של קופל עוררו רעש גדול בתקשורת העולמית אך כאן לא ידעו עליהם עד שפרסמתי את הראיון עמו ב"היגיון בשיגעון". בעקבות זאת הוזמן לספר על שיטתו בתכנית של לונדון וקירשנבוים בערוץ 10.
ראה בין הבלוגוספירה למסכת קינים
פינגבאק: בין הבלוגוספירה למסכת קינים | היגיון בשיגעון
מאמר מרתק ביותר אתמול שמעתי ברדיו איני זוכר באיזו תוכנית נדמה לי 60 שניו. על כך שבכתיבה יש הבדל בין אדם האומר אמת למשקר, אדם המשקר כותב לאט יותר ובמאמץ גדול יותר.
דרך אגב שם המדור היגיון בשגעון לאחרונה יצא ספר של פרופ' דן אריאלי על ההגיון באי רציונליות. כך שזו לא רק נהדרת למציאות מסובכת אלא יש באמת הגיון בשגעון.
פינגבאק: • מה היה Google אומר על מסמך גלנט | אסטרטגיות קידום ותוכן
פינגבאק: תורת הקבלה מנקודת מבט של הפסיכולוגיה | היגיון בשיגעון
פינגבאק: האם הסלולארי עלול באמת לגרום לסרטן? | היגיון בשיגעון
מאמר מרתק. האם לדעתך יש בתוצאות בדיקת המחשב ביחס לזוהר להעיד על כך שהזוהר לא נכתב בידי רשב"י? האם ניתן להשוות בין הטקסטים של הזוהר לבין טקסטים מתקופת התנאים כדי להכריע האם הזוהר אכן נכתב בימים ההם או רק כמה מאות שנים מאוחר יותר?
תשובה
כפי שנכתב במאמר לא היה ניתן לבדוק את השאלה בשיטה האמורה. מכל מקום הפילולוגים וחוקרי הקבלה הכריעו שמדובר בטקסט מאוחר. לא הובהרה השאלה כיצד אדם אשר הטקסט מיוחס לו, ר' משה די לאון, היה מסוגל לכתוב טקסט ענק כזה, כאילו יש מאין. אין להוציא מכלל אפשרות שמדובר בטקסט, או טקסטים רבים, שעברו מדור לדור והגיעו בצינורות נעלמים למי שהעלה אותם על הכתב.
ז.ג.