השפה האנושית היא דבר מרתק. בספרו “קיצור תולדות האנושות” מקדיש יובל נח הררי פרק מעניין להתפתחות התקשורת בין בני האדם ולייחודה המהותי על כל שפת בעל חיים אחרת – היכולת לחשוב בצורה מופשטת, לדבר על דברים שלא קיימים במציאות ולדמיין אותם יחד. המושגים בהם השתמשו בני האדם במרוצת השנים ותדירותם מהווים חלון להיסטוריה של המחשבה האנושית. כך למשל, אנו יכולים ללמוד על התייחסותה של האנושות לרעיון העבדות לפי תדירות השימוש במילה slave, או לזהות את הזמנים שבהם התחוללו מלחמות לפי תדירות המילה war.
אז איך Google קשורה לכל הסיפור ? ומה זה בכלל Ngrams ?
באופן פשוט, נאמר כי הביטוי Ngram מתייחס לרצף של מילים או ביטויים הלקוחים מתוך טקסט מסויים, כאשר N מסמל את מספר המופעים שלהם. כיום קיימות אפליקציות רבות אשר עושות שימוש באנליזות מבוססות Ngrams ליישומים שונים, לדוגמא טכנולוגיות לתיקון תחביר (Spelling Correction), מנועי חיפוש המזהים את הנושא החשוב ביותר בטקסט מסוים, או טכנולוגיות אשר מזהות טרנדים, לפי תדירותן של מילים שונות בפוסטים המתפרסמים במדיות החברתיות.
Google Ngrams Viewer הוא כלי אשר באמצעותו אנו יכולים לבצע ניתוח מילולי למיליוני ספרים (מעל 500 ביליון מילים בשפות שונות) ולקבל אינדיקציה בצורת גרף המצביעה על תדירות המילה לאורך 200 השנים האחרונות.
לדוגמא, מתי החל השימוש במושג Database ?
מה יש ל Google Ngrams Viewer לומר על התפיסה המגדרית במרוצת מאה השנים האחרונות ?
רוצים לנחש איך העליות החדות בגרף מתקשרות למושג War ?
מהי תדירות הביטוי Slave במאות האחרונות, וכיצד ניתן להסביר את הנקודה הגבוהה ביותר בגרף ?
איך בעולם העובר תהליך גלובליזציה אפשר להסביר את השימוש הגובר במילה Culture?
ומסתבר שהשאלה הנפוצה בעולם לא שייכת רק לנו, הישראלים