fbpx

השפה האנושית היא דבר מרתק. בספרו “קיצור תולדות האנושות” מקדיש יובל נח הררי פרק מעניין להתפתחות התקשורת בין בני האדם ולייחודה המהותי על כל שפת בעל חיים אחרת  – היכולת לחשוב בצורה מופשטת, לדבר על דברים שלא קיימים במציאות ולדמיין אותם יחד. המושגים בהם השתמשו בני האדם במרוצת השנים ותדירותם מהווים חלון להיסטוריה של המחשבה האנושית. כך למשל, אנו יכולים ללמוד על התייחסותה של האנושות לרעיון העבדות לפי תדירות השימוש במילה slave, או לזהות את הזמנים שבהם התחוללו מלחמות לפי תדירות המילה war.

אז איך Google קשורה לכל הסיפור ? ומה זה בכלל Ngrams ?

באופן פשוט, נאמר כי הביטוי Ngram מתייחס לרצף של מילים או ביטויים הלקוחים מתוך טקסט מסויים, כאשר N מסמל את מספר המופעים שלהם. כיום קיימות אפליקציות רבות אשר עושות שימוש באנליזות מבוססות Ngrams ליישומים שונים, לדוגמא טכנולוגיות לתיקון תחביר (Spelling Correction), מנועי חיפוש המזהים את הנושא החשוב ביותר בטקסט מסוים, או טכנולוגיות אשר מזהות טרנדים, לפי תדירותן של מילים שונות בפוסטים המתפרסמים במדיות החברתיות.

Google Ngrams Viewer הוא כלי  אשר באמצעותו אנו יכולים לבצע ניתוח מילולי למיליוני ספרים (מעל 500 ביליון מילים בשפות שונות) ולקבל אינדיקציה בצורת גרף המצביעה על תדירות המילה לאורך 200 השנים האחרונות.

לדוגמא, מתי החל השימוש במושג Database ?

Database

מה יש ל Google Ngrams Viewer לומר על התפיסה המגדרית במרוצת מאה השנים האחרונות ?

He Vs. She

רוצים לנחש איך העליות החדות בגרף מתקשרות למושג War ?

War

מהי תדירות הביטוי Slave במאות האחרונות, וכיצד ניתן להסביר את הנקודה הגבוהה ביותר בגרף ?

slave

איך בעולם העובר תהליך גלובליזציה אפשר להסביר את השימוש הגובר במילה Culture?

culture

ומסתבר שהשאלה הנפוצה בעולם לא שייכת רק לנו, הישראלים Smile

questions