fbpx

10 שגיאות נפוצות בניתוח נתונים

עבודת האנליסט מורכבת משני שלבים מרכזיים: ניתוח נתונים והצגת ממצאים. שני החלקים, למרות השוני באופיים, משלימים זה את זה.
כדי שהאנליזה שלכם תלך יותר חלק – להלן 10 שגיאות נפוצות בתרגילי האנליזה של הסטודנטים שלנו, בדגש על אותם שלבים.

שלב הניתוח

בשלב הניתוח, הנקודות המרכזיות אליהן צריך לשים לב הן: איכות הנתונים, הקשרם, מגבלות הדאטה, שימוש בוויזואליזציות, פרשנות לתוצאות המחקר, ותיעוד. 

1. התעלמות מאיכות הנתונים

התעלמות מאיכות הנתונים היא אחת השגיאות הנפוצות ביותר. נתונים שגויים, לא רלוונטיים, ערכים חסרים, שורות כפולות, ערכים לא עקביים וחריגים, יכולים להשפיע באופן משמעותי על הניתוח ולהוביל למסקנות שגויות.

  • נתונים לא מדויקים: נתונים שגויים או מטעים עלולים להשפיע באופן דרסטי על האנליזה. אם לדוגמא נתוני המכירות מכילים מספרים לא הגיוניים ושגויים, תתקבל תמונה לא נכונה ומטעה של ביצועי העסק. 
  • נתונים לא רלוונטיים: נתונים אשר לא תורמים בפועל לניתוח, מכניסים רעש ובלבול מיותר. לדוגמה: בניתוח ביצועי המכירות, עלולים להופיע בטבלה עמודות לא רלוונטיות, כמו עיר המגורים של איש המכירות.
    אנליסטים מתחילים נוטים להראות שהם ניתחו הכל ושמו לב לכל נקודה בדאטה, צריך להתגבר על הדחף הזה ולהבין שלעיתים נתונים לא רלוונטיים – מבלבלים ובעיקר חסרי משמעות למקבלי ההחלטות. 
  • שורות כפולות: שורות כפולות עלולות לעוות את הניתוח על ידי מתן משקל לא ראוי לנתונים חוזרים. לדוגמה, אם יש שתי רשומות של אותו לקוח, הנתונים יראו כאילו יש יותר לקוחות ממה שיש בפועל.
  • ערכים ריקים: ערכים חסרים או ריקים עלולים להוביל לניתוח מוטה או שגוי אם לא מטפלים בהם כראוי. לדוגמה, נתוני מכירות חסרות תאריך לא יאפשרו לחשב את הכנסות על פי ציר הזמן.
  • ערכים לא עקביים: אלה יכולים להתרחש כאשר אותו סוג של נתונים (לרוב קטגוריאליים) מיוצג בדרכים שונות, לדוגמה, בעמודת מגדר – 'זכר' מול 'M' מול 'גבר'.
  • ערכים חריגים: חריגים הם נקודות נתונים השונות באופן משמעותי מאחרות באותו מערך נתונים.
    חריגים עלולים להיגרם מטעות, אך הם יכולים גם להצביע על מידע חשוב. צריך לקחת בחשבון את טבע הנתונים (יש נתונים שבאופן טבעי מתפזרים בצורת פעמון, יש אחרים שלא) ולבחון חריגים בזהירות לפני שמחליטים איך להתייחס אליהם.

2. הבנת ההקשר ומגבלות הדאטה

ניתוח נתונים אינו רק עניין של הבנת הנתונים עצמם, אלא גם על הבנת ההקש . ללא ידע מעמיק בתחום וגורמי ההשפעה, הסיכון לביצוע הנחות או פירושים שגויים עולה. ניתוח טוב דורש הבנה בנושאים שונים, כגון:

  • גורמים פנימיים, כגון מדיניות החברה, תהליכים עסקיים ועובדים.
  • גורמים חיצוניים, כגון שוק, תחרות ורגולציה.
  • העולם העסקי אותו חוקרים: חשוב להבין את הענף, את השחקנים בשוק ואת הצרכים של הלקוחות.

 

כמו כן, יש לקחת בחשבון את מגבלות הנתונים שעומדים לרשותנו. לרוב, מקבלי החלטות לא אוהבים אנליזות שהשורה התחתונה שלהן היא: "אם היה לנו את הנתונים האלו והאלו, היינו יכולים לעשות את הפעולה הזו והזו". במקום להגיע למסקנות מסוג זה, קחו את המידע שעומד ברשותכם ונסו להפיק ממנו את המירב.

3. הדמיית נתונים

המספרים הם רק חלק מהתמונה, וניתוח נתונים חזותי הוא לא בגדר רשות, אלא כלי חיוני. באמצעותו, ניתן בין היתר:

  • לזהות מגמות בנתונים, כגון עלייה או ירידה בנתונים לאורך זמן. 
  • להבין התפלגות של הנתונים, כגון האם הנתונים מפוזרים באופן שווה או בצורה לא שווה. 
  • לזהות תבניות בנתונים, כגון קשר בין שני משתנים.

4. פרשנות שגויה של נתונים

האינטואיציה שלנו יכולה להטעות אותנו, ולכן חשוב לבדוק היטב את הנתונים לפני הגעה למסקנות. 

  • הטיות אישיות: אם אנחנו מאמינים שצריך להגביל את השימוש ברשתות החברתיות, אנחנו עשויים לפרש נתונים על השימוש באותן רשתות בצורה מגמתית.
  • הטיית בחירה: עיוות בנתוני מחקר הנובע מהטיה בצורת איסוף המידע. התעלמות מהטיית בחירה עלולה להוביל לפירוש שגוי של הנתונים ולמסקנות מוטעות. אם אתם מנסים לברר אילו סוגי דגים יש בנהר באמצעות רשת שהחורים בה גדולים מדי עבור חלק מהדגים. במקרה זה צורת איסוף הנותנים יוצרת דגימה מוטה כלפי הדגים הגדולים ויהיה עיוות בין יחסי הדגים המיוצגים במדגם לבין המציאות (ותודה לויקיפדיה על הדוגמא הנפלאה).
  • חוסר תמיכה סטטיסטית: חוסר תמיכה סטטיסטית פירושו שהנתונים שלנו אינם מספיקים כדי לתמוך במסקנה שלנו. לדוגמא, הסקה על הבדל בין קבוצות כאשר כמות הדגימות בכל אחת מהן לא מאפשרת מובהקות חד משמעית. 
  • פירוש שגוי של מתאם כסיבתיות: מתאם הוא מדד של הקשר בין שני משתנים. ומתאם אינו שווה לסיבתיות. לדוגמה, אם יש מתאם בין צריכת שוקולד לבין רמת האושר, זה לא אומר ששוקולד גורם לאושר.

5. תיעוד לקוי

ניתוחים צריכים להיות מתועדים באופן מקיף, מסודר וברור. 

  • התיעוד צריך לכלול את כל המידע הרלוונטי לניתוח, כגון: מקורות הנתונים, תהליך הניתוח, תוצאות הניתוח, מסקנות הניתוח
  • תיעוד צריך להיות מסודר ומאורגן באופן ברור וקל להבנה. זה יקל על אנשים אחרים להבין את הניתוח ולחזור אליו בעתיד.
  • תיעוד צריך להיות ברור: וכתוב בשפה ברורה ופשוטה להבנה. זה יקל על אנשים אחרים להבין את הניתוח ולקבל את המסקנות שלו.
  • רפרנסים מסודרים חיוניים כדי שניתן יהיה לתת תימוכין לממצאים של הניתוח ולבדוק את הניתוח. הרפרנסים צריכים להיות מופיעים באופן ברור ומסודר, ותמיד יש להתייחס אליהם במהלך הניתוח

שלב הצגת הממצאים

בשלב ההנגשה, הנקודות המרכזיות אליהן צריך לשים לב הן: הנרטיב, השימוש בוויזואליזציות, העמסות לעומת פישוט והנגשה, סטורי-טלינג, ותקשורת עם קהל היעד

6. התמקדות בנרטיבים רבים

נתונים יכולים להכיל מידע רב, המאפשר לחקור מס' אספקטים ולהניע את האנליזה אל עבר נרטיבים שונים. לדוגמה, נתוני מכירות יכולים לספר את סיפור הצמיחה של חברה, או את הסיפור של ירידה במכירות. נתוני דמוגרפיה יכולים לספר את סיפור המגמות הדמוגרפיות של מדינה, או את סיפור הפערים הבין-עדתיים.

אם תנסו לחקור מספר נרטיבים שונים בו-זמנית, אתם עלולים למצוא את עצמכם מתקשים להבין את הנתונים, או להסיק מסקנות. הדבר יכול להוביל לבלבול, בזבוז זמן ומשאבים, וקבלת תוצאות לא מדוייקות.

חשוב שכל מחקר יתמקד בכיוון מחקר בודד, ושאלות המחקר בו יוגדרו מראש. זה יעזור לכם להבין טוב יותר את הנתונים שלהם, לקבל תוצאות מהימנות יותר, ולחסוך זמן ומשאבים.

7. שימוש שגוי בהדמיית נתונים

שימוש שגוי בהדמיית נתונים יכול להוביל למסקנות שגויות.

  • שימוש בגרף לא מתאים יכול להוביל להצגה מוטעית של המידע. דוגמא קלאסית היא שימוש בגרף עוגה המקשה על הצופה בהשוואת גדלים ופרופורציות.
  • שימוש בצבע לא מתאים יכול גם להוביל להצגה מוטעית של המידע. לדוגמה, שימוש בצבעים בהירים מדי יכול להקשות על הקוראים להבחין בין נתונים שונים.
  • שימוש בפרופורציות לא מתאימות יכול גם להוביל להצגה מוטעית של המידע. לדוגמה, שימוש בסקאלה שלא מתחילה ב-0 יכול להוביל לכך שהקוראים יסיקו מסקנות שגויות על הגודל היחסי של שני משתנים.
  • שימוש בהדגשות לא מתאימות יכול גם להוביל להצגה מוטעית של המידע. לדוגמה, שימוש בהדגשות מוגזמות יכול להוביל לכך שהקוראים יתמקד רק בנתונים מסוימים, ויתעלם מנתונים אחרים חשובים.
  • שימוש בטקסטים לא ברורים או לא מדויקים יכול גם להוביל להצגה מוטעית של המידע. 

8. העמסה

העמסה של ויזואליזציות, נתונים ומלל יכולה להוביל לשלוש תוצאות שליליות:

  • הוצאת מריכוז: כאשר הצופה נחשף למידע רב מדי, הוא עלול להתחיל לאבד את הריכוז שלו. זה יכול להקשות עליו להבין את המידע, ולקבל החלטות מבוססות.
  • הסחת תשומת לב: ויזואליזציות, נתונים ומלל יכולים להיות מאוד מושכים. כאשר הצופה נחשף למידע רב מדי, הוא עלול להתחיל להתמקד בדברים חסרי משמעות, ולהסיט את תשומת הלב מהמידע החשוב.
  • חוסר הבנה: כאשר הצופה נחשף למידע רב מדי, הוא עלול להתחיל להרגיש מבולבל. זה יכול להקשות עליו להבין את המידע, ולקבל החלטות מבוססות.

9. התמקדות ב Explore ולא ב Explain

המצגת היא סיפור מדוייק, עם התחלה, אמצע וסוף המיועד להניע פעולה. כל שלב בתוך הסטוריטלינג שלנו, נועד לתמוך ברעיון המרכזי ובמסקנות שלנו.

סיפור טוב מתחיל בהתחלה מעניינת, שמעוררת את סקרנות הצופים. אמצע הסיפור הוא המקום שבו הצופים לומדים את המידע החשוב. והסוף הוא המקום שבו הסיפור מגיע לשיאו, ומעביר את המסר.

בשלב האמצע – לאנליסטים מתחילים רבים יש נטייה להראות את כל האקספלורציות האפשריות שהם עשו על הנתונים, כולל כאלו חסרות כל משמעות לנרטיב של האנליזה ולמטרה הסופית. 

חשוב לזכור שהצגת נתונים היא לא רק הצגה של עובדות ואנליזות. פרזנטציה היא סיפור ענייני. סיפור שמטרתו להעביר מסר, ולהניע את הצופים לפעולה מסויימת.

10. חוסר הבנה ותקשורת עם קהל היעד

חשוב להם להבין את קהל היעד שלכם. את הצרכים, האינטרסים והידע שלהם.

אם הפרזנטציה לא לוקחת בחשבון את קהל היעד, היא עלולה להציג ממצאים באופן לא רלוונטי או לא מותאם. מה שבתורו עלול להוביל להבנה שגויה, חוסר מעורבות, והחלטות מוטעות.

ארגון ממשלתי המציג נתונים על איכות הסביבה לקהל של אזרחים, צריך להשתמש בשפה פשוטה וברורה, ולהימנע ממונחים טכניים.

חוקר המציג נתונים מדעיים לקהל של עמיתים, צריך להשתמש בשפה מקצועית, ולהסביר את הממצאים בצורה ברורה ומדויקת.

חברה המציגה נתונים על מוצרים ושירותים לקהל של לקוחות, צריכה להתמקד בנתונים החשובים ללקוחות, כגון תכונות, יתרונות ומחיר.

לדוגמה, אם אתם מציגים נתונים על מגמות המכירות של חברה לקהל של משקיעים, כדאי שתתמקדו בנתונים החשובים למשקיעים, כגון צמיחה, רווחיות ודינמיקה של השוק. אם תדברו על נתונים לא רלוונטיים, או במונחים לא מובנים, המשקיעים עלולים לא להבין את הממצאים ולהסיק מסקנות שגויות.

המדריך לדאטה-אנליסט

בואו לבקר במאגר המידע הגדול ביותר בעברית אשר מאגד בתוכו סשנים רבים אשר הועברו על-ידי מומחים מהתעשייה, ומכיל פוסטים המפרטים נושאים שונים.