fbpx

שלבים בבניית תיק עבודות של דאטה-אנליסט

עבור דאטה אנליסטים המחפשים את המשרה הבאה שלהם, תיק עבודות מרשים מאפשר להציג את הכישורים, הנסיון והיכולות בפני מעסיקים פוטנציאליים.

ברשתות החברתיות יוצא לי לראות סביב הנושא הזה לא מעט שאלות ולבטים. בפוסט זה, אשתדל לעשות קצת סדר ואשתף אתכם בשלבים השונים של בניית תיק עבודות.

אז פנו לכם זמן, פתחו את תוכנת האנליזה האהובה עליכם, ובואו נצא לדרך.

1. איזה דאטה לבחור 

בחרו נושא שאתם מחוברים אליו ומתעניינים בו באופן טבעי. כך, תהיה לכם מוטיבציה רבה יותר לחקור אותו לעומק ולהשקיע זמן בניתוח מעמיק. הבנת הקונטקסט של התחום היא השלב המקדים החשוב ביותר בכל אנליזה. 

אם אתם גיימרים למשל, מחקר מעמיק בתחום תוך ניצול הידע והניסיון שלכם כצרכנים יהווה בחירה טובה. אם יש לכם רקע וידע בשוק ההון, בחירת נושאים קשורים תאפשר לכם להביא ערך משמעותי בזכות הידע הקודם שלכם.

ודאו שיש לכם גישה למאגר נתונים איכותי "עם בשר". שימו לב לכמות הנתונים הזמינים, מספר העמודות והטבלאות, ואפשרויות הניתוח והמשחק איתם. הבחינה המוקדמת של מאפייני הנתונים תאפשר לכם להעריך האם ניתן להפיק מהם תובנות ומסקנות מעניינות.

רוצים לחסוך זמן בחיפוש אחר הדאטה-סט המתאים? להלן קישור המפרט פרוייקטים מומלצים

2. מאיפה לבחור

לאחר בחירת הנושא, הגיע הזמן לאסוף את הנתונים הנחוצים לניתוח. למרבה המזל, לא חסר מאיפה. קיימים מקורות נתונים רבים ומגוונים העומדים לרשותכם, המאפשרים לכם לחקור ולבחון נושאים שונים בצורה מעמיקה. 

3. ניקוי נתונים

לפני שאתם מתחילים לחקור את הנתונים, חשוב לוודא שהם נקיים משגיאות ונתונים חסרים. שלב זה כולל בין היתר:

  • זיהוי וטיפול בערכים חסרים: ניתן למחוק תצפיות עם ערכים חסרים רבים, להשלים ערכים חסרים באופן ידני, או להשתמש בטכניקות סטטיסטיות מתקדמות יותר להשלמתם.
  • זיהוי וטיפול בערכים חריגים: ערכים חריגים עלולים להשפיע משמעותית על תוצאות הניתוח. ניתן לזהות ערכים חריגים באמצעות טכניקות סטטיסטיות וגרפיות, ולטפל בהם על ידי הסרתם מהניתוח או על ידי שינוי ערכם.
  • תיקון שגיאות: ודאו שאין שגיאות הקלדה, פורמט, טעויות,  ובעיות אחרות בנתונים.

4. איך מתחילים לחקור 

לאחר איסוף נתונים איכותיים ורלוונטיים, הגיע הזמן לבצע אקספלורציה על הדאטה (Exploratory Data Analysis – EDA). תהליך זה נועד לחקור את הנתונים לעומק, להבין את מאפייניהם, לזהות קשרים ודפוסים מעניינים, ולחשוף תובנות חשובות שינחו את המשך תהליך הניתוח. הניתוח בשלב זה נעשה ללא מטרת מחקר מוגדרת. 

סטטיסטיקה חד-משתנית (Univariate Statistics):

ניתן להשתמש במדדים סטטיסטיים פשוטים, כגון ממוצע, חציון, סטיית תקן, טווח, היסטוגרמות וטבלאות ציר, כדי להבין את התפלגות הערכים של כל משתנה.

סטטיסטיקה דו-משתנית (Bivariate Statistics):

לאחר הבנת התפלגות הערכים של כל משתנה בנפרד, ניתן לצלול עמוק יותר ולנתח את הקשרים בין שני משתנים בו-זמנית. בשלב זה, נהוג להצליב את העמודות השונות בטבלת הנתונים מול המשתנה המרכזי שמעניין אותנו. לדוגמה, בטבלת נתוני מכירות של חברה מסוימת, אם אנו רוצים לחקור את הקשר בין רווחי החברה לבין משתנים אחרים בטבלה, נוכל:

  • להצליב את עיר המגורים מול הרווחים ולעשות ממוצע: ניתוח זה יאפשר לנו לזהות אילו ערים הן רווחיות יותר עבור החברה.
  • להצליב את גיל הלקוח מול הרווחים ולעשות מתאם: ניתוח זה יאפשר לנו לבחון האם קיים קשר בין גיל הלקוחות לבין סכום הרכישה שלהם.

ה-EDA הוא תהליך חקירה מתמשך ומעגלי, וניתן לחזור עליו שוב ושוב לאורך תהליך ניתוח הנתונים. ככל שתשקיעו יותר זמן ומאמץ ב-EDA, כך תקבלו תובנות מעמיקות ומועילות יותר, ותוכלו להפיק מהנתונים שלכם את המרב.

5. בחירת נושא המחקר וגישת "מחקר פתוח"

הגישה הקלאסית לניתוח נתונים מתחילה בהגדרת מטרה כללית וכיוון ברור. ורק לאחר מכן, עוברים ל-EDA, הגיוני סה"כ. 

עם זאת, בפועל, אני ממליץ לנקוט בגישה הפוכה: התחילו ב-EDA: התחילו באקספלורציה מבלי הגדרת מטרה ספציפית, ורק אז "בדיעבד" הגדירו את מטרת המחקר. 

גישת "מחקר פתוח" מאפשרת לעיתים לגלות תובנות מפתיעות, קשרים בלתי צפויים ומוטיבים חדשים שלא היו עולים לראש עם הגדרת מטרה מראש. כתוצאה מה-EDA, יתגבשו רעיונות ומטרות מחקר ספציפיות. בשלב זה, ניתן להגדיר השערה ברורה שתנחה את המשך המחקר.

יש לציין כי גישת "חקר פתוח" אינה מתאימה לכל סוגי המחקר. במקרים מסוימים, הגדרת מטרה ספציפית מראש עשויה להיות יעילה יותר ונכונה יותר. 

לטובת פרוייקט תיק עבודות, לדעתי זו השיטה הטובה ביותר.

6. ניתוח מעמיק

לאחר שהבהרנו את מטרת המחקר ואת הנתונים העומדים לרשותנו, הגיע הזמן להתקדם אל ה Deep Dive. בשלב זה, נתמקד בשאלות המחקר הספציפיות שלנו ונשתמש בנתונים בצורה מיטבית כדי לענות עליהן.

נניח שגילינו קשר בין רווחיות החברה לציר הזמן. כאשר היו תקופות זמן של רווחיות גבוהה לצד תקופות של רווחיות נמוכה יותר. בשלב הניתוח המעמיק, נוכל לבצע Drill Down, למשל: 

  1. ניתוח התנהגות סוגי לקוחות לאורך זמן:
  • האם לקוחות פרמיום או לקוחות רגילים היו אלו שתרמו יותר לרווחיות החברה בתקופות שונות?
  • האם היו שינויים בהתנהגות צרכנית של סוגי לקוחות אלו לאורך זמן?
  • האם ניתן לזהות קשרים בין התנהגות צרכנית של סוגי לקוחות אלו לבין תקופות של רווחיות גבוהה או נמוכה?
  1. ניתוח סוגי המכשירים מהם התחברו הלקוחות:
  • האם ניתן לזהות קשר בין סוג המכשיר (מחשב נייד, טלפון חכם, טאבלט) לבין רווחיות החברה?
  • האם היו שינויים בהעדפת הלקוחות לגבי סוגי המכשירים לאורך זמן?
  • האם ניתן לזהות קשר בין שינויים בהעדפת הלקוחות לגבי סוגי המכשירים לבין תקופות של רווחיות גבוהה או נמוכה?
  1. ניתוח שילוב סוג הלקוח וסוג המכשיר לאורך זמן:
  • האם ניתן לזהות קשרים בין שילוב סוג הלקוח וסוג המכשיר לבין רווחיות החברה?
  • האם היו שינויים בהעדפות הלקוחות לגבי שילוב סוג הלקוח וסוג המכשיר לאורך זמן?
  • האם ניתן לזהות קשר בין שינויים בהעדפות הלקוחות לגבי שילוב סוג הלקוח וסוג המכשיר לבין תקופות של רווחיות גבוהה או נמוכה?

7. ולידציות

הקפדה על ולידציות בכל שלב של המחקר חיונית להבטחת איכותו, אמינותו ומהימנותו. 

ודאו שתהליך ניקוי הנתונים נעשה בצורה מוקפדת ועקבית, ודאו שהחישובים הסטטיסטיים שבוצעו תואמים את ההנחות הבסיסיות של המבחנים הסטטיסטיים שנבחרו, שתפו את ניתוח הנתונים עם חברים ואנשים מהתחום, בצעו תיעוד קפדני של כל שלבי המחקר, כולל המתודולוגיה, הניתוחים שבוצעו והמסקנות שהוסקו (חיוני לשחזור המחקר ולאפשרות ולידציה שלו על ידי אחרים)

8. המסקנות

חשוב להציג מסקנות ברורות, מכוונות פעולה, וניתנות ליישום.

  1. התמקדו בממצאים העיקריים: הדגישו את הממצאים החשובים ביותר שעלו מהניתוח, תוך התייחסות ישירה לשאלות המחקר שהוגדרו בתחילת התהליך.
  2. קשרו את הממצאים להשלכות: הסבירו מה המשמעות של הממצאים עבור הארגון, העסק או תחום המחקר. כיצד ניתן להשתמש במידע זה כדי לשפר תהליכים, לקבל החלטות מושכלות יותר או לפתח פתרונות חדשים? 
  3. הציעו המלצות לפעולה: המליצו על צעדים ספציפיים שניתן לנקוט בהתבסס על הממצאים. הצעות אלו צריכות להיות ברורות, מדידוֹת, ניתנות ליישום ובעלות פוטנציאל להשפיע לטובה.
  4. התייחסו למגבלות המחקר: ציינו את המגבלות של המחקר, כגון אופן איסוף הנתונים, גודל המדגם או שיטות הניתוח. הדגישו כיצד מגבלות אלו עשויות להשפיע על פרשנות הממצאים.

כאמור המסקנות הסופיות של הניתוח צריכות להיות מסקנות "ברות ביצוע", מכוונות פעולה, פחות מסקנות היפותטיות של "לו היו עומדים לרשותינו נתונים כאלו ואחרים, אז..", או "יש לבצע מחקר נוסף שיבדוק את X ובאמצעותו נוכל לעשות Y", אלא יותר מסקנות שמנחות את מקבלי ההחלטות בצורה ברורה מה יש לעשות וכיצד

9. איך עוטפים את הניתוח במצגת

את הפרזנטציה ניתן לערוך בצורות שונות, להלן הדרך אותה אנו מלמדים במסגרת הקורס שלנו

  1. הגדרת המטרה (Objective): פתחו בהצהרה ברורה ותמציתית המגדירה את מטרת המחקר שלכם. מהי הבעיה או השאלה שרציתם לחקור? מה רציתם להשיג באמצעות המחקר?
  2. ניסוח שאלות המחקר (Research questions): הציגו את השאלות הספציפיות שעליהן ניסיתם לענות במסגרת המחקר. שאלות אלו צריכות להיות ברורות, מדידות ורלוונטיות למטרה שהוגדרה.
  3. הממצאים העיקריים (Main findings): סכמו את התוצאות החשובות ביותר שהתקבלו במחקר.
    השתמשו בנתונים, גרפים ותמונות כדי להמחיש את הממצאים בצורה ברורה וקלה להבנה.
    התמקדו בממצאים הרלוונטיים ביותר לשאלות המחקר ולמטרה שהוגדרה.
  4. המלצות לפעולה (Actionable recommendations): בהתבסס על ממצאי המחקר, הציגו המלצות קונקרטיות כיצד ניתן ליישם את הידע שנרכש. המלצות אלו צריכות להיות רלוונטיות לקהל היעד ולבעיות שעליהן התמקדתם.
  5. מתודולוגיה (Methodology):
    תארו בקצרה את השיטה בה השתמשתם לביצוע המחקר. הסבירו את סוגי הנתונים שנאספו, כלי המחקר ששימשתם וטכניקות הניתוח שבוצעו.
  6. ניתוח מלא (Full analysis): שקופיות נפרדות המציגות ניתוח מפורט יותר של הנתונים. שקופיות אלו יכולות לכלול טבלאות, גרפים ופירוט סטטיסטיקות נוספות. חשוב לוודא שהמידע מוצג בצורה ברורה וקלה להבנה, תוך התמקדות בממצאים החשובים ביותר.

10. ה-מה יותר חשוב מה-איך 

במהלך ניתוח נתונים, חשוב לשים דגש על ההיבט האנליטי, תוך הדגשת התובנות והמסקנות שניתן להסיק מהנתונים, ולא על ההיבטים הטכניים של ביצוע הניתוח.
שתפו את הסיפור שמספרים הנתונים. מה הן המגמות העיקריות? מהן ההשלכות של הממצאים? השתמשו בגרפים, תרשימים ותמונות כדי להציג את הנתונים בצורה ברורה וקלה להבנה. הסבירו את הניתוח בצורה פשוטה וקולעת, תוך שימוש בשפה ברורה והימנעות ממונחים טכניים מיותרים. ודאו שהניתוח שלכם עונה על שאלת המחקר שהוגדרה בתחילת התהליך. ציינו תובנות ברורות אשר יכולות להניע לפעולה.

אין צורך להראות את קוד ה-SQL שלכם, או כל קוד ויכולת טכנית אחרת: לרוב,אלו אינם רלוונטיים עבור המראיין. אם המראיין מעוניין לבחון את היכולות הטכניות שלכם, הוא כנראה יעשה זאת באמצעות מבחן ייעודי.

המדריך לדאטה-אנליסט

בואו לבקר במאגר המידע הגדול ביותר בעברית! גלו הרצאות וסשנים מרתקים של מומחים מהתעשייה, וצללו לעולם שלם של פוסטים מעמיקים בנושאים שונים.