fbpx

תיק עבודות - פרוייקטים מומלצים לדאטה-אנליסט

בפוסט הזה ריכזנו עבורכם רשימה של דאטה-סטים מומלצים למחקר, שחלקם אף משמשים אותנו בהכשרות שאנחנו מעבירים. בין אם אתם מתעניינים בהתנהגות צרכנים, מגמות בשיווק או אפילו נתונים מסרטים, תמצאו כאן מגוון דאטה-סטים שיאפשרו לכם לתרגל את יכולות הניתוח שלכם ולהציג תיק עבודות מרשים למעסיקים פוטנציאליים.

אם אתם חדשים בתחום ורוצים להבין איך ניגשים לאנליזה של נתונים, אנחנו מזמינים אתכם לקרוא את הפוסט הבא שלנו בנושא.

נתחו דאטה-סט של חברת ייצור על מנת לשפר את תהליכי ניהול המלאי שלה. 

  • בידקו מגמות בביקוש לאורך זמן (עונתיות, עליות/ירידות) והאם ישנם מוצרים בעלי ביקוש חריג.
  • האם ישנם אירועים חיצוניים (כמו מבצעים, שינויים טכנולוגיים) שמשפיעים על הביקוש?
  • אילו פריטים נמצאים במלאי עודף לאורך זמן? מהן הסיבות לכך?
  • אילו פריטים נגמרים מהמלאי בתדירות גבוהה? האם יש קשר בין חוסרים אלו לבין הביקוש?
  • מהן עלויות האחסון של כל פריט? האם ישנם פריטים בעלי עלויות אחסון גבוהות במיוחד?
  • חשבו את הכמות האופטימלית להזמנה עבור כל פריט מלאי, על מנת למזער את העלויות הכוללות של הזמנה ואחסון.
  • בדקו את כל שרשרת האספקה, החל מהספקים ועד ללקוחות, וזהו הזדמנויות לשיפור היעילות והפחתת עלויות.

עם מידע מפורט על אלפי משחקים, שחקנים וקבוצות מ-11 ליגות שונות ברחבי אירופה, תוכלו לנתח מגוון רחב של היבטים.

  • חקרו את הדירוגים של השחקנים השונים, השוו בין ביצועיהם בעונות שונות, וזהו את השחקנים המשפיעים ביותר בכל קבוצה
  • בדקו את ההשפעה של מערכים טקטיים שונים, חילופים במהלך המשחק ושינויים בהרכב על תוצאות המשחקים.
  • השוו בין ביצועי הקבוצות בליגות השונות, זהו את הליגות התחרותיות ביותר, וחקרו את ההבדלים בין סגנונות המשחק בליגות השונות.
  • חיזוי תוצאות משחקים: נסו לפתח מודל חיזוי המבוסס על נתונים היסטוריים, סטטיסטיקות שחקנים וגורמים נוספים, כדי לנבא את תוצאות המשחקים העתידיים.
  • השפעת גורמים חיצוניים: בדקו את ההשפעה של גורמים כמו מזג האוויר, פציעות של שחקנים מרכזיים ושינויים בתקציב הקבוצה על ביצועי הקבוצה.

הדאטה-סט מכיל נתוני מכירות היסטוריים משלושה סניפים של סופרמרקט במשך שלושה חודשים, ומאפשר ניתוח מעמיק של מגמות מכירה, ביצועי מוצרים, והתנהגות לקוחות.

  • נתחו מגמות מכירה לאורך זמן (יומי, שבועי, חודשי), השוו בין סניפים, וזהו תקופות שיא ותקופות שפל.
  • נתחו את הרווחיות של מוצרים שונים, זהו מוצרים פופולריים ולא פופולריים, וביחנו את הקשר בין מחיר המוצר לכמות הנמכרת.
  • חלקו את הלקוחות לקבוצות על פי מאפיינים שונים (סוג לקוח, מגדר, דירוג שביעות רצון) ונתחו את הרגלי הקנייה של כל קבוצה.
  • נתחו את השפעתם של מבצעים והנחות על המכירות ועל הרווחיות.

הדאטה-סט הבא מכיל נתונים על מאות תלמידים וכולל מידע דמוגרפי, רקע אקדמי והתנהגותי. בנוסף, הדאטה-סט כולל מידע על מעורבות ההורים בתהליך החינוכי ורמת שביעות רצונם מבית הספר.

  • בידקו אילו גורמים דמוגרפיים, אקדמיים והתנהגותיים משפיעים על הציון הסופי של התלמידים.
  • בידקו האם מעורבות ההורים בתהליך החינוכי ושביעות רצונם מבית הספר קשורים לביצועים האקדמיים של התלמידים.
  • השוו בין ביצועי התלמידים על סמך מאפיינים שונים (כגון מין, לאום, שלב חינוכי) ובידקו האם ישנם פערים בין הקבוצות.

הדאטה-סט המצורף מתאר את פעילות החברה בניו יורק לשנת 2019.

  • איך מתפלגים נתוני ההזמנות מבחינת מספר האורחים, משך השהות וזמן ההזמנה מראש?
  • אילו מגמות ודפוסים מופיעים בניתוח המחירים לפי מיקום ועונה?
  • מהם הדפוסים וההתנהגויות של הלקוחות, כולל העדפות בנוגע לסוגי הנכסים והסיבות לביטולים?
  • אילו מגמות גאוגרפיות ניתן לזהות והאם יש אזורים פופולריים במיוחד?

באפליקציית Gett, כאשר הלקוח לוחץ על כפתור "הזמן" באפליקציה, מערכת ההתאמה מחפשת את הנהגים הרלוונטיים ביותר ומציעה להם את ההזמנה. לעיתים, מסיבות שונות, הנסיעה מבוטלת. 

מטרת הפרוייקט היא לנתח את הביטולים השונים. לבחון את המדדים עבור הזמנות שלא הושלמו בהצלחה, כלומר, שהלקוח לא קיבל רכב בסופו של דבר. 

שימו לב, תיאור העמודות השונות מופיע בקובץ ה Insights_from_failed_orders.ipynb בתוך תיקיית ה Github

הדאטה-סט הבא מכיל מידע מפורט על תאונות דרכים בבריטניה בין השנים 2005-2015, כולל נתונים על נסיבות התאונה, כלי הרכב המעורבים, נפגעים, ומיקום התאונה.

  • נתחו את הגורמים המשפיעים על חומרת התאונות, כגון סוג כלי הרכב, מהירות הנסיעה, תנאי מזג האוויר והכביש.
  • זהו  את הגורמים העיקריים לתאונות דרכים, כגון נהיגה בשכרות, אי ציות לתמרורים ושימוש בטלפון נייד בזמן נהיגה.
  • נתחו את מגמות תאונות הדרכים לאורך זמן, ונבדוק האם חלו שינויים במספר התאונות, בחומרתן או בסוגי כלי הרכב המעורבים.
  • ביחנו את הקשר בין תנאי מזג האוויר והתאורה לבין שכיחות התאונות וחומרתן.
  • השוו בין אזורים שונים בבריטניה מבחינת שכיחות התאונות וסוגיהן, וזהו איזורים שבהם מתרחשות תאונות רבות.
  • נתחו את בטיחותם של הולכי רגל ורוכבי אופניים וזהו את הגורמים לתאונות בהם היו מעורבים.

חברת Aerofit היא חברה המתמחה ביבוא ושיווק ציוד כושר ומשחקי ספורט, בין היתר הליכונים. 

צוות מחקרי השוק ב-AeroFit רוצה לזהות את המאפיינים של קהל היעד עבור כל סוג של הליכון שמציעה החברה, כדי לספק המלצה טובה יותר של ההליכונים ללקוחות חדשים. עזרו לצוות לחקור האם יש הבדלים בין המוצרים ביחס למאפייני הלקוח.

נתחו את הנתונים שסופקו, והפיקו תובנות כמיטב יכולתכם.

הדאטה-סט הבא מציג את היסטורית האוכלוסייה העולמית, ומכיל נתונים דמוגרפיים על כל מדינה וטריטוריה בעולם, כולל אוכלוסייה נוכחית והיסטורית, קצב גידול, צפיפות אוכלוסין ושטח.

  • נתחו את המגמות של אוכלוסיית העולם לאורך זמן, בדקו את קצב הגידול וזהו את המדינות בעלות הגידול המהיר ביותר.
  • השוו  בין מדינות ויבשות מבחינת גודל האוכלוסייה, בחנו את ההשפעה של גורמים כמו שטח וצפיפות אוכלוסין.
  • חיקרו את מגמות האוכלוסייה ביבשות השונות, זהו יבשות עם גידול מהיר או איטי ונתחו את הגורמים המשפיעים על מגמות אלה.
  • ביחנו את הקשר בין גורמים כמו תמ"ג, תוחלת חיים ורמת השכלה לבין גודל האוכלוסייה וקצב הגידול.
  •  

הדאטה-סט הבא מכיל מידע מפורט על עסקאות, לקוחות והוצאות שיווק של חברת מסחר מקוון לשנת 2019.

  • חשבו הכנסות, מספר הזמנות, ערך הזמנה ממוצע, מספר לקוחות (קיימים/חדשים) וכמות, לפי קטגוריה, חודש, שבוע ויום.
  • זהו מגמות ועונתיות במכירות לפי קטגוריה, מיקום וחודש.
  • נתחו כיצד מספר ההזמנות והמכירות משתנים בימים שונים בשבוע ובחודש.
  • בדקו כיצד מבצעים והנחות משפיעים על ההכנסות.
  • זהו את המוצרים הנמכרים ביותר לפי כמות ומספר עסקאות.
  • חשבו את ההכנסות, הוצאות השיווק, אחוז הוצאות השיווק מההכנסות, מס ואחוז דמי המשלוח לפי חודש. נתחו את השפעת הוצאות השיווק על ההכנסות.
  • צרו קוהורטים של לקוחות שהצטרפו בכל חודש. נתחו את התנהגות הלקוחות בקוהורטים השונים (למשל, שיעור שמירת לקוחות), זהו את הקוהורטים עם שיעור השמירה הגבוה ביותר.

הדאטה-סט הבא מציג את מדד האושר העולמי, הכולל דירוג של מדינות לפי רמת האושר שלהן וניתוח של שישה גורמים המשפיעים על האושר: תוצר כלכלי, תמיכה חברתית, תוחלת חיים, חופש, היעדר שחיתות ונדיבות.

  • השוו את רמות האושר בין מדינות שונות, זהו את המדינות המאושרות ביותר והכי פחות מאושרות, 
  • בדקו כיצד השתנו רמות האושר במדינות שונות לאורך השנים, וזהו מגמות של עלייה או ירידה ברמת האושר.
  • חקרו את הקשר בין ששת הגורמים המשפיעים על האושר לבין רמת האושר בכל מדינה, וזהו את הגורמים המשמעותיים ביותר באושר של אוכלוסיות שונות.
  • בחנו את השפעתם של גורמים נוספים שאינם כלולים בדאטה-סט, כגון רמת אי השוויון, מצב הביטחון והיציבות הפוליטית, על רמת האושר במדינות שונות.

Freedom Debt Relief הוא ארגון המסייע לאנשים שצברו חובות משמעותיים כתוצאה מקשיים בלתי צפויים ואינם מסוגלים עוד לעמוד בתשלומים החודשיים המינימליים שלהם. 

לאחר ההרשמה לתוכנית Freedom Debt Relief, הלקוחות מפסיקים לבצע תשלומים לנושים שלהם ובמקום זאת מבצעים הפקדות שהם יכולים להרשות לעצמם לחשבון בנק ייעודי חדש עם Freedom. 

החברה משתמשת בכספים אלה כדי לנהל משא ומתן עם כל אחד מהנושים של הלקוח כדי ליישב את החוב, בדרך כלל רק בשבריר ממה שהיה חייב במקור. Freedom גובה עמלות (פרופורציונליות לסכום המופקד החודשי) מהלקוח עבור הסכמים שהיא מנהלת בהצלחה. 

Freedom ניהלה לאחרונה קמפיין שיווקי לקידום תוכנית הקלת החוב שלה

המטרה הכוללת של פרויקט זה היא: להעריך האם קמפיין השיווק היה מוצלח, ולהמליץ על דרכים בהן ניתן להתאים את אסטרטגיית הקמפיין בעתיד כדי לשפר את הביצועים.

בפרויקט זה נבצע ניתוח של שוק האפליקציות לאנדרואיד על ידי השוואה בין יותר מעשרת אלפי אפליקציות ב-Google Play במגוון קטגוריות. במהלך האנליזה נבחן את הנתונים כדי למצוא תובנות שיסייעו בפיתוח אסטרטגיות להגדלת צמיחה ושימור לקוחות.

  • איך משפיע דירוג האפליקציה על כמות ההורדות והנראות שלה ב-Google Play?
  • אילו קטגוריות של אפליקציות הן הפופולריות ביותר ומה מאפיין אותן?
  • כיצד משפיעים גודל האפליקציה ומחירה על הדירוגים שהיא מקבלת?
  • אילו אסטרטגיות מוניטיזציה הן הנפוצות ביותר ואילו מהן מביאות לרווחים הגדולים ביותר?
  • האם יש הבדל משמעותי בפופולריות בין אפליקציות חינמיות לאפליקציות בתשלום?
  • כיצד משפיעות הביקורות והסנטימנטים של המשתמשים על הדירוגים של אפליקציות בתשלום לעומת אפליקציות חינמיות?

דאטה-סט המכיל מידע על אלפי סרטים, וכולל פרטי עלילה, פרטי הפקה, מדדי הצלחה: הכנסות, תקציב, דירוג ממוצע על ידי הצופים, פרטי צוות ושחקנים, ועוד.

  • מהם הגורמים המשפיעים ביותר על הצלחתו של סרט (ז'אנר, שחקנים, תקציב)? האם ישנן חברות הפקה שנוטות להצלחה רבה יותר מאחרות?
  • מהם ההבדלים העיקריים בתקציבים, הכנסות, ז'אנרים ודירוגים בין סרטים של אולפנים גדולים לסרטים עצמאיים?
  • אילו מילות מפתח אופייניות לכל ז'אנר? האם ישנם ז'אנרים בעלי חפיפה גבוהה במילות המפתח?
  • האם ישנם שחקנים או במאים שנוכחותם בסרט מעלה את הסיכוי להצלחה מסחרית או לדירוג גבוה?
  • אילו מדינות מפיקות את הסרטים המצליחים ביותר מבחינה מסחרית ומבחינת דירוגים? האם ישנם הבדלים משמעותיים בין מדינות בהעדפות הז'אנרים?

הדאטה-סט הבא מכיל מידע על משרות Data Analyst ב-LinkedIn. הוא כולל משרות בארה"ב, קנדה ואפריקה, ומספק תובנות לגבי מגמות בשוק העבודה בתחום ניתוח הנתונים. הנתונים כוללים מידע על תיאור המשרה, החברה, המיקום, הדרישות, השכר (במידה וזמין) ותאריך הפרסום.

  • כיצד משפיע המיקום הגיאוגרפי על זמינות המשרות, הדרישות והשכר?
  • מהם הכישורים הטכניים והרכים המבוקשים ביותר בשוק, והאם יש הבדלים בין אזורים שונים?
  • מהם הגורמים המשפיעים על השכר המוצע למשרות Data Analyst?
  • כיצד משתנה שוק העבודה של Data Analysts לאורך זמן?

מסד הנתונים הגלובלי על טרור (GTD) הוא מסד נתונים בקוד פתוח הכולל מידע על התקפות טרור ברחבי העולם בין השנים 1970-2017. ה-GTD כולל נתונים שיטתיים על אירועי טרור פנימיים ובינלאומיים שהתרחשו במהלך תקופה זו, וכולל יותר מ-180,000 התקפות. 

  • כיצד השתנו מספר ההתקפות, מספר ההרוגים והפצועים, וסוגי ההתקפות לאורך זמן ומיקום גיאוגרפי?
  • מהם הגורמים הסוציו-אקונומיים, הפוליטיים והדתיים המשפיעים על פעילות טרור?
  • מהן השיטות הנפוצות ביותר של התקפות טרור (למשל, פצצות, ירי, חטיפה)?
  • כיצד דפוסי הטרור משתנים בין אזורים גיאוגרפיים שונים (למשל, המזרח התיכון, אירופה, דרום אסיה)?
  • האם יש הבדלים בדפוסי הטרור בין סוגים שונים של טרור (למשל, טרור לאומני, טרור דתי, טרור שמאלני/ימני)?

מסד הנתונים Denver Crime Data כולל מידע על עבירות פליליות בדנוור, קולורדו. מסד הנתונים מכסה סוגי פשיעה שונים, תאריכים, שעות, מיקומים ופרטים קשורים כגון השכונה ומחוז המשטרה. 

  • מהן המגמות בשיעורי הפשיעה במהלך שנים, חודשים וימים שונים בשבוע בדנוור?
  • האם יש זמנים ספציפיים ביום שבהם סוגים מסוימים של פשעים נפוצים יותר?
  • מהם סוגי הפשעים הנפוצים ביותר המדווחים בדנוור?
  • האם יש דפוסים עונתיים בשיעורי הפשיעה, כאשר סוגים מסוימים של פשעים גדלים או פוחתים במהלך עונות ספציפיות?
  • כיצד \ האם תנאי מזג האוויר מתואמים עם התרחשויות פשיעה?

רוצים לקחת הניתוח כמה צעדים קדימה, שלבו אותו יחד עם נתוני הפשיעה בבוסטון, ובשיקגו

הפרויקט הבא שימש כמטלת בית בתהליך הגיוס בחברת Linkfire.

מטרת הפרויקט היא להבין טוב יותר את התעבורה באתר, במיוחד את היקף ופיזור האירועים, ולפתח רעיונות כיצד להגדיל את שיעורי הקליקים על הקישורים.

  1. כמה אירועי צפייה בדף (pageviews) קיבלו סך הכל הקישורים במערך הנתונים שסופק בתקופה המלאה? כמה בממוצע ליום?
  2. מה לגבי שאר האירועים שנרשמו?
  3. מאיזה מדינות הגיעו הצפיות בדף?
  4. מה היה שיעור הקליקים הכולל (clicks/pageviews)?
  5. כיצד מתפלג שיעור הקליקים על פני קישורים שונים?
  6. האם יש מתאם בין קליקים לתצוגות מקדימות (previews) בקישור? האם הוא מובהק סטטיסטית? מה גודל ההשפעה?

Cookie Cats הוא משחק פאזל פופולרי למובייל, במשחק השחקן חייב לחבר אריחים מאותו הצבע כדי לנקות את הלוח ולעבור שלב. 

ככל שהשחקנים מתקדמים במשחק, הם נתקלים בשערים שמאלצים אותם להמתין זמן מה לפני שהם יכולים להתקדם או לבצע רכישה בתוך האפליקציה. בפרויקט הבא, ננתח את תוצאותיו של מבחן A/B שבו השער הראשון ב-Cookie Cats הועבר מרמה 30 לרמה 40. בפרט, ננתח את ההשפעה על שימור השחקנים.

Zomato היא חברה הודית רב-לאומית המציעה משלוחי מזון, הזמנת שולחנות, מכירת כרטיסים מקוונת לאירועים ושירות מנוי המציע הנחות על סעודות ומשלוחי מזון. Zomato פועלת כיום בהודו ובאיחוד האמירויות הערביות.

הדאטה-סט הבא מכיל מידע על למעלה מ-12,000 מסעדות בבנגלור. כולל מיקום, סוג מטבח, מחיר ממוצע, דירוג וביקורות. ניתוחים אפשריים על הנתונים כוללים:

  • ניתוח דמוגרפי: זיהוי אזורים עם ריכוז גבוה של סוגי מסעדות מסוימים, והאם יש קשר בין סוג המסעדה לדמוגרפיה של האזור (למשל, האם אזורים עם אוכלוסייה צמחונית גדולה נוטים להיות בעלי יותר מסעדות צמחוניות?).
  • ניתוח גורמי הצלחה: זיהוי גורמים המשפיעים על הצלחת המסעדה, כגון מיקום, סוג מטבח, מחיר ודירוג. האם ישנם גורמים מסוימים שחשובים יותר מאחרים?
  • ניתוח תחרות: זיהוי אזורים עם תחרות גבוהה בין מסעדות, והאם יש קשר בין רמת התחרות לגורמים כמו מחיר ודירוג.
  • ניתוח ביקורות: ניתוח סנטימנט של ביקורות כדי להבין טוב יותר את חוויית הלקוחות ומה הופך מסעדה לפופולרית.
  • ניתוח מגמות: זיהוי מגמות במטבח ובפופולריות של מסעדות לאורך זמן, והאם ישנם גורמים (כגון אירועים או שינויים דמוגרפיים) שיכולים להסביר את המגמות הללו.

עיריית תל אביב-יפו פתחה את שערי מאגרי המידע שלה לציבור הרחב, באמצעות אתר חדש בשם TLV Open Data. האתר החדש מאפשר לכל אחד גישה נוחה וישירה למגוון רחב של נתונים עירוניים בתחומים כמו תחבורה, חינוך, דמוגרפיה וקהילה.

באמצעות האתר ניתן לצפות בנתונים גולמיים ממאגרי המידע העירוניים. בין היתר, ניתן למצוא באתר מידע על מסלולי נסיעה של קורקינטים שיתופיים, תקלות ומפגעים בזמן אמת, אישורי בנייה ועוד.

המדריך לדאטה-אנליסט

בואו לבקר במאגר המידע הגדול ביותר בעברית! גלו הרצאות וסשנים מרתקים של מומחים מהתעשייה, וצללו לעולם שלם של פוסטים מעמיקים בנושאים שונים.