כמה גדול צריך להיות ה Data שלנו כדי להקרא Big, ומה עומד מאחורי המונח ? בפוסט זה ארצה להתייחס למושג, להסביר את הקונספט הכללי, לתת מספר דוגמאות מוחשיות מהעולם האמיתי, וכמו כן – טיפ שימושי : מדוע תמיד כדאי לצאת לטיול בחו”ל עם משתמשי מק Smile

אז מה לדעתכם הנקודה בה ה Data שלנו מקבל את תואר הכבוד “Big” ? התשובה לכך לא חד משמעית, ובעיקר תלוית זמן.  אם לפני כעשור מספר ג'יגות בודדות היו יכולות להקרא Big Data, היום אנו נוהגים לדבר במונחי טרות (terabyte) בעתיד הקרוב אנו נעבור לפטה בית (petabyte)  נמשיך לאקסה בית (exabyte) ונתקדם כך עד שנצטרך להמציא מילים חדשות..

clip_image004

היה היה Smile (קרדיט לצלם המוכשר – ערן קורן)

כאמור, מונח ה Big Data סובייקטיבי, יותר מינוח שיווקי מאשר מושג טכני טהור. ועם זאת הגדרה מניחה את הדעת עבורו תהיה – כמות מידע אשר יעילות העיבוד שלה על פני מכונה אחת נמוכה עד לא אפשרית.

לא אחת יצא לי להתקל במקרים בהם תקרת ה I/O או ה CPU של ה Server מנעו זמן עיבוד סביר. אנחנו כ DBA יכולים לכוונן ולשפר את ביצועי ה Database עד רמה מסויימת, וכאשר זו מגיעה לגבולות המכונה, ארסנל הכלים שלנו פוחת באופן משמעותי.

האם הטכנולוגיות המושתתות על קונספט ה Big Data מתאימות רק לנפחים גדולים ?

הגישה העומדת (עליה ארחיב בפוסטים הבאים) בבסיס הטכנולוגיות של עולם ה Big Data היא ביזור – חלוקת עבודה (עיבוד זכרון שטחי דיסק) על פני מספר מכונות אשר עובדות במקביל. למרות העובדה כי גישה זו פותחה לנפחי עבודה גדולים, אין זה אומר שנתונים בעלי נפח יותר נמוך לא יוכלו להנות ממנה.

איפה ניתן למצוא שימוש בטכנולוגיות ה Big Data ?

איפה לא ?  בתחילת דרכן של טכנולוגיות אלו, ניתן היה לראות את המיקוד העיקרי בעולמות Web (למעשה טכנולוגיות כגון Hadoop פותחו מתוך עולם ה Web) והיום טכנולוגיות אלו הפכו לנחלת הכלל – החל ברשתות קמעונאיות וכלה בסטארט אפים שאפתניים לניתוחים דמוגרפים באמצעות לווינים.

קצת מספרים

Facebookמנתחת ואוגרת 2.5 ביליון תכני שיתוף כל יום, 300 מיליון תמונות מתעדכנות כל יום, ו 105 טרה בייט  (terabyte) מעובדים כל 30 שניות (Facebook Recommendation Engine)

בשנת 2011, 200 מיליון טוויטים נשלחו דרך Twitter כל יום, בשנת 2013 המספר עלה ל 500 מיליון.

בתי חולים כמו Children Hospital Los Angeles משתמשים בטכנולוגיות כגון Hadoop על-מנת לנתח כמויות מידע עצומות המגיעות מסנסורים המחוברים לחולים.

חברות טלקום סלולריות רבות נעזרות ביכולות ה Big Data על מנת לספק ללקוחותיהם שירותי זמינות גבוהים יותר, לדוגמא חברת סלולר סינית – China Telecom Guangdong, שומרת ביליוני רשומות שיחה ומאפשרת גישה בזמן אמת אליהן.

חברת Orbitz, חברה אשר עוסקת בתחום התיירות, הגיעה למסקנה מעניינת – משתמשי מק מוכנים לשלם מעט יותר כסף עבור שדרוג מקום הלינה שלהם (אינפורמציה המתקבלת מאיסוף הנתונים בעת ההזמנה)

אגדה אורבנית מספרת על חברת wallmart אשר הגיעה למסקנה מעניינת נוספת – בשעות הערב המאוחרות קיימת קורלציה בין קניית חיתולים לקניית בירות … על פניו הקשר נראה מקרי, אולם במחשבה יותר מעמיקה ניתן היה להגיע לתובנות עסקיות מסקרנות – כאשר מקרי ה”חירום” הנוגעים לחיתולים התרחשו בשעות הערב , הגברים היו אלו אשר נודבו לרכישת החיתולים, כגברים ממורמרים היוצאים מהמיטה החמה באמצע הלילה למסע רכישות, החליטו אלה לפצות את עצמם בבירות. רוצים לנחש מה עשתה החברה ברגע שהתגלה הקשר ? הבירות והחיתולים מוקמו זה לצד זה. כאמור, זהו סיפור אשר מהימנותו מוטלת בספק, אך מרחקו מההגיון לא רחוק Smile, והוא מדגים בצורה טובה את היכולת שלנו להפיק ערך מכמויות מידע גדולות.

לסיום הייתי רוצה להתייחס לאחת מהדוגמאות המדהימות ביותר בעיני – חברה הנקראת SkyBox, באמצעות לווינים חברה זו מפתחת ניתוח דמוגרפי על פני כדור הארץ המאפשר מידע בזמן אמת –  כמה חניות פנויות יש כרגע באבן גבירול ? מה אחוז הבנייה של הבניינים בצומת עלית בת”א, כמה ספינות עוזבות כרגע את הנמל ועוד.. כנסו ותתרשמו

עולם ה Big Data מביא עימו קדמה טכנולוגית עצומה ושאלות רבות, שאלות אשר חלקן הגדול נוגע לשמירה על זכויות הפרט, כיצד ניתן לאכוף אותן ? כיצד הן משתקפות במציאות החדשה הנפרשת בפנינו ? והאם למעשה אנו נדרשים לשנות את ההגדרה של המושג פרטיות. העתיד הקרוב יתן מענה לשאלות אלו. כרגע, אנו מוזמנים להתמקם על הגלשן, לתפוס את הגל, ולהנות מהדרך Smile