קורס Hadoop Data Analysis

על הקורס

Apache Hadoop נחשבת כיום לאחת הטכנולוגיות הנפוצות והיעילות ביותר לאחסון ותחקור נתונים בנפחים גבוהים (Big Data) . קורס זה מעניק למסיימיו הבנה מלאה בכל הנוגע לקונספטים עליהם Hadoop מושתת והידע הנדרש לתחקור המידע באמצעות Hive, Pig ו Impala.

קהל יעד

קורס זה נועד בעיקרו לאנשי BI, כותבי קוד, מנהלי מסדי נתונים, ואנשי מקצוע נוספים אשר אחראים על תחקור המידע ב Hadoop Cluster.

יעדים מרכזיים

במהלך קורס זה נלמדים בין היתר הנושאים הבאים –

  • היכרות כללית עם טכנולוגיות ה Big Data
  • מבוא ל Hadoop.
  • תחקור נתונים באמצעות Pig, Hive ו Impala.
  • שינוע נתונים באמצעות Sqoop.

דרישות קדם

  • נסיון קודם בעבודה מול מערכת ההפעלה Linux.
  • נסיון קודם בעבודה מול מסדי נתונים.
  • ידע בשפת ה SQL.

נושאי הקורס

קורס ה Hadoop Analysis מכיל נושאים רבים, לפניכם הנקודות המרכזיות, תכנים מדוייקים וסביבת תרגול יוגדרו בהתאם לצרכי הלקוח.

  • Data Analysis and using Pig – Introduction, Pig Vs. SQL, using GRUNT, executing HDFS commands.
  • Implementing ETL processes with Pig – data types – scalar and complex, case sensitivity, comments, LOAD, STORE, DUMP, FOREACH, FILTER, GROUP, ORDER BY, JOIN, LIMIT, Pig Functions, FLATTEN, Nested FOREACH, COGROUP, UNION, SPLIT, Using Parameters, Macros, and ILLUSTRATE.
  • Pig Tuning and Optimization – Advanced tips and techniques
  • Analysing your data using Hive and Impala – Introduction to Hive and Impala architectures, data types, Schema On Read, databases, table management, internal Vs. external tables, Using Partitions and different storage formats, HiveQL.
  • Moving data into the cluster using Sqoop – Importing and exporting data using Sqoop