Τεχνολογίες Ανάλυσης Μεγάλων Δεδομένων

Εξάμηνο: Α,
Μονάδες ECTS: 7.5

Απόστολος Παπαδόπουλος

(Υπεύθυνος Μαθήματος)

Διδακτέα Ύλη

Εβδομάδα 1: Εισαγωγή και βασικά θέματα
Εβδομάδα 2: Apache Hadoop μέρος 1, αρχιτεκτονική
Εβδομάδα 3: Apache Hadoop μέρος 2, το μοντέλο MapReduce
Εβδομάδα 4: Apache Spark μέρος 1, βασικά θέματα
Εβδομάδα 5: Apache Spark μέρος 2, λεπτομέριες
Εβδομάδα 6: Apache Spark μέρος 3, dataframes
Εβδομάδα 7: Apache Spark μέρος 4, εξόρυξη γνώσης στο Spark
Εβδομάδα 8: NOSQL μέρος 1, εισαγωγή
Εβδομάδα 9: NOSQL μέρος 2, MongoDB
Εβδομάδα 10: NOSQL μέρος 3, HBase
Εβδομάδα 11: NOSQL μέρος 4, Neo4j
Εβδομάδα 12: Ροές δεδομένων
Εβδομάδα 13: Λίμνες δεδομένων

Προτεινόμενη Βιβλιογραφία

  • “Hadoop: The Definitive Guide Third Edition” by Tom White, O’Reilly Media, 2012.
  • “Spark: The Definitive Guide” by Bill Chambers, Matei Zaharia, O’Reilly Media, 2018.
  • “High Performance Spark: Best Practices for Scaling and Optimizing Apache Spark” by Holden Karau, Rachel Warren, O’Reilly Media, 2017.
  • “Real-Time Analytics: Techniques to Analyze and Visualize Streaming Data” by Byron Ellis and Justin Langseth, Wiley, 2014.
  • “Storm Applied: Strategies for real-time event processing” by Sean T. Allen, Matthew Jankowski, and Peter Pathirana, Manning, 2015.
  • “Mastering Apache Storm” by Ankit Jain and Ashish Sarin, Packt, 2017.>
  • “Stream Processing with Apache Flink” by Fabian Hueske and Vasia Kalavri, O’Reilly Media, 2019.
  • “Streaming Systems: The What, Where, When, and How of Large-Scale Data Processing” by Tyler Akidau, Slava Chernyak, Reuven Lax, O’Reilly Media, 2018.
  • “Graph Databases” 2nd Edition, by Ian Robinson, Jim Webber, and Emil Eifrém, O’Reilly Media, 2015.
  • “MongoDB: The Definitive Guide: Powerful and Scalable Data Storage” 2nd Edition, by Kristina Chodorow, O’Reilly Media, 2013.
  • “HBase: The Definitive Guide”, by Lars George, O’Reilly Media, 2011.