Προχωρημένα Θέματα Εξόρυξης Δεδομένων
Εξάμηνο: Β,
Μονάδες ECTS: 7.5

Ιωάννης Μανωλόπουλος
(Υπεύθυνος Μαθήματος)
Διδακτέα Ύλη
Εβδομάδα 1: Εισαγωγή και βασικά θέματα
Εβδομάδα 2: Προχωρημένα θέματα κατακερμαστιμού μέρος 1, βασικά
Εβδομάδα 3: Προχωρημένα θέματα κατακερμαστιμού μέρος 2, minhash
Εβδομάδα 4: Προχωρημένα θέματα κατακερμαστιμού μέρος 3, simhash
Εβδομάδα 5: Ροές δεδομένων μέρος 1, βασικά
Εβδομάδα 6: Ροές δεδομένων μέρος 2, τεχνικές βασισμένες στη δειγματοληψία
Εβδομάδα 7: Ροές δεδομένων μέρος 3, τεχνικές βασισμένες σε sketches
Εβδομάδα 8: Εξόρυξη γραφημάτων μέρος 1, τυχαίοι περίπατοι
Εβδομάδα 9: Εξόρυξη γραφημάτων μέρος 2, πυκνά υπογραφήματα
Εβδομάδα 10: Εξόρυξη γραφημάτων μέρος 3, τρίγωνα
Εβδομάδα 11: Εξόρυξη γραφημάτων μέρος 4, network representation learning
Εβδομάδα 12: Τεχνικές μείωσης του πλήθους των διαστάσεων
Εβδομάδα 13: Αλγόριθμοι για συστήματα συστάσεων
Εβδομάδα 2: Προχωρημένα θέματα κατακερμαστιμού μέρος 1, βασικά
Εβδομάδα 3: Προχωρημένα θέματα κατακερμαστιμού μέρος 2, minhash
Εβδομάδα 4: Προχωρημένα θέματα κατακερμαστιμού μέρος 3, simhash
Εβδομάδα 5: Ροές δεδομένων μέρος 1, βασικά
Εβδομάδα 6: Ροές δεδομένων μέρος 2, τεχνικές βασισμένες στη δειγματοληψία
Εβδομάδα 7: Ροές δεδομένων μέρος 3, τεχνικές βασισμένες σε sketches
Εβδομάδα 8: Εξόρυξη γραφημάτων μέρος 1, τυχαίοι περίπατοι
Εβδομάδα 9: Εξόρυξη γραφημάτων μέρος 2, πυκνά υπογραφήματα
Εβδομάδα 10: Εξόρυξη γραφημάτων μέρος 3, τρίγωνα
Εβδομάδα 11: Εξόρυξη γραφημάτων μέρος 4, network representation learning
Εβδομάδα 12: Τεχνικές μείωσης του πλήθους των διαστάσεων
Εβδομάδα 13: Αλγόριθμοι για συστήματα συστάσεων
Προτεινόμενη Βιβλιογραφία
- “Mining of Massive Datasets”, by Jure Leskovec, Anand Rajaraman, Jeff Ullman, Cambridge University Press, 2020.
- G. Cormode and S. Muthukrishnan. “An improved data stream summary: The count-min sketch and its applications”. Journal of Algorithms, 55(1):58–75, 2004.
- P. Flajolet and G. N. Martin. “Probabilistic counting algorithms for database applications”. Journal of Computer and System Sciences, 31:182–209, 1985.
- M. Garofalakis. “Querying and mining data streams: you only get one look”. Tutorial at VLDB 2002.
- G. S. Manku and R. Motwani. “Approximate frequency counts over data streams”, VLDB 2002.
- Jeffrey S. Vitter. Random Sampling with a reservoir. ACM Transactions on Mathematical Software, 11(1), 1985.
- Moses S. Charikar, “Similarity Estimation Techniques from Rounding Algorithms”, STOC 2002.
- Gurmeet Singh Manku, Arvind Jain, Anish Das Sarma,, “Detecting Near-Duplicates for Web Crawling”, WWW 2007.
- A.Z. Broder,“On the resemblance and containment of documents”, Proc. Compression and Complexity of Sequences, pp. 21–29, Positano Italy, 1997.
- A. Andoni, P. Indyk, “Near-optimal hashing algorithms for approximate nearest neighbor in high dimensions”, Communications of the ACM 51:1, pp. 117–122, 2008.