29
D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 1 ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ, ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ΠΤΥΧΙΑΚΩΝ ΕΡΓΑΣΙΩΝ ΓΙΑ ΤΟ ΑΚ. ΕΤΟΣ 2017- 2018 Π. ΒΑΣΙΛΕΙΑΔΗΣ 2017-09-01

ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 1

ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ, ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ΠΤΥΧΙΑΚΩΝ ΕΡΓΑΣΙΩΝ

ΓΙΑ ΤΟ ΑΚ. ΕΤΟΣ 2017- 2018 Π. ΒΑΣΙΛΕΙΑΔΗΣ – 2017-09-01

Page 2: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 2

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ

1. DATA STORYTELLING WITH CINECUBES 3

1.1. ΒΕΛΤΙΩΣΗ ΤΗΣ ΕΜΦΑΝΙΣΗΣ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΤΩΝ CINECUBES 5 1.2. ΜΕΤΑΠΤΩΣΗ ΤΩΝ CINECUBES ΣΕ ΠΛΑΤΦΟΡΜΑ SPARK ΚΑΙ ΑΞΙΟΠΟΙΗΣΗ ΤΗΣ 6 1.3. ΠΡΟΣΘΗΚΗ ΝΕΩΝ HIGHLIGHTS ΜΕ ΕΠΕΚΤΑΣΙΜΟ ΤΡΟΠΟ 7 1.4. ΔΙΑΔΡΑΣΤΙΚΗ ΔΙΑΠΡΟΣΩΠΕΙΑ ΓΙΑ ΤΟ ΣΥΣΤΗΜΑ CINECUBES 8 1.5. ΠΕΡΙΓΡΑΦΗ ΧΡΟΝΟΣΕΙΡΑΣ ΜΕ ΚΕΙΜΕΝΟ 9 1.6. ΑΞΙΟΛΟΓΗΣΗ HIGHLIGHTS ΚΑΙ ΣΥΜΠΤΥΞΗ ΤΟΥΣ 12 1.7. ΕΠΕΚΤΑΣΗ TOY CINECUBES ΜΕ ΣΥΝΕΧΕΙΣ ΕΡΩΤΗΣΕΙΣ 13 1.8. ΕΠΕΚΤΑΣΗ ΤΩΝ CINECUBES ΜΕ ΕΙΔΙΚΟ ΧΕΙΡΙΣΜΟ ΧΡΟΝΟΥ ΚΑΙ ΠΡΟΒΛΕΨΕΩΝ 14

2. ΜΕΛΕΤΗ ΤΗΣ ΕΞΕΛΙΞΗΣ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ 17

2.1. ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΤΩΝ ΠΙΝΑΚΩΝ ΜΕ ΒΑΣΗ ΤΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΗΣ ΖΩΗΣ ΤΟΥΣ 20 2.2. ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ ΠΙΝΑΚΩΝ ΜΕ ΒΑΣΗ ΤΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΗΣ ΖΩΗΣ ΤΟΥΣ 21 2.3. ΕΞΑΓΩΓΗ ΣΗΜΑΝΤΙΚΩΝ ΜΕΤΑΒΟΛΩΝ ΣΤΗΝ ΙΣΤΟΡΙΑ ΕΝΟΣ ΣΧΗΜΑΤΟΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ ME

ΕΠΕΚΤΑΣΗ ΤΟΥ PARMENIDIAN TRUTH 22 2.4. ΕΠΕΚΤΑΣΗ ΣΥΣΤΗΜΑΤΟΣ MUSES ΓΙΑ ΤΗΝ ΕΞΑΓΩΓΗ ΠΡΟΤΥΠΩΝ ΑΠΟ ΤΟ HEARTBEAT ΤΗΣ ΕΞΕΛΙΞΗΣ

ΣΧΗΜΑΤΩΝ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ 24 2.5. ΜΕΤΑΦΟΡΑ ΣΕ SPARK ΚΑΙ ΕΠΕΚΤΑΣΗ ΤΟΥ ΕΡΓΑΛΕΙΟΥ ROSES 26 2.6. ΑΠΟΤΙΜΗΣΗ ΤΗΣ ΕΠΙΠΤΩΣΗΣ ΓΡΑΦΟΘΕΩΡΗΤΙΚΩΝ ΙΔΙΟΤΗΤΩΝ ΤΩΝ ΠΙΝΑΚΩΝ ΣΤΗΝ ΕΞΕΛΙΞΗ ΤΟΥΣ 27 2.7. ΚΑΤΑΣΚΕΥΗ ΔΙΑΔΡΑΣΤΙΚΟΥ ΕΡΓΑΛΕΙΟΥ ΑΝΑΚΤΗΣΗΣ ΙΣΤΟΡΙΑΣ ΜΙΑΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ ΑΠΟ

ΔΗΜΟΣΙΑ ΑΠΟΘΕΤΗΡΙΑ 29

ΕΠΕΞΗΓΗΣΗ – ΚΟΙΝΗ ΣΕ ΠΟΛΛΕΣ ΕΡΓΑΣΙΕΣ

H Spark, είναι η state of the art πλατφόρμα επεξεργασίας δεδομένων της Apache (http://spark.apache.org/, καθώς και http://spark.apache.org/sql/) που επιτρέπει την παράλληλη επεξεργασία μεγάλων δεδομένων. Εκτός από τη συνδεσιμότητα με διάφορες προγραμματιστικές γλώσσες και συστήματα αποθήκευσης / βάσεων δεδομένων, η Spark έρχεται με 4 εγγενείς βιβλιοθήκες (για SQL, machine learning (MLib), graph management (graphX) και streaming). Έτσι, μπορεί κανείς προγραμματιστικά να συνδέσει έτοιμους αλγορίθμους διαχείρισης δεδομένων σε ένα (1) ομοιογενές περιβάλλον.

Page 3: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 3

1. DATA STORYTELLING WITH CINECUBES Στο σύστημα CineCubes, εξετάζουμε πώς μπορούμε να απαντηθούν ερωτήματα των χρηστών με CineCube movies. Ο χρήστης υποβάλλει ένα OLAP ερώτημα (πρακτικά ένα ερώτημα συνάθροισης που περιλαμβάνει group-by και where clause). Το σύστημα Cinecubes παράγει ως έξοδο μια CineCube movie, η οποία υλοποιείται ως μια παρουσίαση του PowerPoint. Η διαδικασία που ακολουθείται είναι η ακόλουθη:

1. Λαμβάνοντας το ερώτημα του χρήστη ως είσοδο, το σύστημα παράγει ένα σύνολο από συνοδευτικά ερωτήματα που συμπληρώνουν το αρχικό ερώτημα, και τα εκτελεί. Τα συνοδευτικά ερωτήματα σκοπό έχουν να βάλουν τα αποτελέσματα του αρχικού ερωτήματος σε context, ή να παρουσιάσουν την πληροφορία σε μεγαλύτερη ανάλυση. Χονδρικά, η ταινία που παράγεται είναι μια ακολουθία από slides, με κάθε slide να αντιστοιχεί (κατά κανόνα) σε ένα συνοδευτικό ερώτημα.

2. Στη συνέχεια, το σύστημα οπτικοποιεί τα αποτελέσματα του κάθε ερωτήματος, συνοδεύει την παρουσίαση τους με κείμενο το οποίο παράγεται με αυτόματο τρόπο και σχολιάζει τα σημαντικά μέρη των αποτελεσμάτων. Το βασικό στοιχείο στο οποίο στηρίζεται ο σχολιασμός είναι η παραγωγή highlights για τα αποτελέσματα κάθε ερώτησης, τα οποία είναι αναζητήσεις πάνω στο αποτέλεσμα για ενδιαφέροντα μοτίβα. Κάθε τέτοιο μοτίβο εντοπίζεται από ένα αλγόριθμο που έχει κατασκευαστεί για το σκοπό αυτό. Για παράδειγμα, ελέγχουμε για το αν μια στήλη ή μια γραμμή έχει συστηματικά τις top-3 υψηλότερες ή χαμηλότερες τιμές σε όλον τον πίνακα, αν όλες οι τιμές μιας γραμμής/στήλης είναι υψηλότερες από μιας άλλης, κλπ. Προς το παρόν, η οπτικοποίηση των αποτελεσμάτων γίνεται με τη μορφή 2D πίνακα και το κείμενο εντάσσεται στις σημειώσεις της παρουσίασης.

3. Επιπλέον, αν ο χρήστης επιθυμεί, το σύστημα παράγει αυτόματα ήχο για το κείμενο που δημιουργούμε, μέσω ενός συστήματος μετατροπής κειμένου σε ήχο.

Κάθε συνδυασμός της απεικόνισης, του κειμένου και του ήχου αποτελεί ουσιαστικά μία CineCube movie, η οποία υλοποιείται ως μια παρουσίαση του PowerPoint και επιστρέφεται στον χρήστη. Η κατασκευή του PowerPoint γίνεται προγραμματιστικά (με πολύ εύκολο τρόπο) από τη βιβλιοθήκη POI της Apache.

Details, demo, code: http://www.cs.uoi.gr/~pvassil/projects/cinecubes/ Κάθε εργασία αναμένεται να δουλέψει σε 1 – 2 ΝΕΑ, δικά της data sets (με 3-4 διαστάσεις και κατά προτίμηση με additive χαρακτηριστικά), ώστε να κατασκευαστεί μια πληθώρα βάσεων όπου μπορούμε να αποτιμήσουμε το σύστημα.

As of September 2017: το σύστημα τελεί υπό αναδόμηση στα πλαίσια μιας Διπλωματικής που ήδη τρέχει και που η ολοκλήρωσή της αναμένεται σύντομα.

Page 4: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 4

Page 5: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 5

1.1. ΒΕΛΤΙΩΣΗ ΤΗΣ ΕΜΦΑΝΙΣΗΣ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΤΩΝ CINECUBES ΠΕΡΙΛΗΨΗ: Βελτίωση της εμφάνισης των αποτελεσμάτων των Cinecubes

ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ: Στα πλαίσια της εργασίας, ζητείται να γίνουν οι εξής επεκτάσεις των Cinecubes:

0. Προσθήκη κειμένου on the slide. Εδώ θα πρέπει να επιλεγεί ένα υποσύνολο από το κείμενο των notes και να τοποθετηθεί οργανικά μέσα στο slide.

1. Προσθήκη γραφικών παραστάσεων (charts and graphs) on the slide. καθώς και στα xlsx/docx. Για παράδειγμα, για κάθε 2D πίνακα που εμφανίζεται σε μια slide μπορεί κανείς να βγάλει πολλές γραφικές: scatterplot + 2 bar charts (κάθε διάσταση να παίζει το ρόλο του x-άξονα)+ lines αντίστοιχα με τα bars.

2. Export to xlsx. Εκτός από την παρουσίαση σε Powerpoint και Word (που υποστηρίζονται τώρα), η βιβλιοθήκη POI της Apache μας επιτρέπει να εξάγουμε προγραμματιστικά και xlsx κείμενα. Θα ήταν επίσης ενδιαφέρον, να μπορεί η εν λόγω εξαγωγή να γίνει στη βάση κάποιου template (π.χ., με συγκεκριμένο εξώφυλλο, logo, …).

3. Ορθογώνια στα παραπάνω, απαιτείται η αποτίμηση της μεθόδου με περισσότερα του ενός data sets.

Το κομμάτι των γραφικών παραστάσεων θα ρυθμιστεί ανάλογα με την ευκολία που μας δίνει το POI για τη δουλειά αυτή.

ΕΠΙΠΕΔΟ: Διπλωματική εργασία

ΠΛΑΤΦΟΡΜΑ ΕΡΓΑΣΙΑΣ: Java / Spark (ή άλλη βιβλιοθήκη έτοιμων αλγορίθμων πρόβλεψης)

ΠΡΟΚΛΗΣΕΙΣ και ΟΦΕΛΗ:

Η δυσκολία αφορά στην κατανόηση του υπάρχοντος συστήματος και στην επέκτασή του με νέα χαρακτηριστικά με συγκροτημένο τρόπο. Τα οφέλη για ένα φοιτητή είναι: (α) εμπλοκή σε ένα τελείως νέο χώρο, αυτόν του data storytelling, που φαίνεται να έχει ιδιαίτερες προοπτικές στο μέλλον, (β) τεχνογνωσία σε θέματα αυτόματης κατασκευής κειμένων με κώδικα, και (γ) hands-on σε ένα ευμέγεθες κομμάτι λογισμικού.

Απαιτούμενα προσόντα είναι το ενδιαφέρον για τον προγραμματισμό, η πολύ καλή γνώση Java και η δεδηλωμένη δέσμευση να ολοκληρωθεί η εργασία αυστηρά εντός ενός έτους από την ανάληψή της.

Η εργασία επηρεάζεται από την ανάγκη αναδόμησης του κώδικα και θα χρειαστεί να προβεί και σε επί μέρους μικρότερες αναδομήσεις (όχι πάντως στην έκταση της σχετικής εργασίας)

Page 6: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 6

1.2. ΜΕΤΑΠΤΩΣΗ ΤΩΝ CINECUBES ΣΕ ΠΛΑΤΦΟΡΜΑ SPARK ΚΑΙ ΑΞΙΟΠΟΙΗΣΗ ΤΗΣ ΠΕΡΙΛΗΨΗ: Μετάπτωση των Cinecubes σε πλατφόρμα Spark και αξιοποίησή της

ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ: το σύστημα Cinecubes επί του παρόντος λειτουργεί σε ένα τυπικό single-server περιβάλλον, με Java και MySQL ως τεχνολογίες που το υποστηρίζουν. H Spark, από την άλλη πλευρά, είναι η state of the art πλατφόρμα επεξεργασίας δεδομένων της Apache (http://spark.apache.org/, καθώς και http://spark.apache.org/sql/) που επιτρέπει την παράλληλη επεξεργασία μεγάλων δεδομένων. Εκτός από τη συνδεσιμότητα με διάφορες προγραμματιστικές γλώσσες και συστήματα αποθήκευσης / βάσεων δεδομένων, η Spark έρχεται με 4 εγγενείς βιβλιοθήκες (για SQL, machine learning (MLib), graph management (graphX) και streaming). Έτσι, μπορεί κανείς προγραμματιστικά να συνδέσει έτοιμους αλγορίθμους διαχείρισης δεδομένων σε ένα (1) ομοιογενές περιβάλλον.

Τα ζητούμενα είναι:

1. Ζητείται η επέκταση του υπάρχοντος κώδικα, ώστε να μπορεί να λειτουργήσει και πάνω από την πλατφόρμα Spark. Θα διερευνηθούν οι εναλλακτικές λύσεις πάνω σε Spark και θα ακολουθηθεί η υλοποίηση της πιο αποδοτικής

2. Ζητείται η αξιοποίηση της έτοιμης βιβλιοθήκης εξόρυξης δεδομένων του Spark (MLib) για να μπορούμε να εμπλουτίσουμε τα highlights των Cinecubes με αποτελέσματα από αλγορίθμους εξόρυξης δεδομένων (summary statistics, regression, hypothesis testing, decision trees, …).

3. Ορθογώνια στα παραπάνω, απαιτείται η αποτίμηση της μεθόδου με περισσότερα του ενός data sets.

ΕΠΙΠΕΔΟ: Διπλωματική εργασία / MSc

ΠΛΑΤΦΟΡΜΑ ΕΡΓΑΣΙΑΣ: Java / Spark

ΠΡΟΚΛΗΣΕΙΣ και ΟΦΕΛΗ:

Η δυσκολία αφορά στην κατανόηση του υπάρχοντος συστήματος και στην συγκροτημένη οργάνωση πειραμάτων και όχι τόσο στα επί μέρους βήματα ή στη δυσκολία υλοποίησης του κώδικα. Τα οφέλη για ένα φοιτητή είναι: (α) εμπλοκή στο χώρο του data storytelling, (β) τεχνογνωσία σε θέματα εξόρυξης δεδομένων και ενσωμάτωσης αλγορίθμων εξόρυξης δεδομένων σε κώδικα, (γ) τεχνογνωσία σε μια state-of-the-art πλατφόρμα διαχείρισης μεγάλων δεδομένων και (δ) hands-on σε ένα ευμέγεθες κομμάτι λογισμικού.

Η εργασία είναι πλέον κατάλληλη για φοιτητές με ταλέντο και σε θέματα διαχείρισης δεδομένων και σε προγραμματιστικά θέματα. Πρέπει να σας αρέσει πολύ η διαχείριση δεδομένων, η εξόρυξη δεδομένων και η ανάπτυξη λογισμικού.

Απαιτούμενα προσόντα είναι η πολύ καλή γνώση Java και η δεδηλωμένη δέσμευση να ολοκληρωθεί η εργασία αυστηρά εντός ενός έτους από την ανάληψή της.

Η εργασία επηρεάζεται από την ανάγκη αναδόμησης του κώδικα και θα χρειαστεί να προβεί και σε επί μέρους μικρότερες αναδομήσεις (όχι πάντως στην έκταση της σχετικής εργασίας)

Page 7: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 7

1.3. ΠΡΟΣΘΗΚΗ ΝΕΩΝ HIGHLIGHTS ΜΕ ΕΠΕΚΤΑΣΙΜΟ ΤΡΟΠΟ ΠΕΡΙΛΗΨΗ: Επέκταση της λίστας των highlights & αναδόμηση κώδικα

ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ: υπάρχουν πολλά highlights που μπορεί να προστεθούν στο σύστημα Cinecubes. Επίσης, θα πρέπει να υπάρξει πρόβλεψη για την επεκτασιμότητα του κώδικα, ώστε η προσθήκη highlights επί των subtasks. Πιθανές επεκτάσεις:

- Produce the marginal sum / average /max /min & compare to detailed data (*see next)

- Test pairs of rows / columns for correlations (Pearson / Spearman / …) - Check for the relative relationships of selected rows/columns: e.g., “in both

these two columns, dimension value a comes first, value b comes second, etc…” - Detect outliers: (a) an outlier cell, (b) an outlier column/row/dimension value - Hypothesis testing (Sarawagi’s “relax” operator @ VLDB 2001) - Details on discrepancies (Sarawagi’s “diff” operator @ VLDB 1999)

*Since you have a 2D table as the means of representation:

- Algorithm for min/max not only in the detailed data, but also for the marginal sums/avg’s

- Algorithm to check for a trend in one/many rows/columns - Is a row/column under investigation (i.e., the row/column corresponding to the

original query): min/max (on average) wrt others orthe top percentile?

ΕΠΙΠΕΔΟ: Διπλωματική εργασία

ΠΛΑΤΦΟΡΜΑ ΕΡΓΑΣΙΑΣ: Java

ΠΡΟΚΛΗΣΕΙΣ και ΟΦΕΛΗ:

Η δυσκολία αφορά στην κατανόηση του υπάρχοντος συστήματος και στην συγκροτημένη οργάνωση πειραμάτων και όχι τόσο στα επί μέρους βήματα ή στη δυσκολία υλοποίησης του κώδικα. Τα οφέλη για ένα φοιτητή είναι: (α) εμπλοκή στο χώρο του data storytelling, (β) τεχνογνωσία σε θέματα εξόρυξης δεδομένων και ενσωμάτωσης αλγορίθμων εξόρυξης δεδομένων σε κώδικα, και (γ) hands-on σε ένα ευμέγεθες κομμάτι λογισμικού.

Η εργασία είναι πλέον κατάλληλη για φοιτητές με ταλέντο και σε θέματα διαχείρισης δεδομένων και σε προγραμματιστικά θέματα. Πρέπει να σας αρέσει πολύ η διαχείριση δεδομένων, η εξόρυξη δεδομένων και η ανάπτυξη λογισμικού.

Απαιτούμενα προσόντα είναι η πολύ καλή γνώση Java και η δεδηλωμένη δέσμευση να ολοκληρωθεί η εργασία αυστηρά εντός ενός έτους από την ανάληψή της.

Page 8: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 8

1.4. ΔΙΑΔΡΑΣΤΙΚΗ ΔΙΑΠΡΟΣΩΠΕΙΑ ΓΙΑ ΤΟ ΣΥΣΤΗΜΑ CINECUBES ΠΕΡΙΛΗΨΗ: Διαδραστική διαπροσωπεία για το σύστημα Cinecubes.

ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ: Στο project Cinecubes η αλληλεπίδραση με το χρήστη είναι υποτυπώδης. Ο χρήστης υποβάλει ένα ερώτημα (ή περισσότερα) γραμμένο σε ένα αρχείο και παράγεται το σχετικό κείμενο σε Word και το αντίστοιχο σε Powerpoint. Η ενσωμάτωση νέων διαστάσεων και κύβων, στη μεριά του server, επίσης γίνεται με κείμενα. Ο σκοπός της εργασίας είναι:

(α) η ενσωμάτωση διαγνωστικών μηνυμάτων σε server & client για την παρακολούθηση της προόδου της εξέλιξης της απάντησης μια ερώτησης

(β) η κατασκευή γραφικών διαπροσωπειών για τον server, σε σχέση και με την registration νέων κύβων και με το on-line monitoring of server status

(γ) η κατασκευή γραφικής διαπροσωπείας για την υποβολή + παρουσίαση του αποτελέσματος (γ1) μέσω java ή/και (γ2) σε web page / dashboard / … (π.χ., μέσω της βιβλιοθήκης D3)

(δ) [διπλωματική] η παροχή της δυνατότητας στο χρήστη να κατασκευάζει μια αναφορά μέσω επαναληπτικών ερωτήσεων, «τσεκάροντας» κάθε φορά επί μέρους slides / οθόνες σε μια τελική παρουσίαση

ΕΠΙΠΕΔΟ: Πτυχιακή εργασία / Διπλωματική εργασία

ΠΛΑΤΦΟΡΜΑ ΕΡΓΑΣΙΑΣ: Java [+ web development language]

ΠΡΟΚΛΗΣΕΙΣ & ΟΦΕΛΗ: Η δυσκολία αφορά στην κατανόηση του υπάρχοντος συστήματος και στην συγκροτημένη οργάνωση πειραμάτων και όχι τόσο στα επί μέρους βήματα ή στη δυσκολία υλοποίησης του κώδικα. Τα οφέλη για ένα φοιτητή είναι: (α) εμπλοκή στο χώρο του data storytelling, (β) τεχνογνωσία σε θέματα γραφικών διαπροσωπειών, και (γ) hands-on σε ένα ευμέγεθες κομμάτι λογισμικού.

Απαιτούμενα προσόντα είναι το ενδιαφέρον για τον προγραμματισμό, η πολύ καλή γνώση Java, και η δεδηλωμένη δέσμευση να ολοκληρωθεί η εργασία αυστηρά εντός ενός έτους από την ανάληψή της.

Η εργασία επηρεάζεται από την ανάγκη αναδόμησης του κώδικα και θα χρειαστεί να προβεί και σε επί μέρους μικρότερες αναδομήσεις (όχι πάντως στην έκταση της σχετικής εργασίας)

Page 9: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 9

1.5. ΠΕΡΙΓΡΑΦΗ ΧΡΟΝΟΣΕΙΡΑΣ ΜΕ ΚΕΙΜΕΝΟ ΠΕΡΙΛΗΨΗ: Ο στόχος είναι να υλοποιηθεί αλγόριθμος που λαμβάνει ως είσοδο ένα σύνολο από χρονοσειρές, εξάγει περιόδους και highlights, και επιστρέφει μια περιγραφή τους σε κείμενο.

ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ: Μια χρονοσειρά είναι μια λίστα από τιμές (που ευλόγως μπορούμε να υποθέσουμε ότι είναι πραγματικοί αριθμοί). Κάθε μία τιμή έχει λοιπόν την θέση της στη λίστα και ενδεχομένως και άλλες ιδιότητες, όπως π.χ., κάποιο χρονόσημο.

Δείτε για παράδειγμα την παρακάτω χρονοσειρά (τα δεδομένα είναι από το http://www.gapminder.org/). Μια περιγραφή θα επεσήμαινε με κείμενο τα εξής:

− για τα πρώτα 12 σημεία (εδώ, λόγω των χρονόσημων, μπορούμε να τα πούμε και με χρόνο) υπάρχει μια σχετική σταθερότητα αλλά και μερικά highlights (τα δύο ιστορικά χαμηλά, τις χρονιές 1960 και 1965), μια τοπικά σημαντική άνοδος (1965-1966) και μια πτώση στη συνέχεια

− μια απότομη άνοδος (1972-1974)

− μια σχετική σταθερότητα με μικρή πτώση (1974 – 1978)

− μια απότομη άνοδος (1978 – 1982) με highlight ένα ιστορικό μέγιστο (1982)

− κοκ…

Η βασική ιδέα στηρίζεται στην κατάτμηση της χρονοσειράς σε ομοιογενείς περιόδους και η ανεύρεση highlights μέσα σε κάθε περίοδο.

Page 10: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 10

Αν κατακτήσουμε την περιγραφή μίας χρονοσειράς, το επόμενο βήμα είναι να συγκρίνουμε περισσότερες της μίας χρονοσειρές μεταξύ τους, όπως π.χ., στο παραπάνω σχήμα. Εδώ έχουμε το επιπλέον φορτίο να ανακαλύψουμε highlights όπως: (α) τις σχετικές θέσεις των χρονοσειρών (π.χ., σε πόσες κοινές περιόδους οι εξαγωγές της Δανίας είναι πάνω από αυτές της Ελλάδας), (β) ομοιότητες στην εξέλιξη(π.χ., από το 1996-2002 ανεβαίνουν μαζί), (γ) σημεία τομής (π.χ., το 1985 οι Δανοί εξάγουν πιο πολλά απ’ όσα εισάγουν) κλπ.

Ανάλογα με τον τύπο/πορεία της εργασίας, πιθανές επεκτάσεις:

(α) Προβλέψεις για την πορεία της χρονοσειράς στο μέλλον

(β) Όταν στον άξονα των x υπάρχει ο χρόνος, μπορούμε να εισάγουμε και highlights για το τι συνέβη τότε από εξωτερικά δεδομένα, π.χ.:

http://en.wikipedia.org/wiki/2010 και http://el.wikipedia.org/wiki/2010

http://dbpedia.org/page/2010

https://en.wikinews.org/wiki/Wikinews:Archives/Date/2010

https://en.wikinews.org/wiki/Wikinews:2010/January/26

(γ) Επιπλέον, είναι πολύ εύκολο να μετατρέψουμε το κείμενο σε φωνή με τεχνολογία text-to-speach conversion.

Διευκρίνιση: ΔΕΝ απαιτείται η ενσωμάτωση στους Cinecubes

ΕΠΙΠΕΔΟ: Διπλωματική εργασία (για μηχανικούς) ή MSc

ΠΛΑΤΦΟΡΜΑ ΕΡΓΑΣΙΑΣ: Java

ΠΡΟΚΛΗΣΕΙΣ και ΟΦΕΛΗ: Η κατάτμηση μίας χρονοσειράς σε φάσεις είναι σχετικά απλή υπόθεση. Η εξεύρεση highlights το ίδιο (π.χ., τα top-3 ιστορικά χαμηλά / υψηλά, …). Η δυσκολία έγκειται στο να ελέγξουμε πειστικά τις περιγραφές. Σε ότι αφορά την περιγραφή πολλών χρονοσειρών, πρέπει να εντοπιστούν παραλληλίες ή αναντιστοιχίες

Page 11: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 11

στις χρονοσειρές, σημεία τομής, κλπ. Επίσης, μπορούμε να αυτοματοποιήσουμε τη διαδικασία σύγκρισης, με παρόμοιο τρόπο με αυτό της εξαγωγής highlights.

Τα οφέλη για ένα φοιτητή είναι: (α) εμπλοκή σε ένα τελείως νέο χώρο, αυτόν του data storytelling, που φαίνεται να έχει ιδιαίτερες προοπτικές στο μέλλον, (β) τεχνογνωσία σε θέματα εξόρυξης δεδομένων και ενσωμάτωσης αλγορίθμων εξόρυξης δεδομένων σε κώδικα, και (γ) hands-on σε ένα ευμέγεθες κομμάτι λογισμικού.

Η εργασία είναι πλέον κατάλληλη για φοιτητές με ταλέντο και σε θέματα διαχείρισης δεδομένων και σε προγραμματιστικά θέματα. Πρέπει να σας αρέσει πολύ η διαχείριση δεδομένων, η εξόρυξη δεδομένων και η ανάπτυξη λογισμικού.

Απαιτούμενα προσόντα είναι η πολύ καλή γνώση Java και η δεδηλωμένη δέσμευση να ολοκληρωθεί η εργασία αυστηρά εντός ενός έτους από την ανάληψή της.

Page 12: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 12

1.6. ΑΞΙΟΛΟΓΗΣΗ HIGHLIGHTS ΚΑΙ ΣΥΜΠΤΥΞΗ ΤΟΥΣ ΠΕΡΙΛΗΨΗ: Επέκταση των Cinecubes ώστε να μειωθεί η «φλυαρία»

ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ: Η αυτόματη παραγωγή highlights είναι ένα από τα αξιοσημείωτα στοιχεία των Cinecubes. Όμως πολλές φορές, τα παραγόμενα highlights «φλυαρούν», επαναλαμβάνοντας την ίδια πληροφορία πολλές φορές. Η έρευνα χρηστών μας έδειξε ότι πολλές φορές οι χρήστες θέλουν λιγότερα και όχι περισσότερα αποτελέσματα. Ένας τρόπος για να μειώσουμε τη φλυαρία είναι να αξιολογηθεί κάθε highlight / set of highlights in a slide ως προς την πληροφορία που προσφέρει(ουν). Οι επόμενοι στόχοι που έχουμε να κατακτήσουμε στο πλαίσιο της εργασίας είναι:

1. Αξιολόγηση των παραγόμενων highlights, η ταξινόμησή τους, και η καλύτερη οργάνωσή τους (διαγραφή/σύμπτυξη) για το σκοπό της παραγωγής του κειμένου.

2. Αξιοποίηση του κειμένου, η σύμπτυξή του με την απαλοιφή άχρηστων ή επαναλαμβανόμενων κομματιών, και η καλύτερη οπτικοποίησή του.

3. Ορθογώνια στα παραπάνω, απαιτείται η αποτίμηση της μεθόδου με περισσότερα του ενός data sets και η αξιολόγησή της με μια έρευνα χρηστών.

Είναι επίσης εφικτό να δοκιμάσει κανείς να οργανώσει τις προβαλλόμενες πληροφορίες σε ένα γράφημα από σημαντικές «έννοιες» (οι τιμές των διαστάσεων των ερωτημάτων μιας αναφοράς) οι οποίες σχετίζονται μεταξύ τους με σχέσεις dominance / affinity / … με βάση τα highlights. Μια υψηλή τιμή σε κάποια γραφοθεωρητική μετρική (βαθμός, κεντρικότητα, …) μπορεί να σηματοδοτεί και υψηλό επίπεδο σημαντικότητας για μια τιμή-έννοια.

ΕΠΙΠΕΔΟ: MSc / Διπλωματική εργασία

ΠΛΑΤΦΟΡΜΑ ΕΡΓΑΣΙΑΣ: Java

ΠΡΟΚΛΗΣΕΙΣ και ΟΦΕΛΗ: Η δυσκολία δεν είναι αμελητέα και αφορά στην κατανόηση του υπάρχοντος συστήματος, στην συγκροτημένη οργάνωση πειραμάτων και στην κατασκευή αλγορίθμων κατάταξης και σύμπτυξης. Τα οφέλη για ένα φοιτητή είναι: (α) τεχνογνωσία σε ένα challenging τεχνικό πρόβλημα, (β) τεχνογνωσία στην οργάνωση της user-centric αποτίμησης λογισμικού, και (γ) hands-on σε ένα ευμέγεθες κομμάτι λογισμικού.

Η εργασία είναι πλέον κατάλληλη για φοιτητές με ταλέντο και σε αλγοριθμικά θέματα και σε προγραμματιστικά θέματα.

Απαιτούμενα προσόντα είναι η πολύ καλή γνώση Java και η δεδηλωμένη δέσμευση να ολοκληρωθεί η εργασία αυστηρά εντός ενός έτους από την ανάληψή της.

Η εργασία επηρεάζεται από την ανάγκη αναδόμησης του κώδικα και θα χρειαστεί να προβεί και σε επί μέρους μικρότερες αναδομήσεις (όχι πάντως στην έκταση της σχετικής εργασίας)

Page 13: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 13

1.7. ΕΠΕΚΤΑΣΗ TOY CINECUBES ΜΕ ΣΥΝΕΧΕΙΣ ΕΡΩΤΗΣΕΙΣ ΠΕΡΙΛΗΨΗ: Καταγραφή και παρουσίαση continuous queries

ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ: Το σύστημα Cinecubes είναι δομημένο ώστε να απαντά ερωτήσεις άπαξ, και να παρουσιάζει το αποτέλεσμα της διερεύνησής του ως μια παρουσίαση Powerpoint. Στην πράξη, όμως, οι εφαρμογές OLAP μπορεί να έχουν ένα κομμάτι «συνεχούς ροής». Δλδ., περιοδικά, η εφαρμογή ανανεώνει τα δεδομένα. Τα ζητήματα που προκύπτουν είναι:

- Αναδόμηση του τρόπου παρουσίασης ώστε να καταγράφονται οι συνεχείς ερωτήσεις και να παρουσιάζονται τα αποτελέσματα στο χρήστη

- Περιοδική ενημέρωση και ανανέωση περιεχομένων του report - Incremental updates of registered continuous queries

Μια εύλογη εφαρμογή αυτού του σχήματος είναι η χρήση Key Performance Indicators. Σε ένα ΚΡΙ, ο χρήστης θέτει μια τιμή στόχο για το αποτέλεσμα μιας ερώτησης, καθώς και κανόνες που αξιολογούν αν η τρέχουσα τιμή είναι καλή/κακή/απαράδεκτη/… κλπ. Ένα σύστημα επιχειρηματικής νοημοσύνης καταγράφει την εξέλιξη των μετρικών στο χρόνο και την επίδοση σε σχέση με το συγκεκριμένο ΚΡΙ. Μετά, φυσικά, ο χρήστης μπορεί να ζητήσει εξηγήσεις γιατί η κατάσταση είναι έτσι, οπότε το σύστημα μπορεί προοδευτικά να εμβαθύνει σε πιο λεπτομερή δεδομένα.

ΕΠΙΠΕΔΟ: MSc

ΠΛΑΤΦΟΡΜΑ ΕΡΓΑΣΙΑΣ: Java

ΠΡΟΚΛΗΣΕΙΣ και ΟΦΕΛΗ:

Η δυσκολία αφορά στην κατανόηση του υπάρχοντος συστήματος και στην συγκροτημένη οργάνωση πειραμάτων και όχι τόσο στα επί μέρους βήματα ή στη δυσκολία υλοποίησης του κώδικα. Τα οφέλη για ένα φοιτητή είναι: (α) εμπλοκή στο χώρο του data storytelling, (β) τεχνογνωσία σε θέματα ενσωμάτωσης αλγορίθμων ενημέρωσης δεδομένων σε κώδικα, και (γ) hands-on σε ένα ευμέγεθες κομμάτι λογισμικού.

Η εργασία είναι πλέον κατάλληλη για φοιτητές με ταλέντο και σε θέματα διαχείρισης δεδομένων και σε προγραμματιστικά θέματα. Πρέπει να σας αρέσει πολύ η διαχείριση δεδομένων και η ανάπτυξη λογισμικού.

Απαιτούμενα προσόντα είναι η πολύ καλή γνώση Java και η δεδηλωμένη δέσμευση να ολοκληρωθεί η εργασία αυστηρά εντός ενός έτους από την ανάληψή της.

Page 14: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 14

1.8. ΕΠΕΚΤΑΣΗ ΤΩΝ CINECUBES ΜΕ ΕΙΔΙΚΟ ΧΕΙΡΙΣΜΟ ΧΡΟΝΟΥ ΚΑΙ ΠΡΟΒΛΕΨΕΩΝ ΠΕΡΙΛΗΨΗ: Επέκταση των Cinecubes ώστε να διαχειρίζονται με ειδικό τρόπο το χρόνο και αξιοποίηση της πλατφόρμας Spark για εξαγωγή προβλέψεων

ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ: το σύστημα Cinecubes επί του παρόντος αντιμετωπίζει όλες τις διαστάσεις με τον ίδιο τρόπο. Ο χρόνος όμως είναι μια ιδιαίτερη διάσταση με ιδιομορφίες και εξέχουσα σημασία. Στόχος της εργασίας είναι η επέκταση του συστήματος ώστε να μπορεί ο διαχειριστής να δηλώσει ότι μια διάσταση ενός κύβου είναι χρονική και η αξιοποίηση της μεταπληροφορίας αυτής για την παραγωγή προβλέψεων. Οι αλγόριθμοι προβλέψεων θα παρασχεθούν από έτοιμες βιβλιοθήκες αλγορίθμων και μπορεί να είναι από απλό regression ως και πλήρης ανάλυση σε trends, seasonality & error (θα διερευνηθεί στην πορεία της εργασίας).

Τα ζητούμενα είναι:

1. Ειδική διαχείριση του χρόνου: να μπορεί να δηλωθεί ότι μια στήλη έχει χρονική πληροφορία και να υλοποιηθεί ένα επεκτάσιμο σύστημα διαχείρισης του χρόνου (απλός χρόνος, εμπορικός, χρηματιστηριακός, …). Δεν θα υλοποιηθούν όλα τα είδη, όμως θα πρέπει να σχεδιασθεί ένα επεκτάσιμο σύστημα.

2. Εμπλουτισμός των acts και highlights των Cinecubes με αποτελέσματα από αλγορίθμους εξόρυξης δεδομένων για πρόβλεψη (summary statistics, prediction and regression, …). Για παράδειγμα, σε ένα 2D κύβο, στον οποίο η μία διάσταση είναι χρόνος, θα πρέπει να υπολογιστεί αυτόματα ένα χρονικό σημείο πρόβλεψης, και να βγει μια πρόβλεψη για κάθε εμπλεκόμενη τιμή της άλλης διάστασης, καθώς και για ολόκληρο τον κύβο. Προτείνεται η αξιοποίηση της έτοιμης βιβλιοθήκης εξόρυξης δεδομένων του Spark (MLib). Σε κάθε περίπτωση, ο τρόπος ενσωμάτωσης αλγορίθμων πρόβλεψης θα είναι επεκτάσιμος.

3. Ορθογώνια στα παραπάνω, απαιτείται η αποτίμηση της μεθόδου με περισσότερα του ενός data sets.

ΕΠΙΠΕΔΟ: MSc

ΠΛΑΤΦΟΡΜΑ ΕΡΓΑΣΙΑΣ: Java / Spark (ή άλλη βιβλιοθήκη έτοιμων αλγορίθμων πρόβλεψης)

ΠΡΟΚΛΗΣΕΙΣ και ΟΦΕΛΗ:

Η δυσκολία αφορά στην κατανόηση του υπάρχοντος συστήματος και στην συγκροτημένη οργάνωση πειραμάτων και όχι τόσο στα επί μέρους βήματα ή στη δυσκολία υλοποίησης του κώδικα. Τα οφέλη για ένα φοιτητή είναι: (α) εμπλοκή σε ένα τελείως νέο χώρο, αυτόν του data storytelling, που φαίνεται να έχει ιδιαίτερες προοπτικές στο μέλλον, (β) τεχνογνωσία σε θέματα εξόρυξης δεδομένων και ενσωμάτωσης αλγορίθμων εξόρυξης δεδομένων σε κώδικα, και (γ) hands-on σε ένα ευμέγεθες κομμάτι λογισμικού.

Page 15: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 15

Η εργασία είναι πλέον κατάλληλη για φοιτητές με ταλέντο και σε θέματα διαχείρισης δεδομένων και σε προγραμματιστικά θέματα. Πρέπει να σας αρέσει πολύ η διαχείριση δεδομένων, η εξόρυξη δεδομένων και η ανάπτυξη λογισμικού.

Απαιτούμενα προσόντα είναι η πολύ καλή γνώση Java και η δεδηλωμένη δέσμευση να ολοκληρωθεί η εργασία αυστηρά εντός ενός έτους από την ανάληψή της.

Page 16: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 16

Page 17: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 17

2. ΜΕΛΕΤΗ ΤΗΣ ΕΞΕΛΙΞΗΣ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ Μια βάση δεδομένων, από τη στιγμή που θα δημιουργηθεί, αλλάζει εσωτερική δομή με το πέρασμα του χρόνου: νέοι πίνακες δημιουργούνται, παλαιοί καταστρέφονται, πεδία διαγράφονται, μετονομάζονται κλπ. Η διαδικασία αυτή ονομάζεται «εξέλιξη του σχήματος της βάσης δεδομένων» (schema evolution). Το εργαλείο Hecate [https://github.com/DAINTINESS-Group/Hecate ] μπορεί να συγκρίνει δύο σχήματα και να βρει τις διαφορές τους (κίτρινο: updated attributes, red: deletions, green: insertions).

Επιπλέον, υπάρχουν αρκετές συλλογές από εκδόσεις του σχήματος της ιδίας βάσης (παρακάτω ένα screenshot από τη βάση της Wikimedia).

H Εκάτη μπορεί να ταξινομήσει τις επί μέρους εκδοχές του σχήματος και να τις συγκρίνει διαδοχικά.

Page 18: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 18

Έχουμε ήδη χρησιμοποιήσει την Εκάτη για να επεξεργαστούμε την εξέλιξη σχήματος διαφόρων βάσεων δεδομένων ανοιχτού λογισμικού, όπως για παράδειγμα, της βάσης της Wikimedia (της βάσης δεδομένων πίσω από τη Wikipedia), της βάσης του Atlas Trigger (του εργαλείου που διαχειρίζεται τα δεδομένα από το πείραμα Atlas για την ανεύρεση του μποζονίου του Χιγκς), της Ensembl (του εργαλείου για τη διαχείριση των δεδομένων του ανθρώπινου γονιδιώματος) και πολλών CMS’s (opencart, coppermine, phpBB, typo3, …). Έχουμε επίσης συλλέξει την ιστορία από πολλά συστήματα ανοιχτού κώδικα που περιλαμβάνουν βάσεις δεδομένων και καταγράφουν και τις εκδοχές τους σε δημόσια αποθετήρια (κυρίως github, αλλά και svn) αλλά δεν την έχουμε επεξεργαστεί ακόμα.

Στο παραπάνω σχήμα βλέπετε (α) το πώς εξελίχθηκε το μέγεθος του σχήματος της βάσης στο χρόνο και (β) τον παλμό των αλλαγών (το πώς διαρθρώθηκαν οι αλλαγές σε κάθε monitored version) για τη βάση Ensembl.

Το εργαλείο ROSES από τη Μ. Ζέρβα είναι ένα εργαλείο βασισμένο σε μια βάση δεδομένων, όπου έχουμε περάσει την εξαχθείσα πληροφορία, για να μπορούμε να απομονώνουμε εύκολα υποσύνολα πινάκων που μας ενδιαφέρουν και να οπτικοποιούμε γραφικές παραστάσεις. Το εργαλείο MUSES από τον Α. Παππά μας επιτρέπει να εξάγουμε πρότυπα συχνών υποακολουθιών από τα δεδομένα μας.

Page 19: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 19

Το εργαλείο «Πλουτάρχου Βίοι Παράλληλοι» [https://github.com/DAINTINESS-Group/Plutarch_Parallel_Lives] είναι ένα εργαλείο από τον Θ. Γιάχο και το οποίο απεικονίζει την εξέλιξη των πινάκων μιας βάσης δεδομένων σε παράλληλες γραμμές. Κάθε version αναπαριστάται από 3 κολώνες για εισαγωγές, διαγραφές και ενημερώσεις πινάκων. Οι γεννήσεις πινάκων και πεδίων φαίνονται με πράσινο και οι διαγραφές με κόκκινο χρώμα.

Το εργαλείο «Παρμενίδεια Αλήθεια» [https://github.com/DAINTINESS-Group/ParmenidianTruth] είναι ένα εργαλείο από τον Μ. Κολοζώφ που αναπαριστά το σχήμα μιας βάσης δεδομένων με ένα διαχρονικό γράφημα και φροντίζει να οπτικοποιεί κάθε version και τις εκδοχές της σε ένα slide μιας Powerpoint παρουσίασης (πρακτικά φτιάχνει μια ταινία για το πώς αλλάζει το σχήμα της βάση δεδομένων).

Η έρευνα στην περιοχή αυτή είναι θεμελιώδους φύσεως και αφορά στο να κατανοήσουμε την ύπαρξη προτύπων (ή ακόμα καλύτερα νόμων) για το πώς εξελίσσονται οι βάσεις δεδομένων με την πάροδο του χρόνου.

Page 20: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 20

2.1. ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΤΩΝ ΠΙΝΑΚΩΝ ΜΕ ΒΑΣΗ ΤΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΗΣ ΖΩΗΣ

ΤΟΥΣ ΠΕΡΙΛΗΨΗ: Εξαγωγή «πρότυπων νόμων» που χαρακτηρίζουν την εξέλιξη ενός πίνακα

ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ: Σε κάθε ένα από τα σύνολα δεδομένων που έχουμε συλλέξει, έχουμε στατιστικά για κάθε πίνακα, όπως π.χ., ημ. γέννησης, αρ. πεδίων τη στιγμή της γέννησής του, ρυθμός αλλαγών, ημερομηνία διαγραφής, κλπ. Μπορούμε να βρούμε κανόνες που να μας λένε –π.χ., με ένα δέντρο απόφασης- τι θα συμβεί στο μέλλον (α) στη δραστηριότητα, (β) στην επιβίωση, (γ) στο συνδυασμό δράσης και επιβίωσης ενός πίνακα, με βάση αυτά τα χαρακτηριστικά?

Το ζήτημα εδώ είναι ότι ένας απλός αλγόριθμος εξαγωγής ενός δέντρου απόφασης θα εξάγει διαφορετικά δέντρα απόφασης για κάθε βάση δεδομένων, ενώ εμείς θέλουμε ένα μηχανισμό που να προσπαθεί να γενικεύσει τα παραγόμενα δέντρα από διαφορετικά σύνολα δεδομένων και να δώσει (α) ένα όσο το δυνατόν πιο γενικό σύνολο κανόνων, το οποίο, (β) να μπορεί να γίνεται customize με βάση τα εξελικτικά ιδιοχαρακτηριστικά της κάθε βάσης δεδομένων (π.χ., σε κάποια βάση μπορεί να υπάρχουν πολλές διαγραφές, σε άλλη λίγες) ώστε να έχουμε ένα απλό και κατανοητό «μηχανισμό» πρόβλεψης. Ουσιαστικά, θα πρέπει τα εξελικτικά χαρακτηριστικά μιας βάσης δεδομένων να λειτουργούν ως ένα επιπλέον input του αλγορίθμου.

ΕΠΙΠΕΔΟ: MSc ή Διπλωματική για Μηχανικούς

ΠΛΑΤΦΟΡΜΑ ΕΡΓΑΣΙΑΣ: Java

ΠΡΟΚΛΗΣΕΙΣ και ΟΦΕΛΗ: Η δυσκολία έγκειται στο ρίσκο της ανεύρεσης γενικών κανόνων κατηγοριοποίησης και στην εισαγωγή μιας μεθόδου που θα παράγει ένα καλό αποτέλεσμα. Ιδιαίτερες τεχνικές δυσκολίες στην υλοποίηση δεν υπάρχουν – θα χρησιμοποιηθούν έτοιμες υλοποιήσεις (τουλάχιστον γι’ αρχή), καθώς ο στόχος δεν είναι άλλος ένας αλγόριθμος κατηγοριοποίησης αλλά ένας απλός μηχανισμός πρόβλεψης.

Τα οφέλη για ένα φοιτητή είναι:

(α) τεχνογνωσία σε μια προχωρημένη περιοχή, αυτή της εξόρυξης πληροφορίας (data mining), η οποία όλο και αποκτά νέα δυναμική (όσο τα δεδομένα αυξάνονται),

(β) τεχνογνωσία σε θέματα εξέλιξης του σχήματος βάσεων δεδομένων, και

(γ) πρακτική εμπειρία σε θέματα υλοποίησης data-intensive συστημάτων σε Java.

Η εργασία είναι πλέον κατάλληλη για φοιτητές με ταλέντο στην εξόρυξη πληροφορίας και ενδιαφέροντα στις βάσεις δεδομένων, τον προγραμματισμό και την τεχνολογία λογισμικού.

Απαιτούμενα προσόντα είναι η πολύ καλή γνώση Java και η δεδηλωμένη δέσμευση να ολοκληρωθεί η εργασία εντός δύο εξαμήνων το πολύ.

Page 21: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 21

2.2. ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ ΠΙΝΑΚΩΝ ΜΕ ΒΑΣΗ ΤΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΗΣ ΖΩΗΣ ΤΟΥΣ ΠΕΡΙΛΗΨΗ: Εξαγωγή clusters πινάκων με παρόμοιες ζωές

ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ: Σε κάθε ένα από τα σύνολα δεδομένων που έχουμε συλλέξει, έχουμε στατιστικά για κάθε πίνακα, όπως π.χ., ημ. γέννησης, αρ. πεδίων τη στιγμή της γέννησής του, ρυθμός αλλαγών, ημερομηνία διαγραφής, κλπ. Επίσης έχουμε και το heartbeat των αλλαγών που μας λέει πότε, ποιος πίνακας, υπέστη ποιες αλλαγές. Μπορούμε να βρούμε κανόνες που να μας λένε, με βάση αυτά τα χαρακτηριστικά, ποιες είναι οι «τυπικές» ζωές που ζουν οι πίνακές μας?

Ενώ στην προηγούμενη διπλωματική το εργαλείο μας ήταν η χρήση τεχνικών classification, εδώ το εργαλείο μας είναι η χρήστη τεχνικών clustering. Προφανώς, τα κεντρικά ζητήματα είναι να ορίσουμε με επάρκεια (α) τον αριθμό των clusters, καθώς και (β) την απόσταση δύο πινάκων, σε σχέση με τη ζωές τους. Το αποτέλεσμα θα πρέπει να περιλαμβάνει (α) αναφορά του «κέντρου» κάθε cluster, και (β) επισήμανση των πινάκων που ξεχωρίζουν (outliers). Στο MSc του Φ. Γιάχου έχει υπάρξει ήδη μια πρώτη διερεύνηση που μπορεί να αξιοποιηθεί. Το ζητούμενο σύστημα θα πρέπει, διαδραστικά και ημι-αυτόματα, να συνεργάζεται με το χρήστη, οπτικοποιώντας τα επί μέρους αποτελέσματα. Ο χρήστης θα πρέπει να μπορεί να επέμβει στην εκτέλεση του αλγορίθμου.

ΕΠΙΠΕΔΟ: MSc ή Διπλωματική για Μηχανικούς

ΠΛΑΤΦΟΡΜΑ ΕΡΓΑΣΙΑΣ: Java

ΠΡΟΚΛΗΣΕΙΣ και ΟΦΕΛΗ: Η δυσκολία έγκειται στο ρίσκο της ανεύρεσης μιας ημι-αυτόματης μεθόδου που θα παράγει ένα καλό αποτέλεσμα. Ιδιαίτερες τεχνικές δυσκολίες στην υλοποίηση δεν υπάρχουν – μπορούν να χρησιμοποιηθούν και έτοιμες υλοποιήσεις αλγορίθμων (τουλάχιστον γι’ αρχή), καθώς ο στόχος δεν είναι άλλος ένας αλγόριθμος ομαδοποίησης αλλά ένας απλός μηχανισμός περιγραφής των πινάκων της βάσης.

Τα οφέλη για ένα φοιτητή είναι:

(α) τεχνογνωσία σε μια προχωρημένη περιοχή, αυτή της εξόρυξης πληροφορίας (data mining), η οποία όλο και αποκτά νέα δυναμική (όσο τα δεδομένα αυξάνονται),

(β) τεχνογνωσία σε θέματα εξέλιξης του σχήματος βάσεων δεδομένων, και

(γ) πρακτική εμπειρία σε θέματα υλοποίησης data-intensive συστημάτων σε Java.

Η εργασία είναι πλέον κατάλληλη για φοιτητές με ταλέντο στην εξόρυξη πληροφορίας και ενδιαφέροντα στις βάσεις δεδομένων, τον προγραμματισμό και την τεχνολογία λογισμικού.

Απαιτούμενα προσόντα είναι η πολύ καλή γνώση Java και η δεδηλωμένη δέσμευση να ολοκληρωθεί η εργασία εντός δύο εξαμήνων το πολύ.

Page 22: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 22

2.3. ΕΞΑΓΩΓΗ ΣΗΜΑΝΤΙΚΩΝ ΜΕΤΑΒΟΛΩΝ ΣΤΗΝ ΙΣΤΟΡΙΑ ΕΝΟΣ ΣΧΗΜΑΤΟΣ ΒΑΣΗΣ

ΔΕΔΟΜΕΝΩΝ ME ΕΠΕΚΤΑΣΗ ΤΟΥ PARMENIDIAN TRUTH ΠΕΡΙΛΗΨΗ: Ο σκοπός της παρούσας εργασίας είναι η επέκταση ενός υπάρχοντος εργαλείου (Parmenidian Truth), αφενός με επιπλέον πληροφορίες και αφετέρου με τη δυνατότητα να εξάγει σημαντικά στιγμιότυπα από τη ζωή ενός σχήματος

ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ: Το εργαλείο «Παρμενίδεια Αλήθεια» βγάζει μια αναλυτική περιγραφή του πώς εξελίσσονται οι πίνακες και τα ξένα κλειδιά στη διάρκεια ζωής μιας βάσης δεδομένων. Έτσι, αποτυπώνει κάθε version του σχήματος σε ένα γράφημα, με τους πίνακες ως κόμβους και τα ξένα κλειδιά ως ακμές. Για κάθε τέτοιο γράφημα, παράγει και μια slide σε μια Powerpoint παρουσίαση. Επίσης, το εργαλείο παράγει και γραφοθεωρητικές μετρικές για το γράφημα και τους κόμβους του.

Στη συγκεκριμένη εργασία, ο φοιτητής καλείται να επεκτείνει και βελτιώσει το εργαλείο ως προς τις εξής παραμέτρους:

- Για κάθε slide να αναγράφονται χρήσιμες πληροφορίες, είτε πάνω, είτε στα notes του slide. Συγκεκριμένα, να αναφέρεται ο α/α της version, η χρονική διάρκεια από την προηγούμενη version, ένα αυτόματα παραγόμενο κείμενο με μια λίστα από τις αλλαγές που συντελέσθηκαν στη μετάβαση στην παρούσα version κλπ. Επίσης, θέλουμε να επεκταθεί ο χρωματισμός στις εσωτερικές αλλαγές των κόμβων, ώστε να φαίνεται το είδος της εσωτερικής αλλαγής (τώρα όλα είναι κίτρινα).

- Να μπορούν να συγκεντρωθούν συνεχόμενες versions στις οποίες δεν γίνεται κάποια αλλαγή σε μία (1) slide

- Να συμπτύξουμε το μάκρος της παρουσίασης με κάποιον από τους παρακάτω τρόπους:

o Να εξαχθούν “all-star” versions και οι μεταβάσεις ανάμεσά τους να ομαδοποιηθούν σε μία (1) μεταβατική «φάση». Το πρόβλημα ανάγεται στο (i) να ορίσει ο χρήστης πόσες all-star versions θέλει (το οποίο είναι ένα top-k πρόβλημα) και (ii) να αποτιμήσουμε, για κάθε version, ένα “all-star” σκορ, ώστε να επιλέξουμε τις κορυφαίες. Το σκορ αποτιμάται στη βάση του πόσο αλλάζει το γράφημα, αλλά και εσωτερικά κάθε κόμβος

o Να εξαχθούν φάσεις στη ζωή μιας βάσης. Το πρόβλημα ανάγεται στο (i) να ορίσει ο χρήστης πόσες φάσεις versions θέλει (το οποίο είναι ένα top-k πρόβλημα) και (ii) να εξαχθούν οι εν λόγω φάσεις, οι οποίες θα ομαδοποιούν versions με βάση κάποιο κριτήριο ομοιότητας (χρονικής, ομοιότητας των αλλαγών – π.χ., αλλάζουν οι ίδιοι πίνακες, …)

o Για κάθε “all-star” version ή φάση θέλουμε να κατασκευάζεται αυτόματα και ένα κείμενο που συνοψίζει τον αριθμό των versions, τη διάρκεια, τον αριθμό των αλλαγών ανά κατηγορία αλλαγής και ίσως τις πιο σημαντικές αλλαγές που έλαβαν χώρα.

Page 23: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 23

- Να μπορούν να τοποθετούνται > 1 png εικόνες σε μία slide, με επικάλυψη ανάμεσα στις slides, ώστε να μπορεί να υπάρχει η αίσθηση της συνέχειας (ιδίως αν εκτυπώσουμε την παρουσίαση)

- Να αλλάξει ο αλγόριθμος οπτικοποίησης του γραφήματος και να αξιοποιείται πληροφορία σχετικά με την κοινή γέννηση, διαγραφή, ή αλλαγή πινάκων (ώστε να τοποθετούνται κοντά), ή για πίνακες που ο ένας αποτελεί rename του άλλου.

- Να κατηγοριοποιούνται οι πίνακες σε κατηγορίες ανάλογα με την γειτονιά τους (fact/fountain tables, lookup/sink tables, 1+1 chain members, …) ή ανάλογα με άλλες ιδιότητες, και να παράγεται σχετικό report. Το σύνολο των κανόνων που επιμερίζει τους πίνακες να είναι εύκολα συντηρήσιμο και επεκτάσιμο.

ΕΠΙΠΕΔΟ: Πτυχιακή ή Διπλωματική για Μηχανικούς ή MSc (ανάλογα με είδος του πτυχίου, αλλάζει το εύρος της απαιτούμενης δουλειάς)

ΠΛΑΤΦΟΡΜΑ ΕΡΓΑΣΙΑΣ: Java

ΠΡΟΚΛΗΣΕΙΣ και ΟΦΕΛΗ: Η δυσκολία αφορά στην κατανόηση του υπάρχοντος συστήματος και στην επέκτασή του με νέα χαρακτηριστικά με συγκροτημένο τρόπο. Τα οφέλη για ένα φοιτητή είναι: (α) πρακτική εμπειρία σε θέματα υλοποίησης αλγορίθμων, API, GUI σε Java, (β) τεχνογνωσία σε θέματα αυτόματης κατασκευής κειμένων και παρουσιάσεων με κώδικα, και (γ) hands-on σε ένα ευμέγεθες κομμάτι λογισμικού.

Η εργασία είναι πλέον κατάλληλη για φοιτητές με ταλέντο στον προγραμματισμό και ενδιαφέροντα στις βάσεις δεδομένων, την οπτικοποίηση πληροφορίας και την τεχνολογία λογισμικού.

Απαιτούμενα προσόντα είναι η πολύ καλή γνώση Java και η δεδηλωμένη δέσμευση να ολοκληρωθεί η εργασία εντός δύο εξαμήνων το πολύ.

Page 24: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 24

2.4. ΕΠΕΚΤΑΣΗ ΣΥΣΤΗΜΑΤΟΣ MUSES ΓΙΑ ΤΗΝ ΕΞΑΓΩΓΗ ΠΡΟΤΥΠΩΝ ΑΠΟ ΤΟ

HEARTBEAT ΤΗΣ ΕΞΕΛΙΞΗΣ ΣΧΗΜΑΤΩΝ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ ΠΕΡΙΛΗΨΗ: Ο σκοπός της παρούσας εργασίας είναι η επέκταση ενός υπάρχοντος συστήματος εξεύρεσης προτύπων με επιπλέον αποτελέσματα

ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ: Ο πρώτος στόχος, να υλοποιηθούν αλγόριθμοι εξόρυξης προτύπων για να δούμε αν υπάρχουν πρότυπα συμπεριφοράς στη χρονογραμμή των σχημάτων, έχει επιτευχθεί στη Διπλ. Εργασία του Α. Παππά.

Α. Η πιο σημαντική πιθανή αλλαγή είναι η μετατροπή του εργαλείου, από εργαλείο στοχευμένο στη διαχείριση συμβάντων εξέλιξης πινάκων, σε εργαλείο γενικής διαχείρισης χρονοσειρών. Αυτό συνιστά μια εργασία από μόνο του. Η βασική δυσκολία έγκειται στην γενίκευση της αναπαράστασης και στη φόρτωση των δεδομένων (θα χρειαστεί να υπάρχει μια δική μας αναπαράσταση του input ώστε τα δεδομένα να πρέπει να μετασχηματιστούν σε αυτό και μετά να φορτωθούν).

Β. Υπάρχουν επίσης και άλλες πιθανές επεκτάσεις, ένας συνδυασμός των οποίων βγάζει μια εργασία:

- Βελτίωση απόδοσης αλγορίθμου. Παρατηρήθηκε ότι με την χρήση ακόμα και μικρών κατωφλίων υποστήριξης της τάξης του 1% και μικρότερα η χρονική απόδοση του αλγορίθμου είναι αρκετά χαμηλή. Έτσι, χρειάζεται να υλοποιηθεί ένας πιο αποδοτικός αλγόριθμος.

- Εύρεση νέου τρόπου μέτρησης της υποστήριξης. Ο τρόπος μέτρησης COBJ μετράει συχνές ακολουθίες οι οποίες συμβαίνουν σε ένα μεγάλο ποσοστό των πινάκων της βάσης. Έχει παρατηρηθεί ότι κάποιοι από τους πίνακες της βάσης δεν δέχονται καμία αλλαγή ή δέχονται έναν μικρό αριθμό αλλαγών. Σε αυτήν την περίπτωση αν υπάρχει ένα μικρό ποσοστό των πινάκων που δέχονται μεγάλο αριθμό από αλλαγές τότε η υποστήριξή τους θα μειωθεί αρκετά. Έτσι, υπάρχει η ανάγκη εύρεσης ενός διαφορετικού τρόπου μέτρησης της υποστήριξης που επιλύει το παραπάνω πρόβλημα.

- Εισαγωγή τιμής κατωφλίου μεγέθους παραθύρου. Στην παρούσα εργασία οι υποψήφιες ακολουθίες που αναζητούνται δεν έχουν κάποιον περιορισμό όσον αφορά τη μέγιστη επιτρεπτή χρονική διαφορά ανάμεσα σε δύο ή περισσότερα γεγονότα (μέγεθος παραθύρου = άπειρο). Με την χρήση ενός κυλιόμενου παραθύρου μπορούμε να αναζητήσουμε ακολουθίες που το πρώτο με το τελευταίο γεγονός δεν ξεπερνούν μία χρονική διαφορά ή επίσης μπορούμε να ορίσουμε ένα χρονικό κενό ανάμεσα σε δύο διαδοχικά γεγονότα.

- Αναζήτηση αλλαγών που συνέβησαν χρονικά κοντά με ένα δοθέν γεγονός. Μία εύλογη απορία που δημιουργείται είναι για παράδειγμα να εξετάσουμε τι συμβαίνει λίγο μετά την δημιουργία ενός πίνακα, ή λίγο πριν την διαγραφή του. Μία επέκταση του εργαλείου θα μπορούσε να είναι η εύρεση συχνών ακολουθιών που αρχίζουν με ένα δοθέν γεγονός ή που το τελευταίο τους γεγονός είναι ίδιο με το δοθέν. Αυτή η επέκταση μπορεί να συνδυαστεί με

Page 25: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 25

την χρήση χρονικού παραθύρου ώστε να περιορίζεται χρονικά η αναζήτηση γύρω από την χρονική στιγμή που συνέβη το δοθέν γεγονός.

- Ομαδοποίηση πινάκων. Υπάρχουν τρεις διαφορετικές κατηγορίες ομαδοποίησης σε ότι αφορά τους πίνακες μιας βάσης Μπορούμε να ομαδοποιήσουμε τους πίνακες μιας βάσης: κατά πίνακα, κατά το είδος πίνακα και κατά ομάδες πινάκων. Η συγκεκριμένη εργασία επικεντρώθηκε στην μελέτη κάθε πίνακα ξεχωριστά, οπότε μία μελλοντική επέκταση μπορεί να περιλαμβάνει τα υπόλοιπα είδη ομαδοποίησης.

- Διαφορετική διαίρεση χρόνου. Ο χρόνος μπορεί να διαιρεθεί με βάση το version ID, με βάση κάποια χρονικά σημεία, κάποιο χρονικό διάστημα ή να χωριστεί σε φάσεις.

- Διαφορετικός τρόπος αναπαράστασης των γεγονότων. Τα γεγονότα μπορούν να αναπαρασταθούν με διαφορετικούς τρόπους: Είδος γεγονότος ακολουθούμενο από το όνομα του πεδίου, είδος γεγονότος ακολουθούμενο από πλήθος που αναφέρεται στον αριθμό ίδιων γεγονότων που συνέβησαν την ίδια χρονική στιγμή. Τα διαφορετικά είδη αναπαράστασης των γεγονότων περιγράφονται επίσης στο κεφάλαιο 3.

ΕΠΙΠΕΔΟ: Πτυχιακή ή Διπλωματική για Μηχανικούς

ΠΛΑΤΦΟΡΜΑ ΕΡΓΑΣΙΑΣ: Java

ΠΡΟΚΛΗΣΕΙΣ και ΟΦΕΛΗ: : Η δυσκολία αφορά στην κατανόηση του υπάρχοντος συστήματος και στην επέκτασή του με νέα χαρακτηριστικά με συγκροτημένο τρόπο. Τα οφέλη για ένα φοιτητή είναι: (α) τεχνογνωσία σε μια προχωρημένη περιοχή, αυτή της εξόρυξης πληροφορίας (data mining), η οποία όλο και αποκτά νέα δυναμική (όσο τα δεδομένα αυξάνονται), (β) τεχνογνωσία σε θέματα εξέλιξης του σχήματος βάσεων δεδομένων, και (γ) πρακτική εμπειρία σε θέματα υλοποίησης αλγορίθμων, API, GUI σε Java.

Η εργασία είναι πλέον κατάλληλη για φοιτητές με ταλέντο στον προγραμματισμό και ενδιαφέροντα στις βάσεις δεδομένων, την εξόρυξη πληροφορίας και την τεχνολογία λογισμικού.

Απαιτούμενα προσόντα είναι η πολύ καλή γνώση Java και η δεδηλωμένη δέσμευση να ολοκληρωθεί η εργασία εντός δύο εξαμήνων το πολύ.

Page 26: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 26

2.5. ΜΕΤΑΦΟΡΑ ΣΕ SPARK ΚΑΙ ΕΠΕΚΤΑΣΗ ΤΟΥ ΕΡΓΑΛΕΙΟΥ ROSES ΠΕΡΙΛΗΨΗ: Ο σκοπός της παρούσας εργασίας είναι η μεταφορά του εργαλείου ROSES σε πλατφόρμα Spark και η επέκτασή του με επιπλέον λειτουργικότητα.

ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ: Το εργαλείο Roses χρησιμοποιεί μια σχεσιακή βάση δεδομένων για να φορτώσει τα δεδομένων των πινάκων και αφού το έχει κάνει αυτό, επιτρέπει την απομόνωση κρίσιμων υποσυνόλων των δεδομένων (π.χ., μόνο τους πίνακες που κάποια στιγμή διαγράφηκαν, ή τους πίνακες που δεν επιδέχθηκαν ποτέ κάποια αλλαγή) και την εξαγωγή γραφικών παραστάσεων επί των υποσυνόλων αυτών.

Θέλουμε:

- Να απαλλαγούμε από την ανάγκη να έχουμε μια βάση δεδομένων για αυτή τη δουλειά, περνώντας τα δεδομένα σε μια πλατφόρμα Spark και χρησιμοποιώντας τις σχετικέ λειτουργίες της για τη διαχείριση των δεδομένων

- Να εξάγουμε αυτόματα (α) όλες τις πιθανές correlations μεταξύ πεδίων και (β) το σύστημα, αυτόματα, να προκρίνει τις πιο σημαντικές correlations που να μας επιτρέψουν να δούμε αν υπάρχουν συσχετίσεις ανάμεσα σε κρίσιμα υποσύνολα των πινάκων ενός σχήματος

- Να μπορέσουμε να αξιοποιήσουμε τις βιβλιοθήκες data mining της Spark και να υποστηρίξουμε (ενδεικτικά) ανάλυση χρονοσειρών ή εντοπισμό outliers.

Επιπλέον απαιτήσεις:

- Είναι επιθυμητό να υπάρχει API ανάμεσα στα υποσυστήματα.

- Οι υπάρχουσες οπτικοποιήσεις δέον να διατηρηθούν

ΠΛΑΤΦΟΡΜΑ ΕΡΓΑΣΙΑΣ: Java

ΕΠΙΠΕΔΟ: Πτυχιακή ή Διπλωματική για Μηχανικούς

ΠΡΟΚΛΗΣΕΙΣ και ΟΦΕΛΗ:

Η δυσκολία αφορά στην κατανόηση του υπάρχοντος συστήματος και στην επέκτασή του με νέα χαρακτηριστικά με συγκροτημένο τρόπο. Τα οφέλη για ένα φοιτητή είναι: (α) τεχνογνωσία σε μια προχωρημένη διαχείρισης όπως το Spark, (β) τεχνογνωσία σε θέματα εξέλιξης του σχήματος βάσεων δεδομένων, (γ) πρακτική εμπειρία σε θέματα υλοποίησης αλγορίθμων & API, σε Java και (δ) εμπλοκή σε θέματα data mining.

Η εργασία είναι πλέον κατάλληλη για φοιτητές με ταλέντο στον προγραμματισμό και ενδιαφέροντα στις βάσεις δεδομένων, την εξόρυξη πληροφορίας και την τεχνολογία λογισμικού.

Απαιτούμενα προσόντα είναι η πολύ καλή γνώση Java και η δεδηλωμένη δέσμευση να ολοκληρωθεί η εργασία εντός δύο εξαμήνων το πολύ.

Page 27: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 27

2.6. ΑΠΟΤΙΜΗΣΗ ΤΗΣ ΕΠΙΠΤΩΣΗΣ ΓΡΑΦΟΘΕΩΡΗΤΙΚΩΝ ΙΔΙΟΤΗΤΩΝ ΤΩΝ

ΠΙΝΑΚΩΝ ΣΤΗΝ ΕΞΕΛΙΞΗ ΤΟΥΣ ΠΕΡΙΛΗΨΗ: Ο σκοπός της παρούσας εργασίας είναι η ανεύρεση επαναλαμβανόμενων προτύπων συμπεριφοράς με βάση τις ιδιότητες των πινάκων, κυρίως στο γράφημα των ξένων κλειδιών

ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ: Οι πίνακες έχουν διάφορες ιδιότητες, όπως ο αριθμός των πεδίων του, το πότε κατασκευάσθηκαν αρχικά, το πότε διαγράφηκαν οριστικά κλπ. Επιπλέον, μπορούμε να κατασκευάσουμε το γράφημα του σχήματος της βάσης δεδομένων με βάση τα ξένα κλειδιά των πινάκων. Έχοντας καταγράψει τις προαναφερθείσες ιδιότητες, το γράφημα και την εξέλιξη των πινάκων μπορούμε να ανιχνεύσουμε πρότυπα που σχετίζονται με την εξέλιξη των πινάκων. Τα ερωτήματα που θέλουμε να απαντήσουμε είναι:

1. μπορούμε να προβλέψουμε τον τρόπο με τον οποίο θα αλλάξει ένας πίνακας (και πώς) με βάση τις ιδιότητες αυτές (αρ. πεδίων, κατασκευή/διαγραφή, θέση στο γράφημα, γραφοθεωρητικές μετρικές, κλπ)?

2. Τι δομή φτιάχνουν στο γράφημα οι πίνακες Χ, Υ έτσι ώστε αν αλλάξει ο πίνακας Χ να αλλάξει και ο πίνακας Υ μετά από w versions, με πιθανότητα πάνω από ένα threshold T?

Π.χ., p(if change@X then change@Y within w) >= T && path(X->Y) = k hops

Για να μπορούμε να βγάλουμε συμπεράσματα, μπορούμε να ομαδοποιήσουμε τους πίνακες σε

- κατηγορίες δραστηριότητας (π.χ., πίνακες που ζουν λίγο, πίνακες που αλλάζουν λίγο, σύντομα μετά τη γέννησή τους, πίνακες που αλλάζουν συχνά στη διάρκεια ζωής τους, πίνακες που αλλάζουν αραιά αλλά δραστικά, πίνακες που παραμένουν (σχεδόν) αμετάβλητοι, …) και να τρέξουμε κάποιο αλγόριθμο classification.

- Κατηγορίες «δομής», με βάση τις ακμές και τον έσω/έξω βαθμό τους στο γράφημα (π.χ., πίνακες με έξω βαθμό 0 και έσω βαθμό > 0 είναι «lookup» πίνακες, το αντίστροφο κάνει fact πίνακες, και έχουμε και πίνακες «γέφυρες», «solo», …)

Για την εξαγωγή κανόνων co-change, θα χρειαστεί να κάνουμε κάποιο visual data mining στα αποτελέσματα του εργαλείου Parmenidian Truth για να βρούμε πιθανά patterns αρχικά με το μάτι. Μετά θα χρειαστεί να υλοποιηθεί κάποιος αλγόριθμος που να μετρά τα co-changes πινάκων μέσα σε διάστημα w και μετά να καταγράφει τις γραφοθεωρητικές τους σχέσεις

ΕΠΙΠΕΔΟ: MSc ή Διπλωματική για Μηχανικούς

ΠΛΑΤΦΟΡΜΑ ΕΡΓΑΣΙΑΣ: Java

ΠΡΟΚΛΗΣΕΙΣ και ΟΦΕΛΗ:

Page 28: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 28

Η δυσκολία έγκειται στο να αρχικοποιήσουμε το χαρακτηρισμό της ζωής των πινάκων, καθώς και το γράφημα, χειρονακτικά. Φυσικά, υπάρχει και το άγνωστο, που έγκειται στο να εντοπίσουμε κάποιες αρχικές πρώτες εικόνες για το ποιες μετρικές σχετίζονται με την εξέλιξη. Ευτυχώς υπάρχουν βιβλιοθήκες διαχείρισης γραφημάτων (Jung) που μας προσφέρουν έτοιμες τις γραφοθεωρητικές λειτουργίες και έτσι αρκεί να αναπαραστήσουμε την πληροφορία για να δοκιμάσουμε τι είδους συσχετίσεις υπάρχουν.

Τα οφέλη για ένα φοιτητή είναι: (α) τεχνογνωσία σε μια προχωρημένη περιοχή, αυτή της εξόρυξης πληροφορίας (data mining), η οποία όλο και αποκτά νέα δυναμική (όσο τα δεδομένα αυξάνονται), (β) τεχνογνωσία σε θέματα εξέλιξης του σχήματος βάσεων δεδομένων, (γ) τεχνογνωσία σε θέματα διαχείρισης γραφημάτων και των σχετικών μετρικών, και (δ) πρακτική εμπειρία σε θέματα υλοποίησης αλγορίθμων σε Java.

Η εργασία είναι πλέον κατάλληλη για φοιτητές με ταλέντο στον προγραμματισμό και ενδιαφέροντα στις βάσεις δεδομένων, τη θεωρία γραφημάτων την εξόρυξη πληροφορίας και την τεχνολογία λογισμικού.

Απαιτούμενα προσόντα είναι η πολύ καλή γνώση Java και η δεδηλωμένη δέσμευση να ολοκληρωθεί η εργασία εντός δύο εξαμήνων το πολύ.

Page 29: ΘΕΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΔΙΠΛΩΜΑΤΙΚΩΝ ΚΑΙ ...pvassil/courses/diplomatikes/2017-2018/...παρουσίαση του PowerPoint. Η διαδικασία

D:\Users\pvassil\COURSES\DIPLOMATIKES\OLD\2017-2018\2017-2018_ThesisTopics_Public.docx 29

2.7. ΚΑΤΑΣΚΕΥΗ ΔΙΑΔΡΑΣΤΙΚΟΥ ΕΡΓΑΛΕΙΟΥ ΑΝΑΚΤΗΣΗΣ ΙΣΤΟΡΙΑΣ ΜΙΑΣ ΒΑΣΗΣ

ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΔΗΜΟΣΙΑ ΑΠΟΘΕΤΗΡΙΑ ΠΕΡΙΛΗΨΗ: Ο σκοπός της παρούσας εργασίας είναι η κατασκευή ενός εργαλείου, το οποίο εκμεταλλευόμενο το API που δίνουν δημόσια αποθετήρια (git, svn) κατεβάζει και αποθηκεύει το υποσύνολο της ιστορίας ενός project όπως προδιαγράφει ο χρήστης.

ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ: Για να μελετήσουμε την εξέλιξη του σχήματος βάσεων δεδομένων, χρησιμοποιούμε βάσεις δεδομένων που είναι ενσωματωμένες σε Free Open Source Software (FOSS) projects, δημοσιευμένα σε δημόσια αποθετήρια. Η ανάκτηση της ιστορίας γίνεται χρησιμοποιώντας ένα συνδυασμό από εντολές π.χ., του git + scripts που παίρνουν τα αρχεία που ανακτώνται και τα μετονομάζουν, μετακινούν και γενικά αποθηκεύουν κατάλληλα. Θέλουμε ένα εργαλείο με μια γραφική διαπροσωπεία που:

- Να κάνουμε register ένα FOSS project και τις πληροφορίες που το συνοδεύουν.

- Να μας επιτρέπει να ορίσουμε κριτήρια σε σχέση με το ποιο υποσύνολο της ιστορίας του FOSS project θέλουμε να ανακτήσουμε

- Να μας επιτρέπει να ρυθμίζουμε τα της αποθήκευσης των αποτελεσμάτων

- Να αποθηκεύει μεταπληροφορία, και για την ίδια την ερώτηση (τι ρωτήσαμε) και για τα αποτελέσματά της (author, date, …)

- Να μας επιτρέπει να κάνουμε πιο φαντεζί ερωτήσεις στο git (π.χ., «ποια projects στο github περιέχουν μια σχεσιακή βάση μέσα και έχουν ιστορία από .sql αρχείο με πάνω από 5 εκδόσεις?»)

Επιπλέον απαιτήσεις:

- Είναι επιθυμητό να υπάρχει API ανάμεσα στα υποσυστήματα.

ΠΛΑΤΦΟΡΜΑ ΕΡΓΑΣΙΑΣ: Java

ΕΠΙΠΕΔΟ: Πτυχιακή ή Διπλωματική για Μηχανικούς

ΠΡΟΚΛΗΣΕΙΣ και ΟΦΕΛΗ:

Η δυσκολία έγκειται στο κομμάτι της τεχνολογίας λογισμικού, ώστε να φτιαχτεί το λογισμικό ως μια μηχανή υψηλής ποιότητας. Τα οφέλη για ένα φοιτητή είναι: (α) τεχνογνωσία σε μια προχωρημένη διαδικτυακή διαπροσωπεία όπως το API of git, (β) τεχνογνωσία σε θέματα εξέλιξης του σχήματος βάσεων δεδομένων, και (γ) πρακτική εμπειρία σε θέματα υλοποίησης GUI & API, σε Java.

Η εργασία είναι πλέον κατάλληλη για φοιτητές με ταλέντο στον προγραμματισμό και ενδιαφέροντα στην τεχνολογία λογισμικού.

Απαιτούμενα προσόντα είναι η πολύ καλή γνώση Java και η δεδηλωμένη δέσμευση να ολοκληρωθεί η εργασία εντός δύο εξαμήνων το πολύ.