21
Μέθοδοι και Τεχνικές Έρευνας στον Κυβερνοχώρο Data Mining & Big Data Α.Β. ΜΠΡΑΪΛΑΣ Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 1

διαφάνειες Data mining & big data

Embed Size (px)

Citation preview

Page 1: διαφάνειες Data mining & big data

Μέθοδοι και Τεχνικές Έρευνας στον Κυβερνοχώρο

Data Mining & Big Data

Α.Β. ΜΠΡΑΪΛΑΣ Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 1

Page 2: διαφάνειες Data mining & big data

2014 Α.Β. ΜΠΡΑΪΛΑΣ

Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 2

Page 3: διαφάνειες Data mining & big data

Data Mining

• The actual data mining task is the automatic or semi-automatic analysis of large quantities of data to extract previously unknown interesting patterns such as groups of data records (cluster analysis), unusual records (anomaly detection) and dependencies (association rule mining).

http://en.wikipedia.org/wiki/Data_mining

2014 Α.Β. ΜΠΡΑΪΛΑΣ

Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 3

Page 4: διαφάνειες Data mining & big data

2014 Α.Β. ΜΠΡΑΪΛΑΣ Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 4

Page 5: διαφάνειες Data mining & big data

Big Data Big data is an all-encompassing term for any collection of data sets so large or complex that it becomes difficult to process them using traditional data processing applications. The challenges include analysis, capture, curation, search, sharing, storage, transfer, visualization, and privacy violations. The trend to larger data sets is due to the additional information derivable from analysis of a single large set of related data, as compared to separate smaller sets with the same total amount of data, allowing correlations to be found to "spot business trends, prevent diseases, combat crime and so on."[1]

http://en.wikipedia.org/wiki/Data_mining

2014 Α.Β. ΜΠΡΑΪΛΑΣ

Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 5

Page 6: διαφάνειες Data mining & big data

Data, Data Everywhere

• http://www.economist.com/node/15557443

2014 Α.Β. ΜΠΡΑΪΛΑΣ

Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 6

Page 7: διαφάνειες Data mining & big data

Wikipedia & Big Data

A visualization of Wikipedia edits created by IBM. At multiple terabytes in size, the text and images of Wikipedia are a classic example of big data.

Visualization of all editing activity by user "Pearle" on Wikipedia (Pearle is a robot). To find out more about this project, see (2007). "Visualizing Activity on Wikipedia with Chromograms". Proceedings of INTERACT.

2014 Α.Β. ΜΠΡΑΪΛΑΣ

Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 7

Page 8: διαφάνειες Data mining & big data

2014 Α.Β. ΜΠΡΑΪΛΑΣ Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 8

Page 9: διαφάνειες Data mining & big data

Διαδικτυακά robots

2014 Α.Β. ΜΠΡΑΪΛΑΣ

Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 9

Page 10: διαφάνειες Data mining & big data

http://www.technologyreview.com/view/527746/how-advanced-socialbots-have-infiltrated-twitter/

Page 11: διαφάνειες Data mining & big data

Datasets

2014 Α.Β. ΜΠΡΑΪΛΑΣ

Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 11

Page 12: διαφάνειες Data mining & big data

Cleaning Data

• Κάθε γραμμή είναι μια παρατήρηση. Πχ ένα άτομο

• Κάθε στήλη είναι μια μεταβλητή. Πχ ηλικία, φύλο, συχνότητα

• Τα λάθη (data errors – απίθανες τιμές) στον πίνακα απομακρύνονται, διορθώνεται ο τύπος των μεταβλητών.

• Ενδεχόμενα οι μεταβλητές μετασχηματίζονται, απομακρύνονται

2014 Α.Β. ΜΠΡΑΪΛΑΣ

Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 12

Page 13: διαφάνειες Data mining & big data

Open data

• Ελεύθερα προσβάσιμα σύνολα δεδομένων

• Data.gov ιστότοποι

2014 Α.Β. ΜΠΡΑΪΛΑΣ

Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 13

Page 14: διαφάνειες Data mining & big data

2014 Α.Β. ΜΠΡΑΪΛΑΣ Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 14

Page 15: διαφάνειες Data mining & big data

2014 Α.Β. ΜΠΡΑΪΛΑΣ Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 15

Page 16: διαφάνειες Data mining & big data

2014 Α.Β. ΜΠΡΑΪΛΑΣ Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 16

Page 17: διαφάνειες Data mining & big data

2014 Α.Β. ΜΠΡΑΪΛΑΣ Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 17

Page 18: διαφάνειες Data mining & big data

2014 Α.Β. ΜΠΡΑΪΛΑΣ Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 18

Page 19: διαφάνειες Data mining & big data

2014 Α.Β. ΜΠΡΑΪΛΑΣ Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 19

Page 20: διαφάνειες Data mining & big data

2014 Α.Β. ΜΠΡΑΪΛΑΣ Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 20

Page 21: διαφάνειες Data mining & big data

2014 Α.Β. ΜΠΡΑΪΛΑΣ Εργαστήριο Δυνητικής Πραγματικότητας, Διαδικτυακής Έρευνας και Εκπαίδευσης, Πάντειο Πανεπιστήμιο http://vrlab.panteion.gr 21