Εξόρυξη δεδομένων · Loginom Wiki. Τεχνολογία εξόρυξης δεδομένων Η έννοια της εξόρυξης δεδομένων έχει γίνει δημοφιλής

Υπουργείο Παιδείας και Επιστημών της Ρωσικής Ομοσπονδίας

Ομοσπονδιακό κρατικό προϋπολογισμό Εκπαιδευτικό Ίδρυμα Ανώτατης Επαγγελματικής Εκπαίδευσης

"ΕΘΝΙΚΟ ΕΡΕΥΝΗΤΙΚΟ ΠΟΛΥΤΕΧΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΟΜΣΚ"

Ινστιτούτο Κυβερνητικής

Κατεύθυνση Πληροφορική και Επιστήμη Υπολογιστών

Τμήμα VT

Δοκιμή

στον κλάδο της πληροφορικής και της μηχανικής υπολογιστών

Θέμα: Μέθοδοι Εξόρυξης Δεδομένων

Εισαγωγή

Εξόρυξη Δεδομένων. Βασικές έννοιες και ορισμοί

1 Βήματα στη διαδικασία εξόρυξης δεδομένων

2 Εξαρτήματα ευφυών συστημάτων ανάλυσης

3 Μέθοδοι εξόρυξης δεδομένων

Μέθοδοι Εξόρυξης Δεδομένων

1 Εξαγωγή κανόνων σύνδεσης

2 Αλγόριθμοι νευρωνικών δικτύων

3 Μέθοδοι πλησιέστερου γείτονα και k-πλησιέστερου γείτονα

4 Δέντρα απόφασης

5 Αλγόριθμοι ομαδοποίησης

6 Γενετικοί αλγόριθμοι

Τομείς εφαρμογής

Κατασκευαστές εργαλείων εξόρυξης δεδομένων

Κριτική μεθόδων

Σύναψη

Αναφορές

Εισαγωγή

Το αποτέλεσμα της ανάπτυξης της τεχνολογίας της πληροφορίας είναι ένας κολοσσιαίος όγκος δεδομένων που συσσωρεύεται σε ηλεκτρονική μορφή, που αυξάνεται με γρήγορους ρυθμούς. Ταυτόχρονα, τα δεδομένα, κατά κανόνα, έχουν μια ετερογενή δομή (κείμενα, εικόνες, ήχος, βίντεο, έγγραφα υπερκειμένου, σχεσιακές βάσεις δεδομένων). Τα δεδομένα που συσσωρεύονται για μεγάλο χρονικό διάστημα μπορεί να περιέχουν μοτίβα, τάσεις και σχέσεις, που είναι πολύτιμες πληροφορίες για τον προγραμματισμό, την πρόβλεψη, τη λήψη αποφάσεων και τον έλεγχο της διαδικασίας. Ωστόσο, οι άνθρωποι είναι φυσικά ανίκανοι να αναλύσουν αποτελεσματικά τέτοιους όγκους ετερογενών δεδομένων. Οι μέθοδοι των παραδοσιακών μαθηματικών στατιστικών έχουν από καιρό ισχυριστεί ότι είναι το κύριο εργαλείο για την ανάλυση δεδομένων. Ωστόσο, δεν επιτρέπουν τη σύνθεση νέων υποθέσεων, αλλά μπορούν να χρησιμοποιηθούν μόνο για την επιβεβαίωση προ-διατυπωμένων υποθέσεων και «ακατέργαστης» διερευνητικής ανάλυσης, η οποία αποτελεί τη βάση της διαδικτυακής αναλυτικής επεξεργασίας (OLAP). Συχνά, είναι η διατύπωση μιας υπόθεσης που αποδεικνύεται ότι είναι το πιο δύσκολο έργο κατά τη διεξαγωγή ανάλυσης για την επακόλουθη λήψη αποφάσεων, καθώς δεν είναι όλα τα πρότυπα στα δεδομένα προφανή με την πρώτη ματιά. Ως εκ τούτου, οι τεχνολογίες εξόρυξης δεδομένων θεωρούνται ως ένα από τα πιο σημαντικά και πολλά υποσχόμενα θέματα για έρευνα και εφαρμογή στον κλάδο της πληροφορικής. Η εξόρυξη δεδομένων σε αυτή την περίπτωση αναφέρεται στη διαδικασία εντοπισμού νέας, σωστής και δυνητικά χρήσιμης γνώσης που βασίζεται σε μεγάλες ποσότητες δεδομένων. Έτσι, το MIT Technology Review περιέγραψε την Εξόρυξη Δεδομένων ως μία από τις δέκα αναδυόμενες τεχνολογίες που θα αλλάξουν τον κόσμο.

1. Εξόρυξη Δεδομένων. Βασικές έννοιες και ορισμοί

Η Εξόρυξη Δεδομένων είναι η διαδικασία ανακάλυψης «ακατέργαστων» δεδομένων προηγουμένως άγνωστων, μη τετριμμένων, πρακτικά χρήσιμων και ερμηνεύσιμων γνώσεων που είναι απαραίτητες για τη λήψη αποφάσεων σε διάφορους τομείς της ανθρώπινης δραστηριότητας.

Η ουσία και ο σκοπός της τεχνολογίας Εξόρυξης Δεδομένων μπορεί να διατυπωθεί ως εξής: είναι μια τεχνολογία που έχει σχεδιαστεί για την αναζήτηση μεγάλου όγκου δεδομένων για μη προφανή, αντικειμενικά και πρακτικά πρότυπα.

Τα μη προφανή μοτίβα είναι μοτίβα που δεν μπορούν να ανιχνευθούν με τυπικές μεθόδους επεξεργασίας πληροφοριών ή με ανάλυση ειδικών.

Τα αντικειμενικά μοτίβα πρέπει να νοούνται ως πρότυπα που ανταποκρίνονται πλήρως στην πραγματικότητα, σε αντίθεση με τη γνώμη των ειδικών, η οποία είναι πάντα υποκειμενική.

Αυτή η έννοια της ανάλυσης δεδομένων προϋποθέτει ότι:

§ τα δεδομένα μπορεί να είναι ανακριβή, ελλιπή (περιέχουν παραλείψεις), αντιφατικά, ετερογενή, έμμεσα και ταυτόχρονα να έχουν τεράστιο όγκο. Επομένως, η κατανόηση δεδομένων σε συγκεκριμένες εφαρμογές απαιτεί σημαντική πνευματική προσπάθεια.

§ Οι ίδιοι οι αλγόριθμοι ανάλυσης δεδομένων μπορεί να έχουν «στοιχεία ευφυΐας», ειδικότερα, την ικανότητα να μαθαίνουν από προηγούμενα, δηλαδή να εξάγουν γενικά συμπεράσματα με βάση ιδιωτικές παρατηρήσεις. Η ανάπτυξη τέτοιων αλγορίθμων απαιτεί επίσης σημαντική πνευματική προσπάθεια.

§ οι διαδικασίες επεξεργασίας ακατέργαστων δεδομένων σε πληροφορίες και πληροφοριών σε γνώση δεν μπορούν να γίνουν χειροκίνητα και απαιτούν αυτοματοποίηση.

Η τεχνολογία εξόρυξης δεδομένων βασίζεται στην έννοια των προτύπων που αντικατοπτρίζουν θραύσματα πολυδιάστατων σχέσεων στα δεδομένα. Αυτά τα μοτίβα αντιπροσωπεύουν μοτίβα εγγενή σε υποδείγματα δεδομένων που μπορούν να εκφραστούν συμπαγή σε μια αναγνώσιμη από τον άνθρωπο μορφή.

Η αναζήτηση προτύπων πραγματοποιείται χρησιμοποιώντας μεθόδους που δεν περιορίζονται από εκ των προτέρων υποθέσεις σχετικά με τη δομή του δείγματος και τον τύπο των κατανομών των τιμών των αναλυόμενων δεικτών.

Ένα σημαντικό χαρακτηριστικό της Εξόρυξης Δεδομένων είναι η μη τυπική και μη προφανής φύση των μοτίβων που αναζητούνται. Με άλλα λόγια, τα εργαλεία Εξόρυξης Δεδομένων διαφέρουν από τα εργαλεία επεξεργασίας στατιστικών δεδομένων και τα εργαλεία OLAP στο ότι αντί να ελέγχουν τις προκαταρκτικές αλληλεξαρτήσεις από τους χρήστες, μπορούν να βρουν τέτοιες αλληλεξαρτήσεις ανεξάρτητα με βάση τα διαθέσιμα δεδομένα και να δημιουργήσουν υποθέσεις για τη φύση τους. Υπάρχουν πέντε τυπικοί τύποι προτύπων που προσδιορίζονται από τις μεθόδους εξόρυξης δεδομένων:

· συσχέτιση - μεγάλη πιθανότητα γεγονότων να συνδέονται μεταξύ τους. Ένα παράδειγμα συσχέτισης είναι τα είδη σε ένα κατάστημα που συχνά αγοράζονται μαζί.

· ακολουθία - μεγάλη πιθανότητα μιας αλυσίδας γεγονότων που σχετίζονται με το χρόνο. Ένα παράδειγμα ακολουθίας είναι μια κατάσταση όπου, μέσα σε μια ορισμένη περίοδο μετά την αγορά ενός προϊόντος, ένα άλλο θα αγοραστεί με υψηλό βαθμό πιθανότητας.

· ταξινόμηση - υπάρχουν σημάδια που χαρακτηρίζουν την ομάδα στην οποία ανήκει αυτό ή εκείνο το γεγονός ή αντικείμενο.

· Η ομαδοποίηση είναι ένα μοτίβο παρόμοιο με την ταξινόμηση και διαφέρει από αυτό στο ότι οι ίδιες οι ομάδες δεν προσδιορίζονται - προσδιορίζονται αυτόματα κατά την επεξεργασία δεδομένων.

· χρονικά μοτίβα - η παρουσία προτύπων στη δυναμική της συμπεριφοράς ορισμένων δεδομένων. Ένα τυπικό παράδειγμα χρονικού μοτίβου είναι οι εποχιακές διακυμάνσεις στη ζήτηση για ορισμένα αγαθά ή υπηρεσίες.

1.1 Βήματα στη διαδικασία εξόρυξης δεδομένων

Παραδοσιακά, στη διαδικασία της εξόρυξης δεδομένων διακρίνονται τα ακόλουθα στάδια:

1. Μελέτη της θεματικής περιοχής, ως αποτέλεσμα της οποίας διατυπώνονται οι κύριοι στόχοι της ανάλυσης.

2. Συλλογή δεδομένων.

Προεπεξεργασία δεδομένων:

ένα. Καθαρισμός δεδομένων - εξαλείφοντας τις ασυνέπειες και τον τυχαίο «θόρυβο» από τα δεδομένα πηγής

σι. Ενοποίηση δεδομένων - συνδυάζει δεδομένα από πολλές πιθανές πηγές σε ένα αποθετήριο. Μετατροπή δεδομένων. Σε αυτό το στάδιο, τα δεδομένα μετατρέπονται σε μορφή κατάλληλη για ανάλυση. Συχνά χρησιμοποιούνται η συγκέντρωση δεδομένων, η δειγματοληψία χαρακτηριστικών, η συμπίεση δεδομένων και η μείωση διαστάσεων.

4. Ανάλυση δεδομένων. Ως μέρος αυτού του σταδίου, χρησιμοποιούνται αλγόριθμοι εξόρυξης για την εξαγωγή μοτίβων.

5. Ερμηνεία των μοτίβων που βρέθηκαν. Αυτό το στάδιο μπορεί να περιλαμβάνει την οπτικοποίηση των εξαγόμενων μοτίβων, τον εντοπισμό πραγματικά χρήσιμων μοτίβων με βάση κάποια συνάρτηση χρησιμότητας.

Χρησιμοποιώντας νέα γνώση.

1.2 Εξαρτήματα ευφυών συστημάτων ανάλυσης

Συνήθως, τα συστήματα εξόρυξης δεδομένων έχουν τα ακόλουθα κύρια στοιχεία:

1. Μια βάση δεδομένων, μια αποθήκη δεδομένων ή άλλη αποθήκη πληροφοριών. Αυτό θα μπορούσε να είναι μία ή περισσότερες βάσεις δεδομένων, μια αποθήκη δεδομένων, υπολογιστικά φύλλα ή άλλοι τύποι αποθετηρίων που μπορούν να καθαριστούν και να ενσωματωθούν.

2. Διακομιστής βάσης δεδομένων ή αποθήκης δεδομένων. Ο καθορισμένος διακομιστής είναι υπεύθυνος για την ανάκτηση των βασικών δεδομένων με βάση το αίτημα του χρήστη.

Βάση γνώσεων. Αυτή είναι η γνώση τομέα που καθοδηγεί τον τρόπο αναζήτησης και αξιολόγησης της χρησιμότητας των μοτίβων που προκύπτουν.

Υπηρεσία εξόρυξης γνώσης. Αποτελεί αναπόσπαστο μέρος του συστήματος εξόρυξης δεδομένων και περιέχει ένα σύνολο λειτουργικών ενοτήτων για εργασίες όπως χαρακτηρισμός, αναζήτηση συσχετισμών, ταξινόμηση, ανάλυση συστάδων και ανάλυση διακύμανσης.

Ενότητα αξιολόγησης προτύπων. Αυτό το στοιχείο υπολογίζει μέτρα ενδιαφέροντος ή χρησιμότητας προτύπων.

Γραφική διεπαφή χρήστη. Αυτή η ενότητα είναι υπεύθυνη για την επικοινωνία μεταξύ του χρήστη και του συστήματος εξόρυξης δεδομένων, την οπτικοποίηση μοτίβων σε διάφορες μορφές.

1.3 Μέθοδοι εξόρυξης δεδομένων

Οι περισσότερες από τις αναλυτικές μεθόδους που χρησιμοποιούνται στην τεχνολογία εξόρυξης δεδομένων είναι γνωστοί μαθηματικοί αλγόριθμοι και μέθοδοι. Το νέο στην εφαρμογή τους είναι η δυνατότητα χρήσης τους στην επίλυση συγκεκριμένων προβλημάτων, λόγω των αναδυόμενων δυνατοτήτων υλικού και λογισμικού. Πρέπει να σημειωθεί ότι οι περισσότερες μέθοδοι Εξόρυξης Δεδομένων αναπτύχθηκαν στο πλαίσιο της θεωρίας της τεχνητής νοημοσύνης. Ας δούμε τις πιο ευρέως χρησιμοποιούμενες μεθόδους:

Εξαγωγή κανόνων σύνδεσης.

2. Αλγόριθμοι νευρωνικών δικτύων, η ιδέα των οποίων βασίζεται σε μια αναλογία με τη λειτουργία του νευρικού ιστού και έγκειται στο γεγονός ότι οι αρχικές παράμετροι θεωρούνται ως σήματα που μετασχηματίζονται σύμφωνα με τις υπάρχουσες συνδέσεις μεταξύ «νευρώνων». και η απόκριση ολόκληρου του δικτύου θεωρείται ως η απόκριση που προκύπτει από την ανάλυση στα αρχικά δεδομένα.

Επιλογή στενού αναλόγου των αρχικών δεδομένων από υπάρχοντα ιστορικά δεδομένα. Ονομάζεται επίσης μέθοδος «πλησιέστερου γείτονα».

Τα δέντρα αποφάσεων είναι μια ιεραρχική δομή που βασίζεται σε ένα σύνολο ερωτήσεων που απαιτούν απάντηση «Ναι» ή «Όχι».

Τα μοντέλα συμπλέγματος χρησιμοποιούνται για την ομαδοποίηση παρόμοιων συμβάντων σε ομάδες με βάση παρόμοιες τιμές πολλών πεδίων σε ένα σύνολο δεδομένων.

Στο επόμενο κεφάλαιο θα περιγράψουμε τις παραπάνω μεθόδους με περισσότερες λεπτομέρειες.

2. Μέθοδοι Εξόρυξης Δεδομένων

2.1 Συναγωγή κανόνων σύνδεσης

Οι κανόνες σύνδεσης είναι κανόνες της μορφής «αν... τότε...». Η αναζήτηση τέτοιων κανόνων σε ένα σύνολο δεδομένων αποκαλύπτει κρυφές συνδέσεις σε φαινομενικά άσχετα δεδομένα. Ένα από τα πιο συχνά αναφερόμενα παραδείγματα εύρεσης κανόνων συσχέτισης είναι το πρόβλημα της εύρεσης σταθερών συνδέσεων σε ένα καλάθι αγορών. Αυτό το πρόβλημα έγκειται στον προσδιορισμό των προϊόντων που αγοράζουν οι πελάτες μαζί, έτσι ώστε οι έμποροι να μπορούν να τοποθετούν κατάλληλα αυτά τα προϊόντα στο κατάστημα για να αυξήσουν τις πωλήσεις.

Οι κανόνες συσχέτισης ορίζονται ως δηλώσεις της μορφής (X1,X2,…,Xn) -> Y, όπου υπονοείται ότι το Y μπορεί να υπάρχει σε μια συναλλαγή με την προϋπόθεση ότι τα X1,X2,…,Xn υπάρχουν στην ίδια συναλλαγή. Πρέπει να σημειωθεί ότι η λέξη «μπορεί» υποδηλώνει ότι ο κανόνας δεν είναι ταυτότητα, αλλά ικανοποιείται μόνο με κάποια πιθανότητα. Επιπλέον, το Y μπορεί να είναι ένα σύνολο στοιχείων και όχι μόνο ένα στοιχείο. Η πιθανότητα εύρεσης Y σε μια συναλλαγή που περιέχει στοιχεία X1,X2,...,Xn ονομάζεται εμπιστοσύνη. Το ποσοστό των συναλλαγών που περιέχει έναν κανόνα από τον συνολικό αριθμό των συναλλαγών ονομάζεται υποστήριξη. Το επίπεδο εμπιστοσύνης που πρέπει να υπερβαίνει την εμπιστοσύνη ενός κανόνα ονομάζεται ενδιαφέρον.

Υπάρχουν διάφοροι τύποι κανόνων σύνδεσης. Στην απλούστερη μορφή τους, οι κανόνες συσχέτισης επικοινωνούν μόνο την παρουσία ή την απουσία ενός συσχετισμού. Αυτοί οι κανόνες ονομάζονται Boolean Association Rules. Ένα παράδειγμα τέτοιου κανόνα: «οι πελάτες που αγοράζουν γιαούρτι αγοράζουν επίσης βούτυρο με χαμηλά λιπαρά».

Οι κανόνες που ομαδοποιούν πολλούς κανόνες συσχέτισης ονομάζονται Πολυεπίπεδοι ή Γενικευμένοι Κανόνες συσχέτισης. Κατά την κατασκευή τέτοιων κανόνων, τα στοιχεία συνήθως ομαδοποιούνται σύμφωνα με μια ιεραρχία και η αναζήτηση διεξάγεται στο υψηλότερο εννοιολογικό επίπεδο. Για παράδειγμα, «οι πελάτες που αγοράζουν γάλα αγοράζουν και ψωμί». Σε αυτό το παράδειγμα, το γάλα και το ψωμί περιέχουν μια ιεραρχία διαφορετικών τύπων και επωνυμιών, αλλά η αναζήτηση στο κάτω επίπεδο δεν θα αποκαλύψει ενδιαφέροντες κανόνες.

Ένας πιο περίπλοκος τύπος κανόνων είναι οι Κανόνες ποσοτικής συσχέτισης. Αυτός ο τύπος κανόνα αναζητείται χρησιμοποιώντας ποσοτικά (π.χ. τιμή) ή κατηγορικές (π.χ. φύλο) χαρακτηριστικά και ορίζεται ως ( , ,…,} -> . Για παράδειγμα, «αγοραστές των οποίων η ηλικία είναι μεταξύ 30 και 35 ετών με εισόδημα άνω των 75.000 ετησίως αγοράζουν αυτοκίνητα που κοστίζουν πάνω από 20.000».

Οι παραπάνω τύποι κανόνων δεν αντιμετωπίζουν το γεγονός ότι οι συναλλαγές, από τη φύση τους, εξαρτώνται από το χρόνο. Για παράδειγμα, η αναζήτηση πριν ένα προϊόν καταχωρηθεί προς πώληση ή αφού εξαφανιστεί από την αγορά θα επηρεάσει αρνητικά το όριο υποστήριξης. Λαμβάνοντας αυτό υπόψη, η έννοια της διάρκειας ζωής του χαρακτηριστικού εισήχθη σε αλγόριθμους για την αναζήτηση προσωρινών κανόνων συσχέτισης (Temporal Association Rules).

Το πρόβλημα της αναζήτησης κανόνων συσχέτισης μπορεί γενικά να αναλυθεί σε δύο μέρη: αναζήτηση συνόλων στοιχείων που εμφανίζονται συχνά και δημιουργία κανόνων με βάση τα σύνολα που βρίσκονται συχνά. Προηγούμενες μελέτες, ως επί το πλείστον, ακολούθησαν αυτές τις γραμμές και τις επέκτειναν σε διαφορετικές κατευθύνσεις.

Από την εμφάνιση του αλγόριθμου Apriori, αυτός ο αλγόριθμος είναι ο πιο συχνά χρησιμοποιούμενος στο πρώτο βήμα. Πολλές βελτιώσεις, για παράδειγμα στην ταχύτητα και την επεκτασιμότητα, στοχεύουν στη βελτίωση του αλγόριθμου Apriori, στη διόρθωση της εσφαλμένης ιδιότητάς του να δημιουργεί πάρα πολλούς υποψηφίους για τα πιο συχνά εμφανιζόμενα σύνολα στοιχείων. Το Apriori δημιουργεί σύνολα στοιχείων χρησιμοποιώντας μόνο τα μεγάλα σύνολα που βρέθηκαν στο προηγούμενο βήμα, χωρίς να επανεξετάσει τις συναλλαγές. Ο τροποποιημένος αλγόριθμος AprioriTid βελτιώνεται στο Apriori χρησιμοποιώντας μόνο τη βάση δεδομένων στο πρώτο πέρασμα. Κατά τον υπολογισμό σε επόμενα βήματα, χρησιμοποιούνται μόνο τα δεδομένα που δημιουργήθηκαν στο πρώτο πέρασμα, το οποίο είναι πολύ μικρότερο σε μέγεθος από την αρχική βάση δεδομένων. Αυτό οδηγεί σε τεράστια αύξηση της παραγωγικότητας. Μια περαιτέρω βελτιωμένη έκδοση του αλγορίθμου, που ονομάζεται AprioriHybrid, μπορεί να ληφθεί χρησιμοποιώντας το Apriori στα πρώτα περάσματα και στη συνέχεια με εναλλαγή στο AprioriTid σε μεταγενέστερα περάσματα, όταν τα kth υποψήφια σύνολα μπορούν ήδη να βρίσκονται εξ ολοκλήρου στη μνήμη του υπολογιστή.

Περαιτέρω προσπάθειες για τη βελτίωση του αλγορίθμου Apriori σχετίζονται με την παραλληλοποίηση του αλγορίθμου (Count Distribution, Data Distribution, Candidate Distribution, κ.λπ.), την κλιμάκωσή του (Intelligent Data Distribution, Hybrid Distribution), την εισαγωγή νέων δομών δεδομένων, όπως δέντρα του στοιχεία που εμφανίζονται συχνά (FP-growth ).

Το δεύτερο βήμα χαρακτηρίζεται κυρίως από αυθεντικότητα και ενδιαφέρον. Οι νέες τροποποιήσεις προσθέτουν την υποστήριξη διαστάσεων, ποιότητας και χρονισμού που περιγράφεται παραπάνω στους παραδοσιακούς κανόνες Boolean. Ένας εξελικτικός αλγόριθμος χρησιμοποιείται συχνά για την εύρεση κανόνων.

2.2 Αλγόριθμοι νευρωνικών δικτύων

Τα τεχνητά νευρωνικά δίκτυα εμφανίστηκαν ως αποτέλεσμα της εφαρμογής μαθηματικών συσκευών στη μελέτη της λειτουργίας του ανθρώπινου νευρικού συστήματος με στόχο την αναπαραγωγή του. Δηλαδή: η ικανότητα του νευρικού συστήματος να μαθαίνει και να διορθώνει λάθη, που θα μας επιτρέψει να προσομοιώσουμε, αν και μάλλον χονδρικά, το έργο του ανθρώπινου εγκεφάλου. Το κύριο δομικό και λειτουργικό μέρος του νευρωνικού δικτύου είναι ο επίσημος νευρώνας, που φαίνεται στο Σχ. 1, όπου x0, x1,..., xn είναι τα συστατικά του διανύσματος σήματος εισόδου, w0,w1,...,wn είναι οι τιμές των βαρών των σημάτων εισόδου του νευρώνα και y είναι η έξοδος του νευρώνα σύνθημα.

Ρύζι. 1. Τυπικός νευρώνας: συνάψεις (1), αθροιστής (2), μετατροπέας (3).

Ένας τυπικός νευρώνας αποτελείται από 3 τύπους στοιχείων: συνάψεις, αθροιστή και μετατροπέα. Μια σύναψη χαρακτηρίζει τη δύναμη της σύνδεσης μεταξύ δύο νευρώνων.

Ο αθροιστής προσθέτει τα σήματα εισόδου, πολλαπλασιασμένα προηγουμένως με τα αντίστοιχα βάρη. Ο μετατροπέας υλοποιεί τη συνάρτηση ενός ορίσματος - την έξοδο του αθροιστή. Αυτή η λειτουργία ονομάζεται συνάρτηση ενεργοποίησης ή συνάρτηση μεταφοράς του νευρώνα.

Οι τυπικοί νευρώνες που περιγράφονται παραπάνω μπορούν να συνδυαστούν με τέτοιο τρόπο ώστε τα σήματα εξόδου ορισμένων νευρώνων να είναι η είσοδος σε άλλους. Το προκύπτον σύνολο διασυνδεδεμένων νευρώνων ονομάζεται τεχνητά νευρωνικά δίκτυα (ANN) ή, εν συντομία, νευρωνικά δίκτυα.

Υπάρχουν οι ακόλουθοι τρεις γενικοί τύποι νευρώνων, ανάλογα με τη θέση τους στο νευρωνικό δίκτυο:

Νευρώνες εισόδου (κόμβοι εισόδου) στους οποίους παρέχονται σήματα εισόδου. Τέτοιοι νευρώνες έχουν συνήθως μία είσοδο με βάρος μονάδας, δεν υπάρχει προκατάληψη και η τιμή εξόδου νευρώνων είναι ίση με το σήμα εισόδου.

Κόμβοι εξόδου, των οποίων οι τιμές εξόδου αντιπροσωπεύουν τα προκύπτοντα σήματα εξόδου του νευρωνικού δικτύου.

Κρυφοί νευρώνες (κρυφοί κόμβοι) που δεν έχουν άμεσες συνδέσεις με σήματα εισόδου, ενώ οι τιμές των σημάτων εξόδου των κρυφών νευρώνων δεν είναι τα σήματα εξόδου του ANN.

Με βάση τη δομή των ενδονευρονικών συνδέσεων, διακρίνονται δύο κατηγορίες ANN:

Feedforward ANNs, στα οποία το σήμα διαδίδεται μόνο από τους νευρώνες εισόδου στους νευρώνες εξόδου.

Επαναλαμβανόμενο ANN - ANN με ανατροφοδότηση. Σε τέτοια ANN, τα σήματα μπορούν να μεταδοθούν μεταξύ οποιωνδήποτε νευρώνων, ανεξάρτητα από τη θέση τους στο ANN.

Υπάρχουν δύο γενικές προσεγγίσεις για την εκπαίδευση ενός ANN:

Εκπαίδευση με δάσκαλο.

Μάθηση χωρίς δάσκαλο.

Η εποπτευόμενη μάθηση περιλαμβάνει τη χρήση ενός προπαρασκευασμένου συνόλου παραδειγμάτων κατάρτισης. Κάθε παράδειγμα περιέχει ένα διάνυσμα σημάτων εισόδου και ένα αντίστοιχο διάνυσμα σημάτων εξόδου αναφοράς, τα οποία εξαρτώνται από την εκάστοτε εργασία. Αυτό το σετ ονομάζεται δείγμα εκπαίδευσης ή σετ εκπαίδευσης. Η εκπαίδευση ενός νευρωνικού δικτύου στοχεύει στην αλλαγή των βαρών των συνδέσεων ANN με τέτοιο τρόπο ώστε οι τιμές των σημάτων εξόδου ANN να διαφέρουν όσο το δυνατόν λιγότερο από τις απαιτούμενες τιμές των σημάτων εξόδου για ένα δεδομένο διάνυσμα σημάτων εισόδου .

Στην μάθηση χωρίς επίβλεψη, τα βάρη σύνδεσης προσαρμόζονται είτε ως αποτέλεσμα ανταγωνισμού μεταξύ νευρώνων, είτε λαμβάνοντας υπόψη τη συσχέτιση των σημάτων εξόδου των νευρώνων μεταξύ των οποίων υπάρχει σύνδεση. Στην περίπτωση μάθησης χωρίς επίβλεψη, δεν χρησιμοποιείται σετ εκπαίδευσης.

Τα νευρωνικά δίκτυα χρησιμοποιούνται για την επίλυση ενός ευρέος φάσματος προβλημάτων, όπως ο σχεδιασμός ωφέλιμου φορτίου για διαστημικά λεωφορεία και η πρόβλεψη των συναλλαγματικών ισοτιμιών. Ωστόσο, δεν χρησιμοποιούνται συχνά σε συστήματα εξόρυξης δεδομένων λόγω της πολυπλοκότητας του μοντέλου (η γνώση που καταγράφεται ως το βάρος πολλών εκατοντάδων εσωτερικών συνδέσεων είναι εντελώς πέρα από την ανθρώπινη ανάλυση και ερμηνεία) και του μεγάλου χρόνου εκπαίδευσης σε ένα μεγάλο σετ εκπαίδευσης. Από την άλλη πλευρά, τα νευρωνικά δίκτυα έχουν τέτοια πλεονεκτήματα για χρήση σε εργασίες ανάλυσης δεδομένων, όπως αντίσταση σε θορυβώδη δεδομένα και υψηλή ακρίβεια.

2.3 Μέθοδοι πλησιέστερου γείτονα και k-πλησιέστερου γείτονα

Η βάση του αλγόριθμου του πλησιέστερου γείτονα (αλγόριθμος πλησιέστερου γείτονα) και του αλγόριθμου k-πλησιέστερου γείτονα (KNN) είναι η ομοιότητα των αντικειμένων. Ο αλγόριθμος του πλησιέστερου γείτονα επιλέγει, μεταξύ όλων των γνωστών αντικειμένων, το αντικείμενο που είναι όσο το δυνατόν πιο κοντά (χρησιμοποιώντας τη μέτρηση απόστασης μεταξύ αντικειμένων, για παράδειγμα, Ευκλείδειο) σε ένα νέο προηγουμένως άγνωστο αντικείμενο. Το κύριο πρόβλημα με τη μέθοδο του πλησιέστερου γείτονα είναι η ευαισθησία της σε ακραίες τιμές στα δεδομένα εκπαίδευσης.

Το περιγραφόμενο πρόβλημα μπορεί να αποφευχθεί από τον αλγόριθμο KNN, ο οποίος προσδιορίζει μεταξύ όλων των παρατηρήσεων τους k-πλησιέστερους γείτονες που είναι παρόμοιοι με το νέο αντικείμενο. Με βάση τις κατηγορίες των πλησιέστερων γειτόνων, λαμβάνεται μια απόφαση σχετικά με το νέο αντικείμενο. Ένα σημαντικό καθήκον αυτού του αλγορίθμου είναι να επιλέξει τον συντελεστή k - τον αριθμό των εγγραφών που θα θεωρηθούν παρόμοια. Μια τροποποίηση του αλγορίθμου στον οποίο η συμβολή ενός γείτονα είναι ανάλογη με την απόσταση από το νέο αντικείμενο (μέθοδος k-σταθμισμένης πλησιέστερων γειτόνων) επιτρέπει σε κάποιον να επιτύχει μεγαλύτερη ακρίβεια ταξινόμησης. Η μέθοδος k πλησιέστερων γειτόνων σας επιτρέπει επίσης να αξιολογήσετε την ακρίβεια της πρόβλεψης. Για παράδειγμα, εάν όλοι οι k πλησιέστεροι γείτονες έχουν την ίδια κλάση, τότε η πιθανότητα το αντικείμενο που ελέγχεται να έχει την ίδια κλάση είναι πολύ υψηλή.

Μεταξύ των χαρακτηριστικών του αλγορίθμου, αξίζει να σημειωθεί η αντίστασή του σε ανώμαλες ακραίες τιμές, καθώς η πιθανότητα μια τέτοια εγγραφή να είναι μεταξύ των k-πλησιέστερων γειτόνων είναι χαμηλή. Εάν συμβεί αυτό, τότε ο αντίκτυπος στην ψηφοφορία (ειδικά σταθμισμένη) (για k>2) θα είναι επίσης πιθανότατα ασήμαντος και, επομένως, ο αντίκτυπος στο αποτέλεσμα της ταξινόμησης θα είναι επίσης μικρός. Επίσης, τα πλεονεκτήματα είναι η απλότητα υλοποίησης, η ευκολία ερμηνείας του αποτελέσματος του αλγορίθμου, η δυνατότητα τροποποίησης του αλγορίθμου χρησιμοποιώντας τις καταλληλότερες συναρτήσεις συνδυασμού και μετρήσεις, που σας επιτρέπει να προσαρμόσετε τον αλγόριθμο σε μια συγκεκριμένη εργασία. Ο αλγόριθμος KNN έχει επίσης μια σειρά από μειονεκτήματα. Πρώτον, το σύνολο δεδομένων που χρησιμοποιείται για τον αλγόριθμο πρέπει να είναι αντιπροσωπευτικό. Δεύτερον, το μοντέλο δεν μπορεί να διαχωριστεί από τα δεδομένα: όλα τα παραδείγματα πρέπει να χρησιμοποιηθούν για την ταξινόμηση ενός νέου παραδείγματος. Αυτή η δυνατότητα περιορίζει πολύ τη χρήση του αλγορίθμου.

2.4 Δέντρα απόφασης

Ο όρος «δέντρα αποφάσεων» αναφέρεται σε μια οικογένεια αλγορίθμων που βασίζονται στην αναπαράσταση κανόνων ταξινόμησης σε μια ιεραρχική, διαδοχική δομή. Αυτή είναι η πιο δημοφιλής κατηγορία αλγορίθμων για την επίλυση προβλημάτων εξόρυξης δεδομένων.

Μια οικογένεια αλγορίθμων για την κατασκευή δέντρων απόφασης επιτρέπει σε κάποιον να προβλέψει την τιμή μιας παραμέτρου για μια δεδομένη περίπτωση με βάση μεγάλο όγκο δεδομένων για άλλες παρόμοιες περιπτώσεις. Συνήθως, αλγόριθμοι αυτής της οικογένειας χρησιμοποιούνται για την επίλυση προβλημάτων που καθιστούν δυνατή τη διαίρεση όλων των αρχικών δεδομένων σε πολλές διακριτές ομάδες.

Κατά την εφαρμογή αλγορίθμων κατασκευής δέντρων αποφάσεων σε ένα σύνολο αρχικών δεδομένων, το αποτέλεσμα εμφανίζεται ως δέντρο. Τέτοιοι αλγόριθμοι καθιστούν δυνατή την υλοποίηση πολλών επιπέδων τέτοιας διαίρεσης, διαιρώντας τις προκύπτουσες ομάδες (κλαδιά δέντρων) σε μικρότερες με βάση άλλα χαρακτηριστικά. Η διαίρεση συνεχίζεται έως ότου οι τιμές που υποτίθεται ότι θα προβλεφθούν γίνουν ίδιες (ή, στην περίπτωση μιας συνεχούς τιμής της προβλεπόμενης παραμέτρου, κλείσιμο) για όλες τις προκύπτουσες ομάδες (φύλλα του δέντρου). Αυτές οι τιμές είναι που χρησιμοποιούνται για να γίνουν προβλέψεις με βάση αυτό το μοντέλο.

Η λειτουργία των αλγορίθμων για την κατασκευή δέντρων αποφάσεων βασίζεται στη χρήση μεθόδων ανάλυσης παλινδρόμησης και συσχέτισης. Ένας από τους πιο δημοφιλείς αλγόριθμους αυτής της οικογένειας είναι το CART (Δένδρα ταξινόμησης και παλινδρόμησης), που βασίζεται στη διαίρεση των δεδομένων ενός κλάδου δέντρου σε δύο θυγατρικούς κλάδους. Επιπλέον, η περαιτέρω διαίρεση ενός συγκεκριμένου κλάδου εξαρτάται από το πόσα αρχικά δεδομένα περιγράφει αυτός ο κλάδος. Κάποιοι άλλοι παρόμοιοι αλγόριθμοι σάς επιτρέπουν να χωρίσετε έναν κλάδο σε περισσότερους θυγατρικούς κλάδους. Στην περίπτωση αυτή, η διαίρεση γίνεται με βάση τον υψηλότερο συντελεστή συσχέτισης για τα δεδομένα που περιγράφονται από τον κλάδο μεταξύ της παραμέτρου σύμφωνα με την οποία γίνεται η διαίρεση και της παραμέτρου που πρέπει στη συνέχεια να προβλεφθεί.

Η δημοτικότητα της προσέγγισης συνδέεται με τη σαφήνεια και τη σαφήνεια. Αλλά τα δέντρα αποφάσεων είναι βασικά ανίκανα να βρουν τους «καλύτερους» (πιο πλήρεις και ακριβείς) κανόνες στα δεδομένα. Εφαρμόζουν την αφελή αρχή της διαδοχικής προβολής χαρακτηριστικών και στην πραγματικότητα βρίσκουν μέρη πραγματικών μοτίβων, δημιουργώντας μόνο την ψευδαίσθηση ενός λογικού συμπεράσματος.

2.5 Αλγόριθμοι ομαδοποίησης

Η ομαδοποίηση είναι το έργο της διαίρεσης ενός συνόλου αντικειμένων σε ομάδες που ονομάζονται συστάδες. Η κύρια διαφορά μεταξύ ομαδοποίησης και ταξινόμησης είναι ότι η λίστα των ομάδων δεν είναι σαφώς καθορισμένη και καθορίζεται κατά τη λειτουργία του αλγορίθμου.

Η εφαρμογή της ανάλυσης συστάδων γενικά καταλήγει στα ακόλουθα βήματα:

· επιλογή δείγματος αντικειμένων για ομαδοποίηση.

· Καθορισμός ενός συνόλου μεταβλητών βάσει των οποίων θα αξιολογούνται τα αντικείμενα στο δείγμα. Εάν είναι απαραίτητο, κανονικοποιήστε τις τιμές των μεταβλητών.

· υπολογισμός τιμών μέτρησης ομοιότητας μεταξύ αντικειμένων.

· εφαρμογή της μεθόδου ανάλυσης συμπλέγματος για τη δημιουργία ομάδων παρόμοιων αντικειμένων (συστάδες).

· παρουσίαση των αποτελεσμάτων της ανάλυσης.

Μετά τη λήψη και την ανάλυση των αποτελεσμάτων, είναι δυνατή η προσαρμογή της επιλεγμένης μετρικής και μεθόδου ομαδοποίησης έως ότου επιτευχθεί το βέλτιστο αποτέλεσμα.

Οι αλγόριθμοι ομαδοποίησης περιλαμβάνουν ιεραρχικές και επίπεδες ομάδες. Οι ιεραρχικοί αλγόριθμοι (ονομάζονται επίσης αλγόριθμοι ταξινόμησης) δεν δημιουργούν μόνο ένα διαμέρισμα του δείγματος σε χωριστά συμπλέγματα, αλλά ένα σύστημα ένθετων κατατμήσεων. Έτσι, η έξοδος του αλγορίθμου είναι ένα δέντρο συστάδων, η ρίζα του οποίου είναι ολόκληρο το δείγμα και τα φύλλα είναι οι μικρότερες συστάδες. Οι επίπεδοι αλγόριθμοι δημιουργούν ένα διαμέρισμα αντικειμένων σε συμπλέγματα που δεν τέμνονται μεταξύ τους.

Μια άλλη ταξινόμηση των αλγορίθμων ομαδοποίησης είναι σε ευκρινείς και ασαφείς αλγόριθμους. Οι καθαροί (ή μη επικαλυπτόμενοι) αλγόριθμοι εκχωρούν σε κάθε αντικείμενο δείγματος έναν αριθμό συμπλέγματος, δηλαδή κάθε αντικείμενο ανήκει σε ένα μόνο σύμπλεγμα. Οι ασαφείς (ή τεμνόμενοι) αλγόριθμοι εκχωρούν σε κάθε αντικείμενο ένα σύνολο πραγματικών τιμών που δείχνουν τον βαθμό της σχέσης του αντικειμένου με τα συμπλέγματα. Έτσι, κάθε αντικείμενο ανήκει σε κάθε σύμπλεγμα με μια συγκεκριμένη πιθανότητα.

Μεταξύ των αλγορίθμων ιεραρχικής ομαδοποίησης, υπάρχουν δύο κύριοι τύποι: οι αλγόριθμοι από κάτω προς τα πάνω και από πάνω προς τα κάτω. Οι αλγόριθμοι από πάνω προς τα κάτω λειτουργούν με βάση την αρχή από πάνω προς τα κάτω: πρώτα, όλα τα αντικείμενα τοποθετούνται σε ένα σύμπλεγμα, το οποίο στη συνέχεια χωρίζεται σε όλο και μικρότερα συμπλέγματα. Πιο συνηθισμένοι είναι οι αλγόριθμοι από κάτω προς τα πάνω, οι οποίοι ξεκινούν τοποθετώντας κάθε αντικείμενο σε ένα ξεχωριστό σύμπλεγμα και στη συνέχεια συνδυάζουν τα συμπλέγματα σε ολοένα και μεγαλύτερα έως ότου όλα τα αντικείμενα του δείγματος περιέχονται σε ένα ενιαίο σύμπλεγμα. Έτσι, κατασκευάζεται ένα σύστημα ένθετων κατατμήσεων. Τα αποτελέσματα τέτοιων αλγορίθμων παρουσιάζονται συνήθως με τη μορφή δέντρου.

Ένα μειονέκτημα των ιεραρχικών αλγορίθμων είναι το σύστημα πλήρων κατατμήσεων, το οποίο μπορεί να είναι περιττό στο πλαίσιο του προβλήματος που επιλύεται.

Ας εξετάσουμε τώρα επίπεδους αλγόριθμους. Οι απλούστεροι μεταξύ αυτής της κατηγορίας είναι οι αλγόριθμοι τετραγωνικών σφαλμάτων. Το πρόβλημα ομαδοποίησης για αυτούς τους αλγόριθμους μπορεί να θεωρηθεί ως η κατασκευή μιας βέλτιστης κατάτμησης αντικειμένων σε ομάδες. Σε αυτήν την περίπτωση, η βελτιστοποίηση μπορεί να οριστεί ως η απαίτηση για την ελαχιστοποίηση του ριζικού μέσου τετραγώνου σφάλματος κατάτμησης:

Οπου ντο j - «κέντρο μάζας» του συμπλέγματος ι(σημείο με μέσα χαρακτηριστικά για μια δεδομένη συστάδα).

Ο πιο συνηθισμένος αλγόριθμος σε αυτή την κατηγορία είναι η μέθοδος k-means. Αυτός ο αλγόριθμος δημιουργεί έναν δεδομένο αριθμό συστάδων που βρίσκονται όσο το δυνατόν πιο μακριά μεταξύ τους. Η εργασία του αλγορίθμου χωρίζεται σε διάφορα στάδια:

Τυχαία επιλογή κσημεία που είναι τα αρχικά «κέντρα μάζας» των συστάδων.

2. Αντιστοιχίστε κάθε αντικείμενο στο σύμπλεγμα με το πλησιέστερο «κέντρο μάζας».

Εάν το κριτήριο διακοπής του αλγορίθμου δεν ικανοποιείται, επιστρέψτε στο βήμα 2.

Η ελάχιστη αλλαγή στο μέσο τετραγωνικό σφάλμα επιλέγεται συνήθως ως κριτήριο για τη διακοπή του αλγόριθμου. Είναι επίσης δυνατό να σταματήσει ο αλγόριθμος εάν στο βήμα 2 δεν υπήρχαν αντικείμενα που μετακινήθηκαν από σύμπλεγμα σε σύμπλεγμα. Τα μειονεκτήματα αυτού του αλγορίθμου περιλαμβάνουν την ανάγκη καθορισμού του αριθμού των συμπλεγμάτων για διαμερισμό.

Ο πιο δημοφιλής αλγόριθμος ασαφούς ομαδοποίησης είναι ο αλγόριθμος c-means. Είναι μια τροποποίηση της μεθόδου k-means. Βήματα αλγορίθμου:

1. Επιλέξτε το αρχικό ασαφές διαμέρισμα nαντικείμενα επάνω κσυστάδες επιλέγοντας έναν πίνακα μελών Uμέγεθος n x k.

2. Χρησιμοποιώντας τον πίνακα U, βρείτε την τιμή του κριτηρίου ασαφούς σφάλματος:

Οπου ντο k - «κέντρο μάζας» του ασαφούς συμπλέγματος κ:

3. Ανασυγκροτήστε αντικείμενα για να μειώσετε αυτήν την τιμή κριτηρίου ασαφούς σφάλματος.

4. Επιστρέψτε στο βήμα 2 μέχρι να αλλάξει ο πίνακας Uδεν θα γίνει ασήμαντο.

Αυτός ο αλγόριθμος μπορεί να μην είναι κατάλληλος εάν ο αριθμός των συμπλεγμάτων είναι άγνωστος εκ των προτέρων ή εάν είναι απαραίτητο να αντιστοιχιστεί ξεκάθαρα κάθε αντικείμενο σε ένα σύμπλεγμα.

Η επόμενη ομάδα αλγορίθμων είναι αλγόριθμοι που βασίζονται στη θεωρία γραφημάτων. Η ουσία τέτοιων αλγορίθμων είναι ότι μια επιλογή αντικειμένων αναπαρίσταται με τη μορφή γραφήματος G=(V, E), των οποίων οι κορυφές αντιστοιχούν σε αντικείμενα και των οποίων οι ακμές έχουν βάρος ίσο με την «απόσταση» μεταξύ των αντικειμένων. Τα πλεονεκτήματα των αλγορίθμων ομαδοποίησης γραφημάτων είναι η σαφήνεια, η σχετική ευκολία υλοποίησης και η δυνατότητα εισαγωγής διαφόρων βελτιώσεων με βάση γεωμετρικές εκτιμήσεις. Οι κύριοι αλγόριθμοι είναι ο αλγόριθμος για τον προσδιορισμό των συνδεδεμένων στοιχείων, ο αλγόριθμος για την κατασκευή ενός ελάχιστου εκτεινόμενου δέντρου και ο αλγόριθμος ομαδοποίησης στρώμα-προς-στρώμα.

Για να επιλέξετε μια παράμετρο RΣυνήθως κατασκευάζεται ένα ιστόγραμμα κατανομών αποστάσεων κατά ζεύγη. Σε εργασίες με μια καλά καθορισμένη δομή συμπλέγματος δεδομένων, το ιστόγραμμα θα έχει δύο κορυφές - η μία αντιστοιχεί σε αποστάσεις εντός συστάδων και η δεύτερη - αποστάσεις μεταξύ συστάδων. Παράμετρος Rεπιλέγεται από την ελάχιστη ζώνη μεταξύ αυτών των κορυφών. Ταυτόχρονα, είναι αρκετά δύσκολο να ελεγχθεί ο αριθμός των συστάδων χρησιμοποιώντας ένα κατώφλι απόστασης.

Ο αλγόριθμος ελάχιστης έκτασης δέντρου κατασκευάζει πρώτα ένα δέντρο ελάχιστης έκτασης σε ένα γράφημα και στη συνέχεια αφαιρεί διαδοχικά τις άκρες με το μεγαλύτερο βάρος. Ο αλγόριθμος ομαδοποίησης στρώμα-προς-στρώμα βασίζεται στην αναγνώριση συνδεδεμένων στοιχείων γραφήματος σε ένα ορισμένο επίπεδο αποστάσεων μεταξύ αντικειμένων (κορυφές). Το επίπεδο απόστασης ορίζεται από το κατώφλι απόστασης ντο. Για παράδειγμα, εάν η απόσταση μεταξύ των αντικειμένων είναι , τότε .

Ο αλγόριθμος ομαδοποίησης στρώμα-προς-στρώμα δημιουργεί μια ακολουθία υπογραφών του γραφήματος σολ, που αντικατοπτρίζουν ιεραρχικές σχέσεις μεταξύ συστάδων:

Οπου σολ t = (V, E t ) - γράφημα επιπέδου Με t, ,

Με t - t-ο όριο απόστασης, m - αριθμός επιπέδων ιεραρχίας,
σολ 0 = (V, o), o είναι το κενό σύνολο ακμών γραφήματος που λαμβάνεται από t 0 = 1,
σολ m = Γ, δηλαδή ένα γράφημα αντικειμένων χωρίς περιορισμούς στην απόσταση (το μήκος των άκρων του γραφήματος), αφού t m = 1.

Αλλάζοντας τα όρια απόστασης ( Με 0 , …, Με m), όπου 0 = Με 0 < Με 1 < …< Με m = 1, είναι δυνατός ο έλεγχος του βάθους της ιεραρχίας των συστάδων που προκύπτουν. Έτσι, ο αλγόριθμος ομαδοποίησης στρώμα-προς-στρώμα είναι ικανός να δημιουργήσει μια επίπεδη και ιεραρχική κατάτμηση των δεδομένων.

Η ομαδοποίηση σάς επιτρέπει να επιτύχετε τους ακόλουθους στόχους:

· βελτιώνει την κατανόηση των δεδομένων με τον εντοπισμό δομικών ομάδων. Η διαίρεση του δείγματος σε ομάδες παρόμοιων αντικειμένων καθιστά δυνατή την απλοποίηση της περαιτέρω επεξεργασίας δεδομένων και λήψης αποφάσεων με την εφαρμογή διαφορετικής μεθόδου ανάλυσης σε κάθε σύμπλεγμα.

· Επιτρέπει τη συμπαγή αποθήκευση δεδομένων. Για να το κάνετε αυτό, αντί να αποθηκεύσετε ολόκληρο το δείγμα, μπορείτε να διατηρήσετε μια τυπική παρατήρηση από κάθε σύμπλεγμα.

· ανίχνευση νέων άτυπων αντικειμένων που δεν εμπίπτουν σε κανένα σύμπλεγμα.

Συνήθως, η ομαδοποίηση χρησιμοποιείται ως βοηθητική μέθοδος στην ανάλυση δεδομένων.

2.6 Γενετικοί αλγόριθμοι

Οι γενετικοί αλγόριθμοι συγκαταλέγονται στις καθολικές μεθόδους βελτιστοποίησης που επιτρέπουν την επίλυση προβλημάτων διαφόρων τύπων (συνδυαστικά, γενικά προβλήματα με και χωρίς περιορισμούς) και ποικίλου βαθμού πολυπλοκότητας. Ταυτόχρονα, οι γενετικοί αλγόριθμοι χαρακτηρίζονται από τη δυνατότητα τόσο μονοκριτηριακής όσο και πολυκριτηριακής αναζήτησης σε μεγάλο χώρο, το τοπίο του οποίου δεν είναι ομαλό.

Αυτή η ομάδα μεθόδων χρησιμοποιεί μια επαναληπτική διαδικασία εξέλιξης μιας ακολουθίας γενεών μοντέλων, συμπεριλαμβανομένων των λειτουργιών επιλογής, μετάλλαξης και διασταύρωσης. Στην αρχή του αλγορίθμου, ο πληθυσμός σχηματίζεται τυχαία. Για την αξιολόγηση της ποιότητας των κωδικοποιημένων λύσεων, χρησιμοποιείται η συνάρτηση fitness, η οποία είναι απαραίτητη για τον υπολογισμό της καταλληλότητας κάθε ατόμου. Με βάση τα αποτελέσματα της αξιολόγησης των ατόμων, επιλέγονται τα πιο κατάλληλα από αυτά για διασταύρωση. Ως αποτέλεσμα της διασταύρωσης επιλεγμένων ατόμων μέσω της εφαρμογής του χειριστή γενετικής διασταύρωσης, δημιουργούνται απόγονοι, η γενετική πληροφορία των οποίων σχηματίζεται ως αποτέλεσμα της ανταλλαγής χρωμοσωμικών πληροφοριών μεταξύ των γονέων ατόμων. Οι δημιουργημένοι απόγονοι σχηματίζουν έναν νέο πληθυσμό και μερικοί από τους απογόνους μεταλλάσσονται, κάτι που εκφράζεται σε μια τυχαία αλλαγή στους γονότυπους τους. Το στάδιο, συμπεριλαμβανομένης της ακολουθίας "Αξιολόγηση πληθυσμού" - "Επιλογή" - "Διάβαση" - "Μετάλλαξη", ονομάζεται γενιά. Η εξέλιξη ενός πληθυσμού αποτελείται από μια ακολουθία τέτοιων γενεών.

Διακρίνονται οι ακόλουθοι αλγόριθμοι για την επιλογή ατόμων για διέλευση:

· Πανμιξία. Και τα δύο άτομα που θα σχηματίσουν ένα γονικό ζευγάρι επιλέγονται τυχαία από ολόκληρο τον πληθυσμό. Οποιοδήποτε άτομο μπορεί να γίνει μέλος πολλών ζευγαριών. Αυτή η προσέγγιση είναι καθολική, αλλά η αποτελεσματικότητα του αλγορίθμου μειώνεται με την αύξηση του μεγέθους του πληθυσμού.

· Επιλογή. Οι γονείς μπορεί να είναι άτομα με τουλάχιστον μέση φυσική κατάσταση. Αυτή η προσέγγιση εξασφαλίζει ταχύτερη σύγκλιση του αλγορίθμου.

· Αιμομιξία. Η μέθοδος βασίζεται στο σχηματισμό ενός ζευγαριού που βασίζεται σε στενή συγγένεια. Εδώ, η συγγένεια νοείται ως η απόσταση μεταξύ των μελών ενός πληθυσμού, τόσο με την έννοια της γεωμετρικής απόστασης των ατόμων στον χώρο των παραμέτρων όσο και της απόστασης Heming μεταξύ των γονότυπων. Επομένως, γίνεται διάκριση μεταξύ γονοτυπικής και φαινοτυπικής αιμομιξίας. Το πρώτο μέλος του ζεύγους που θα διασταυρωθεί επιλέγεται τυχαία και το δεύτερο είναι πιο πιθανό να είναι το άτομο που βρίσκεται πιο κοντά σε αυτό. Η ενδογαμία μπορεί να χαρακτηριστεί από την ιδιότητα της συγκέντρωσης αναζήτησης σε τοπικούς κόμβους, η οποία στην πραγματικότητα οδηγεί στη διαίρεση του πληθυσμού σε ξεχωριστές τοπικές ομάδες γύρω από περιοχές του τοπίου που είναι ύποπτες για ακραίες τιμές.

· Επιδημία. Σχηματισμός ζευγαριού με βάση τη μακρινή συγγένεια, για τα πιο απομακρυσμένα άτομα. Το Outbreeding στοχεύει να αποτρέψει τη σύγκλιση του αλγόριθμου σε λύσεις που έχουν ήδη βρεθεί, αναγκάζοντας τον αλγόριθμο να κοιτάξει νέες, ανεξερεύνητες περιοχές.

Αλγόριθμοι για το σχηματισμό νέου πληθυσμού:

· Επιλογή με μετατόπιση. Από όλα τα άτομα με τους ίδιους γονότυπους, προτιμώνται εκείνα των οποίων η φυσική κατάσταση είναι υψηλότερη. Έτσι, επιτυγχάνονται δύο στόχοι: οι καλύτερες λύσεις που βρέθηκαν, οι οποίες έχουν διαφορετικά σύνολα χρωμοσωμάτων, δεν χάνονται και διατηρείται συνεχώς επαρκής γενετική ποικιλότητα στον πληθυσμό. Η μετατόπιση σχηματίζει έναν νέο πληθυσμό ατόμων που βρίσκονται σε απόσταση, αντί των ατόμων που ομαδοποιούνται γύρω από την τρέχουσα λύση που βρέθηκε. Αυτή η μέθοδος χρησιμοποιείται για πολυακραία προβλήματα.

· Επιλογή ελίτ. Οι μέθοδοι επιλογής ελίτ διασφαλίζουν ότι η επιλογή θα διασφαλίσει ότι τα καλύτερα μέλη του πληθυσμού θα επιβιώσουν. Ταυτόχρονα, μερικά από τα καλύτερα άτομα περνούν στην επόμενη γενιά χωρίς καμία αλλαγή. Η ταχεία σύγκλιση που παρέχεται από την επιλογή ελίτ μπορεί να αντισταθμιστεί με μια κατάλληλη μέθοδο για την επιλογή γονικών ζευγών. Σε αυτή την περίπτωση, χρησιμοποιείται συχνά η επιδημία. Αυτός ο συνδυασμός "επιλογής εξωγεννήσεως - ελίτ" είναι ένας από τους πιο αποτελεσματικούς.

· Επιλογή τουρνουά. Η επιλογή τουρνουά υλοποιεί n τουρνουά για επιλογή n ατόμων. Κάθε τουρνουά βασίζεται στην επιλογή k στοιχείων από τον πληθυσμό και στην επιλογή του καλύτερου ατόμου μεταξύ τους. Η πιο κοινή είναι η επιλογή τουρνουά με k = 2.

Μία από τις πιο δημοφιλείς εφαρμογές γενετικών αλγορίθμων στον τομέα της Εξόρυξης Δεδομένων είναι η αναζήτηση του βέλτιστου μοντέλου (αναζήτηση αλγορίθμου που αντιστοιχεί στις ιδιαιτερότητες ενός συγκεκριμένου πεδίου). Οι γενετικοί αλγόριθμοι χρησιμοποιούνται κυρίως για τη βελτιστοποίηση της τοπολογίας των νευρωνικών δικτύων και των βαρών. Ωστόσο, μπορούν να χρησιμοποιηθούν και ως ανεξάρτητο εργαλείο.

3. Εφαρμογές

Η τεχνολογία εξόρυξης δεδομένων έχει ένα πραγματικά ευρύ φάσμα εφαρμογών, αποτελώντας, στην πραγματικότητα, ένα σύνολο καθολικών εργαλείων για την ανάλυση δεδομένων οποιουδήποτε τύπου.

Εμπορία

Ένας από τους πρώτους τομείς όπου εφαρμόστηκαν τεχνολογίες εξόρυξης δεδομένων ήταν ο τομέας του μάρκετινγκ. Η εργασία με την οποία ξεκίνησε η ανάπτυξη των μεθόδων Εξόρυξης Δεδομένων ονομάζεται ανάλυση καλαθιού αγορών.

Αυτό το καθήκον είναι να προσδιορίσει τα προϊόντα που οι αγοραστές τείνουν να αγοράζουν μαζί. Η γνώση του καλαθιού αγορών είναι απαραίτητη για τη διεξαγωγή διαφημιστικών εκστρατειών, τη διαμόρφωση προσωπικών συστάσεων προς τους πελάτες, την ανάπτυξη στρατηγικής για τη δημιουργία αποθεμάτων αγαθών και τρόπους διάθεσής τους σε περιοχές πωλήσεων.

Επίσης στο μάρκετινγκ, επιλύονται εργασίες όπως ο προσδιορισμός του κοινού-στόχου ενός προϊόντος για πιο επιτυχημένη προώθηση. Έρευνα χρονικών προτύπων που βοηθά τις επιχειρήσεις να λαμβάνουν αποφάσεις για την απογραφή. δημιουργία προγνωστικών μοντέλων, τα οποία επιτρέπουν στις επιχειρήσεις να αναγνωρίζουν τη φύση των αναγκών διαφόρων κατηγοριών πελατών με συγκεκριμένη συμπεριφορά. την πρόβλεψη της αφοσίωσης των πελατών, η οποία σας επιτρέπει να προσδιορίσετε εκ των προτέρων τη στιγμή της αναχώρησης του πελάτη κατά την ανάλυση της συμπεριφοράς του και, ενδεχομένως, να αποτρέψετε την απώλεια ενός πολύτιμου πελάτη.

Βιομηχανία

Ένας από τους σημαντικούς τομείς σε αυτόν τον τομέα είναι η παρακολούθηση και ο ποιοτικός έλεγχος, όπου, χρησιμοποιώντας εργαλεία ανάλυσης, είναι δυνατό να προβλεφθεί η αστοχία του εξοπλισμού, η εμφάνιση δυσλειτουργιών και ο προγραμματισμός εργασιών επισκευής. Η πρόβλεψη της δημοτικότητας ορισμένων χαρακτηριστικών και η γνώση των χαρακτηριστικών που συνήθως παραγγέλνονται μαζί βοηθά στη βελτιστοποίηση της παραγωγής και την εστίασή της στις πραγματικές ανάγκες των καταναλωτών.

Φάρμακο

Στην ιατρική, η ανάλυση δεδομένων χρησιμοποιείται επίσης με μεγάλη επιτυχία. Παραδείγματα εργασιών περιλαμβάνουν την ανάλυση των αποτελεσμάτων των εξετάσεων, τη διάγνωση, τη σύγκριση της αποτελεσματικότητας των μεθόδων θεραπείας και των φαρμάκων, την ανάλυση ασθενειών και την εξάπλωσή τους και τον εντοπισμό παρενεργειών. Οι τεχνολογίες εξόρυξης δεδομένων, όπως οι κανόνες συσχέτισης και τα διαδοχικά μοτίβα, έχουν χρησιμοποιηθεί με επιτυχία για τον εντοπισμό των συνδέσεων μεταξύ των φαρμάκων και των παρενεργειών.

Μοριακή γενετική και γενετική μηχανική

Ίσως το πιο οξύ και ταυτόχρονα σαφές έργο της ανακάλυψης προτύπων σε πειραματικά δεδομένα είναι η μοριακή γενετική και η γενετική μηχανική. Εδώ διατυπώνεται ως ορισμός δεικτών, οι οποίοι νοούνται ως γενετικοί κώδικες που ελέγχουν ορισμένα φαινοτυπικά χαρακτηριστικά ενός ζωντανού οργανισμού. Τέτοιοι κωδικοί μπορεί να περιέχουν εκατοντάδες, χιλιάδες ή περισσότερα σχετικά στοιχεία. Το αποτέλεσμα της ανάλυσης αναλυτικών δεδομένων είναι επίσης η σχέση που ανακάλυψαν οι γενετικοί επιστήμονες μεταξύ των αλλαγών στην αλληλουχία του ανθρώπινου DNA και του κινδύνου εμφάνισης διαφόρων ασθενειών.

Εφαρμοσμένη χημεία

Οι μέθοδοι εξόρυξης δεδομένων χρησιμοποιούνται και στον τομέα της εφαρμοσμένης χημείας. Εδώ τίθεται συχνά το ερώτημα της αποσαφήνισης των χαρακτηριστικών της χημικής δομής ορισμένων ενώσεων που καθορίζουν τις ιδιότητές τους. Αυτή η εργασία είναι ιδιαίτερα σημαντική όταν αναλύονται πολύπλοκες χημικές ενώσεις, η περιγραφή των οποίων περιλαμβάνει εκατοντάδες και χιλιάδες δομικά στοιχεία και τις συνδέσεις τους.

Καταπολέμηση του εγκλήματος

Τα εργαλεία εξόρυξης δεδομένων έχουν χρησιμοποιηθεί σχετικά πρόσφατα στην ασφάλεια, αλλά έχουν ήδη ληφθεί πρακτικά αποτελέσματα που επιβεβαιώνουν την αποτελεσματικότητα της εξόρυξης δεδομένων σε αυτόν τον τομέα. Ελβετοί επιστήμονες ανέπτυξαν ένα σύστημα για την ανάλυση της δραστηριότητας διαμαρτυρίας για την πρόβλεψη μελλοντικών περιστατικών και ένα σύστημα για την παρακολούθηση των αναδυόμενων απειλών στον κυβερνοχώρο και των ενεργειών χάκερ στον κόσμο. Το τελευταίο σύστημα σάς επιτρέπει να προβλέψετε απειλές στον κυβερνοχώρο και άλλους κινδύνους για την ασφάλεια των πληροφοριών. Οι μέθοδοι εξόρυξης δεδομένων χρησιμοποιούνται επίσης με επιτυχία για τον εντοπισμό απάτης με πιστωτικές κάρτες. Αναλύοντας προηγούμενες συναλλαγές που αργότερα αποδείχθηκαν δόλιες, η τράπεζα εντοπίζει ορισμένα πρότυπα τέτοιας απάτης.

Άλλες εφαρμογές

· Ανάλυση κινδύνου. Για παράδειγμα, προσδιορίζοντας συνδυασμούς παραγόντων που σχετίζονται με πληρωθείσες αποζημιώσεις, οι ασφαλιστές μπορούν να μειώσουν τις ζημίες ευθύνης τους. Υπάρχει μια γνωστή περίπτωση κατά την οποία μια μεγάλη ασφαλιστική εταιρεία στις Ηνωμένες Πολιτείες ανακάλυψε ότι τα ποσά που καταβλήθηκαν για αξιώσεις παντρεμένων ήταν διπλάσια από τα ποσά που καταβλήθηκαν για απαιτήσεις από άγαμους. Η εταιρεία ανταποκρίθηκε σε αυτή τη νέα γνώση αναθεωρώντας τη γενική της πολιτική για την προσφορά εκπτώσεων σε οικογενειακούς πελάτες.

· Μετεωρολογία. Πρόβλεψη καιρού με τη χρήση μεθόδων νευρωνικών δικτύων, ειδικότερα, χρησιμοποιούνται αυτοοργανωμένοι χάρτες Kohonen.

· Πολιτική προσωπικού. Τα εργαλεία ανάλυσης βοηθούν τις υπηρεσίες ανθρώπινου δυναμικού να επιλέγουν τους πιο επιτυχημένους υποψηφίους με βάση την ανάλυση δεδομένων των βιογραφικών τους και να μοντελοποιούν τα χαρακτηριστικά των ιδανικών υπαλλήλων για μια συγκεκριμένη θέση.

4. Κατασκευαστές εργαλείων εξόρυξης δεδομένων

Τα εργαλεία εξόρυξης δεδομένων είναι παραδοσιακά ακριβά προϊόντα λογισμικού. Ως εκ τούτου, μέχρι πρόσφατα, οι κύριοι καταναλωτές αυτής της τεχνολογίας ήταν τράπεζες, χρηματοοικονομικές και ασφαλιστικές εταιρείες, μεγάλες εμπορικές επιχειρήσεις και τα κύρια καθήκοντα που απαιτούσαν τη χρήση της Εξόρυξης Δεδομένων θεωρούνταν η αξιολόγηση των πιστωτικών και ασφαλιστικών κινδύνων και η ανάπτυξη πολιτικών μάρκετινγκ. , τιμολογιακά σχέδια και άλλες αρχές συνεργασίας με πελάτες. Τα τελευταία χρόνια, η κατάσταση έχει υποστεί ορισμένες αλλαγές: σχετικά φθηνά εργαλεία Εξόρυξης Δεδομένων και ακόμη και ελεύθερα διανεμημένα συστήματα έχουν εμφανιστεί στην αγορά λογισμικού, γεγονός που έχει κάνει αυτή την τεχνολογία προσιτή σε μικρές και μεσαίες επιχειρήσεις.

Μεταξύ των πληρωμένων εργαλείων και συστημάτων ανάλυσης δεδομένων, οι ηγέτες είναι το SAS Institute (SAS Enterprise Miner), το SPSS (SPSS, Clementine) και το StatSoft (STATISTICA Data Miner). Αρκετά γνωστές λύσεις είναι από την Angoss (Angoss KnowledgeSTUDIO), την IBM (IBM SPSS Modeler), τη Microsoft (Microsoft Analysis Services) και την (Oracle) Oracle Data Mining.

Η επιλογή του ελεύθερου λογισμικού είναι επίσης ποικίλη. Υπάρχουν τόσο καθολικά εργαλεία ανάλυσης, όπως JHepWork, KNIME, Orange, RapidMiner και εξειδικευμένα εργαλεία, για παράδειγμα, το Carrot2 - ένα πλαίσιο για ομαδοποίηση δεδομένων κειμένου και αποτελέσματα ερωτημάτων αναζήτησης, Chemicalize.org - μια λύση στον τομέα της εφαρμοσμένης χημείας, NLTK (Natural Language Toolkit) εργαλείο επεξεργασίας φυσικής γλώσσας.

5. Κριτική μεθόδων

Τα αποτελέσματα της Εξόρυξης Δεδομένων εξαρτώνται σε μεγάλο βαθμό από το επίπεδο προετοιμασίας των δεδομένων και όχι από τις «υπέροχες δυνατότητες» κάποιου αλγορίθμου ή συνόλου αλγορίθμων. Περίπου το 75% της εργασίας στην Εξόρυξη Δεδομένων αποτελείται από τη συλλογή δεδομένων, η οποία πραγματοποιείται πριν από την εφαρμογή των εργαλείων ανάλυσης. Η αναλφάβητη χρήση εργαλείων θα οδηγήσει σε σπατάλη των δυνατοτήτων της εταιρείας, και μερικές φορές σε εκατομμύρια δολάρια.

Γνώμη του Herb Edelstein, παγκοσμίου φήμης εμπειρογνώμονα στον τομέα της Εξόρυξης Δεδομένων, της Αποθήκευσης Δεδομένων και του CRM: «Μια πρόσφατη μελέτη από τους Two Crows έδειξε ότι η Εξόρυξη Δεδομένων βρίσκεται ακόμα στα πρώτα στάδια ανάπτυξής της. Πολλοί οργανισμοί ενδιαφέρονται για αυτήν την τεχνολογία, αλλά μόνο λίγοι υλοποιούν ενεργά τέτοια έργα. Καταφέραμε να ανακαλύψουμε ένα άλλο σημαντικό σημείο: η διαδικασία εφαρμογής της Εξόρυξης Δεδομένων στην πράξη αποδεικνύεται πιο περίπλοκη από ό,τι αναμενόταν. Υποτίθεται ότι αρκεί να εκτελέσετε ένα τέτοιο εργαλείο σε μια βάση δεδομένων terabyte και θα εμφανιστούν αμέσως χρήσιμες πληροφορίες. Στην πραγματικότητα, ένα επιτυχημένο έργο Εξόρυξης Δεδομένων απαιτεί κατανόηση της δραστηριότητας, γνώση δεδομένων και εργαλείων και τη διαδικασία ανάλυσης δεδομένων». Έτσι, πριν από τη χρήση της τεχνολογίας Data Mining, είναι απαραίτητο να αναλυθούν προσεκτικά οι περιορισμοί που επιβάλλονται από τις μεθόδους και τα κρίσιμα ζητήματα που σχετίζονται με αυτήν, καθώς και να αξιολογηθούν νηφάλια οι δυνατότητες της τεχνολογίας. Τα κρίσιμα ζητήματα περιλαμβάνουν τα ακόλουθα:

1. Η τεχνολογία δεν μπορεί να δώσει απαντήσεις σε ερωτήσεις που δεν έχουν τεθεί. Δεν μπορεί να αντικαταστήσει τον αναλυτή, αλλά του δίνει μόνο ένα ισχυρό εργαλείο για να διευκολύνει και να βελτιώσει την εργασία του.

2. Η πολυπλοκότητα της ανάπτυξης και λειτουργίας μιας εφαρμογής Εξόρυξης Δεδομένων.

Δεδομένου ότι αυτή η τεχνολογία είναι ένα πολυεπιστημονικό πεδίο, για την ανάπτυξη μιας εφαρμογής που περιλαμβάνει Εξόρυξη Δεδομένων, είναι απαραίτητο να εμπλέκονται ειδικοί από διαφορετικούς τομείς, καθώς και να διασφαλίζεται η αλληλεπίδρασή τους υψηλής ποιότητας.

3. Προσόντα χρήστη.

Τα διαφορετικά εργαλεία εξόρυξης δεδομένων έχουν διαφορετικούς βαθμούς φιλικότητας προς το χρήστη της διεπαφής και απαιτούν ορισμένα προσόντα χρήστη. Επομένως, το λογισμικό πρέπει να ταιριάζει με το επίπεδο δεξιοτήτων του χρήστη. Η χρήση της Εξόρυξης Δεδομένων θα πρέπει να είναι άρρηκτα συνδεδεμένη με τη βελτίωση των προσόντων του χρήστη. Ωστόσο, επί του παρόντος υπάρχουν λίγοι ειδικοί στην Εξόρυξη Δεδομένων που γνωρίζουν καλά τις επιχειρηματικές διαδικασίες.

4. Η εξαγωγή χρήσιμων πληροφοριών είναι αδύνατη χωρίς καλή κατανόηση της ουσίας των δεδομένων.

Απαιτείται προσεκτική επιλογή του μοντέλου και ερμηνεία των εξαρτήσεων ή των προτύπων που ανακαλύπτονται. Επομένως, η εργασία με τέτοια εργαλεία απαιτεί στενή συνεργασία μεταξύ ενός ειδικού τομέα και ενός ειδικού εργαλείων εξόρυξης δεδομένων. Τα μόνιμα μοντέλα πρέπει να ενσωματώνονται έξυπνα στις επιχειρηματικές διαδικασίες για να επιτρέπουν την αξιολόγηση και την ενημέρωση των μοντέλων. Πρόσφατα, τα συστήματα εξόρυξης δεδομένων παρέχονται ως μέρος της τεχνολογίας αποθήκευσης δεδομένων.

5. Δυσκολία στην προετοιμασία δεδομένων.

Η επιτυχής ανάλυση απαιτεί προεπεξεργασία δεδομένων υψηλής ποιότητας. Σύμφωνα με αναλυτές και χρήστες βάσεων δεδομένων, η διαδικασία προεπεξεργασίας μπορεί να διαρκέσει έως και το 80% της συνολικής διαδικασίας εξόρυξης δεδομένων.

Έτσι, για να λειτουργήσει η τεχνολογία από μόνη της, θα απαιτηθεί πολλή προσπάθεια και χρόνος, ο οποίος πηγαίνει στην προκαταρκτική ανάλυση δεδομένων, στην επιλογή μοντέλου και στην προσαρμογή του.

6. Μεγάλο ποσοστό ψευδών, αναξιόπιστων ή άχρηστων αποτελεσμάτων.

Χρησιμοποιώντας τεχνολογίες Εξόρυξης Δεδομένων, μπορείτε να βρείτε πραγματικά πολύτιμες πληροφορίες, οι οποίες μπορούν να προσφέρουν σημαντικό πλεονέκτημα στον περαιτέρω σχεδιασμό, τη διαχείριση και τη λήψη αποφάσεων. Ωστόσο, τα αποτελέσματα που λαμβάνονται με τη χρήση μεθόδων Εξόρυξης Δεδομένων συχνά περιέχουν ψευδή και ανούσια συμπεράσματα. Πολλοί ειδικοί υποστηρίζουν ότι τα εργαλεία εξόρυξης δεδομένων μπορούν να παράγουν έναν τεράστιο αριθμό στατιστικά αναξιόπιστων αποτελεσμάτων. Για να μειωθεί το ποσοστό τέτοιων αποτελεσμάτων, είναι απαραίτητο να ελεγχθεί η επάρκεια των ληφθέντων μοντέλων στα δεδομένα δοκιμών. Ωστόσο, είναι αδύνατο να αποφευχθούν εντελώς ψευδή συμπεράσματα.

7. Υψηλό κόστος.

Ένα προϊόν λογισμικού υψηλής ποιότητας είναι το αποτέλεσμα σημαντικής προσπάθειας από την πλευρά του προγραμματιστή. Επομένως, το λογισμικό Data Mining είναι παραδοσιακά ένα ακριβό προϊόν λογισμικού.

8. Διαθεσιμότητα επαρκών αντιπροσωπευτικών δεδομένων.

Τα εργαλεία εξόρυξης δεδομένων, σε αντίθεση με τα στατιστικά, θεωρητικά δεν απαιτούν μια αυστηρά καθορισμένη ποσότητα ιστορικών δεδομένων. Αυτή η δυνατότητα μπορεί να προκαλέσει τον εντοπισμό αναξιόπιστων, ψευδών μοντέλων και, ως εκ τούτου, τη λήψη εσφαλμένων αποφάσεων βάσει αυτών. Είναι απαραίτητο να παρακολουθείται η στατιστική σημασία της ανακαλυφθείσας γνώσης.

Εξόρυξη δεδομένων ομαδοποίησης αλγόριθμων νευρωνικών δικτύων

Σύναψη

Δίνεται μια σύντομη περιγραφή των τομέων εφαρμογής και γίνεται κριτική για την τεχνολογία Data Mining και η γνώμη των ειδικών σε αυτόν τον τομέα.

Λίσταλογοτεχνία

1. Han και Micheline Kamber. Εξόρυξη Δεδομένων: Έννοιες και Τεχνικές. Δεύτερη Έκδοση. - Πανεπιστήμιο του Ιλινόις στην Urbana-Champaign

Berry, Michael J. A. Τεχνικές εξόρυξης δεδομένων: για μάρκετινγκ, πωλήσεις και διαχείριση σχέσεων με τον πελάτη - 2η έκδ.

Σίου Νιν Λαμ. Ανακαλύπτοντας τους κανόνες σύνδεσης στην εξόρυξη δεδομένων. - Τμήμα Επιστήμης Υπολογιστών University of Illinois at Urbana-Champaign

Η ανάπτυξη μεθόδων καταγραφής και αποθήκευσης δεδομένων έχει οδηγήσει σε ταχεία αύξηση του όγκου των πληροφοριών που συλλέγονται και αναλύονται. Οι όγκοι των δεδομένων είναι τόσο εντυπωσιακοί που είναι απλά αδύνατο για ένα άτομο να τα αναλύσει μόνος του, αν και η ανάγκη για μια τέτοια ανάλυση είναι προφανής, επειδή αυτά τα «ακατέργαστα» δεδομένα περιέχουν γνώση που μπορεί να χρησιμοποιηθεί στη λήψη αποφάσεων. Για να πραγματοποιηθεί αυτόματη ανάλυση δεδομένων, χρησιμοποιείται η εξόρυξη δεδομένων.

Οι πληροφορίες που βρίσκονται στη διαδικασία εφαρμογής των μεθόδων Εξόρυξης Δεδομένων πρέπει να είναι μη ασήμαντες και προηγουμένως άγνωστες, για παράδειγμα, οι μέσες πωλήσεις δεν είναι. Η γνώση πρέπει να περιγράφει νέες συνδέσεις μεταξύ ιδιοτήτων, να προβλέπει τις τιμές ορισμένων χαρακτηριστικών με βάση άλλες, κ.λπ. Η γνώση που θα βρεθεί πρέπει να είναι εφαρμόσιμη σε νέα δεδομένα με κάποιο βαθμό αξιοπιστίας. Η χρησιμότητα έγκειται στο γεγονός ότι αυτή η γνώση μπορεί να αποφέρει ορισμένα οφέλη όταν εφαρμόζεται. Η γνώση πρέπει να είναι σε μη μαθηματική μορφή που να είναι κατανοητή από τον χρήστη. Για παράδειγμα, οι λογικές κατασκευές «αν... τότε...» γίνονται πιο εύκολα αντιληπτές από τον άνθρωπο. Επιπλέον, τέτοιοι κανόνες μπορούν να χρησιμοποιηθούν σε διάφορα DBMS ως ερωτήματα SQL. Στην περίπτωση που η εξαγόμενη γνώση δεν είναι διαφανής για τον χρήστη, πρέπει να υπάρχουν μέθοδοι μετα-επεξεργασίας για να τη φέρουν σε ερμηνεύσιμη μορφή.

Οι αλγόριθμοι που χρησιμοποιούνται στην Εξόρυξη Δεδομένων απαιτούν πολλούς υπολογισμούς. Προηγουμένως, αυτός ήταν ένας περιοριστικός παράγοντας για την ευρεία πρακτική χρήση της Εξόρυξης Δεδομένων, αλλά η σημερινή αύξηση της απόδοσης των σύγχρονων επεξεργαστών έχει μετριάσει τη σοβαρότητα αυτού του προβλήματος. Τώρα, σε εύλογο χρονικό διάστημα, μπορείτε να πραγματοποιήσετε ανάλυση υψηλής ποιότητας εκατοντάδων χιλιάδων και εκατομμυρίων εγγραφών.

Προβλήματα που επιλύονται με μεθόδους εξόρυξης δεδομένων:

Ταξινόμηση– αυτή είναι η αντιστοίχιση αντικειμένων (παρατηρήσεις, συμβάντα) σε μια από τις προηγουμένως γνωστές κλάσεις.
Οπισθοδρόμηση, συμπεριλαμβανομένων των εργασιών πρόβλεψης. Καθιέρωση της εξάρτησης των συνεχών εξόδων από μεταβλητές εισόδου.
Ομαδοποίησηείναι μια ομαδοποίηση αντικειμένων (παρατηρήσεις, συμβάντα) με βάση δεδομένα (ιδιότητες) που περιγράφουν την ουσία αυτών των αντικειμένων. Τα αντικείμενα μέσα σε ένα σύμπλεγμα πρέπει να είναι «παρόμοια» μεταξύ τους και διαφορετικά από τα αντικείμενα που περιλαμβάνονται σε άλλα συμπλέγματα. Όσο πιο όμοια είναι τα αντικείμενα μέσα σε ένα σύμπλεγμα και όσο περισσότερες διαφορές μεταξύ των συστάδων, τόσο πιο ακριβής είναι η ομαδοποίηση.
Σχέση– εντοπισμός προτύπων μεταξύ σχετικών γεγονότων. Ένα παράδειγμα τέτοιου μοτίβου είναι ένας κανόνας που υποδεικνύει ότι το γεγονός Χ προκύπτει από το γεγονός Υ. Αυτοί οι κανόνες ονομάζονται συνειρμικοί. Αυτό το πρόβλημα προτάθηκε για πρώτη φορά για την εύρεση τυπικών μοτίβων αγορών στα σούπερ μάρκετ, επομένως μερικές φορές ονομάζεται επίσης ανάλυση καλαθιού αγοράς.
Διαδοχικά μοτίβα– καθιέρωση προτύπων μεταξύ γεγονότων που σχετίζονται χρονικά, π.χ. ανίχνευση της εξάρτησης ότι εάν συμβεί το γεγονός Χ, τότε μετά από ένα δεδομένο χρονικό διάστημα θα συμβεί το συμβάν Υ.
Ανάλυση απόκλισης– αναγνώριση των πιο αχαρακτήριστων προτύπων.

Τα προβλήματα επιχειρηματικής ανάλυσης διατυπώνονται διαφορετικά, αλλά η λύση στα περισσότερα από αυτά καταλήγει σε ένα ή άλλο πρόβλημα Εξόρυξης Δεδομένων ή σε συνδυασμό αυτών. Για παράδειγμα, η αξιολόγηση κινδύνου είναι μια λύση σε ένα πρόβλημα παλινδρόμησης ή ταξινόμησης, η κατάτμηση της αγοράς είναι ομαδοποίηση, η τόνωση της ζήτησης είναι κανόνες συσχέτισης. Στην πραγματικότητα, οι εργασίες εξόρυξης δεδομένων είναι τα στοιχεία από τα οποία μπορεί να συγκεντρωθεί μια λύση στη συντριπτική πλειοψηφία των πραγματικών επιχειρηματικών προβλημάτων.

Για την επίλυση των παραπάνω προβλημάτων χρησιμοποιούνται διάφορες μέθοδοι και αλγόριθμοι Εξόρυξης Δεδομένων. Λόγω του γεγονότος ότι η Εξόρυξη Δεδομένων έχει αναπτυχθεί και αναπτύσσεται στη διασταύρωση επιστημονικών κλάδων όπως η στατιστική, η θεωρία πληροφοριών, η μηχανική μάθηση και η θεωρία βάσεων δεδομένων, είναι φυσικό ότι οι περισσότεροι αλγόριθμοι και μέθοδοι εξόρυξης δεδομένων αναπτύχθηκαν με βάση διάφορες μεθόδους από αυτές. πειθαρχίες. Για παράδειγμα, η διαδικασία ομαδοποίησης k-means απλώς δανείστηκε από στατιστικές. Οι ακόλουθες μέθοδοι εξόρυξης δεδομένων έχουν γίνει πολύ δημοφιλείς: νευρωνικά δίκτυα, δέντρα αποφάσεων, αλγόριθμοι ομαδοποίησης, συμπεριλαμβανομένων των κλιμακωτών, αλγόριθμοι για την ανίχνευση συσχετιστικών συνδέσεων μεταξύ γεγονότων κ.λπ.

Το Deductor είναι μια αναλυτική πλατφόρμα που περιλαμβάνει ένα πλήρες σύνολο εργαλείων για την επίλυση προβλημάτων εξόρυξης δεδομένων: γραμμική παλινδρόμηση, εποπτευόμενα νευρωνικά δίκτυα, μη εποπτευόμενα νευρωνικά δίκτυα, δέντρα αποφάσεων, αναζήτηση κανόνων συσχέτισης και πολλά άλλα. Για πολλούς μηχανισμούς, παρέχονται εξειδικευμένοι οπτικοποιητές, οι οποίοι διευκολύνουν σημαντικά τη χρήση του προκύπτοντος μοντέλου και την ερμηνεία των αποτελεσμάτων. Η δύναμη της πλατφόρμας δεν είναι μόνο η εφαρμογή σύγχρονων αλγορίθμων ανάλυσης, αλλά και η δυνατότητα αυθαίρετου συνδυασμού διαφόρων μηχανισμών ανάλυσης.

Εργαλεία εξόρυξης δεδομένων

Επί του παρόντος, η τεχνολογία εξόρυξης δεδομένων αντιπροσωπεύεται από έναν αριθμό εμπορικών και ελεύθερα διανεμημένων προϊόντων λογισμικού. Μια αρκετά πλήρης και τακτικά ενημερωμένη λίστα με αυτά τα προϊόντα μπορείτε να βρείτε στον ιστότοπο www. kdnuggets. com, αφιερωμένο στην Εξόρυξη Δεδομένων. Τα προϊόντα λογισμικού εξόρυξης δεδομένων μπορούν να ταξινομηθούν σύμφωνα με τις ίδιες αρχές που αποτελούν τη βάση για την ταξινόμηση της ίδιας της τεχνολογίας. Ωστόσο, μια τέτοια ταξινόμηση δεν θα έχει πρακτική αξία. Λόγω του υψηλού ανταγωνισμού στην αγορά και της επιθυμίας για πληρότητα τεχνικών λύσεων, πολλά από τα προϊόντα εξόρυξης δεδομένων καλύπτουν κυριολεκτικά όλες τις πτυχές της εφαρμογής αναλυτικών τεχνολογιών. Ως εκ τούτου, είναι πιο λογικό να ταξινομούνται τα προϊόντα εξόρυξης δεδομένων ανάλογα με τον τρόπο εφαρμογής τους και, κατά συνέπεια, τις δυνατότητες ολοκλήρωσης που παρέχουν. Προφανώς, πρόκειται και για σύμβαση, αφού ένα τέτοιο κριτήριο δεν μας επιτρέπει να σκιαγραφήσουμε ξεκάθαρα όρια μεταξύ των προϊόντων. Ωστόσο, μια τέτοια ταξινόμηση έχει ένα αναμφισβήτητο πλεονέκτημα. Σας επιτρέπει να λαμβάνετε γρήγορα μια απόφαση σχετικά με την επιλογή μιας ή άλλης έτοιμης λύσης κατά την προετοιμασία έργων στον τομέα της ανάλυσης δεδομένων, την ανάπτυξη συστημάτων υποστήριξης αποφάσεων, τη δημιουργία αποθηκών δεδομένων κ.λπ.

Έτσι, τα προϊόντα εξόρυξης δεδομένων μπορούν να χωριστούν σε τρεις μεγάλες κατηγορίες:

περιλαμβάνεται ως αναπόσπαστο μέρος στα συστήματα διαχείρισης βάσεων δεδομένων.

βιβλιοθήκες αλγορίθμων εξόρυξης δεδομένων με συνοδευτική υποδομή.

λύσεις σε κουτί ή επιτραπέζιους υπολογιστές ("μαύρα κουτιά").

Τα προϊόντα των δύο πρώτων κατηγοριών παρέχουν τις μεγαλύτερες ευκαιρίες ολοκλήρωσης και σας επιτρέπουν να αξιοποιήσετε τις αναλυτικές δυνατότητες σχεδόν σε οποιαδήποτε εφαρμογή σε οποιονδήποτε τομέα. Οι Boxed εφαρμογές, με τη σειρά τους, μπορούν να προσφέρουν μερικές μοναδικές προόδους στον τομέα της Εξόρυξης Δεδομένων ή να είναι εξειδικευμένες για μια συγκεκριμένη εφαρμογή. Ωστόσο, στις περισσότερες περιπτώσεις είναι προβληματική η ενσωμάτωσή τους σε ευρύτερες λύσεις.

Η συμπερίληψη αναλυτικών δυνατοτήτων σε εμπορικά συστήματα διαχείρισης βάσεων δεδομένων είναι μια φυσική τάση με τεράστιες δυνατότητες. Πράγματι, πού, αν όχι σε μέρη όπου συγκεντρώνονται δεδομένα, είναι πιο λογικό να τοποθετούνται μέσα επεξεργασίας τους; Βάσει αυτής της αρχής, η λειτουργία εξόρυξης δεδομένων εφαρμόζεται επί του παρόντος στις ακόλουθες εμπορικές βάσεις δεδομένων:

Microsoft SQL Server.

Κύρια σημεία

Η εξόρυξη δεδομένων σάς επιτρέπει να δημιουργείτε αυτόματα, βάσει μεγάλου όγκου συσσωρευμένων δεδομένων, υποθέσεις που μπορούν να επαληθευτούν από άλλα εργαλεία ανάλυσης (για παράδειγμα, OLAP).
Η εξόρυξη δεδομένων είναι η έρευνα και η ανακάλυψη από μια μηχανή (αλγόριθμοι, εργαλεία τεχνητής νοημοσύνης) κρυμμένης γνώσης σε ακατέργαστα δεδομένα που ήταν προηγουμένως άγνωστα, μη τετριμμένα, πρακτικά χρήσιμα και προσβάσιμα στην ανθρώπινη ερμηνεία.
Οι μέθοδοι εξόρυξης δεδομένων λύνουν τρία κύρια προβλήματα: το πρόβλημα της ταξινόμησης και της παλινδρόμησης, το πρόβλημα της αναζήτησης κανόνων συσχέτισης και το πρόβλημα της ομαδοποίησης. Ανάλογα με το σκοπό τους χωρίζονται σε περιγραφικές και προγνωστικές.
Με βάση τις μεθόδους επίλυσης προβλημάτων, χωρίζονται σε εποπτευόμενη μάθηση (μάθηση με δάσκαλο) και μάθηση χωρίς επίβλεψη (μάθηση χωρίς δάσκαλο).
Το καθήκον της ταξινόμησης και της παλινδρόμησης καταλήγει στον προσδιορισμό της τιμής της εξαρτημένης μεταβλητής ενός αντικειμένου από τις ανεξάρτητες μεταβλητές του. Εάν η εξαρτημένη μεταβλητή παίρνει αριθμητικές τιμές, τότε μιλάμε για πρόβλημα παλινδρόμησης, διαφορετικά - για πρόβλημα ταξινόμησης.
Κατά την αναζήτηση κανόνων συσχέτισης, ο στόχος είναι να βρείτε συχνές εξαρτήσεις (ή συσχετίσεις) μεταξύ αντικειμένων ή γεγονότων. Οι εξαρτήσεις που βρέθηκαν παρουσιάζονται με τη μορφή κανόνων και μπορούν να χρησιμοποιηθούν τόσο για την καλύτερη κατανόηση της φύσης των αναλυόμενων δεδομένων όσο και για την πρόβλεψη γεγονότων.
Το καθήκον της ομαδοποίησης είναι να αναζητήσει ανεξάρτητες ομάδες (συστάδες) και τα χαρακτηριστικά τους σε ολόκληρο το σύνολο των αναλυόμενων δεδομένων. Η επίλυση αυτού του προβλήματος σάς βοηθά να κατανοήσετε καλύτερα τα δεδομένα.
Επιπλέον, η ομαδοποίηση ομοιογενών αντικειμένων καθιστά δυνατή τη μείωση του αριθμού τους και, ως εκ τούτου, τη διευκόλυνση της ανάλυσης.
Οι μέθοδοι εξόρυξης δεδομένων βρίσκονται στη διασταύρωση διαφορετικών τομέων της τεχνολογίας της πληροφορίας: στατιστικές, νευρωνικά δίκτυα, ασαφή σύνολα, γενετικοί αλγόριθμοι κ.λπ.
Η ευφυής ανάλυση περιλαμβάνει τα ακόλουθα στάδια: κατανόηση και διατύπωση του προβλήματος ανάλυσης, προετοιμασία δεδομένων για αυτοματοποιημένη ανάλυση, εφαρμογή μεθόδων εξόρυξης δεδομένων και κατασκευή μοντέλων, έλεγχος των κατασκευασμένων μοντέλων και ερμηνεία των μοντέλων από ανθρώπους.

Πριν από την εφαρμογή τεχνικών εξόρυξης δεδομένων, τα δεδομένα προέλευσης πρέπει να μετασχηματιστούν.

Η ανάλυση των δομημένων πληροφοριών που είναι αποθηκευμένες σε βάσεις δεδομένων απαιτεί προκαταρκτική επεξεργασία: σχεδιασμός βάσης δεδομένων, εισαγωγή πληροφοριών σύμφωνα με ορισμένους κανόνες, τοποθέτησή τους σε ειδικές δομές (π.χ. σχεσιακούς πίνακες) κ.λπ. απαιτεί πρόσθετη προσπάθεια. Ωστόσο, δεν σχετίζονται πάντα με την ανάλυση και δεν οδηγούν απαραίτητα στο επιθυμητό αποτέλεσμα. Εξαιτίας αυτού, η αποτελεσματικότητα της ανάλυσης δομημένων πληροφοριών μειώνεται. Επιπλέον, δεν μπορούν να δομηθούν όλοι οι τύποι δεδομένων χωρίς να χαθούν χρήσιμες πληροφορίες. Για παράδειγμα, τα έγγραφα κειμένου είναι σχεδόν αδύνατο να μετατραπούν σε αναπαράσταση πίνακα χωρίς να χαθεί η σημασιολογία του κειμένου και οι σχέσεις μεταξύ οντοτήτων. Για το λόγο αυτό, τέτοια έγγραφα αποθηκεύονται στη βάση δεδομένων χωρίς μετασχηματισμό, όπως τα πεδία κειμένου (πεδία BLOB). Ταυτόχρονα, στο κείμενο κρύβεται ένας τεράστιος όγκος πληροφοριών, αλλά η αδόμητη φύση του δεν επιτρέπει τη χρήση αλγορίθμων Data Mining. Οι μη δομημένες μέθοδοι ανάλυσης κειμένου αντιμετωπίζουν αυτό το πρόβλημα. Στη δυτική βιβλιογραφία, μια τέτοια ανάλυση ονομάζεται εξόρυξη κειμένου.

Οι μέθοδοι ανάλυσης σε μη δομημένα κείμενα βρίσκονται στη διασταύρωση πολλών περιοχών: Εξόρυξη Δεδομένων, επεξεργασία φυσικής γλώσσας, ανάκτηση πληροφοριών, εξαγωγή πληροφοριών και διαχείριση γνώσης.

Ορισμός της εξόρυξης κειμένου: Η ανακάλυψη γνώσης κειμένου είναι η μη τετριμμένη διαδικασία ανακάλυψης πραγματικά νέων, δυνητικά χρήσιμων και κατανοητών προτύπων σε μη δομημένα δεδομένα κειμένου.

Όπως μπορείτε να δείτε, διαφέρει από τον ορισμό της Εξόρυξης Δεδομένων μόνο στη νέα έννοια των «μη δομημένων δεδομένων κειμένου». Αυτή η γνώση νοείται ως ένα σύνολο εγγράφων που αντιπροσωπεύουν ένα λογικά ενοποιημένο κείμενο χωρίς περιορισμούς στη δομή του. Παραδείγματα τέτοιων εγγράφων είναι: ιστοσελίδες, email, κανονιστικά έγγραφα κ.λπ. Γενικά, τέτοια έγγραφα μπορεί να είναι πολύπλοκα και μεγάλα και να περιλαμβάνουν όχι μόνο κείμενο, αλλά και γραφικές πληροφορίες. Τα έγγραφα που χρησιμοποιούν XML (επεκτάσιμη γλώσσα σήμανσης), SGML (Τυπική γενικευμένη γλώσσα σήμανσης) και άλλες παρόμοιες συμβάσεις δομής κειμένου ονομάζονται ημιδομημένα έγγραφα. Μπορούν επίσης να υποβληθούν σε επεξεργασία χρησιμοποιώντας μεθόδους εξόρυξης κειμένου.

Η διαδικασία ανάλυσης εγγράφων κειμένου μπορεί να αναπαρασταθεί ως μια ακολουθία πολλών βημάτων

Αναζήτηση πληροφοριών. Το πρώτο βήμα είναι να προσδιορίσετε ποια έγγραφα πρέπει να αναλυθούν και να διασφαλίσετε τη διαθεσιμότητά τους. Κατά κανόνα, οι χρήστες μπορούν να καθορίσουν το σύνολο των εγγράφων που θα αναλυθούν ανεξάρτητα - χειροκίνητα, αλλά με μεγάλο αριθμό εγγράφων είναι απαραίτητο να χρησιμοποιηθούν αυτοματοποιημένες επιλογές επιλογής σύμφωνα με καθορισμένα κριτήρια.

Προεπεξεργασία εγγράφων. Σε αυτό το βήμα, πραγματοποιούνται απλοί αλλά απαραίτητοι μετασχηματισμοί σε έγγραφα για την αναπαράστασή τους σε μια μορφή με την οποία λειτουργούν οι μέθοδοι εξόρυξης κειμένου. Ο σκοπός τέτοιων μετασχηματισμών είναι να αφαιρέσουν τις περιττές λέξεις και να δώσουν στο κείμενο μια πιο αυστηρή μορφή. Οι μέθοδοι προεπεξεργασίας θα περιγραφούν λεπτομερέστερα στην Ενότητα.

Εξαγωγή πληροφοριών. Η εξαγωγή πληροφοριών από επιλεγμένα έγγραφα περιλαμβάνει τον εντοπισμό βασικών εννοιών σε αυτά, οι οποίες θα αναλυθούν στο μέλλον.

Εφαρμογή μεθόδων εξόρυξης κειμένου. Σε αυτό το βήμα εξάγονται μοτίβα και σχέσεις που υπάρχουν στα κείμενα. Αυτό το βήμα είναι το κύριο στη διαδικασία ανάλυσης κειμένου και σε αυτό το βήμα επιλύονται πρακτικά προβλήματα.

Ερμηνεία αποτελεσμάτων. Το τελευταίο βήμα στη διαδικασία ανακάλυψης γνώσης περιλαμβάνει την ερμηνεία των ευρημάτων. Συνήθως, η ερμηνεία συνίσταται είτε στην παρουσίαση των αποτελεσμάτων σε φυσική γλώσσα είτε στην οπτικοποίηση τους γραφικά.

Η οπτικοποίηση μπορεί επίσης να χρησιμοποιηθεί ως εργαλείο ανάλυσης κειμένου. Για να γίνει αυτό, εξάγονται βασικές έννοιες και παρουσιάζονται γραφικά. Αυτή η προσέγγιση βοηθά τον χρήστη να αναγνωρίσει γρήγορα τα κύρια θέματα και έννοιες και να προσδιορίσει τη σημασία τους.

Προεπεξεργασία κειμένου

Ένα από τα κύρια προβλήματα της ανάλυσης κειμένου είναι ο μεγάλος αριθμός λέξεων σε ένα έγγραφο. Εάν αναλυθεί καθεμία από αυτές τις λέξεις, ο χρόνος αναζήτησης για νέα γνώση θα αυξηθεί απότομα και είναι απίθανο να ικανοποιήσει τις απαιτήσεις των χρηστών. Ταυτόχρονα, είναι προφανές ότι δεν φέρουν όλες οι λέξεις του κειμένου χρήσιμες πληροφορίες. Επιπλέον, λόγω της ευελιξίας των φυσικών γλωσσών, τυπικά διαφορετικές λέξεις (συνώνυμα κ.λπ.) σημαίνουν στην πραγματικότητα τις ίδιες έννοιες. Έτσι, η αφαίρεση λέξεων που δεν είναι ενημερωτικές, καθώς και η προσέγγιση λέξεων που έχουν νόημα σε μια ενιαία μορφή, μειώνει σημαντικά τον χρόνο ανάλυσης του κειμένου. Η εξάλειψη των περιγραφόμενων προβλημάτων πραγματοποιείται στο στάδιο της προεπεξεργασίας κειμένου.

Οι ακόλουθες τεχνικές χρησιμοποιούνται συνήθως για την αφαίρεση άτυπων λέξεων και την αύξηση της αυστηρότητας των κειμένων:

Αφαίρεση λέξεων διακοπής. Οι λέξεις διακοπής είναι λέξεις που είναι βοηθητικές και περιέχουν λίγες πληροφορίες σχετικά με το περιεχόμενο του εγγράφου.

Το στέλεχος είναι μια μορφολογική αναζήτηση. Συνίσταται στη μετατροπή κάθε λέξης στην κανονική της μορφή.

Τα γραμμάρια L είναι μια εναλλακτική λύση στη μορφολογική ανάλυση και τη διακοπή της αφαίρεσης λέξεων. Σας επιτρέπουν να κάνετε το κείμενο πιο αυστηρό, αλλά δεν λύνουν το πρόβλημα της μείωσης του αριθμού των μη ενημερωτικών λέξεων.

Μετατροπή θήκης. Αυτή η τεχνική περιλαμβάνει τη μετατροπή όλων των χαρακτήρων σε κεφαλαία ή πεζά.

Η πιο αποτελεσματική είναι η συνδυασμένη χρήση αυτών των μεθόδων.

Εργασίες εξόρυξης κειμένου

Επί του παρόντος, πολλά εφαρμοσμένα προβλήματα περιγράφονται στη βιβλιογραφία που μπορούν να επιλυθούν χρησιμοποιώντας την ανάλυση εγγράφων κειμένου. Αυτές περιλαμβάνουν κλασικές εργασίες εξόρυξης δεδομένων: ταξινόμηση, ομαδοποίηση και εργασίες τυπικές μόνο για έγγραφα κειμένου: αυτόματος σχολιασμός, εξαγωγή βασικών εννοιών κ.λπ.

Η ταξινόμηση είναι μια τυπική εργασία στον τομέα της Εξόρυξης Δεδομένων. Σκοπός του είναι να ορίσει για κάθε έγγραφο μία ή περισσότερες προκαθορισμένες κατηγορίες στις οποίες ανήκει αυτό το έγγραφο. Ένα χαρακτηριστικό του προβλήματος ταξινόμησης είναι η υπόθεση ότι το σύνολο των διαβαθμισμένων εγγράφων δεν περιέχει «σκουπίδια», δηλαδή κάθε ένα από τα έγγραφα αντιστοιχεί σε μια δεδομένη κατηγορία.

Μια ειδική περίπτωση του προβλήματος της ταξινόμησης είναι το πρόβλημα του προσδιορισμού του θέματος ενός εγγράφου.

Ο σκοπός της ομαδοποίησης εγγράφων είναι να αναγνωρίζει αυτόματα ομάδες σημασιολογικά παρόμοιων εγγράφων μεταξύ ενός δεδομένου σταθερού συνόλου. Λάβετε υπόψη ότι οι ομάδες σχηματίζονται μόνο με βάση την ανά ζεύγη ομοιότητα των περιγραφών των εγγράφων και κανένα χαρακτηριστικό αυτών των ομάδων δεν προσδιορίζεται εκ των προτέρων.

Ο αυτόματος σχολιασμός (σύνοψη) σάς επιτρέπει να συντομεύσετε το κείμενο διατηρώντας παράλληλα το νόημά του. Η λύση σε αυτό το πρόβλημα συνήθως ελέγχεται από τον χρήστη προσδιορίζοντας τον αριθμό των προτάσεων που θα εξαχθούν ή το ποσοστό του κειμένου που εξάγεται σε σχέση με ολόκληρο το κείμενο. Το αποτέλεσμα περιλαμβάνει τις πιο σημαντικές προτάσεις του κειμένου.

Ο πρωταρχικός στόχος της εξαγωγής χαρακτηριστικών είναι ο εντοπισμός γεγονότων και σχέσεων στο κείμενο. Στις περισσότερες περιπτώσεις, αυτές οι έννοιες είναι ουσιαστικά και κοινά ουσιαστικά: ονόματα και επώνυμα ανθρώπων, ονόματα οργανισμών κ.λπ. Οι αλγόριθμοι εξαγωγής εννοιών μπορούν να χρησιμοποιούν λεξικά για να προσδιορίσουν ορισμένους όρους και γλωσσικά μοτίβα για να ορίσουν άλλους.

Η πλοήγηση βάσει κειμένου επιτρέπει στους χρήστες να πλοηγούνται σε έγγραφα με βάση θέματα και σχετικούς όρους. Αυτό γίνεται με τον εντοπισμό βασικών εννοιών και ορισμένων σχέσεων μεταξύ τους.

Η ανάλυση τάσεων σάς επιτρέπει να προσδιορίζετε τις τάσεις σε σύνολα εγγράφων για μια χρονική περίοδο. Μια τάση μπορεί να χρησιμοποιηθεί, για παράδειγμα, για τον εντοπισμό αλλαγών στα συμφέροντα μιας εταιρείας από το ένα τμήμα της αγοράς στο άλλο.

Η αναζήτηση συσχετίσεων είναι επίσης ένα από τα κύρια καθήκοντα της Εξόρυξης Δεδομένων. Για την επίλυσή του, προσδιορίζονται συνειρμικές σχέσεις μεταξύ βασικών εννοιών σε ένα δεδομένο σύνολο εγγράφων.

Υπάρχει αρκετά μεγάλος αριθμός ποικιλιών των αναφερόμενων προβλημάτων, καθώς και μέθοδοι επίλυσής τους. Αυτό επιβεβαιώνει για άλλη μια φορά τη σημασία της ανάλυσης κειμένου. Το υπόλοιπο αυτού του κεφαλαίου εξετάζει λύσεις στα ακόλουθα προβλήματα: εξαγωγή βασικών εννοιών, ταξινόμηση, ομαδοποίηση και αυτόματο σχολιασμό.

Ταξινόμηση εγγράφων κειμένου

Η ταξινόμηση των εγγράφων κειμένου, καθώς και στην περίπτωση της ταξινόμησης αντικειμένων, συνίσταται στην αντιστοίχιση ενός εγγράφου σε μία από τις προηγουμένως γνωστές κλάσεις. Συχνά η ταξινόμηση σε σχέση με έγγραφα κειμένου ονομάζεται κατηγοριοποίηση ή ρουμπρικοποίηση. Προφανώς, αυτά τα ονόματα προέρχονται από το έργο της συστηματοποίησης των εγγράφων σε καταλόγους, κατηγορίες και επικεφαλίδες. Σε αυτήν την περίπτωση, η δομή του καταλόγου μπορεί να είναι είτε μονού επιπέδου είτε πολλαπλών επιπέδων (ιεραρχική).

Επίσημα, το καθήκον της ταξινόμησης εγγράφων κειμένου περιγράφεται από ένα σύνολο συνόλων.

Στο πρόβλημα της ταξινόμησης, είναι απαραίτητο να κατασκευαστεί μια διαδικασία με βάση αυτά τα δεδομένα, η οποία συνίσταται στην εύρεση της πιο πιθανής κατηγορίας από το σύνολο C για το υπό μελέτη έγγραφο.

Οι περισσότερες μέθοδοι ταξινόμησης κειμένου βασίζονται με τον ένα ή τον άλλο τρόπο στην υπόθεση ότι τα έγγραφα που ανήκουν στην ίδια κατηγορία περιέχουν τα ίδια χαρακτηριστικά (λέξεις ή φράσεις) και η παρουσία ή η απουσία τέτοιων χαρακτηριστικών σε ένα έγγραφο υποδηλώνει ότι ανήκει ή δεν ανήκει σε συγκεκριμένο θέμα.

Ένα τέτοιο σύνολο χαρακτηριστικών αποκαλείται συχνά λεξικό, επειδή αποτελείται από λεξήματα που περιλαμβάνουν λέξεις ή/και φράσεις που χαρακτηρίζουν την κατηγορία.

Θα πρέπει να σημειωθεί ότι αυτά τα σύνολα χαρακτηριστικών αποτελούν διακριτικό χαρακτηριστικό της ταξινόμησης εγγράφων κειμένου από την ταξινόμηση αντικειμένων στο Data Mining, τα οποία χαρακτηρίζονται από ένα σύνολο χαρακτηριστικών.

Η απόφαση για την ανάθεση του εγγράφου δ στην κατηγορία γ λαμβάνεται με βάση τη διασταύρωση κοινών χαρακτηριστικών

Το καθήκον των μεθόδων ταξινόμησης είναι η καλύτερη επιλογή τέτοιων χαρακτηριστικών και η διαμόρφωση κανόνων βάσει των οποίων θα ληφθεί απόφαση σχετικά με την ανάθεση ενός εγγράφου σε μια κατηγορία.

Εργαλεία για την ανάλυση πληροφοριών κειμένου

Oracle Tools - Oracle Text2

Ξεκινώντας με την έκδοση 7.3.3 της Oracle, τα εργαλεία ανάλυσης κειμένου αποτελούν αναπόσπαστο μέρος των προϊόντων της Oracle. Στην Oracle, αυτά τα εργαλεία αναπτύχθηκαν και έλαβαν νέο όνομα - Oracle Text - ένα πακέτο λογισμικού ενσωματωμένο σε ένα DBMS που σας επιτρέπει να εργάζεστε αποτελεσματικά με ερωτήματα που σχετίζονται με μη δομημένα κείμενα. Σε αυτή την περίπτωση, η επεξεργασία κειμένου συνδυάζεται με τις δυνατότητες που παρέχονται στον χρήστη για εργασία με σχεσιακές βάσεις δεδομένων. Συγκεκριμένα, η χρήση της SQL έχει καταστεί δυνατή κατά τη σύνταξη εφαρμογών επεξεργασίας κειμένου.

Η κύρια εργασία που στοχεύουν στην επίλυση των εργαλείων Oracle Text είναι η αναζήτηση εγγράφων με βάση το περιεχόμενό τους - με λέξεις ή φράσεις, οι οποίες, εάν είναι απαραίτητο, συνδυάζονται χρησιμοποιώντας λειτουργίες Boolean. Τα αποτελέσματα αναζήτησης ταξινομούνται κατά σπουδαιότητα, λαμβάνοντας υπόψη τη συχνότητα εμφάνισης των λέξεων ερωτήματος στα έγγραφα που βρέθηκαν.

Εργαλεία από την IBM - Intelligent Miner for Text1

Το προϊόν IBM Intelligent Miner for Text είναι ένα σύνολο ξεχωριστών βοηθητικών προγραμμάτων που μπορούν να εκκινηθούν από τη γραμμή εντολών ή από σενάρια ανεξάρτητα το ένα από το άλλο. Το σύστημα περιέχει έναν συνδυασμό ορισμένων βοηθητικών προγραμμάτων για την επίλυση προβλημάτων ανάλυσης πληροφοριών κειμένου.

Το IBM Intelligent Miner for Text συνδυάζει ένα ισχυρό σύνολο εργαλείων που βασίζονται κυρίως σε μηχανισμούς ανάκτησης πληροφοριών, κάτι που είναι η ιδιαιτερότητα ολόκληρου του προϊόντος. Το σύστημα αποτελείται από έναν αριθμό βασικών στοιχείων που έχουν ανεξάρτητη σημασία πέρα από την τεχνολογία εξόρυξης κειμένου:

SAS Institute Tools - Text Miner

Η αμερικανική εταιρεία SAS Institute κυκλοφόρησε το σύστημα SAS Text Miner για τη σύγκριση ορισμένων γραμματικών και λεκτικών ακολουθιών στον γραπτό λόγο. Το Text Miner είναι πολύ ευέλικτο επειδή μπορεί να λειτουργήσει με έγγραφα κειμένου διαφόρων μορφών - σε βάσεις δεδομένων, συστήματα αρχείων και περαιτέρω στον Ιστό.

Το Text Miner παρέχει λογική επεξεργασία κειμένου στο περιβάλλον SAS Enterprise Miner. Αυτό επιτρέπει στους χρήστες να εμπλουτίσουν τη διαδικασία ανάλυσης δεδομένων ενσωματώνοντας αδόμητες πληροφορίες κειμένου με υπάρχοντα δομημένα δεδομένα, όπως η ηλικία, το εισόδημα και τα πρότυπα ζήτησης των καταναλωτών.

Κύρια σημεία

Η ανακάλυψη γνώσης κειμένου είναι μια μη τετριμμένη διαδικασία ανακάλυψης πραγματικά νέων, δυνητικά χρήσιμων και κατανοητών προτύπων σε μη δομημένα δεδομένα κειμένου.

Η διαδικασία ανάλυσης εγγράφων κειμένου μπορεί να αναπαρασταθεί ως μια ακολουθία πολλών βημάτων: αναζήτηση πληροφοριών, προκαταρκτική επεξεργασία εγγράφων, εξαγωγή πληροφοριών, εφαρμογή μεθόδων εξόρυξης κειμένου, ερμηνεία αποτελεσμάτων.

Οι ακόλουθες τεχνικές χρησιμοποιούνται συνήθως για την αφαίρεση λέξεων χωρίς πληροφόρηση και για την αύξηση της αυστηρότητας των κειμένων: αφαίρεση λέξεων διακοπής, στέλεχος, γραμμάρια L, μείωση πεζών-κεφαλαίων.

Τα καθήκοντα της ανάλυσης πληροφοριών κειμένου είναι: ταξινόμηση, ομαδοποίηση, αυτόματος σχολιασμός, εξαγωγή βασικών εννοιών, πλοήγηση κειμένου, ανάλυση τάσεων, αναζήτηση συσχετισμών κ.λπ.

Η εξαγωγή βασικών εννοιών από κείμενα μπορεί να θεωρηθεί τόσο ως ξεχωριστή εφαρμοσμένη εργασία όσο και ως ξεχωριστό στάδιο ανάλυσης κειμένου. Στην τελευταία περίπτωση, γεγονότα που εξάγονται από το κείμενο χρησιμοποιούνται για την επίλυση διαφόρων προβλημάτων ανάλυσης.

Η διαδικασία εξαγωγής βασικών εννοιών με χρήση προτύπων πραγματοποιείται σε δύο στάδια: στο πρώτο, μεμονωμένα γεγονότα εξάγονται από έγγραφα κειμένου χρησιμοποιώντας λεξιλογική ανάλυση, στο δεύτερο στάδιο, η ενοποίηση των εξαγόμενων γεγονότων ή/και η παραγωγή νέων γεγονότων πραγματοποιείται.

Οι περισσότεροι αλγόριθμοι ομαδοποίησης απαιτούν την αναπαράσταση δεδομένων σε ένα μοντέλο διανυσματικού χώρου, το οποίο χρησιμοποιείται ευρέως για την ανάκτηση πληροφοριών και χρησιμοποιεί μια μεταφορά για να αντικατοπτρίζει τη σημασιολογική ομοιότητα ως χωρική εγγύτητα.

Υπάρχουν δύο κύριες προσεγγίσεις για τον αυτόματο σχολιασμό εγγράφων κειμένου: εξαγωγή (επιλογή των πιο σημαντικών τμημάτων) και γενίκευση (χρησιμοποιώντας προηγουμένως συλλεγμένες γνώσεις).

Σύναψη

Η εξόρυξη δεδομένων είναι ένας από τους πιο σχετικούς και δημοφιλείς τομείς των εφαρμοσμένων μαθηματικών. Οι σύγχρονες επιχειρηματικές και κατασκευαστικές διαδικασίες παράγουν τεράστιες ποσότητες δεδομένων, καθιστώντας όλο και πιο δύσκολο για τους ανθρώπους να ερμηνεύουν και να ανταποκρίνονται σε μεγάλες ποσότητες δεδομένων που αλλάζουν δυναμικά κατά τη διάρκεια της εκτέλεσης, πόσο μάλλον να αποτρέπουν κρίσιμες καταστάσεις. Εξόρυξη δεδομένων για εξαγωγή της μέγιστης χρήσιμης γνώσης από πολυδιάστατα, ετερογενή, ελλιπή, ανακριβή, αντιφατικά, έμμεσα δεδομένα. Βοηθά να γίνει αυτό αποτελεσματικά εάν ο όγκος δεδομένων μετράται σε gigabyte ή ακόμα και terabyte. Βοηθά στη δημιουργία αλγορίθμων που μπορούν να μάθουν να λαμβάνουν αποφάσεις σε διάφορους επαγγελματικούς τομείς.

Τα εργαλεία εξόρυξης δεδομένων προστατεύουν τους ανθρώπους από υπερφόρτωση πληροφοριών επεξεργάζοντας τα επιχειρησιακά δεδομένα σε πληροφορίες που μπορούν να ενεργήσουν, έτσι ώστε να μπορούν να γίνουν οι σωστές ενέργειες την κατάλληλη στιγμή.

Οι εφαρμοσμένες εξελίξεις πραγματοποιούνται στους ακόλουθους τομείς: προβλέψεις σε οικονομικά συστήματα. αυτοματοποίηση έρευνας μάρκετινγκ και ανάλυσης περιβαλλόντων πελατών για εταιρείες παραγωγής, εμπορίας, τηλεπικοινωνιών και Διαδικτύου· αυτοματοποίηση της λήψης πιστωτικών αποφάσεων και της αξιολόγησης πιστωτικού κινδύνου· παρακολούθηση των χρηματοπιστωτικών αγορών· αυτόματα συστήματα συναλλαγών.

Αναφορές

«Τεχνολογίες ανάλυσης δεδομένων: Εξόρυξη δεδομένων. Visual Mining. Εξόρυξη κειμένου, OLAP" A. A. Barseghyan.

M. S. Kupriyanov, V. V. Stenanenko, I. I. Kholod. - 2η έκδ., αναθεωρημένη. και επιπλέον

http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - άρθρο στο Διαδίκτυο

http://www.piter.com/contents/978549807257/978549807257_p.pdf -Τεχνολογίες ανάλυσης δεδομένων

Διατριβή >> Τραπεζική Δανειολήπτης με χρήση συμπλέγματος, προφορικόςανάλυση , παράγοντες προσαρμογής κ.λπ., επίσης... η πιστοληπτική ικανότητα του δανειολήπτη με βάση Δανειολήπτης με χρήση συμπλέγματος, προφορικόςδιανοούμενος Δανειολήπτης με χρήση συμπλέγματος, προφορικόςΕξόρυξη Δεδομένων (με... Στο αρχικό στάδιο πραγματοποιείταιανάλυση

ίδια κεφάλαια και...Ανάλυση
και ταξινόμηση της σύγχρονης αγοράς πληροφοριακών συστημάτων που εφαρμόζουν διακριτική, μ
Περίληψη >> Επιστήμη Υπολογιστών πραγματοποιείται 1.3 Διαφοροποίηση ρόλων 6 2. Συγκριτικός πραγματοποιείταιδιάφοροι τύποι συστημάτων 7 Λειτουργικά συστήματα... συστήματα, συμπεριλαμβανομένων: πολιτικές ασφαλείας και τα χαρακτηριστικά τους, ... εφαρμογές ή υλοποίηση περισσότερων πραγματοποιείταιδιανοούμενος
δεδομένα. Εκτός...Εξυπνος
ικανότητες χαρισματικών παιδιών σε σχέση με τις σχολικές επιδόσεις
Διατριβή >> Ψυχολογία , παράγοντες προσαρμογής κ.λπ., επίσης... η πιστοληπτική ικανότητα του δανειολήπτη με βάσηανάπτυξη. Με βάση θεωρητικά Δανειολήπτης με χρήση συμπλέγματος, προφορικόςτο ερευνητικό πρόβλημα ήταν... η νόηση χωρίς Δανειολήπτης με χρήση συμπλέγματος, προφορικόςη ψυχολογική του δομή. Καθοριστικό για την αξιολόγηση διανοούμενοςοι ικανότητες είναι...

Τι είναι η Εξόρυξη Δεδομένων

Η εταιρική βάση δεδομένων οποιασδήποτε σύγχρονης επιχείρησης περιέχει συνήθως ένα σύνολο πινάκων που αποθηκεύουν αρχεία σχετικά με ορισμένα γεγονότα ή αντικείμενα (για παράδειγμα, σχετικά με αγαθά, τις πωλήσεις τους, πελάτες, λογαριασμούς).

Κατά κανόνα, κάθε εγγραφή σε έναν τέτοιο πίνακα περιγράφει ένα συγκεκριμένο αντικείμενο ή γεγονός. Για παράδειγμα, μια καταχώριση στον πίνακα πωλήσεων αντικατοπτρίζει το γεγονός ότι το συγκεκριμένο προϊόν πωλήθηκε σε αυτόν και τον άλλον πελάτη εκείνη τη στιγμή από τον τάδε διευθυντή, και σε γενικές γραμμές δεν περιέχει τίποτα άλλο εκτός από αυτές τις πληροφορίες. Ωστόσο, η συλλογή ενός μεγάλου αριθμού τέτοιων εγγραφών, συσσωρευμένων κατά τη διάρκεια πολλών ετών, μπορεί να γίνει πηγή πρόσθετων, πολύ πιο πολύτιμων πληροφοριών που δεν μπορούν να ληφθούν βάσει μιας συγκεκριμένης εγγραφής, δηλαδή, πληροφορίες σχετικά με πρότυπα, τάσεις ή αλληλεξαρτήσεις μεταξύ τυχόν δεδομένα. Παραδείγματα τέτοιων πληροφοριών είναι πληροφορίες σχετικά με τον τρόπο με τον οποίο οι πωλήσεις ενός συγκεκριμένου προϊόντος εξαρτώνται από την ημέρα της εβδομάδας, την ώρα της ημέρας ή την ώρα του έτους, ποιες κατηγορίες πελατών αγοράζουν συχνότερα αυτό ή εκείνο το προϊόν, ποιο ποσοστό των αγοραστών ενός συγκεκριμένου προϊόντος αγοράζει άλλο συγκεκριμένο προϊόν, ποια κατηγορία πελατών τις περισσότερες φορές δεν αποπληρώνει εμπρόθεσμα το δάνειο που χορηγήθηκε.

Σημειώστε ότι οι παραδοσιακές μαθηματικές στατιστικές, που για μεγάλο χρονικό διάστημα παρέμειναν το κύριο εργαλείο για την ανάλυση δεδομένων, καθώς και τα εργαλεία ηλεκτρονικής αναλυτικής επεξεργασίας (OLAP), για τα οποία έχουμε ήδη γράψει αρκετές φορές (δείτε υλικό για αυτό το θέμα στο CD μας) δεν μπορεί πάντα να χρησιμοποιηθεί με επιτυχία για την επίλυση τέτοιων προβλημάτων. Συνήθως, οι στατιστικές μέθοδοι και το OLAP χρησιμοποιούνται για τον έλεγχο προ-διατυπωμένων υποθέσεων. Ωστόσο, είναι συχνά η διατύπωση μιας υπόθεσης που αποδεικνύεται ότι είναι το πιο δύσκολο έργο κατά την εφαρμογή της επιχειρηματικής ανάλυσης για την επακόλουθη λήψη αποφάσεων, καθώς δεν είναι όλα τα πρότυπα στα δεδομένα προφανή με την πρώτη ματιά.

Η σύγχρονη τεχνολογία εξόρυξης δεδομένων βασίζεται στην έννοια των προτύπων που αντικατοπτρίζουν μοτίβα εγγενή σε υποδείγματα δεδομένων. Η αναζήτηση μοτίβων πραγματοποιείται με τη χρήση μεθόδων που δεν χρησιμοποιούν εκ των προτέρων παραδοχές για αυτά τα υποδείγματα.

Ενώ η στατιστική ανάλυση ή το OLAP θέτει συνήθως ερωτήσεις όπως "Ποιος είναι ο μέσος αριθμός απλήρωτων τιμολογίων μεταξύ των πελατών για αυτήν την υπηρεσία;", η Εξόρυξη Δεδομένων συνήθως περιλαμβάνει την απάντηση σε ερωτήσεις όπως "Υπάρχει μια τυπική κατηγορία πελατών που δεν πληρώνουν;" Ταυτόχρονα, είναι η απάντηση στο δεύτερο ερώτημα που συχνά παρέχει μια πιο μη τετριμμένη προσέγγιση στην πολιτική μάρκετινγκ και στην οργάνωση της εργασίας με πελάτες.

Ένα σημαντικό χαρακτηριστικό της Εξόρυξης Δεδομένων είναι η μη τυπική και μη προφανής φύση των μοτίβων που αναζητούνται. Με άλλα λόγια, τα εργαλεία εξόρυξης δεδομένων διαφέρουν από τα εργαλεία επεξεργασίας στατιστικών δεδομένων και τα εργαλεία OLAP στο ότι αντί να ελέγχουν τις αλληλεξαρτήσεις που είχαν προηγουμένως υποθέσει οι χρήστες, μπορούν να βρουν τέτοιες αλληλεξαρτήσεις ανεξάρτητα με βάση τα διαθέσιμα δεδομένα και να δημιουργήσουν υποθέσεις για τη φύση τους.

Θα πρέπει να σημειωθεί ότι η χρήση των εργαλείων εξόρυξης δεδομένων δεν αποκλείει τη χρήση στατιστικών εργαλείων και εργαλείων OLAP, καθώς τα αποτελέσματα της επεξεργασίας δεδομένων με τη χρήση των τελευταίων, κατά κανόνα, συμβάλλουν στην καλύτερη κατανόηση της φύσης των προτύπων που πρέπει να να αναζητηθεί.

Η χρήση της Εξόρυξης Δεδομένων δικαιολογείται εάν υπάρχει επαρκώς μεγάλος όγκος δεδομένων, που περιέχονται ιδανικά σε μια σωστά σχεδιασμένη αποθήκη δεδομένων (στην πραγματικότητα, οι ίδιες οι αποθήκες δεδομένων συνήθως δημιουργούνται για την επίλυση προβλημάτων ανάλυσης και πρόβλεψης που σχετίζονται με την υποστήριξη αποφάσεων). Έχουμε επίσης γράψει επανειλημμένα για τις αρχές κατασκευής αποθηκών δεδομένων. σχετικό υλικό βρίσκεται στο CD μας, οπότε δεν θα σταθούμε σε αυτό το θέμα. Ας θυμηθούμε μόνο ότι τα δεδομένα στην αποθήκη είναι ένα ανανεωμένο σύνολο, κοινό για ολόκληρη την επιχείρηση και που επιτρέπει σε κάποιον να επαναφέρει μια εικόνα των δραστηριοτήτων της ανά πάσα στιγμή. Σημειώνουμε επίσης ότι η δομή των δεδομένων αποθήκευσης έχει σχεδιαστεί με τέτοιο τρόπο ώστε τα ερωτήματα σε αυτήν να εκτελούνται όσο το δυνατόν πιο αποτελεσματικά.

Ωστόσο, υπάρχουν εργαλεία εξόρυξης δεδομένων που μπορούν να αναζητήσουν μοτίβα, συσχετισμούς και τάσεις όχι μόνο σε αποθήκες δεδομένων, αλλά και σε κύβους OLAP, δηλαδή σε σύνολα προεπεξεργασμένων στατιστικών δεδομένων.

Τύποι προτύπων που προσδιορίζονται με μεθόδους εξόρυξης δεδομένων

Σύμφωνα με τον V.A Duke, υπάρχουν πέντε τυπικοί τύποι προτύπων που προσδιορίζονται από τις μεθόδους εξόρυξης δεδομένων:

Συσχέτιση - υψηλή πιθανότητα γεγονότων να συνδέονται μεταξύ τους (για παράδειγμα, ένα προϊόν αγοράζεται συχνά μαζί με ένα άλλο).

Ακολουθία - μια μεγάλη πιθανότητα μιας αλυσίδας γεγονότων που σχετίζονται με το χρόνο (για παράδειγμα, μέσα σε μια ορισμένη περίοδο μετά την αγορά ενός προϊόντος, ένα άλλο θα αγοραστεί με υψηλό βαθμό πιθανότητας).

Ταξινόμηση - υπάρχουν σημάδια που χαρακτηρίζουν την ομάδα στην οποία ανήκει αυτό ή εκείνο το γεγονός ή αντικείμενο (συνήθως, με βάση την ανάλυση ήδη ταξινομημένων γεγονότων, διατυπώνονται ορισμένοι κανόνες).

Η ομαδοποίηση είναι ένα μοτίβο παρόμοιο με την ταξινόμηση και διαφέρει από αυτό στο ότι οι ίδιες οι ομάδες δεν προσδιορίζονται - προσδιορίζονται αυτόματα κατά την επεξεργασία δεδομένων.

Χρονικά πρότυπα - η παρουσία προτύπων στη δυναμική της συμπεριφοράς ορισμένων δεδομένων (ένα τυπικό παράδειγμα είναι οι εποχιακές διακυμάνσεις της ζήτησης για ορισμένα αγαθά ή υπηρεσίες) που χρησιμοποιούνται για την πρόβλεψη.

Μέθοδοι εξόρυξης δεδομένων

Ανάλυση παλινδρόμησης, διακύμανσης και συσχέτισης (εφαρμόζεται στα περισσότερα σύγχρονα στατιστικά πακέτα, ιδιαίτερα σε προϊόντα του SAS Institute, StatSoft, κ.λπ.).

Μέθοδοι ανάλυσης σε μια συγκεκριμένη θεματική περιοχή, βασισμένες σε εμπειρικά μοντέλα (συχνά χρησιμοποιούνται, για παράδειγμα, σε φθηνά εργαλεία χρηματοοικονομικής ανάλυσης).

Αλγόριθμοι νευρωνικών δικτύων, η ιδέα των οποίων βασίζεται σε μια αναλογία με τη λειτουργία του νευρικού ιστού και έγκειται στο γεγονός ότι οι αρχικές παράμετροι θεωρούνται ως σήματα που μετασχηματίζονται σύμφωνα με τις υπάρχουσες συνδέσεις μεταξύ των «νευρώνων» και του Η απόκριση ολόκληρου του δικτύου στις αρχικές θεωρείται ως η απόκριση που προκύπτει από τα δεδομένα της ανάλυσης. Σε αυτήν την περίπτωση, οι συνδέσεις δημιουργούνται χρησιμοποιώντας τη λεγόμενη εκπαίδευση δικτύου μέσω ενός μεγάλου μεγέθους δείγματος που περιέχει τόσο αρχικά δεδομένα όσο και σωστές απαντήσεις.

Αλγόριθμοι - επιλογή στενού αναλόγου των αρχικών δεδομένων από υπάρχοντα ιστορικά δεδομένα. Ονομάζεται επίσης μέθοδος «πλησιέστερου γείτονα».

Τα δέντρα αποφάσεων είναι μια ιεραρχική δομή που βασίζεται σε ένα σύνολο ερωτήσεων που απαιτούν απάντηση «Ναι» ή «Όχι». παρά το γεγονός ότι αυτή η μέθοδος επεξεργασίας δεδομένων δεν βρίσκει πάντα τέλεια τα υπάρχοντα πρότυπα, χρησιμοποιείται αρκετά συχνά σε συστήματα πρόβλεψης λόγω της σαφήνειας της απάντησης που λαμβάνεται.

Τα μοντέλα συμπλέγματος (μερικές φορές ονομάζονται και μοντέλα τμηματοποίησης) χρησιμοποιούνται για την ομαδοποίηση παρόμοιων συμβάντων με βάση παρόμοιες τιμές πολλών πεδίων σε ένα σύνολο δεδομένων. επίσης πολύ δημοφιλής κατά τη δημιουργία συστημάτων πρόβλεψης.

Αλγόριθμοι περιορισμένης αναζήτησης που υπολογίζουν συχνότητες συνδυασμών απλών λογικών γεγονότων σε υποομάδες δεδομένων.

Εξελικτικός προγραμματισμός - αναζήτηση και δημιουργία αλγορίθμου που εκφράζει την αλληλεξάρτηση δεδομένων, με βάση έναν αρχικά καθορισμένο αλγόριθμο, που τροποποιήθηκε κατά τη διαδικασία αναζήτησης. Μερικές φορές η αναζήτηση για αλληλεξαρτήσεις πραγματοποιείται μεταξύ ορισμένων τύπων συναρτήσεων (για παράδειγμα, πολυώνυμα).

Περισσότερες πληροφορίες για αυτούς και άλλους αλγόριθμους Εξόρυξης Δεδομένων, καθώς και για τα εργαλεία που τους υλοποιούν, μπορείτε να διαβάσετε στο βιβλίο «Data Mining: Training Course» των V.A Duke and A.P. Samoilenko, που εκδόθηκε από τον εκδοτικό οίκο Peter το 2001. Σήμερα αυτό είναι ένα από τα λίγα βιβλία στα ρωσικά που είναι αφιερωμένα σε αυτό το πρόβλημα.

Κορυφαίοι κατασκευαστές εργαλείων εξόρυξης δεδομένων

Τα εργαλεία εξόρυξης δεδομένων, όπως τα περισσότερα εργαλεία Business Intelligence, είναι παραδοσιακά ακριβά εργαλεία λογισμικού - ορισμένα από αυτά κοστίζουν έως και αρκετές δεκάδες χιλιάδες δολάρια. Ως εκ τούτου, μέχρι πρόσφατα, οι κύριοι καταναλωτές αυτής της τεχνολογίας ήταν τράπεζες, χρηματοοικονομικές και ασφαλιστικές εταιρείες, μεγάλες εμπορικές επιχειρήσεις και τα κύρια καθήκοντα που απαιτούσαν τη χρήση της Εξόρυξης Δεδομένων θεωρούνταν η αξιολόγηση των πιστωτικών και ασφαλιστικών κινδύνων και η ανάπτυξη πολιτικών μάρκετινγκ. , τιμολογιακά σχέδια και άλλες αρχές συνεργασίας με πελάτες. Τα τελευταία χρόνια, η κατάσταση έχει υποστεί ορισμένες αλλαγές: σχετικά φθηνά εργαλεία εξόρυξης δεδομένων από διάφορους κατασκευαστές εμφανίστηκαν στην αγορά λογισμικού, γεγονός που έκανε αυτή την τεχνολογία προσβάσιμη σε μικρομεσαίες επιχειρήσεις που δεν το είχαν σκεφτεί προηγουμένως.

Τα σύγχρονα εργαλεία Business Intelligence περιλαμβάνουν γεννήτριες αναφορών, εργαλεία αναλυτικής επεξεργασίας δεδομένων, εργαλεία ανάπτυξης λύσεων BI (BI Platforms) και τα λεγόμενα Enterprise BI Suites - εργαλεία ανάλυσης και επεξεργασίας δεδομένων σε κλίμακα επιχείρησης που σας επιτρέπουν να πραγματοποιήσετε ένα σύνολο ενεργειών που σχετίζονται με ανάλυση και αναφορά δεδομένων και συχνά περιλαμβάνει ένα ολοκληρωμένο σύνολο εργαλείων BI και εργαλείων ανάπτυξης εφαρμογών BI. Τα τελευταία, κατά κανόνα, περιέχουν εργαλεία αναφοράς, εργαλεία OLAP και συχνά εργαλεία εξόρυξης δεδομένων.

Σύμφωνα με αναλυτές του Gartner Group, οι ηγέτες στην αγορά εργαλείων ανάλυσης και επεξεργασίας δεδομένων σε κλίμακα επιχείρησης είναι τα Business Objects, Cognos, Information Builders και η Microsoft και η Oracle διεκδικούν επίσης ηγετική θέση (Εικ. 1). Όσον αφορά τα εργαλεία ανάπτυξης για λύσεις BI, οι κύριοι διεκδικητές για την ηγεσία σε αυτόν τον τομέα είναι η Microsoft και το SAS Institute (Εικ. 2).

Σημειώστε ότι τα εργαλεία Business Intelligence της Microsoft είναι σχετικά φθηνά προϊόντα που διατίθενται σε ένα ευρύ φάσμα εταιρειών. Αυτός είναι ο λόγος για τον οποίο θα εξετάσουμε ορισμένες πρακτικές πτυχές της χρήσης της Εξόρυξης Δεδομένων χρησιμοποιώντας το παράδειγμα των προϊόντων αυτής της εταιρείας στα επόμενα μέρη αυτού του άρθρου.

Λογοτεχνία:

1. Duke V.A. Εξόρυξη Δεδομένων - Εξόρυξη Δεδομένων. - http://www.olap.ru/basic/dm2.asp.

2. Duke V.A., Samoilenko A.P. Εξόρυξη Δεδομένων: εκπαιδευτικό σεμινάριο. - Αγία Πετρούπολη: Peter, 2001.

3. B. de Ville. Microsoft Data Mining. Ψηφιακός Τύπος, 2001.

εξόρυξη δεδομένων) και «ακατέργαστη» διερευνητική ανάλυση, η οποία αποτελεί τη βάση της επιχειρησιακής αναλυτικής επεξεργασίας δεδομένων (OnLine Analytical Processing, OLAP), ενώ μία από τις κύριες διατάξεις της Εξόρυξης Δεδομένων είναι η αναζήτηση μη προφανών μοτίβα. Τα εργαλεία εξόρυξης δεδομένων μπορούν να βρουν τέτοια μοτίβα ανεξάρτητα και επίσης να δημιουργήσουν ανεξάρτητα υποθέσεις για τις σχέσεις. Δεδομένου ότι η διατύπωση μιας υπόθεσης σχετικά με τις εξαρτήσεις είναι το πιο δύσκολο έργο, το πλεονέκτημα της Εξόρυξης Δεδομένων σε σχέση με άλλες μεθόδους ανάλυσης είναι προφανές.

Οι περισσότερες στατιστικές μέθοδοι για τον εντοπισμό σχέσεων στα δεδομένα χρησιμοποιούν την έννοια του μέσου όρου του δείγματος, η οποία οδηγεί σε πράξεις σε ανύπαρκτες τιμές, ενώ η Εξόρυξη Δεδομένων λειτουργεί σε πραγματικές τιμές.

Το OLAP είναι πιο κατάλληλο για την κατανόηση ιστορικών δεδομένων Η εξόρυξη δεδομένων βασίζεται σε ιστορικά δεδομένα για να απαντήσει σε ερωτήσεις σχετικά με το μέλλον.

Προοπτικές για την Τεχνολογία Εξόρυξης Δεδομένων

Η δυνατότητα της Εξόρυξης Δεδομένων δίνει το πράσινο φως για την επέκταση των ορίων της εφαρμογής τεχνολογίας. Όσον αφορά τις προοπτικές της Εξόρυξης Δεδομένων, είναι δυνατές οι ακόλουθες κατευθύνσεις ανάπτυξης:

τον εντοπισμό τύπων θεματικών περιοχών με τα αντίστοιχα ευρετικά τους, η επισημοποίηση των οποίων θα διευκολύνει την επίλυση των σχετικών προβλημάτων Εξόρυξης Δεδομένων που σχετίζονται με αυτούς τους τομείς·
δημιουργία επίσημων γλωσσών και λογικών εργαλείων με τη βοήθεια των οποίων θα επισημοποιηθεί η συλλογιστική και η αυτοματοποίηση των οποίων θα γίνει εργαλείο για την επίλυση προβλημάτων Εξόρυξης Δεδομένων σε συγκεκριμένες θεματικές περιοχές.
δημιουργία μεθόδων εξόρυξης δεδομένων ικανών όχι μόνο να εξάγουν μοτίβα από δεδομένα, αλλά και να διαμορφώνουν ορισμένες θεωρίες που βασίζονται σε εμπειρικά δεδομένα.
ξεπερνώντας το σημαντικό χάσμα μεταξύ των δυνατοτήτων των εργαλείων Εξόρυξης Δεδομένων και των θεωρητικών επιτευγμάτων σε αυτόν τον τομέα.

Αν εξετάσουμε το μέλλον της Εξόρυξης Δεδομένων βραχυπρόθεσμα, είναι προφανές ότι η ανάπτυξη αυτής της τεχνολογίας κατευθύνεται περισσότερο σε τομείς που σχετίζονται με τις επιχειρήσεις.

Βραχυπρόθεσμα, τα προϊόντα Εξόρυξης Δεδομένων μπορεί να γίνουν τόσο κοινά και απαραίτητα όσο το ηλεκτρονικό ταχυδρομείο, για παράδειγμα που χρησιμοποιούνται από χρήστες για να βρουν τις χαμηλότερες τιμές σε ένα συγκεκριμένο προϊόν ή τις φθηνότερες πτήσεις.

Μακροπρόθεσμα, το μέλλον της Εξόρυξης Δεδομένων είναι πραγματικά συναρπαστικό - θα μπορούσε να είναι η αναζήτηση από ευφυείς πράκτορες τόσο για νέες θεραπείες για διάφορες ασθένειες όσο και για νέα κατανόηση της φύσης του σύμπαντος.

Ωστόσο, η Εξόρυξη Δεδομένων είναι επίσης γεμάτη δυνητικούς κινδύνους - σε τελική ανάλυση, ένας αυξανόμενος όγκος πληροφοριών γίνεται διαθέσιμος μέσω του Παγκόσμιου Ιστού, συμπεριλαμβανομένων προσωπικών πληροφοριών, και όλο και περισσότερες γνώσεις μπορούν να εξαχθούν από αυτό:

Πριν από λίγο καιρό, το μεγαλύτερο ηλεκτρονικό κατάστημα, η Amazon, βρέθηκε στο επίκεντρο ενός σκανδάλου σχετικά με το δίπλωμα ευρεσιτεχνίας που είχε λάβει, «Μέθοδοι και συστήματα για τη βοήθεια των χρηστών κατά την αγορά αγαθών», που δεν είναι τίποτα άλλο από ένα άλλο προϊόν Εξόρυξης Δεδομένων που έχει σχεδιαστεί για τη συλλογή προσωπικά δεδομένα για τους επισκέπτες του καταστήματος. Η νέα τεχνική σάς επιτρέπει να προβλέψετε μελλοντικά αιτήματα με βάση τα γεγονότα αγοράς, καθώς και να εξάγετε συμπεράσματα σχετικά με τον σκοπό τους. Ο σκοπός αυτής της τεχνικής είναι αυτό που αναφέρθηκε παραπάνω - η απόκτηση όσο το δυνατόν περισσότερων πληροφοριών για τους πελάτες, συμπεριλαμβανομένων προσωπικών πληροφοριών (φύλο, ηλικία, προτιμήσεις, κ.λπ.). Έτσι, συλλέγονται δεδομένα σχετικά με την ιδιωτική ζωή των πελατών των καταστημάτων, καθώς και των μελών της οικογένειάς τους, συμπεριλαμβανομένων των παιδιών. Το τελευταίο απαγορεύεται από τη νομοθεσία πολλών χωρών - η συλλογή πληροφοριών για ανηλίκους είναι δυνατή εκεί μόνο με την άδεια των γονέων τους.

Η έρευνα σημειώνει ότι υπάρχουν τόσο επιτυχημένες λύσεις που χρησιμοποιούν Εξόρυξη Δεδομένων όσο και ανεπιτυχείς εμπειρίες με αυτήν την τεχνολογία. Οι τομείς όπου οι εφαρμογές της τεχνολογίας εξόρυξης δεδομένων είναι πιο πιθανό να είναι επιτυχείς περιλαμβάνουν τα ακόλουθα:

απαιτούν αποφάσεις βασισμένες στη γνώση·
έχουν ένα μεταβαλλόμενο περιβάλλον?
έχουν προσβάσιμα, επαρκή και ουσιαστικά δεδομένα·
παρέχουν υψηλά μερίσματα από τις σωστές αποφάσεις.

Υπάρχουσες προσεγγίσεις ανάλυσης

Για πολύ μεγάλο χρονικό διάστημα, ο κλάδος της Εξόρυξης Δεδομένων δεν αναγνωρίστηκε ως ένα πλήρες ανεξάρτητο πεδίο ανάλυσης δεδομένων, μερικές φορές ονομάζεται «η αυλή των στατιστικών» (Pregibon, 1997).

Μέχρι σήμερα, έχουν καθοριστεί αρκετές απόψεις για την Εξόρυξη Δεδομένων. Οι υποστηρικτές ενός από αυτά το θεωρούν αντικατοπτρισμό που αποσπά την προσοχή από την κλασική ανάλυση