Οι λέξεις έχουν τη δική τους ιστορία

Το ιστολόγιο του Νίκου Σαραντάκου, για τη γλώσσα, τη λογοτεχνία και… όλα τα άλλα

Posts Tagged ‘Μιχάλης Βαζιργιάννης’

Υπάρχουν πράγματι εφτά εκατομμύρια ελληνικές λέξεις;

Posted by sarant στο 2 Οκτώβριος, 2018

Η είδηση δεν δημοσιεύτηκε σε κάποιο ελληνοκεντρικό ιστολόγιο, συνοδευόμενη από προτροπές του τύπου ΔΙΕΔΩΣΤΕ! ή Διαβάστε το πριν το κατεβάσουν! Όχι, πρόκειται για άρθρο που δημοσιεύτηκε σε εφημερίδα, στην Καθημερινή συγκεκριμένα: Επτά εκατομμύρια ελληνικές μοναδικές λέξεις.

Επιπλέον, πρόκειται για ρεπορτάζ με θέμα το έργο μιας επιστημονικής ομάδας, που μια ανακοίνωσή της βραβεύτηκε σε πρόσφατο επιστημονικό συνέδριο, το οποίο θεωρείται ένα από τα σπουδαιότερα στον τομέα της τεχνητής νοημοσύνης.

Το άρθρο δηλαδή είναι σοβαρό, έστω κι αν πάσχει στο θέμα της ορολογίας, ίσως επειδή ο επιστήμονας που δίνει τη συνέντευξη δεν είναι γλωσσολόγος κι έτσι δεν χρησιμοποιεί την καθιερωμένη ορολογία ενώ κι ο δημοσιογράφος. ο Γιάννης Ελαφρός, χειρίζεται το όλο θέμα με τρόπο μάλλον αντάξιο του ονόματός του -δεν μπόρεσα ν’ αντισταθώ στο εύκολο χαριτολόγημα, συγγνώμη.

Πράγματι, αν δεν μείνουμε στον εντελώς παραπλανητικό τίτλο και διαβάσουμε το άρθρο, βλέπουμε ότι ο ισχυρισμός δεν είναι τόσο εξωφρενικός όσο φαίνεται.

Ας δούμε την πρώτη παράγραφο

Η ελληνική γλώσσα διαθέτει σήμερα περίπου επτά εκατομμύρια μοναδικές λέξεις! Πρόκειται για αποτέλεσμα «εξόρυξης», όχι βεβαίως με σκαπάνη ή εκρηκτικά, αλλά με τις εκρηκτικές τεχνολογικές εφαρμογές της τεχνητής νοημοσύνης και της εξόρυξης δεδομένων (data mining). Για να βρεθεί ο συγκεκριμένος αριθμός λέξεων χρησιμοποιήθηκαν καινοτόμες μέθοδοι τεχνητής νοημοσύνης, όπως για παράδειγμα βαθιά νευρωνικά δίκτυα (υπολογιστικά δίκτυα που μιμούνται τους βιολογικούς νευρώνες) πάνω σε κείμενα από 170 εκατ. ιστοσελίδες. Ο αριθμός των επτά εκατ. δεν αφορά ρίζες, αλλά διαφορετικές λέξεις (π.χ. «άνθρωπος» και «άνθρωποι» είναι δύο διαφορετικές λέξεις).

Τι μας λέει λοιπόν το κείμενο; Ότι αποδελτιώθηκαν 170.000.000 ιστοσελίδες και ότι ο αριθμός 7 εκατομμύρια αφορά «διαφορετικές λέξεις» αλλά… μισό λεπτό! Στην παρένθεση διευκρινίζεται ότι «π.χ. «άνθρωπος» και «άνθρωποι» είναι δύο διαφορετικές λέξεις».

Άρα, δεν μιλάμε για λέξεις (λήμματα λεξικού δηλαδή) αλλά για λεκτικούς τύπους. Για παράδειγμα, η λέξη «άνθρωπος» που ήδη αναφέρθηκε είναι μία λέξη, αλλά έχει, στα νέα ελληνικά, τους εξής κανονικούς λεκτικούς τύπους: άνθρωπος, ανθρώπου, άνθρωπο, άνθρωπε, άνθρωποι, ανθρώπων, ανθρώπους, εφτά λεκτικούς τύπους δηλαδή. (Στα αρχαία ελληνικά είχε δέκα-δώδεκα, αλλά τους άλλους τους… κατάργησαν ο Βερυβάκης και ο Γαβρόγλου). Θα πρέπει να προσθέσουμε μάλλον και τους τύπους με διπλό τόνο λόγω μεταφοράς του εγκλιτικού: άνθρωπός (μας), άνθρωποί (μας).

Φυσικά, υπάρχουν πάμπολλες λέξεις (σύνδεσμοι, επιρρήματα, μόρια κτλ.) που δεν κλίνονται και έτσι έχουν μόνο έναν κανονικό λεκτικό τύπο. Από την άλλη όμως, τα ρήματα έχουν πολύ περισσότερους λεκτικούς τύπους από τα ουσιαστικά. Ένα πλήρως αναπτυγμένο ρήμα πρέπει να έχει πάνω από 100 λεκτικούς τύπους (Ο Νίκος Νικολάου υπολογίζει ότι ένα ρήμα της αρχαίας, αν έχει και δεύτερο αόριστο, φτάνει στους 740 λεκτικούς τύπους).. Οπότε, αν και δεν είναι καθόλου εύκολο να βγάλουμε έναν μέσο όρο, βλέπουμε καθαρά ότι κατά μέσον όρο μια λέξη αντιστοιχεί σε περισσότερους από έναν λεκτικούς τύπους -ίσως 10:1, αν και μπορεί να πέφτω αρκετά έξω.

Εδώ ίσως θα προβάλετε μια ένσταση. Όσο μεγάλο κι αν είναι το σώμα κειμένων που αποδελτιώθηκε, οι σπανιότερες κλιτές λέξεις, ιδίως ρήματα, δεν θα αντιπροσωπεύονται με όλους τους λεκτικούς τους τύπους. Για παράδειγμα, για το ρήμα «ενταλματοποιώ» ή «ξαναξυπνάω» θα περίμενα να βρούμε 2-3 λεκτικούς τύπους μόνο ακόμα και σε ένα τεράστιο σώμα κειμένων, όχι 100. Αυτό το βλέπουμε και στα σώματα της αρχαίας ελληνικής, όπου πάρα πολλά ρήματα εμφανίζονται με ελάχιστους λεκτικούς τύπους.

Διαβάστε τη συνέχεια του άρθρου »

Advertisements

Posted in Γενικά γλωσσικά, Γλωσσικοί μύθοι | Με ετικέτα: , , , , , | 386 Σχόλια »