DH t(r)ip της Παρασκευής_51 | Σώματα κειμένων στα Digital Humanities

Τι προτιμούμε να λέμε στα ελληνικά: αφορά κάτι ή αφορά σε κάτι; Είναι ο ασκός ή οι ασκοί του Αιόλου; Γράφουμε αυγό ή αβγό; Υπάρχουν οι τύποι αρκώ ή αρκούμουν; Είναι θετικό να πεις υπό το μανδύα του; Λέμε θεσμικό πλαίσιο και χωροχρονικά πλαίσια ή το αντίθετο; Το να προσφύγει κανείς στην αυθεντία λ.χ. ενός λεξικού, μιας γραμματικής ή ενός καθηγητή γλωσσολογίας, μπορεί να μας δώσει μια απάντηση για το τι «πρέπει» να λέει κανείς, αλλά δεν απαντά στο τι πραγματικά λένε οι ομιλητές της ελληνικής και όχι τι πιστεύει κάποιος ότι λένε (ή γράφουν). Μια συστηματική μέθοδος της γλωσσολογίας, που έχει κυριαρχήσει σε όλα τα πεδία της τα τελευταία χρόνια, είναι η χρήση σωμάτων κειμένων. Τα σώματα κειμένων αποτελούν, πολύ μεγάλες συνήθως, συλλογές γλωσσικού υλικού, αποθηκευμένου σε ηλεκτρονική μορφή και επιλεγμένου με προσεκτικό τρόπο ώστε να προσφέρει χρήσιμα στοιχεία για να απαντηθούν γλωσσολογικά ερωτήματα. Το γλωσσικό υλικό στα σώματα κειμένων προέρχεται από προφορικά και γραπτά κείμενα, από διαφορετικά κειμενικά είδη, και μπορεί να φτάσει σε μέγεθος πολλά εκατομμύρια ή και δισεκατομμύρια λέξεις.

Για τα ελληνικά έχουν αναπτυχθεί διάφορα σώματα κειμένων στα οποία μπορεί να αναζητήσει κανείς την πραγματική χρήση λέξεων και φράσεων με πιο γνωστά τον Εθνικό Θησαυρό Ελληνικής Γλώσσας (ΕΘΕΓ) και το Σώμα Ελληνικών Κειμένων (ΣΕΚ), που διαθέτει ένα πλήθος κειμένων από προφορικά και γραπτά είδη λόγου. Υπάρχουν επίσης εξειδικευμένα σώματα κειμένων όπως το Προφορικό Σώμα Κειμένων του Ινστιτούτου Νεοελληνικών Σπουδών ή το Σώμα Κειμένων Ελληνικού Αφασικού Λόγου, που περιλαμβάνει δεδομένα από αφασικούς ομιλητές. Ιδιαίτερα χρήσιμα για τους μεταφραστές είναι τα παράλληλα σώματα κειμένων· ένα ειδικά σχεδιασμένο παράλληλο σώμα κειμένων με ελληνικά και γαλλικά κείμενα είναι το παράλληλο σώμα λογοτεχνικών κειμένων FREL του ΑΠΘ, που περιλαμβάνει λογοτεχνικά βιβλία στα γαλλικά και τις μεταφράσεις τους στα ελληνικά. Για όσους ενδιαφέρονται να μελετήσουν την ιστορία των λέξεων και των φράσεων σημαντικά είναι τα διαχρονικά σώματα κειμένων, όπως το Διαχρονικό Σώμα Ελληνικών Κειμένων του 20ού αιώνα. Η ιστοσελίδα της Εθνικής Υποδομής Γλωσσικών Πόρων & Τεχνολογιών είναι η καλύτερη αφετηρία για να εξερευνήσετε τα ελληνικά σώματα κειμένων.

Για άλλες γλώσσες υπάρχουν ήδη πολυάριθμα τεράστια σώματα κειμένων με μεγάλη ποικιλία κειμενικών ειδών. Για παράδειγμα, στην ιστοσελίδα του Mark Davies, περιλαμβάνονται, μεταξύ άλλων, εκτός από τα διαχρονικά Corpus of Historical American English (COHA) και TIME Magazine Corpus, το συγχρονικό Corpus of Contemporary American English (COCA) και τα πρόσφατα Global Web-Based English (GloWbE) και Wikipedia Corpus με δεδομένα από τον παγκόσμιο ιστό και μέγεθος δισεκατομμύρια λέξεις το καθένα. Για τα γαλλικά σημαντικό είναι τα σώμα κειμένων Artfl-Frantext, για τα γερμανικά τα Mannheimer Corpora, για τα ιταλικά το Perugia corpus κ.ά.

Τα σώματα κειμένων δεν είναι αρχεία ή βιβλιοθήκες κειμένων, ηλεκτρονικές βάσεις δεδομένων ή απλές συλλογές γλωσσικού υλικού: έχουν δημιουργηθεί σύμφωνα με ρητές γλωσσολογικές αρχές και περιλαμβάνουν επεξεργάσιμα δεδομένα μαζί με τα μεταδεδομένα τους, που είναι χρήσιμα για κάθε είδους γλωσσική έρευνα. Ωστόσο, ο παγκόσμιος ιστός θα μπορούσε να θεωρηθεί ως ένα ιδιότυπο σώμα κειμένων λόγω του τεράστιου μεγέθους του και των έτοιμων μηχανών αναζήτησης, όπως λ.χ. η Google, αρκεί να λαμβάνονται υπόψη οι εγγενείς περιορισμοί του. Ειδικές εφαρμογές έχουν αναπτυχθεί επίσης για τεράστιες συλλογές που είναι διαθέσιμες στο διαδίκτυο όπως ο Ngram Viewer των Google Books, στις οποίες μπορεί κανείς να αναζητήσει τη συχνότητα λέξεων και φράσεων στα αγγλικά, αλλά και στα ελληνικά, σε μια περίοδο από το 1800 έως σήμερα.

Συνεργάτης: Διονύσης Γούτσος |CLARIN:EL
Επιμέλεια: Γεράσιμος Χρυσοβιτσάνος

Ψηφιακές Ανθρωπιστικές Επιστήμες

Χώρος διαλόγου για τις Ψηφιακές Ανθρωπιστικές Σπουδές