DH t(r)ip της Παρασκευής_34 | Αναλύοντας ψηφιακά τα κείμενα
To δίκτυο υποδομών για την έρευνα στις ανθρωπιστικές επιστήμες DARIAH-GR/ΔΥΑΣ και η υποδομή γλωσσικών πόρων, τεχνολογιών και υπηρεσιών clarin:el ενώνουν τις δυνάμεις τους! Αποτέλεσμα αυτής της σύμπραξης είναι η ΑΠΟΛΛΩΝΙΣ, η εθνική υποδομή για τις ψηφιακές ανθρωπιστικές επιστήμες και τέχνες, και για τη γλωσσική έρευνα και καινοτομία. Ανακαλύψτε και χρησιμοποιήστε ψηφιακά εργαλεία και πόρους, αξιοποιώντας τις υπηρεσίες των δύο συνιστωσών της υποδομής. Ενημερωθείτε για ψηφιακές τεχνικές και μεθόδους. Εκπαιδευτείτε στη χρήση ψηφιακών πόρων και πραγματοποιήστε την έρευνά σας σε τομείς των ανθρωπιστικών επιστημών και τεχνών και της γλωσσικής επιστήμης με τη χρήση ψηφιακής τεχνολογίας.
Περισσότερα: https://apollonis-infrastructure.gr/
Αναλύοντας ψηφιακά τα κείμενα
Ψηφιακή κειμενική ανάλυση: Ο ολοένα αυξανόμενος ρυθμός ψηφιοποίησης κειμενικών αρχείων δίνει στους ερευνητές την ευκαιρία να αξιοποιήσουν τις δυνατότητες που τους προσφέρει η ψηφιακή κειμενική ανάλυση (digital text analysis). Στην ουσία πρόκειται για ένα σύνολο τεχνικών και μεθόδων που χρησιμοποιούνται για την ηλεκτρονικά υποστηριζόμενη ανάλυση μεγάλου όγκου κειμενικών δεδομένων. Μεταξύ των μεθόδων ξεχωρίζει η θεματική μοντελοποίηση (topic modelling), ένα είδος στατιστικού μοντέλου που βοηθά στον εντοπισμό των θεμάτων που διατρέχουν μια συλλογή κειμένων, καθώς και τα μεθοδολογικά εργαλεία υφομετρίας (stylometry) για τη διερεύνηση του ύφους (συχνότητα εμφάνισης λέξεων, ν-γράμματα χαρακτήρων κτλ.). Η ανάλυση σωμάτων κειμένων με την υποστήριξη υπολογιστή δίνει τη δυνατότητα εξόρυξης πληροφοριών που αφορούν, π.χ., τη θεματική των κειμένων, το ύφος ή ακόμα και την πατρότητά τους.
Εργαλειοθήκη: Η ψηφιακή κειμενική ανάλυση πραγματοποιείται συνήθως με τη βοήθεια αλγορίθμων που αναπτύσσονται από προγραμματιστές, στατιστικούς και γλωσσολόγους. Ανάλογα με τον βαθμό εξοικείωσης του κάθε ερευνητή σε υπολογιστικά εργαλεία, μπορεί να χρησιμοποιηθούν βιβλιοθήκες συναρτήσεων προσανατολισμένες στη λύση προβλημάτων επεξεργασίας φυσικής γλώσσας (NLP libraries). Στόχος αυτών των εργαλείων/βιβλιοθηκών, που έχουν αναπτυχθεί στις γλώσσες προγραμματισμού Python ή R, είναι να διευκολύνουν τo έργο της προεπεξεργασίας των κειμένων. Π.χ., η βιβλιοθήκη NLTK (Natural Language Toolkit) της Python χρησιμοποιείται για τον διαχωρισμό, τη λημματοποίηση και τη συντακτική ανάλυση κειμένων. Στη διάθεση των ερευνητών υπάρχουν επίσης εργαλεία όπως το MALLET για τη θεματική μοντελοποίηση και τη στατιστική ανάλυση κειμένων, καθώς και το Gephi για την οπτικοποίηση των αποτελεσμάτων. Περισσότερα εργαλεία μπορεί κανείς να αναζητήσει στο portal ψηφιακών εργαλείων TAPoR.
Εργαστήριο Digital Text Analysis for the Humanities: Η Ακαδημία Αθηνών, μέλος της ερευνητικής υποδομής DARIAH-GR/ΔΥΑΣ, διοργανώνει στο πλαίσιο του έργου ΑΠΟΛΛΩΝΙΣ, διήμερο εργαστήριο (4-5/3/2019) με τίτλο Digital Text Analysis for the Humanities (Ψηφιακή Ανάλυση Κειμένων στις Ανθρωπιστικές Επιστήμες). Το εργαστήριο επικεντρώνεται στην εισαγωγή των συμμετεχόντων στην υποβοηθούμενη από υπολογιστή ανάλυση μεγάλων σωμάτων κειμένων, μέσω της εξοικείωσής τους με σχετικά μεθοδολογικά εργαλεία. Για τον σκοπό αυτό θα παρουσιαστούν τεχνικές όπως η θεματική μοντελοποίηση, καθώς και βασικά μεθοδολογικά εργαλεία υφομετρίας για τη διερεύνηση του ύφους των κειμένων. Παράλληλα θα δοθεί στους συμμετέχοντες η δυνατότητα πρακτικής άσκησης και εξοικείωσης με ειδικό λογισμικό που χρησιμοποιείται για την επεξεργασία σωμάτων κειμένων, όπως το Antconc, και το λογισμικό R για τη στατιστική υπολογιστική επεξεργασία γλωσσικών δεδομένων.
Συνεργάτες: Μαρία Ηλβανίδου, Πατρίτσια Καλαφατά
Επιμέλεια: Γεράσιμος Χρυσοβιτσάνος