ψηφιοποίηση Αθλητική Ηχώ
Ζητούμενο ήταν η ψηφιοποίηση του αρχείου της Αθλητικής Ηχούς. Οι σελίδες έπειτα πέρασαν από διαδικασία αναγνώρισης χαρακτήρων (OCR) ώστε να μπορεί κανείς να αναζητήσει κείμενο. Η εφημερίδα εκδιδόταν από το 1945 μέχρι το 2007 και ήταν καθημερινή.
Σελίδες:
Α3: 183.000
Α4: 137.000
Σύνολο: 320.000
Τεκμηρίωση περιεχομένου
Ανάλυση
Καθώς το αρχείο προέρχεται από εφημερίδα υπάρχει μια φυσική ταξινόμηση, η χρονολογική. Προφανώς αυτή τηρήθηκε στο ακέραιο και έτσι η τελική αρχειοθέτηση έγινε με τα κριτήρια:
- Έτος
- Μήνας
- Ημέρα
- Σελίδα
- Λέξη
Τα φύλλα της εφημερίδας φυλάσσονται πολλά μαζί σε μεγάλα ντοσιέ τα οποία είχαν ήδη ταξινομηθεί. Από εκεί και κατά τη διαδικασία του σκαναρίσματος γινόταν ο έλεγχος. Η εισαγωγή των αντίστοιχων πεδίων γινόταν από το αντίστοιχο πρόγραμμα.
Βάση
Υπάρχουν 2 βάσεις (schemata) που εξυπηρετούν τις εφαρμογές:
Αρχειοθέτησης: εδώ φυλάσσονται δεδομένα που αφορούν την αρχειοθέτηση πχ έτη, μήνες, μέρες, φύλλα, σελίδες κλπ.
OCR: εδώ φυλάσσονται δεδομένα που αφορούν το OCR, το πλήρες κείμενο κάθε εικόνας και τις πληροφορίες κάθε λέξης.
Διαδικασία σκαναρίσματος
Το υλικό της Αθλητικής Ηχούς χωρίζεται σε δύο μεγάλες κατηγορίες
- Δεμένες εφημερίδες μεγέθους A2
- Φύλλα εφημερίδων μεγέθους A3
Για κάθε κατηγορία ακολουθείται διαφορετική διαδικασία σάρωσης και επεξεργασία του πρωτογενούς υλικού.
Οι εφημερίδες που βρίσκονται σε δεμένες σε τεύχη εξαμήνου πρέπει να σαρωθούν με το χέρι μια και δεν υπάρχει δυνατότητα καταστροφής του δεμένου υλικού.
Η διαδικασία που ακολουθείται συνοψίζεται στα ακόλουθα βήματα.
- Ρύθμιση του φακού του σαρωτή:
- Ρύθμιση της εστιακής απόστασης με χρήση της δοκιμαστικής σελίδας
- Ρύθμιση της μεγέθυνσης και του εύρους απεικόνισης
- Ρύθμιση ισορροπίας του λευκού χρώματος
- Τοποθέτηση δεμένης εφημερίδας και καθορισμός ορίων της σελίδας:
- Εκκίνηση της διαδικασίας σάρωσης
- Έλεγχος της εστιακής απόστασης κατά την διαδικασία σάρωσης
- Περάτωση της διαδικασία σάρωσης του τόμου
Διαδικασία βελτίωσης των σκαναρισμένων εικόνων.
Η διαδικασία που ακολουθείται συνοψίζεται στα ακόλουθα βήματα.
Οι εικόνες που προκύπτουν από την διαδικασίας σάρωσης περνάνε μια σειρά από σειρά ψηφιακών φίλτρων. Επιγραμματικά αναφέρονται παρακάτω τα κυριότερα φίλτρα καθώς και το αποτέλεσμα της εφαρμογής τους
- Αυτόματα φίλτρο εύρεσης και διόρθωσης της γωνίας της εφημερίδας: Στην διαδικασία αυτή η σελίδα περιστρέφεται ώστε τα γράμματα να είναι τελείως οριζόντια τοποθετημένα
- Φίλτρο απαλοιφής θορύβου: Με το φίλτρο αυτό καθαρίζεται η εικόνα από αλλοιώσεις που προέρχονται από την παλαίωση του πρωτογενούς υλικού
- Φίλτρο απαλοιφής καμπυλότητας: Στην διαδικασία αυτή η φυσική καμπυλότητα που δημιουργείται από το δέσιμο εξομαλύνεται
- Φίλτρο αύξησης ευκρίνειας λεπτομερειών: Χρησιμοποιώντας αυτό το φίλτρο τονίζονται περισσότερο τα γράμματα ώστε να είναι πιο εύκολη η ανάγνωση τους και η να διευκολύνεται η διαδικασία οπτικής αναγνώρισης χαρακτήρων
Διαδικασία ταξινόμησης περιεχομένου.
Οι τόμοι των δεμένων εφημερίδων περιέχουν εφημερίδες από διαφορετικές ημερομηνίες.
Με το πρόγραμμα ταξινόμησης ο χρήστης ταξινομεί τις σελίδες του τόμου στις πραγματικές ημερομηνίες δημοσίευσης που αντιστοιχούν.
Λοιπές αυτοματοποιημένες διαδικασίες
Αφού έχουν ολοκληρωθεί όλες οι διαδικασίες σκαναρίσματος – ταξινόμησης δημιουργούνται από το ειδικά σχεδιασμένο λογισμικό μας μικρές εικόνες προεπισκόπησης της εφημερίδας . Επίσης καταχρούνται όλες οι λέξης καθώς και οι συντεταγμένες τους στην σελίδα για να είναι δυνατή η αναζήτησης τους και η παρουσίαση τους στον διαδικτυακό τόπο.
Διαδικτυακός τόπος
Σκοπός του διαδικτυακού τόπου είναι η πρόσβαση στα δεδομένα μέσα από ένα όσο το δυνατόν πιο απλό και εύχρηστο περιβάλλον. Για αυτό το λόγο οι βασικές λειτουργίες είναι δύο:
Ξεφύλλισμα
Το ξεφύλλισμα είναι η πιο απλή μορφή πρόσβασης στο περιεχόμενο. Ο χρήστης επιλέγει ένα έτος, κατόπιν ένα μήνα και τέλος μία ημέρα. Η παρουσίαση γίνεται με δενδρική μορφή ώστε ο χρήστης να έχει την πλήρη εποπτεία του συνολικά διαθέσιμου αρχείου.
Επιλέγοντας μια ημερομηνία εμφανίζεται η υπό-εφαρμογή ξεφυλλίσματος που επιτρέπει τις εξής λειτουργίες:
- Zoom in, zoom out
- Εκτύπωση
- Επιλογή κειμένου
- Επόμενη - προηγούμενη σελίδα
- Μεγεθυντικός φακός
- Εμφάνιση εικονιδίων
- Εύρεση κειμένου
Αναζήτηση
Η αναζήτηση επιτρέπει την εύρεση κειμένου από οποιαδήποτε εφημερίδα ανεξαρτήτως χρονολογίας. Ο χρήστης καλείται να δώσει το διάστημα που τον ενδιαφέρει καθώς και σχετικές λέξεις κλειδιά (μία ή περισσότερες).
Ακολούθως εμφανίζονται τα αποτελέσματα της αναζήτησης σε μορφή πίνακα. Για κάθε σελίδα που πληροί τα κριτήρια αναζήτησης εμφανίζονται τα ακόλουθα:
- Η μικρογραφία του πρωτοσέλιδου του συγκεκριμένου φύλλου της εφημερίδας
- Η μικρογραφία της σελίδας
- Η χρονολογία του φύλλου
- Ο αριθμός σελίδας
- Λίγες φράσεις πριν και μετά τις δοθείσες λέξεις κλειδιά
Αναζήτηση και μεγάλος όγκος δεδομένων
Ένα σημαντικό πλεονέκτημα της υλοποίησης είναι ότι όχι μόνο έχει αναζήτηση αλλά παρέχει εξαιρετική απόδοση, παρά το μεγάλο όγκο δεδομένων του αρχείου.
Επιτρέπει σύνθετες αναζητήσεις: ο χρήστης μπορεί να εισάγει όσες λέξεις θέλει ενώ ταυτόχρονα το διάστημα μπορεί να είναι μεγάλο (ακόμα και τα 50 χρόνια). Τέλος τα αποτελέσματα εμφανίζονται ταξινομημένα με τη συχνότητα που εμφανίζονται οι λέξεις που δόθηκαν πράγμα που οδηγεί σε αρκετά ανώτερα (ποιοτικά) αποτελέσματα.
Για την αναζήτηση έχει υλοποιηθεί ένα διαφορετικό και εντελώς ανεξάρτητο σύστημα full-text search από αυτό που παρέχει έτοιμο η βάση δεδομένων (MySQL). Λαμβάνει υπόψη τις ιδιαιτερότητες της Ελληνικής γλώσσας (κεφαλαία, μικρά, τόνοι, τελικό σίγμα κλπ) ενώ το τελικό συμπιεσμένο index που παράγεται δεν είναι πολύ μεγάλο (~1.5 GB).
Η Αθλητική Ηχώ είναι διαθέσιμη στο athlitikihxo.gr.
