The Data Journalism Handbook 1.0
Loading

Το διαδίκτυο ως πηγή δεδομένων

Πώς μπορείτε να μάθετε περισσότερα σχετικά με κάτι που υπάρχει μόνο στο διαδίκτυο; Είτε ψάχνετε μια διεύθυνση ηλεκτρονικού ταχυδρομείου, μια ιστοσελίδα, μια εικόνα ή ένα άρθρο της Wikipedia, στο κεφάλαιο αυτό θα σας δείξω τα εργαλεία που θα σας πουν περισσότερα για τους υπόβαθρο τους.

Εργαλεία Web

Καταρχάς, μερικές διαφορετικές υπηρεσίες που μπορείτε να χρησιμοποιήσετε για να ανακαλύψετε περισσότερα για μια ολόκληρη ιστοσελίδα, παρά για μια συγκεκριμένη σελίδα:

Whois

Αν πάτε στο whois.domaintools.com/ (ή αν απλά πληκτρολογήσετε whois στο www.example.com στο Terminal.app σε Mac, με μια διεύθυνση URL στη θέση της κράτησης θέσης (placeholder ) εδώ), μπορείτε να πάρετε τις βασικές πληροφορίες εγγραφής οποιασδήποτε ιστοσελίδας. Τα τελευταία χρόνια, ορισμένοι ιδιοκτήτες έχουν επιλέξει ιδιωτική εγγραφή, που κρύβει τα στοιχεία τους από την κοινή προβολή, αλλά σε πολλές περιπτώσεις θα δείτε ένα όνομα, μια διεύθυνση, μια ηλεκτρονική διεύθυνση και έναν αριθμό τηλεφώνου για το άτομο που έχει εγγεγραφεί στην ιστοσελίδα. Μπορείτε επίσης να εισάγετε αριθμητικές διευθύνσεις IP εδώ και να πάρετε τα δεδομένα σχετικά με τον οργανισμό ή άτομο που κατέχει τον εν λόγω διακομιστή. Αυτό είναι ιδιαίτερα χρήσιμο όταν προσπαθείτε να εντοπίσετε περισσότερες πληροφορίες σχετικά με μια καταχρηστική ή με μιας κακόβουλης χρήσης μιας υπηρεσίας, δεδομένου ότι οι περισσότερες ιστοσελίδες καταγράφουν μια διεύθυνση IP για τον καθένα που έχει πρόσβαση.

Blekko

Η μηχανή αναζήτησης Blekko προσφέρει μια ασυνήθιστη ποσότητα διορατικότητας στα εσωτερικά στατιστικά στοιχεία που συγκεντρώνει από ιστοσελίδες , καθώς ανιχνεύει το Web . Εάν πληκτρολογήσετε ένα όνομα τομέα(domain) που ακολουθείται από " /seo " , θα λάβετε μια σελίδα με πληροφορίες σχετικά με αυτήν τη διεύθυνση URL . Η πρώτη καρτέλα στο Figure 7 σας δείχνει ποιες άλλες ιστοσελιδες συνδέονται με το domain, με σειρά popularity . Αυτό μπορεί να είναι εξαιρετικά χρήσιμο όταν προσπαθείτε να καταλάβετε τι κάλυψη έχει ένα site, και αν θέλετε να καταλάβετε γιατί έχει υψηλή κατάταξη στα αποτελέσματα αναζήτησης του Google, με βάση αυτές τις εισερχόμενες συνδέσεις . Το Figure 8 δείχνει ποιες άλλες ιστοσελίδες τρέχουν από το ίδια μηχανή. Είναι κοινό για τους απατεώνες και τους spammers να ακολουθούν τον δρόμο τους προς την νομιμότητα με την δημιουργία πολλαπλών ιστοσελίδων οι οποίες συνδέονται μεταξύ τους . Μοιάζουν ανεξάρτητα πεδία , και μπορεί ακόμη και να έχουν διαφορετικά στοιχεία εγγραφής , αλλά στην πραγματικότητα βρίσκονται στον ίδιο διακομιστή , επειδή αυτό είναι πολύ φθηνότερο . Αυτά τα στατιστικά στοιχεία σας δίνουν μια εικόνα για την κρυφή επιχειρηματική δομή του site που ερευνάτε.

Figure 6. The Blekko search engine (Blekko.com)
Figure 7. Understanding web popularity: who links to who? The other handy tab is "Crawl stats", especially the "Cohosted with" section. (Blekko.com)
Figure 8. Spotting web spammers and scammers (Blekko.com)
Compete.com

Με την εξέταση ενός μέρους των Αμερικανών καταναλωτών, η compete.com συσσωρεύει λεπτομερή στατιστικά στοιχεία χρήσης για τις περισσότερες ιστοσελίδες, και κάνει ορισμένες βασικές λεπτομέρειες ελεύθερα διαθέσιμες. Επιλέξτε την καρτέλα Site Profile και εισάγετε ένα domain (Figure 9). Θα δείτε τότε μια γραφική παράσταση της κίνησης του site κατά το τελευταίο έτος, μαζί με αριθμητικά στοιχεία για το πόσοι άνθρωποι το έχουν επισκεφτεί, και πόσο συχνά (όπως στην εικόνα 4-10). Από τη στιγμή που βασίζονται σε έρευνες, οι αριθμοί είναι κατά προσέγγιση, αλλά έχω διαπιστώσει ότι είναι αρκετά ακριβή, σε περιπτώσεις που ήμουν σε θέση να συγκρίνω με τα εσωτερικά στατιστικά. Συγκεκριμένα, φαίνεται να είναι μια καλή πηγή όταν συγκρίνεις δύο ιστοσελίδες, δεδομένου ότι, ενώ οι απόλυτοι αριθμοί μπορεί να είναι μακριά για δύο, είναι ακόμα μια καλή αναπαράσταση της σχετικής διαφοράς τους σε δημοτικότητα. Όμως εξετάζουν μόνο τους Αμερικάνους καταναλωτές, έτσι τα δεδομένα θα είναι φτωχά για διεθνείς τοποθεσίες.

Figure 9. Compete.com’s site profile service (Compete.com)
Figure 10. What’s in vogue? What’s in demand?: Hotspots on the web (Compete.com)
Αναζήτηση με την ιστοσελίδα της Google

Ένα χαρακτηριστικό που μπορεί να είναι εξαιρετικά χρήσιμο όταν προσπαθείτε να εξερευνήσετε όλο το περιεχόμενο σε ένα συγκεκριμένο τομέα είναι το "site:" σαν λέξη κλειδί. Αν προσθέσετε το "site: example.com" μαζί με τη φράση αναζήτησης, το Google θα εμφανίσει αποτελέσματα μόνο από την τοποθεσία που έχετε ορίσει. Μπορείτε να το περιορίσετε κι άλλο, συμπεριλαμβάνοντας το προθεμα των σελίδων που σας ενδιαφέρει, για παράδειγμα, "site: example.com / pages /", και θα δείτε μόνο τα αποτελέσματα που ταιριάζουν με αυτό το μοτίβο. Αυτό μπορεί να είναι εξαιρετικά χρήσιμο όταν προσπαθείτε να βρείτε πληροφορίες, τις οποίες οι ιδιοκτήτες των domain μπορεί να τις έχουν διαθέσιμες στο κοινό, χωρίς να είναι πρόθυμοι για τη δημοσιοποίηση τους, έτσι ώστε με τις σωστές λέξεις κλειδιά μπορεί να εμφανιστεί κάποιο πολύ αποκαλυπτικό υλικό.

Ιστοσελίδες, εικόνες και βίντεο

Υπάρχουν φορές που ενδιαφέρεσαι για το τι συμβαίνει γύρω από μια συγκεκριμένη ιστορία, παρά γύρω από μια ολόκληρη ιστοσελίδα. Τα ακόλουθα εργαλεία σας δίνουν διαφορετικές σκοπιές στο πως ο κόσμος ανταποκρίνεται, αντιγράφει και κοινοποιεί περιεχόμενο στον ιστό.

Bit.ly

Πάντα στρέφομαι στο bit.ly όταν θέλω να μάθω πως οι άνθρωποι μεταξύ τους, κοινοποιούν έναν συγκεκριμένο σύνδεσμο. Για να το χρησιμοποιήσετε, εισάγετε την διεύθυνση για την οποία ενδιαφέρεστε. Τότε κάν’ τε κλικ στις πληροφορίες σελίδας (Info Page+ link). Αυτό σας πηγαίνει σε μια σελίδα στατιστικών (ωστόσο, ίσως χρειαστεί να επιλέξετε "aggregrate bit.ly link" πρώτα άν είστε συνδεδεμένοι στην υπηρεσία). Αυτό θα σας δώσει μια ιδέα στο πόσο δημοφιλής είναι η σελίδα, συμπεριλαμβανομένης της δραστηριότητας στο Facebook και στο Twitter και παρακάτω θα δείτε δημόσιες συζητήσεις, σχετικά με τον σύνδεσμο, παρεχόμενες από το backtype.com. Αυτός ο συνδυασμός, των δεδομένων κίνησης (traffic data) και των συζητήσεων είναι πολύ χρήσιμος όταν προσπαθώ να καταλάβω τον λόγο που ένας δικτυακός τόπος ή μια σελίδα είναι δημοφιλής και ποιοι ακριβώς είναι οι ακόλουθοί της. Για παράδειγμα, μου προσέφερε ισχυρές αποδείξεις ότι τα κυρίαρχα σχόλια σχετικά με την φυσική διαδικασία προώθησης και υποστήριξης της Σάρα Πέιλιν, είχαν άδικο.

Twitter

Kαθώς η υπηρεσία μικρο-ϊστολογίων (micro-blogging) χρησιμοποιείται όλο και περισσότερο, γίνεται ακόμα πιο χρήσιμη ως ένα όργανο μέτρησης του πώς οι άνθρώποι κοινοποιούν και συζητάνε για δημοσιεύσεις άλλων ατόμων. Είναι απατηλά απλό να βρίσκεις δημόσιες συζητήσεις σχετικά με έναν σύνδεσμο. Απλώς κάνεις επικόλληση στο πεδίο της αναζήτησης, την διεύθυνση για την οποία ενδιαφέρεσαι και έπειτα αν θέλεις να δεις περισσότερα αποτελέσματα, υπάρχει η επιλογή “περισσότερα tweets”.

Κρυφή μνήμη (Cache) του Google

Όταν μια σελίδα γίνεται αμφιλεγόμενη, οι εκδότες μπορούν να την διαγράψουν ή να την τροποποιήσουν χωρίς κάποια έγκριση. Αν υποψιάζεστε ότι πέφτετε πάνω σε τέτοιο πρόβλημα, το πρώτο μέρος για να απευθυνθείτε είναι η κρυφή μνήμη του Google για την σελίδα όπως ήταν όταν έγινε το τελευταίο της “crawl”. Η συχνότητα των “crawls” αυξάνεται συνεχώς, οπότε θα είστε απόλυτα τυχεροί αν το προσπαθήσετε εντός λίγων ωρών από τις αλλαγές που υποψιάζεστε. Εισάγετε την διεύθυνση της σελίδας στο πεδίο αναζήτησης της Google και έπειτα κάντε κλικ στο τριπλό βέλος στα δεξιά του αποτελέσματος αυτής της σελίδας. Μια γραφική προεπισκόπηση πρέπει να εμφανιστεί, και αν φανείτε τυχεροί, θα εμφανιστεί ένας μικρός σύνδεσμος από την «κρυφή μνήμη» (Cache) στην κορυφή της. Κάντε κλικ για να δείτε την απεικόνιση της σελίδας στο Google. Αν παρουσιάσει πρόβλημα στην φόρτωση της, μπορείτε να μετακινηθείτε στην πιο πρώιμη σελίδα (αποκλειστικά με κείμενο) επιλέγοντας άλλον συνδέσμο στην κορυφή της προβολής της σελίδας στην κρυφή μνήμη. Μπορείτε αν θέλετε να κρατήσετε μια στιγμιαία απεικόνιση της οθόνης σας ή να κάνετε αντιγραφή-επικόλληση οποιοδήποτε περιεχόμενο επιθυμείτε, μιας και αυτή η προβολή της σελίδας μπορεί να ακυρωθεί ανά πάσα στιγμή με ένα επερχόμενο «crawl».

The Internet Archive’s Wayback Machine

Αν χρειάζεται να ξέρετε πως μια συγκεκριμένη σελίδα έχει αλλάξει σε ένα μεγαλύτερο χρονικό διάστημα π.χ. σε μήνες ή σε χρόνια, το Internet Archive τρέχει μια υπηρεσία που ονομάζεται «Μηχανή Αναδρομής» The Wayback Machine η οποία περιοδικά αποθηκεύει στιγμιότυπα από τις πιο δημοφιλείς σελίδες του ιστού. Στον ιστότοπο του Internet Archive, εισάγετε τον σύνδεσμο που επιθυμείτε να ερευνήσετε και αν υπάρχουν αντίγραφα, θα σας παρουσιάσει ένα ημερολόγιο ώστε να επιλέξετε το χρονικό διάστημα που θέλετε να εξετάσετε. Μετά θα δείτε μια έκδοση της σελίδας σχεδόν όπως ήταν εκείνο το διάστημα. Συνήθως λείπουν η μορφοποίηση ή οι εικόνες αλλά συνήθως αρκεί για να καταλάβετε που εστίαζε το περιεχόμενο της σελίδας τότε.

View Source

Είναι λίγο φιλόδοξο, αλλά οι κατασκευαστές λογισμικού συνήθως αφήνουν σχόλια ή άλλα στοιχεία στον κώδικα HTML που βρίσκονται πίσω από κάθε σελίδα. Σε κάθε περιηγητή (browser) υπάρχει η επιλογή «Προβολή κώδικα σελίδας»(view source) που θα σας επιτρέψει να περιηγηθείτε στο “ακατέργαστο” HTML. Δεν χρειάζεται να καταλάβετε τι σημαίνουν τα μέρη που είναι αναγνώσιμα από την μηχανή απλώς δώστε προσοχή στα κομμάτια του κειμένου που είναι σκορπισμένα ανάμεσά τους. Ακόμη και αν είναι ειδοποιήσεις για δικαιώματα πνευματικής ιδιοκτησίας ή αναφορές των ονομάτων των συγγραφέων, μπορούν να δώσουν σημαντικά στοιχεία σχετικά με την δημιουργία ή τον σκοπό της σελίδας.

TinEye

Μερικές φορές αναζητάτε εκτενώς την πηγή μιας εικόνας, αλλά χωρίς σαφή απόδοση κειμένου, δεν υπάρχει τρόπος να το κάνετε με τις παραδοσιακές μηχανές αναζήτησης όπως στην Google. H TinEye παρέχει μια εξειδικευμένη διαδικασία «αντίστροφης αναζήτησης εικόνων» κατά την οποία δίνεις την εικόνα που έχεις, και σου βρίσκει άλλες εικόνες στον ιστό που μοιάζουν με αυτήν που έχεις. Επειδή χρησιμοποιεί μεθόδους αναγνώρισης εικόνας για να γίνει μια τέτοιου είδους διασταύρωση, δουλεύει ακόμα και όταν η εικόνα έχει περικοπεί, παραμορφωθεί ή συμπιεστεί. Αυτό μπορεί να φανεί εξαιρετικά αποτελεσματικό όταν υποψιάζεστε πως ενώ μια εικόνα φαίνεται ως γνήσια ή ως καινούρια, τελικά δεν είναι, καθώς οδηγείστε πίσω στην αυθεντική πηγή.

YouTube

Αν κάνετε κλικ πάνω στο εικονίδιο «Στατιστικά» κάτω δεξιά του κάθε βίντεο, μπορείτε να αποκτήσετε ένα πλούσιο σύνολο πληροφοριών σχετικά με το κοινό και τις προβολές του στο πέρασμα του χρόνου. Ενώ δεν είναι πλήρες, είναι χρήσιμο να γνωρίζετε περίπου ποιο είναι το κοινό, από πού και πότε προήλθαν.

Emails

Υπάρχουν περιπτώσεις που κάποιος θα ήθελε να μάθει λεπτομέρειες σχετικά με την ταυτότητα και την τοποθεσία του αποστολέα. Δεν υπάρχει κάποιο εξειδικευμένο εργαλείο διαθέσιμο για να σας βοηθήσει, αλλά μπορεί να αποδειχθεί ιδιαιτέρως χρήσιμο να γνωρίζετε τα βασικά σχετικά με τις κρυμμένες κεφαλίδες που συμπεριλαμβάνονται σε κάθε ηλεκτρονικό μήνυμα. Αυτές λειτουργούν ως ταχυδρομικές σφραγίδες, και μπορούν να αποκαλύψουν εκπληκτικά πολλές πληροφορίες για τον αποστολέα. Συγκεκριμένα, συχνά συμπεριλαμβάνουν την IP διεύθυνση της μηχανής από την οποία εστάλη το μήνυμα, κάτι σαν αναγνώριση κλήσης σε ένα τηλεφώνημα. Μπορείτε έπειτα να ψάξετε στην αναζήτηση της whois για τον αριθμό αυτής της διεύθυνσης ΙΡ και να βρείτε σε ποιον οργανισμό ανήκει αυτή η μηχανή. Αν αποδειχθεί να είναι κάποιος σαν την Comcast ή την AT&T που παρέχουν συνδέσεις στους καταναλωτές, μπορείτε έπειτα να επισκεφτείτε το MaxMind για να προσεγγίσετε την πλησιέστερη τοποθεσία.

Για να δείτε τις κεφαλίδες στο Gmail, ανοίξτε το μήνυμα και από το μενού δίπλα στην επιλογή της απάντησης πάνω δεξιά, επιλέξτε «Προβολή Αρχικού» (Show Original).

Θα δείτε έπειτα μια νέα σελίδα να αποκαλύπτει το κρυμμένο περιεχόμενο. Θα εμφανιστούν ζεύγη δεκάδων γραμμών στην αρχή με λέξεις ακολουθούμενες από άνω και κάτω τελεία. Η διεύθυνση ΙΡ που επιδιώκετε ενδέχεται να είναι σε μία από αυτές αλλά το όνομα της εξαρτάται από τον τρόπο αποστολής του μηνύματος. Αν ήταν από το Hotmail, θα ονομάζεται X-Originating-IP:, αλλά αν είναι από το Outlook ή το Yahoo θα είναι στην πρώτη γραμμή με την ένδειξη Received:.

Τρέχοντας τη διεύθυνση από την αναζήτηση της whois, ενημερώνομαι πως υπάρχει σύνδεση με την Virgin Media, μια εταιρεία παροχής διαδικτύου στο Ηνωμένο Βασίλειο, οπότε βάζοντας ως μέσο το σύστημα γεωεντοπισμού της MaxMind, έρχεται απευθείας από το πατρικό μου σπίτι στο Cambridge. Αυτό σημαίνει ότι υπάρχει μεγάλη πιθανότητα να μου στέλνουν μήνυμα οι γονείς μου και όχι άλλοι που προσποιούνται ότι είναι αυτοί.

Αν πέσετε πάνω σε ένα θέμα με μεγάλο όγκο πληροφοριών, υπάρχουν δύο εργαλεία που μπορούν να σας διαφωτίσουν και είναι τα εξής:

Wikipedia Article Traffic

Αν ενδιαφέρεστε να μάθετε πως το δημόσιο ενδιαφέρον για ένα ζήτημα ή για κάποιο άτομο διαμορφώθηκε με το πέρασμα του χρόνου, μπορείτε να λάβετε καθημερινά αρχεία απεικόνισης για οποιαδήποτε σελίδα στην Wikipedia από το stats.grok.se. Ο ιστότοπος αυτός είναι λίγο πρόχειρος αλλά αρκετά αποτελεσματικός καθώς επιτρέπει με λίγο ψάξιμο την εύρεση των απαιτούμενων πληροφοριών. Αν εισάγετε το όνομα που σας ενδιαφέρει, θα έχετε την μηνιαία προβολή ροής αυτής της σελίδας. Θα δείτε ένα γράφημα που θα απεικονίζει πόσες φορές η σελίδα προβλήθηκε για κάθε μέρα μέσα στον μήνα που ορίσατε. Δυστυχώς μπορείτε να δείτε μόνο έναν μήνα κάθε φορά, οπότε θα πρέπει να επιλέγετε έναν άλλον μήνα και να επαναλάβετε την διαδικασία ώστε να δείτε μακροπρόθεσμες αλλαγές.

Google Insights

Μπορείτε να έχετε μια ξεκάθαρη άποψη στις συνήθειες αναζήτησηις του κοινού χρησιμοποιώντας το Insights from Google (Figure 11). Αν εισάγετε δύο κοινές φράσεις αναζήτησης όπως Justin Bieber vs Lady Gaga, θα δείτε ένα γράφημα των σχετικών αριθμών αναζητήσεων στο πέρασμα του χρόνου. Υπάρχουν πολλές επιλογές να φιλτράρετε την προβολή των δεδομένων σας, από περιορισμένες γεωγραφικές περιοχές σε πιο λεπτομερείς. Το μόνο απογοητευτικό είναι η έλλειψη απόλυτων τιμών-εμφανίζονται μόνο τα σχετικά ποσοστά που ερμηνεύονται δύσκολα.

Figure 11. Google Insights (Google)

Pete Warden, ανεξάρτητος αναλυτής δεδομένων και κατασκευαστής λογισμικού