The Data Journalism Handbook 1.0
Loading

Δεδομένα στις ειδήσεις: Wikileaks

Ξεκίνησε με μια ερευνητική ομάδα ρεπόρτερς που ρώτησε, “είστε καλοί με τα φύλλα εργασίας (excel), δεν είστε;” Και ήταν ένα τεράστιο φύλλο εργασίας : 92.201 γραμμές δεδομένων, κάθε μια από τις οποίες περιείχε μια λεπτομερή ανάλυση ενός στρατιωτικού συμβάντος στο Αφγανιστάν. Αυτά ήταν τα αρχεία πολέμου του Wikileaks. Αυτό ήταν το πρώτο μέρος. Θα ακολουθούσαν και δύο ακόμη επεισόδια. Το Ιράκ και τα τηλεγραφήματα. Ο επίσημος όρος ήταν SIGACTS : Η Βάση Δεδομένων Σημαντικών Στρατιωτικών Δράσεων των ΗΠΑ.

Τα αρχεία πολέμου του Αφγανιστάν-σε συνεργασία με τους New York Times και τον Der Spiegel- ήταν δημοσιογραφία δεδομένων εν δράσει. Αυτό που θέλαμε να κάνουμε ήταν να δώσουμε τη δυνατότητα στην ομάδα των ειδικών ρεπόρτερς μας να αντλήσουν μεγάλες ανθρώπινες ιστορίες από τις πληροφορίες-και θέλαμε να τις αναλύσουμε για να αναδείξουμε τη μεγάλη εικόνα, να δείξουμε πως είναι η πραγματική εξέλιξη του πολέμου.

Κεντρικό ζήτημα ήταν το τι θα κάναμε αρχικά με δεδομένο ότι δεν θα δημοσιεύαμε όλη την βάση δεδομένων. Αυτό θα το έκανε το Wikileaks, και εμείς θέλαμε να βεβαιωθούμε ότι δεν θα αποκαλύπταμε τα ονόματα των πληροφοριοδοτών ή ότι δεν θα θέταμε χωρίς λόγο σε κίνδυνο τα στρατεύματα του ΝΑΤΟ. Την ίδια στιγμή, έπρεπε να κάνουμε πιό εύχρηστα τα δεδομένα για την ομάδα των ερευνητών ρεπότερς μας υπό την καθοδήγηση των David Leigh και Nick Davies (που διαπραγματεύτηκε την διάθεση των δεδομένων με τον Julian Assange). Ακόμη θέλαμε να διευκολύνουμε τον πραγματικό κόσμο έξω στην πρόσβαση σε κρίσιμα δεδομένα, όσο πιό ξεκάθαρα και ανοιχτά μπορούσαμε.

Τα δεδομένα έφτασαν σε μάς με τη μορφή ενός τεράστιου φύλλου Excel. Πάνω από 92.201 σειρές δεδομένων, μερικές χωρίς να περιέχουν τίποτε ή κακογραμμένες. Δεν βοηθούσε τους ρεπόρτερς να ανασύρουν από τα δεδομένα ιστορίες και ήταν πολύ μεγάλο για να γράψουν αναφορές με νόημα από αυτό.

Η ομάδα μας δημιούργησε μια απλή βάση δεδομένων χρησιμοποιώντας την SQL. Οι ρεπόρτερς τώρα μπορούσαν να ψάξουν για ιστορίες χρησιμοποιώντας λέξεις κλειδιά ή γεγονότα.

Τα δεδομένα ήταν καλά δομημένα: κάθε γεγονός είχε τα ακόλουθα δεδομένα κλειδιά : χρόνος, ημερομηνία, μια περιγραφή, αριθμό απωλειών και - κρίσιμο – λεπτομερές μήκος και πλάτος.

Figure 14. Τα αρχεία πολέμου Wikileaks (Guardian)

Επίσης αρχίσαμε να φιλτράρουμε τα δεδομένα για να μας βοηθήσουν να πούμε μια από τις ιστορίες κλειδιά του πολέμου : την εμφάνιση των επιθέσεων με IED (improvised explosive device = αυτοσχέδιους εκρηκτικούς μηχανισμούς, ΑΕΜ), των αυτοσχέδιων βομβών στην άκρη του δρόμου που είναι απρόβλεπτες και δύσκολο να αντιμετωπιστούν.

Αυτή η σειρά δεδομένων ήταν ακόμη μαζική, αλλά ευκολότερα διαχειρίσιμη. Υπήρχαν περίπου 7.500 εκρήξεις ΑΕΜ ή ενέδρες (ενέδρα είναι όταν η επίθεση συνδυάζεται για παράδειγμα με πυρά ελαφρών όπλων ή χειροβομβίδες πυραύλους) μεταξύ 2004 και 2009. Υπήρχαν ακόμη 8000 ΑΕΜ που βρέθηκαν και εκκαθαρίστηκαν. Θέλαμε να δούμε πως άλλαζαν με το χρόνο και ποιά η σύγκριση μεταξύ τους. Αυτά τα δεδομένα μας επέτρεψαν να δούμε πως ο νότος, όπου τότε είχαν τη βάση τους Βρετανικά και Καναδικά στρατεύματα ήταν η πιό άσχημα χτυπημένη περιοχή- γεγονός που επιβεβαίωσε αυτό που ήδη ήξεραν οι ρεπόρτερς μας που είχαν καλύψει τον πόλεμο.

Η έκδοση των αρχείων πολέμου του Ιράκ τον Οκτώβρη του 2010 δημοσιοποίησε ακόμη 391.000 καταγραφές του πολέμου του Ιράκ. Η δημοσιοποίηση αυτή ήταν σε διαφορετική κατεύθυνση από τη διαρροή του Αφγανιστάν : είναι σωστό να ειπωθεί ότι έκανε τον πόλεμο αυτό τον πιό ντοκουμενταρισμένο στην ιστορία. Κάθε μικρή λεπτομέρεια ήταν εκεί για να την αναλύσουμε και να την αποδελτιώσουμε. Αλλά αναδεικνύεται ένα γεγονός : ο μεγάλος όγκος θανάτων, οι περισσότεροι από τους οποίους είναι πολιτών. Όπως και στο Αφγανιστάν, ο Γκάρντιαν αποφάσισε να μην εκδόσει όλη τη βάση δεδομένων, κυρίως επειδή δεν μπορούσε να είναι βέβαιος ότι τα πεδία δεν περιείχαν εμπιστευτικές λεπτομέρειες των πληρηφοριοδοτών κλπ.

Επιτρέψαμε όμως στους χρήστες μας να κατεβάσουν ένα φύλλο εργασίας που περιείχε τις καταγραφές καθενός συμβάντος στο οποίο κάποιος είχε πεθάνει, σχεδόν 60.000 συνολικά. Αφαιρέσαμε το πεδίο της περίληψης, ώστε να μείνουν μόνο τα βασικά δεδομένα: η στρατιωτική επικεφαλίδα, ο αριθμός νεκρών, και η γεωγραφική περιγραφή.

Επίσης πήραμε όλα αυτά τα περιστατικά όπου κάποιος είχε πεθάνει και τα βάλαμε πάνω σε ένα χάρτη χρησιμοποιώντας χάρτες της Google Fusion. Δεν ήταν τέλειοι, αλλά μια αρχή στην προσπάθεια απεικόνισης των προτύπων της καταστροφής που ρήμαξε το Ιράκ.

Ο Δεκέμβρης του 2010 είδε την δημοσίευση των τηλεγραφημάτων. Αυτό ήταν σε μια διαφορετική κατεύθυνση συνολικά, μια τεράστια βάση δεδομένων από επίσημα έγγραφα : 251.287 αποστολές, από περισσότερες των 250 πρεσβείες και προξενεία των ΗΠΑ. Είναι μια μοναδική εικόνα της διπλωματικής γλώσσας των ΗΠΑ-που περιέχει πάνω από 50.000 έγγραφα της τρέχουσας διοίκησης Ομπάμα. Αλλά τι περιείχαν τα δεδομένα;

Τα τηλεγραφήματα τα ίδια ήρθαν μέσω ενός Διακομιστή Μυστικού Δικτύου Πρωτοκόλλου Ιντερνετ, ή SIPRNet. Το SIPRNet είναι το παγκόσμιο στρατιωτικό σύστημα Ιντερνετ των ΗΠΑ, που διατηρείται ξεχωριστά από το σύνηθες Ίντερνετ που είναι για τους πολίτες και διαχειρίζεται από το Υπουργείο Άμυνας στην Ουάσιγκτον.

Από τις επιθέσεις του 2001, γινόταν μια κίνηση στις ΗΠΑ να διασυνδεθούν αρχεία κυβερνητικών πληροφοριών, με την ελπίδα ότι πληροφορίες-κλειδιά δεν θα παγιδεύονταν μέσα σε σιλό πληροφοριών ή “μπουριά”. Ένας αυξημένος αριθμός προξενείων των ΗΠΑ συνδέθηκαν στο SIPRNet κατά την περασμένη δεκαετία, έτσι ώστε η διπλωματική και στρατιωτική πληροφορία να μπορούν να επεξεργάζονται από κοινού. Το 2002, 125 πρεσβείες ήταν συνδεδεμένες στο SIPRNet. To 2005 ο αριθμός ανέβηκε στο 180, ενώ σήμερα η μέγιστη πλειοψηφία των αποστολών των ΗΠΑ παγκοσμίως είναι συνδεδεμένες στο σύστημα-που εξηγεί γιατί ο όγκος αυτών των τηλεγραφημάτων είναι από το 2008 και 2009. Όπως έγραψε ο David Leigh :

Μια αποστολή πρεσβείας που χαρακτηρίζεται SIPDIS, κατεβαίνει αυτόματα στη διαβαθμισμένη σελίδα της πρεσβείας αυτής. Εκεί, μπορεί να είναι προσβάσιμη όχι μόνο από οποιονδήποτε στο Υπουργείο Εξωτερικών, αλλά και από τον κάθε στρατιωτικό των ΗΠΑ που έχει πρόσβαση ασφαλείας επιπέδου “Απόρρητο”, έναν κωδικό πρόσβασης και ένα υπολογιστή συνδεδεμένο στο SIPRNet

…γεγονός που προς μεγάλη έκπληξη αφορά σε πάνω από 3 εκατομμύρια άτομα. Υπάρχουν πολλά επίπεδα δεδομένων μέσα εκεί, με ανώτερο το SECRET NOFORN που σημαίνει ότι είναι σχεδιασμένα για να μην τα δει ποτέ κανείς που δεν είναι πολίτης των ΗΠΑ. Αντίθετα, υποτίθεται ότι πρέπει να διαβάζονται από αξιωματούχους της Ουάσιγκτον μέχρι το επίπεδο της Υπουργού Εξωτερικών Χίλαρυ Κλίντον. Τα τηλεγραφήματα κανονικά συντάσσονται από τον τοπικό πρέσβη ή υφισταμένους του. Τα “Άκρως Απόρρητα” και πάνω έγγραφα πληροφοριών δεν μπορούν να είναι προσβάσιμα από το SIPRNet.

Σε αντίθεση με τις προηγούμενες δημοσιεύσεις, αυτά ήταν κυρίως κείμενα λέξεων, μη ποσοτικοποιημένα ή με τυποποιημένα δεδομένα. Περιλαμβάνονταν τα εξής:

Μια πηγή

Η πρεσβεία ή η αρχή που το έστελνε.

Μια λιστα αποδεκτών

Συνήθως τα τηλεγραφήματα στέλνονταν σε έναν αρθμό άλλων πρεσβειών και αρχών.

Ένα πεδίο θέματος

Μια περίληψη του τηλεγραφήματος.

Σημάνσεις

Κάθε τηλεγράφημα σημαίνονταν με έναν αριθμό από συντμήσεις λέξεων κλειδιών.

Κεντρικό κείμενο

Το τηλεγράφημα καθαυτό. Προτιμήσαμε να μη δημοσιεύσουμε το πλήρες κείμενο για προφανείς λόγους ασφαλείας.

Μια ενδιαφέρουσα λεπτομέρεια της ιστορίας αυτής είναι πως τα τηλεγραφήματα έχουν δημιουργήσει διαρροές σχεδόν επί παραγγελία. Μόλις δημοσιοποιήθηκαν κυριάρχησαν στις ειδήσεις για εβδομάδες. Τώρα, μόλις εμφανιστεί μια ιστορία για κάποιο διεφθαρμένο καθεστώς ή διεθνές σκάνδαλο, η πρόσβαση στα τηλεγραφήματα μας δίνει πρόσβαση σε νέες ιστορίες.

Η ανάλυση των τηλεγραφημάτων είναι μια τεράστια δουλειά η οποία ίσως να μην ολοκληρωθεί ποτέ.

Αυτή είναι μια έντυπη έκδοση ενός κεφαλαίου που πρωτοδημοσιεύτηκε στο “Τα Γεγονότα είναι Ιερά: Η ισχύς των δεδομένων” του Simon Rogers, στους Guardian (published on Kindle)