The Data Journalism Handbook 1.0
Loading

Οι δημοσιογράφοι των αναλύουν τα εργαλεία της επιλογής τους

Πσσσσ. Αυτός είναι ο ήχος των δεδομένων σας που αποσυμπίεζεται από την αεροστεγή τους συσκευασία. Τώρα τι; Τι ψάχνετε; Και ποια εργαλεία χρησιμοποιείτε για να ξεκινήσετε; Ζητήσαμε από δημοσιογράφους δεδομένων να μας αποκαλύψουν πως εργάζονται με τα δεδομένα. Μας είπαν τα ακόλουθα:

Στο Blog δεδομένων του Guardian, θα θέλαμε πραγματικά να αλληλεπιδρούμε με τους αναγνώστες μας, να τους επιτρέπουμε να αναπαράγουν δημοσιογραφία των δεδομένων, να μπορούν να χτίζουν πάνω στο έργο μας και μερικές φορές να εντοπίζουν λεπτομέριες που μας έχουν ξεφύγει. Έτσι, όσο πιο εύχρηστα είναι τα εργαλεία των δεδομένων, τόσο το καλύτερο.

Προσπαθούμε να επιλέξουμε εργαλεία που θα μπορούσε κάποιος να τα χρησιμοποιήσει χωρίς την εκμάθηση γλώσσας προγραμματισμού ή με ειδική εκπαίδευση και χωρίς κόστος.

Χρησιμοποιούμε τα προϊόντα της Google αρκετά για το λόγο αυτό. Όλα τα σύνολα δεδομένων που έχουμε τακτοποιήσει και εκδόσει είναι διαθέσιμα ως υπολογιστικά φύλλα της Google, που σημαίνει ότι οι χρήστες με λογαριασμό Google μπορούν να κατεβάσουν τα δεδομένα, να τα εισάγουν στον λογαριασμό τους, να δημιουργήσουν τα δικά τους διαγράμματα, να ταξινομούν τα δεδομένα, να δημιουργούν συγκεντρωτικούς πίνακες, ή να εισαγουν τα δεδομένα σε εργαλεία της επιλογή τους.

Για την αντιστοίχιση των δεδομένων, χρησιμοποιούμε τους Google Fusion πίνακες. Όταν δημιουργούμε χάρτες θερμότητας στο Fusion, διαμοιραζόμαστε KML αρχεία σχήματος ώστε να μπορούν οι αναγνώστες μας να κατεβάζουν και να οικοδομούν τους δικούς τους χάρτες θερμότητας -ίσως προσθέτοντας επιπλέον στρώσεις δεδομένων στον αρχικό χάρτη του Blog. Ένα ακόμη χαρακτηριστικό των εργαλείων της Google είναι ότι μπορούν να λειτουργήσουν σε όλες τις πλατφόρμες τις οποίες οι αναγνώστες μας χρησιμοποιούν για να έχουν πρόσβαση στο blog, όπως η επιφάνεια εργασίας, τα κινητά τους, και οι ταμπλέτες.

Εκτός από τα υπολογιστικά φύλλα της Google και Fusion, χρησιμοποιούμε δύο ακόμη εργαλεία στην καθημερινή μας εργασία. Το πρώτο είναι το Tableau που απεικονίζει πολυδιάστατα σύνολα δεδομένων, και το δεύτερο είναι το ManyEyes για γρήγορη ανάλυση των δεδομένων. Κανένα από τα εργαλεία αυτά δεν είναι τέλεια, έτσι συνεχίζουμε να αναζητούμε καλύτερα εργαλεία απεικόνισης που θα απολαύουν οι αναγνώστες μας

the Guardian
— Lisa Evans

Θα γίνω ποτέ προγραμματιστής; Πολύ απίθανο! Σίγουρα δεν πιστεύω ότι όλοι οι δημοσιογράφοι πρέπει να γνωρίζουν να γράφουν κώδικα. Αλλά πιστεύω ότι είναι πολύ σημαντικό για αυτούς να έχουν επίγνωση του τι είναι δυνατό και να γνωρίζουν πώς να επικοινωνίσουν με τους προγραμματιστές.

Αν ξεκινάτε τώρα, προχωρήστε, μην τρέχετε. Θα πρέπει να πείσετε τους συναδέλφους και τους εκδότες σας ότι η εργασία με τα δεδομένα μπορεί να σας αποδόσει ιστορίες που διαφορετικά δεν θα μπορούσατε να ανακαλύψετε και αξίζει να το επιδιώξετε. Μόλις κατανοήσουν την αξία αυτής της προσέγγισης, μπορείτε να επεκταθείτε σε πιο πολύπλοκες ιστορίες και έργα.

Η συμβουλή μου είναι να μάθετε το Excel και να κάνετε κάποιες απλές ιστορίες πρώτα. Ξεκινήστε σγά σιγά και δουλέψτε στη ανάλυση των δεδομένων και την χαρτογράφηση. Μπορείτε να πραγματοποιήσετε το μεγαλύτερο μέρος στο στο Excel - το οποίο είναι ένα εξαιρετικά ισχυρό εργαλείο και οι περισσότεροι άνθρωποι χρησιμοποιούν ένα πολύ μικρό μέρος της λειτουργικότητάς του. Μπορείτε να γραφτείτε σε μαθήματα για το Excel για δημοσιογράφους, όπως αυτά που προσφέρονται από το Κέντρο για την Ερευνητική Δημοσιογραφία.

Όσον αφορά την ερμηνεία των δεδομένων: μην το παίρνετε ελαφρά. Θα πρέπει να είστε ευσυνείδητοι. Δώστε προσοχή στη λεπτομέρεια και αμφισβητήστε τα αποτελέσματά σας. Κρατήστε σημειώσεις για τα βήματα της επεξεργασίας των δεδομένων και αποθηκεύστε ένα αντίγραφο των αρχικών σας δεδομένων. Είναι εύκολο να γίνει ένα λάθος. Κάνω πάντα την ανάλυσή μου δύο ή τρεις φορές σχεδόν από το μηδέν. Ακόμα καλύτερα θα ήταν να πάρετε κάποιο πρόγραμμα επεξεργασίας ή να ζητήσετε από κάποιον άλλον να αναλύσει τα δεδομένα και έπειτα να συγκρίνετε τα αποτελέσματα.

Financial Times
— Cynthia O'Murchu

Η ικανότητα να γράφετε και να χρησιμοποιείτε κάποιο πολύπλοκο λογισμικό τόσο γρήγορα όσο ένας δημοσιογράφος μπορεί να γράψει μια ιστορία είναι κάτι καινούργιο. Συνήθως έπερνε πολύ περισσότερο χρόνο. Τα πράγματα άλλαξαν χάρη στην ανάπτυξη δύο δωρεάν / ανοιχτού κώδικα πλαίσια ταχείας ανάπτυξης: Django και Ruby on Rails, τα οποία κυκλοφόρησαν για πρώτη φορά στα μέσα της δεκαετίας του 2000.

Django, το οποίο βασίζεται στην γλώσσα προγραμματισμού Python, αναπτύχθηκε από τον Adrian Holovaty και μια ομάδα που εργάζονται σε μια αίθουσα σύνταξης, το Lawrence Journal-World στο Λόρενς του Κάνσας. Η Ruby on Rails αναπτύχθηκε στο Σικάγο από τον David Heinemeier Hansson και την 37Σignals, μια εταιρεία εφαρμογών του Διαδικτύου.

Αν και τα δύο πλαίσια ακολουθούν διαφορετικές προσεγγίσεις στο “μοτίβο MVC”είναι εξαιρετικά και καταστούν δυνατή την κατασκευή πολύ σύνθετων εφαρμογών διαδικτύου με γρήγορo ρυθμό. Έτσι σας απαλλάσουν από την δημιουργίας μιας εφαρμογής. Εργασίες όπως η δημιουργία, η αναζήτηση στοιχείων από τη βάση δεδομένων, και η αντιστοιχεία URL σε συγκεκριμένo κώδικα σε μια εφαρμογή, έχουν υπολοποιηθεί στα πλαίσια των εφαρμογών, και οι προγραμματιστές δεν χρειάζεται να γράψουν κώδικα για τέτοιες βασικές λειτουργίες.

Παρόλο που δεν υπήρξε επίσημη έρευνα σχετικά με τις δημοσιογραφικές ομάδων ειδήσεων στις ΗΠΑ, οι περισσότερες από αυτές χρησιμοποιούν ένα από αυτά τα δύο πλαίσια. Στο ProPublica, χρησιμοποιούμε Ruby on Rails.

Η ανάπτυξη του web server "slice" τροφοδοτεί υπηρεσιες όπως το Amazon Web και απομακρύνει όλα τα στοιχεία που καθιστούσαν την ανάπτυξη μια διαδικτυακής εφαρμογής χρονοβόρα διαδικασία.

Πέρα από αυτό, συγκεκριμένα εργαλεία για εργασίες με δεδομένα: Google Refine και Microsoft Excel για την εκκαθάρηση των δεδομένων. SPSS και R στατιστικές μελέτες. ArcGIS και QGIS για GIS, Git για τη διαχείριση του πηγαίου κώδικα, Text TextMate, Vim και Sublime για τη σύνταξη κώδικα, και MySQL, PostgreSQL και SQL Server για βάσεις δεδομένων. Χτίσαμε το δικό μας πλαίσιο JavaScript με την ονομασία «Glass» που μας βοηθά να οικοδομήσουμε front-end φαρμογές σε JavaScript πολύ γρήγορα.

ProPublica
— Scott Klein

Μερικές φορές το καλύτερο εργαλείο αποτελεί το πιο απλό εργαλείο, η δύναμη ενός υπολογιστικού φύλλου μπορεί εύκολα να υποτιμηθεί. Όμως χρησιμοποιώντας ένα υπολογιστικό φύλλο, όταν τα υπόλοιπα δούλευαν σε DOS μου έδωσε τη δυνατότητα να κατανοήσω ένα πολύπλοκο μαθηματικό τύπο για τη συμφωνία εταιρικής σχέσης ανάμεσα στους ιδιοκτήτες των Texas Rangers, όταν ο Τζορτζ Μπους ήταν ένας από τους βασικούς ιδιοκτήτες. Ένα υπολογιστικό φύλλο μπορεί να με βοηθήσει να απομακρύνω τις ακραίες τιμές ή λάθη στους υπολογισμούς. Μπορώ να γράψω καθαρογραμμένα scripts και περισσότερα. Είναι βασικό για την εργαλειοθήκη του κάθε δημοσιογράφου των δεδομένων.

Τα αγαπημένα μου εργαλεία έχουν ακόμη μεγαλύτερη δύναμη- το SPSS για στατιστική ανάλυση και τα προγράμματα χαρτογράφησης που μου επιτρέπουν να δω πρότυπα γεωγραφικά.

The Seattle Times
— Cheryl Phillips

Είμαι μεγάλος οπαδός της Python. Η Python είναι μια θαυμάσια γλώσσα προγραμματισμού ανοικτού κώδικα που είναι εύκολο να την διαβάσει και να την γράψει κανείς (π.χ., δεν χρειάζεται να πληκτρολογήσετε ένα ερωτηματικό μετά από κάθε γραμμή). Το περισσότερο σημαντικότερο είναι ότι η Python έχει μια τεράστια βάση χρηστών και ως εκ τούτου έχει plugins (που ονομάζονται πακέτα) για όλα όσα χρειάζεστε.

Θεωρώ ότι το Django σπάνια χρειάζεται στους δημοσιογράφους δεδομένων. Πρόκειται για μια διαδικτυακή εφαρμογή γραμμένη σε Python -δηλαδή, ένα εργαλείο για να δημιουργήσετε μεγάλες, διαδικτυακές εφαρμογές που χρησιμοποιουν βάσεις δεδομένων. Είναι σίγουρα πολύ βαρύ για τα μικρά διαδραστικά infographics.

Χρησιμοποιώ επίσης QGIS, μια εργαλειοθήκη ανοιχτού κώδικα, η οποία παρέχει ένα ευρύ φάσμα λειτουργιών GIS που απαιτούνται από τους δημοσιογράφους δεδομένων οι οποίοι ασχολούνται με γεωγραφικά δεδομένα . Αν χρειάζεται να μετατρέψετε γεωγραφικά δεδομένα από την μια μορφή στην άλλη, τότε QGIS είναι ό, τι χρειάζεστε. Μπορεί να χειριστεί σχεδόν κάθε μορφή γεωγραφικών δεδομένων (Shapefiles, KML, GeoJSON, κ.λπ.). Σε περίπτωση που χρειάζεται να περιορίσετε τις περιοχές, το QGIS μπορεί να σας βοηθήσει σε αυτό. Πλέον υπάρχει μια τεράστια κοινότητα για το QGIS, έτσι μπορείτε να βρείτε άφθονο υλικό όπως tutorials στο διαδίκτυο.

Η R δημιουργήθηκε κυρίως ως επιστημονικό εργαλείο απεικόνισης. Είναι δύσκολο να βρείτε οποιαδήποτε μέθοδο απεικόνισης ή τεχνικής επεξεργασίας των δεδομένων που δεν είναι ήδη ενσωματωμένη στην R. Η R είναι ένα σύμπαν, η Μέκκα της ανάλυσης οπτικών δεδομένων. Ένα μειονέκτημα είναι ότι θα πρέπει να μάθετε ακόμα μια γλώσσα προγραμματισμού, καθώς η R έχει τη δική της γλώσσα. Αλλά από τη στιγμή που θα ξεπεράσετε την καμπύλη εκμάθησης, δεν υπάρχει πιο ισχυρό εργαλείο από την R. Εκπαιδευμένοι δημοσιογράφοι δεδομένων μπορούν να χρησιμοποιήσουν την R για να αναλύσουν τεράστια σύνολα δεδομένων που επεκτείνουν τα όρια του Excel (για παράδειγμα, έναν πίνακα με ένα εκατομμύριο σειρές).

Ένα πλεονέκτημα της R είναι ότι μπορεί να κρατήσει ένα ακριβές "πρωτόκολλο" των βημάτων σας σε όλη την διαδικασία, από την ανάγνωση ενός αρχείου CSV μέχρι την παράγωγή διαγραμμάτων. Σε περίπτωση που αλλάξουν τα δεδομένα, μπορείτε να ξαναδημιουργήσετε το διάγραμμα με ένα κλικ. Αν κάποιος διερωτάται για την ακεραιότητα του γραφήματος σας, μπορείτε να δείξετε την ακριβή πηγή, η οποία επιτρέπει σε όλους να ξαναδημιουργήσουν το ακριβές διάγραμμα (ή ίσως να ανακαλύψουν τα λάθη που έχετε κάνει).

Η NumPy + MatPlotLib είναι ένας τρόπος να κάνετε το ίδιο σε Python. Αποτελεί μια επιλογή αν είστε ήδη καλά εκπαιδευμένοι με την Python. Στην πραγματικότητα, η NumPy και η MatPlotLib είναι δύο παραδείγματα πακέτων της Python. Μπορούν να χρησιμοποιηθούν για ανάλυση και απεικόνιση των δεδομένων και περιορίζονται σε στατικές απεικονίσεις. Δεν μπορούν να χρησιμοποιηθούν για την δημιουργία διαδραστικών γραφημάτων με επεξηγήσεις και πιο προηγμένες αναλύσεις.

Δεν χρησιμοποιώ το MapBox, αλλά έχω ακούσει ότι είναι ένα πολύ καλό εργαλείο, αν θέλετε να παρέχετε πιο σύγχρονους χάρτες με βάση το OpenStreetMap. Σας επιτρέπει, για παράδειγμα, να προσαρμόσετε το στυλ χάρτη (χρώματα, ετικέτες, κλπ.). Υπάρχει επίσης ένας συνοδευτικό του MapBox, που ονομάζεται Leaflet. To Leaflet είναι βασικά μια υψηλότερου επιπέδου βιβλιοθήκη γραμμένη σε Javascript, που σας επιτρέπει να εναλλάσσεστε μεταξύ διαφόρων χαρτών (OSM, MapBox, Google Maps, Bing, κλπ.).

Το RaphaelJS είναι μια μάλλον χαμηλού επιπέδου βιβλιοθήκη απεικόνισης που σας επιτρέπει να εργάζεστε με τα βασικά αρχέτυπα (όπως κύκλοι, γραμμές, κείμενο) και να προσθέτετε αλληλεπιδράσεις, κλπ. Δεν υπάρχει κάτι έτοιμο για χρήση ιστόγραμμα σε αυτό, οπότε θα πρέπει να σχεδιάσετε ένα σύνολο ορθογωνίων για εσάς.

Ωστόσο, το θετικό με την Raphael είναι ότι οτιδήποτε δημιουργήσετε θα δουλέυει επίσης στον Internet Explorer. Αυτό δεν ισχύει στην περίπτωση πολλών άλλων βιβλιοθηκών απεικοήσεων όπως το d3. Δυστυχώς, πολλοί χρήστες εξακολουθούν να χρησιμοποιούν IE και τα newsroom δεν μπορούν να αντέξουν οικονομικά να αγνοούν το 30% των χρηστών τους.

Εκτός το RaphaelJS, υπάρχει επίσης η δυνατότητα δημιουργίας μιας εναλλακτικής προσέγγισης σε Flash για τον IE την οποία ακολουθεί η The New York Times. Αυτό σημαίνει ότι θα πρέπει να αναπτύξει κάθε εφαρμογή δύο φορές.

Δεν είμαι ακόμα πεπεισμένος για την "καλύτερη" διαδικασία αποστολής της απεικόνισης στον IE και στα σύγχρονα προγράμματα περιήγησης. Συχνά θεωρώ ότι οι RaphaelJS εφαρμογές τρέχουν πολύ αργά στον IE, περίπου δέκα φορές πιο αργά από ότι τρέχουν στο Flash χρησιμοποιώντας σύγχρονα προγράμματα περιήγησης. Έτσι, οι εναλλακτικές σε Flash είναι μια καλύτερη επιλογή για την παροχή υψηλής ποιότητας κινούμενων απεικονίσεων για όλους τους χρήστες.

Open Knowledge Foundation
— Gregor Aisch

Το εργαλείο που χρησιμοποιώ περισσότερο είναι το Excel, το οποίο μπορεί να χειριστεί την πλειοψηφία των προβλημάτων CAR και έχει το πλεονεκτήματα της εύκολης εκμάνθησης και της διαθεσιμότητας για τους περισσότερους δημοσιογράφους. Όταν χρειάζεται να συγχωνεψω πίνακες, συνήθως χρησιμοποιοώ Access, και στην συνέχεια εξάγω το συγχωνευμένο πίνακα στο Excel για περαιτέρω εργασία. Χρησιμοποιώ το ArcMap της ESRI, για τις γεωγραφικές αναλύσεις, είναι ένα ισχυρό εργαλείο και χρησιμοποιείται από το οργανισμούς που συγκεντρώνουν γεωγραφικά κωδικοποιημένα δεδομένα. Το TextWrangler είναι ιδανικό για την εξέταση δεδομένων κειμένου με ιδιόμορφα σχεδιαγράμματα και οριοθέτες, και μπορεί να κάνει εξελιγμένη αναζήτηση και αντικατάσταση με κανονικές εκφράσεις. Όταν χρειάζεται να πραγματοποιήσω στατιστικές τεχνικές όπως η γραμμική παλινδρόμηση, χρησιμοποιώ SPSS το οποίο παρέχει φιλικό προς τον χρήστη μενού. Για απαιτητικές εργασίες, όπως η ανάλυση με βάσεις δεδομένων που έχουν εκατομμύρια αρχεία και μπορεί να χρειάζονται πολύπλοκο φιλτράρισμα και μετασχηματισμούς μεταβλητών, χρησιμοποιώ το λογισμικό της SAS.

Walter Cronkite School of Journalism
— Steve Doig

Τα εργαλεία της επιλογής μας περιλαμβάνουν Python και Django για την εξερεύνηση των δεδομένων, και το PostGIS, το QGIS, και την εργαλειοθήκη MapBox για την οικοδόμηση πολύπλοκων διαδικτυακών χαρτών. Η R και το NumPy + MatPlotLib σήμερα συναγωνίζονται για την υπεροχή τους ως εργαλεία της επιλογής μας, για την διερευνητική ανάλυση των δεδομένων, αν και τελευταία το αγαπημένο μας εργαλείο δεδομένων είναι δικής παραγωγής: CSVKit. Ό, τι κάνουμε αποθηκεύεται στο σύννεφο.__

Chicago Tribune
— Brian Boyer
Στο La Nacion χρησιμοποιούμε: * Excel για τον εκκαθάριση, την οργάνωση και την ανάλυση των δεδομένων * Υπολογιστικά φύλλα Google για τη δημοσίευση και τη σύνδεση με υπηρεσίες, όπως η Google, οι Πίνακες Fusion και η Junar Open πλατφόρμα δεδομένων. * Junar για την διαμοίραση και ενσωμάτωσή των δεδομένων μας στα άρθρα μας και στα blog posts. * Tableau Public για διαδραστικές απεικονίσεις δεδομένων μας * Qlikview, ένα γρήγορο εργαλείο επιχειρηματικής ευφυΐας για την ανάλυση και το φιλτράρισμα μεγάλου όγκου δεδομένων * NitroPDF για τη μετατροπή αρχείων PDF σε κείμενο και Excel αρχεία και * Πίνακες Google Fusion για απεικονίσεις σε χάρτη
La Nacion (Argentina)
— Angélica Peralta Ramos
Ως κίνημα βάσης χωρίς καμία τεχνική προκατάληψη, εμείς στο Transparency Hackers χρησιμοποιούμε πολλά διαφορετικά εργαλεία και γλώσσες προγραμματισμού. Κάθε μέλος έχει τις δικές του προτιμήσεις και η μεγάλη αυτή ποικιλία είναι η δύναμή μας και η αδυναμία μας. Μερικοί από εμάς είναι χτίζουμε ένα " Transparency Hacker Linux Distribution", το οποίο θα μπορούμε να το εκκίνησουμε οπουδήποτε και να αρχίσουμε την εξερεύνηση δεδομένων. Αυτή η εργαλειοθήκη έχει μερικά ενδιαφέροντα εργαλεία και βιβλιοθήκες για τον χειρισμό των δεδομένων, όπως το Refine, το RStudio και το OpenOffice Calc (συνήθως παραβλέπεται ως εργαλείο από τους καλά ενημερωμένους χρήστες, αλλά είναι πραγματικά χρήσιμο για γρήγορη μικροεπεξεργασία). Επίσης, χρησιμοποιούμε το Scraperwiki αρκετά για να δημιουργούμε πρωτότυπα γρήγορα και να αποθηκεύουμε τα αποτελέσματα των δεδομένων online.
Transparência Hacker
— Pedro Markun

Για την απεικόνηση των δεδομένων και των γραφημάτων, υπάρχουν πολλά εργαλεία που μας αρέσουν. Η Python και η NumPy είναι αρκετά ισχυρά. Λίγα άτομα στην κοινότητα έχουν πειραματιστεί με την R, αλλά στο τέλος της ημέρας εξακολουθώ να πιστεύω οι Javascript βιβλιοθήκες για γραφήματα όπως η δ3, η Flot και η RaphaelJS χρησιμοποιούνται στην πλειονότητα των έργων μας. Τέλος, έχουμε πειραματιστεί με τη χαρτογράφηση και το Tilemill αποτελεί ένα πολύ ενδιαφέρον εργαλείο. _