Przygotowywanie wizualizacji danych pod wieloma względami przypomina gotowanie. W obu przypadkach możemy: na szybko odgrzać coś w mikrofali, mając więcej czasu i zapału możemy, postępując ściśle według książki kucharskiej, ugotować obiad, a mając czas, zapał i doświadczenie możemy improwizować i eksperymentować z potrawami, zmieniając proporcje składników, sposób przygotowania potrawy, kompozycje przypraw. Zdarza się, że eksperymenty są niezjadliwe, ale z czasem coraz częściej zdarzać się będą odkrycia o ciekawym i oryginalnym smaku.
Są oczywiście i różnice pomiędzy wizualizacją danych a gotowaniem. Jedną z nich jest to, że można przez całe życie dobrze jeść, korzystając wyłącznie z gotowych przepisów, ponieważ książki kucharskie są pełne dobrych przepisów. W przypadku analiz statystycznych czy wizualizacji danych gotowych szablonów jest niewiele, a korzystanie wyłącznie z szablonów, szczególnie tych słabych, przypomina artykuły pisane zgodnie ze wzorcem:
Badanie przeprowadzono na grupie ______ osób. W badaniu zastosowano metodę randomizacji ______ . Zebrane dane analizowano testem ______ i otrzymano w wyniku ______.
Może i taki szablon zawiera wszystkie niezbędne informacje, ale widząc go po raz kolejny, być może różniący się jedynie kilkoma detalami, prędzej wywołamy uczycie znużenia i zniechęcenia niż ciekawości i ekscytacji.
Pracując nad grafiką statystyczną będziemy więc modyfikować istniejące szablony, oglądać dobre rozwiązania, by to, co dobre, wykorzystywać w kolejnych projektach. Czy są jednak reguły mówiące czego z czym nie mieszać? Reguły, które oszczędzą nam niespodzianek smakowych takich jak mieszanina chrzanu i dżemu na torcie?
Zanim przejdziemy dalej, ustalmy terminologię, która pozwoli na precyzję i zwięzłość opisu. Wykres będzie dla nas reprezentacją danych Wykres składa się z elementów, takich jak słupki, koła, ikony. Dane składają się ze zmiennych (cena, waga, temperatura, prędkość) które opisane są w skalach Wizualizacja danych polega na przedstawieniu/zakodowaniu danych za pomocą cech elementów wykresu. Cechami mogą być: pozycja, wielkość, kształt, barwa, nasycenie, orientacja czy liczba powtórzeń. Przykładowo długość słupka na wykresie może przedstawiać cenę książki. Słupek jest elementem wykresu, długość jest cechą tego elementu. Cena książki jest zmienną, którą przedstawiamy, a odpowiedniość długości słupka do ceny to kodowanie zmiennej na cechę elementu wykresu. Zmieniając sposoby kodowania cech, możemy tę samą historię opowiedzieć na wiele sposobów.
Skoro w tym miejscu tak troszczymy się o terminologię, to warto też zauważyć, że termin wizualizacja danych może być mylący. Nie chodzi przecież o przedstawianie liczb ale o pokazanie relacji opisywanych przez liczby. Najlepszym sposobem przedstawiania liczb jest tabela, najlepszym sposobem pokazywania relacji pomiędzy liczbami jest dobry wykres.
Piekąc ciasto trzeba zadbać o jego konsystencję, smak i wygląd. Spoiwem może być mąka, ale mogą być też mielone orzechy. Ciasto można osłodzić dodając cukru, cukru pudru, miodu lub rodzynek. Zamiast truskawek można dodać malin. Każdy element powinien pełnić w tej mieszaninie określoną rolę, ale poszczególne elementy są wymienne, liczy się kompozycja całości.
Przygotowując wizualizację danych, mamy zazwyczaj dużą swobodę co do tego, jak przedstawić historię. Bez względu na to, czy nasze dane to trzy liczby, niewielka tabela, czy super big peta giga dane, to historia, którą chcemy pokazać, pomaga zdecydować, które informacje powinny zostać przedstawione na pierwszym, a które na dalszym planie.
Wybierając zmienne (czyli informacje do przestawienia), należy pamiętać, że zmienne nie rodzą się równe. Wartości zmiennych opisywane są liczbami, jednak te liczby mają różne znaczenia w zależności od skali, w której są mierzone. Różne skale można kodować w lepszy lub gorszy sposób i różne charakterystyki wykresu nadają się lepiej lub gorzej do kodowania określonych zmiennych.
Na potrzeby dalszego opisu wyróżnijmy cztery grupy zmiennych odpowiadające czterem głównym skalom pomiarowym.
Skala ilorazowa (ang. ratio scale), czyli skala, w której istnieje fizyczny sens zarówno dla różnic, jak i ilorazów. Przykładem wartości w tej skali jest wielkość produkcji czy cena produktu. Zarówno różnica cen (kilogram gruszek jest o 2 złote droższy od kilograma jabłek) jak i iloraz cen (pomidory są dwa razy droższe niż jabłka) ma fizyczny sens. Skala ilorazowa charakteryzuje się tym, że ma element zerowy i ten element ma sens fizyczny (cena zero złotych, wysokość zero centymetrów itp). Zauważmy, że iloraz wartości nie zależy od jednostki (dwa razy więcej to dwa razy więcej, czy to w kilogramach czy w tonach) a różnica zależy. Dlatego jednostka jest atrybutem skali przedziałowej.
Skala przedziałowa/różnicowa (ang. interval scale) to skala, w której istnieje fizyczny sens różnic wartości, ale nie ich ilorazów. Przykładem wartości w tej skali są daty czy temperatura w stopniach Celcjusza. Nazwa “skala przedziałowa” bierze się stąd, że równe odległości/przedziały pomiędzy wartościami odpowiadają równym różnicom wartości. Czyli, jeżeli odległość pomiędzy $A$ i $B$ jest taka sama jak pomiędzy $D$ i $E$, to długości tych przedziałów są równe $A-B = D-E$.
W przypadku dat ma sens odejmowanie, możemy powiedzieć, że I wojna światowa rozpoczęła się 25 lat przed II wojną światową, ale nie mają sensu ilorazy (nie ma sensu mówić, że data rozpoczęcia II wojny jest o 13% większa niż data rozpoczęcia I wojny światowej).
Porównując temperatury dwóch obiektów, załóżmy jednego o temperaturze $40^{o}C$, a drugiego o $20^{o}C$, nie ma sensu mówić o ilorazach temperatur w skali Celcjusza, ponieważ pierwsza z nich nie jest dwa razy wyższa niż druga. Zero w skali Celcjusza jest wyborem arbitralnym i te same temperatury przedstawione w stopniach Kelvina (odpowiednio $313,15^{o}K$, $293,15^{o}K$) czy Fahrenheita (odpowiednio $68^{o}F$, $104^{o}F$) odpowiadałyby różnym proporcjom.
Dla wartości w skali Celcjusza nie jest zasadne korzystanie z cech pokazujących względne proporcje. Przestawianie temperatury za pomocą pasków o długości proporcjonalnej do liczb 40 i 20 byłoby błędem ponieważ temperatura $40^{o}C$ nie jest ani dwa razy cieplejsza ani nie niesie dwukrotnie więcej energii niż $20^{o}C$.
Skala porządkowa (ang. ordinal scale), to skala, dla której istnieje fizyczny sens dla kolejności wartości, ale nie dla ich różnic czy ilorazów. Przykładem wartości w tej skali są iloraz inteligencji w skali IQ, ocena w szkole czy wykształcenie.
Wartość IQ jest cechą unormowaną tak, by miała średnią 100 i odchylanie standardowe 15 w populacji. Wyższe wartości odpowiadają większej inteligencji (tego rodzaju inteligencji, który jest tą skalą mierzony). O ile więc porządek wartości ma pewien rzeczywisty sens, to ani ilorazy, ani różnice dwóch wartości IQ nie mają sensu. Wartość ilorazu inteligencji 200 nie oznacza dwukrotnie bardziej inteligentnej osoby od osoby o ilorazie inteligencji 100. Wartości IQ nie są też jednorodne wzdłuż skali, ponieważ różnica 30 punktów pomiędzy IQ 100 a IQ 130 jest znacznie mniejsza niż różnica pomiędzy IQ 130 a IQ 160.
W przypadku ocen w szkole, ocena dostateczna (zazwyczaj kodowana jako 3) jest niższa od oceny celującej (zazwyczaj kodowanej jako 6). Nie ma jednak sensu mówienie, że ocena dostateczna jest dwukrotnie niższa od celującej lub że różnica ocen wynosi 3 (trzy czego?). Z tego samego powodu nie ma sensu liczenie średnich ocen. W niektórych krajach, np. USA, oceny są kodowane jako litery A–F, nikomu więc nie przychodzi do głowy liczenie średniej z liter. W Polsce oceny są liczbami, stąd też wszechobecna średnia ocen z kartkówek, przedmiotów, lat nauki.
Skala nominalna (ang. nominal scale) to skala, w której wartości można zapisać za pomocą liczb, ale nie ma fizycznej interpretacji dla kolejności tych wartości, różnic czy ilorazów. Przykładem wartości w tej skali są numery PESEL, kody pocztowe, numery telefonów, czy płeć zakodowana np. za pomocą wartości 0
dla kobiet i 1
dla mężczyzn.
Na wykresie możemy przedstawiać wartości w różnych skalach. Wartości te są reprezentowane przez różne cechy elementów wykresu, takie jak długość, pole, kąt, liczba, pozycja, natężenie, kształt, barwa.
W kolejnych podrozdziałach przyjrzymy się, jak poszczególne cechy ze sobą pracują i jak można je wykorzystać w prezentacji danych. Poznamy zalety i wady każdej z tych cech, dzięki czemu będziemy mogli je lepiej komponować ze sobą, tworząc bogate w informacje prezentacje danych. Na dobrym wykresie informacje odkrywane są etapami, najważniejsze są najbardziej widoczne, ale nie przesłaniają tych, które powinny zostać odkryte na kolejnych etapach analizy.
Cechy są przedstawiane w kolejności, począwszy od tych, które najlepiej nadają się do przedstawiania zmiennych w skali ilorazowej, po zmienne, które najlepiej nadają się do przedstawienia zmiennych w skali nominalnej.
Jedną z najczęściej wykorzystywanych cech jest długość. Często dane przedstawia się za pomocą długości pasków lub wysokości słupków (paski i słupki różnią się tylko tym, że jedne są szersze a drugie wyższe), ale można też je przedstawiać za pomocą długości łuków koła, wysokości ikon lub elementów ikon na wykresie.
Długość jest cechą szczególnie dobrą do prezentacji zmiennych na skali ilorazowej. Intuicyjnie, porównując dwie długości, porównujemy ich względne stosunki i robimy to bardzo szybko i dokładnie. Porównując liczby 179 i 537, znacznie łatwiej będzie zauważyć, że pierwsza jest trzy razy mniejsza niż druga, jeżeli przedstawimy je za pomocą długości dwóch słupków niż za pomocą liczb trzycyfrowych.
Badania nad percepcją pokazują, że łatwiej i dokładniej można porównać długości odcinków niż nieregularnych krzywych (łuków czy pętli). Zgodnie z badaniami Williama Clevelanda [Journal of the Royal Statistical Society Series A, 150: 192--229, 1987] najdokładniej odczytywane są względne długości obiektów ułożonych wzdłuż wspólnej osi. Przyjrzymy się kilku przykładowym zastosowaniom długości do przedstawiania zmiennych.
Najbardziej popularnym typem wykresu wykorzystującym długości są różnorodne odmiany wykresów słupkowych, nazywanych też wykresami paskowymi lub histogramami Oglądając taki wykres, instynktownie porównujemy stosunki długości słupków. Dlatego z wykresów tego typu łatwiej odczytać, ile razy lub o jaki procent jedna wielkość jest większa od drugiej. Trudniej przychodzi nam oceniać różnice długości. To, że jeden z pasków jest dłuższy o jeden centymetr, będzie inaczej odbierane, jeżeli ten pasek ma dwa centymetry, a inaczej, jeżeli ma tych centymetrów trzydzieści.
Wykres słupkowy pozwala na porównywanie względnych proporcji długości słupków, które powinny odpowiadać względnym proporcjom danych, ale aby tak było, długość powinna być proporcjonalna do prezentowanych wartości. Oznacza to, że jeżeli pasek zaczepiony jest na osi, to musi zaczynać się w punkcie zero (tylko wtedy dwa razy dłuższy pasek będzie odpowiadał dwa razy większej wartości). Niestety ta reguła jest często łamana w sytuacjach, gdy okazuje się, że po zaczepieniu pasków w zerze nie widać różnic pomiędzy wartościami (przykłady takich przesunięć pokażemy w kolejnym rozdziale). Wtedy osoba pokazująca dane, aby podkreślić różnice pomiędzy wartościami, przesuwa punkt zaczepienia pasków, powodując błędne wrażenie większych proporcji niż te opisywane przez dane. Dlaczego błędne? Jeżeli słupki uczciwie zaczepione w punkcie 0
nieznacznie tylko różnią się długością, to oznacza, że prezentowane wielkości nie różnią się znacznie, przez co albo nie należy pokazywać proporcji (= użyć innego wykresu), albo uczciwie pokazać, że wartości się nie różnią (= pozostawić paski o podobnych długościach).
Z prezentacją danych za pomocą długości słupków/pasków wiąże się kilka ciekawych zagadnień. Pierwszym jest wybór kierunku, w którym skierowane są słupki. Najlepiej szacujemy długości obiektów umieszczonych wzdłuż wspólnej osi pionowej lub poziomej, więc paski powinny być skierowane w jednym z tych kierunków. Czy któraś z tych dwóch orientacji jest lepsza? Tak się składa, że najczęściej wykresy umieszczane są w prostokątnych obszarach (bardzo często w proporcjach zbliżonych do 7:5), które są z reguły szersze niż wyższe. Z punktu widzenia precyzji odczytywania wartości, im więcej mamy miejsca na pokazanie czegoś, tym większą mamy rozdzielczość, by to coś przedstawić. Z tego punktu widzenia, jeżeli obszar do wypełnienia wykresem jest szerszy niż wyższy, to lepiej by paski przedstawione były poziomo. W mediach można czasem spotkać skrajne przykłady łamania i tej reguły. Karykaturalnie wyglądają słupki kilkukrotnie szersze niż wyższe, w których jednak to wysokość jest cechą związaną z prezentowanymi danymi. W pewnych polach zastosowań spotkać można reguły zwyczajowe, np. by poziome paski używać do prezentacji długości (np. długości rzek) a pionowe słupki do innych rodzajów danych (np. kwoty pieniędzy). Należy też mieć na uwadze przyzwyczajenia osób, do których kierujemy wykres. Dla matematyków i inżynierów, osób często obcujących z wykresami funkcji, naturalnym ułożeniem są parametry na osi poziomej, a wartości na osi pionowej, co jest realizowane przy pionowej orientacji słupków.
Kolejne ciekawe zagadnienie to szerokość słupka/paska. Na standardowym wykresie paskowym szerokość pasków nie niesie żadnej informacji. Jest wręcz czynnikiem zakłócającym, ponieważ nasza percepcja musi wpierw ocenić, czy szerokość pełni, czy nie pełni jakiejś funkcji. Minimalistyczne podejście do prezentacji, którego jestem wyznawcą, nakazuje, by usuwać z wykresu wszystkie te elementy, które nie pełnią żadnej funkcji. To podejście prowadzi do usunięcia szerokości pasków i zastępowania pasków odcinkami. Jeżeli odcinek jest bardzo wąski to warto zakończyć go dodatkowo punktem tak, by wyraźnie było widać, gdzie ten odcinek się kończy. O ile punkt jest jeszcze do przyjęcia, to nie należy używać strzałek lub innych elementów, które mogą wpłynąć na optyczną ocenę długości odcinka.
Kolejnym istotnym czynnikiem, ułatwiającym poprawne odczytanie względnych długości, jest wyrównanie pasków wzdłuż wspólnej osi. Nawet jeżeli dwa odcinki są równoległe, ale nie mają wspólnego punktu zaczepienia, precyzja odczytania proporcji ich długości znacząco spada. Jeżeli odcinki nie są równoległe, to jeszcze trudniej porównać jest ich długości.
Z punktu widzenia precyzji odczytania informacji z wykresu bardzo złym pomysłem jest więc umieszczanie słupków ma kartogramach, ponieważ trudno jest porównać długości słupków pozaczepianych w różnych punktach mapy. Znacznie lepiej będzie zamiast długości użyć innej cechy nieczułej na wspólny punkt zaczepienia, takiej jak nasycenie lub wielkość.
Problem wspólnej osi dotyka również wykresy, w których słupki są dodatkowo podzielone na segmenty.
Dzielenie słupków na segmenty ma pewne zalety. Dla każdego ze słupków pokazuje, jaką częścią całości jest określona składowa, i dla każdego ze słupków ta ocena jest dosyć dobra. Ale podział na segmenty ma też wady. Jedną z wad jest to, że nie sposób porównać względnego udziału składowych w różnych paskach. Dla jednego paska wyróżnione może być jego 20%, ale jeżeli drugi pasek będzie miał inną długość to i to 20% będzie miało inną długość, a porównanie względnych długości wcale nie jest proste.
Inna trudność to porównanie bezwzględnych wartości poszczególnych składowych, o ile nie zaczynają się w tym samym punkcie. A poza pierwszymi segmentami, pozostałe najpewniej zaczynają się w różnych punktach.
Istnieje kilka wyjątków od reguły, by porównywane paski były wyrównane wzdłuż wspólnej osi. Wszystkie te wyjątki związane są z przesunięciem akcentu ze względnego porównania długości na jakiś inny aspekt. Na przykład można tak przedstawić migracje ludności (patrz rysunek ref{fig:bilansZN}), eksport/import dóbr, czy, z mniej standardowych wskaźników, stosunek wiadomości pocztowych wychodzących/przychodzących od dziewczyny. Zasada wspólnego punktu zaczepienia jest tu co prawda obecna ale w złagodzonej formie. Jedynie dwa sąsiednie paski mają wspólny punkt zaczepienia.
Innym przykładem, gdy odstępstwo od reguły wspólnego punktu zaczepienia może być korzystne, jest prezentacja zmiennych w skali Likerta lub podobnej. Standardowa skala Likerta jest używana do oceny nastawienia do pewnego zjawiska, przy czym to nastawienie opisane jest w skali symetrycznej, w której element środkowy (jeżeli występuje) jest elementem neutralnym. Zazwyczaj jest to skala pięciostopniowa, choć można oczywiście spotkać podobne skale dwu-, trzy-, cztero- i więcej stopniowe. Przykładowe warianty tej skali to odpowiedzi: “zdecydowanie zgadzam się”, “raczej się zgadzam”, “nie mam zdania”, “raczej się nie zgadzam”, “zdecydowanie się nie zgadzam”.
Przedstawiając względny udział odpowiedzi “zgadzam się” oraz “nie zgadzam” warto zaczepić punkt zero osi w środku przedziału dla wartości neutralnej. Dzięki temu łatwiej porównać jest bilans pozytywnych i negatywnych odpowiedzi.
Zastosowań wykresów paskowych jest wiele i również nie sposób ich tutaj wszystkich wymienić. Popularne histogramy są koniec końców wykresami paskowymi. Ostatnim przykładem interesującego wykresu wykorzystującego długości pasków, który tu przedstawimy, jest tak zwana piramida wieku/piramida populacyjna, czyli dwa histogramy sklejone ze sobą wzdłuż pionowej osi. Pionowa oś jest podzielona na kategorie wiekowe, najczęściej odpowiadające przedziałom wiekowym równej długości, w poziomie zaś przedstawiany jest względny udział określonej grupy wiekowej w populacji w podziale na płeć.
Taka prezentacja danych ułatwia porównanie względne grup wiekowych, szczególnie sąsiednich. Trudno jest jednak porównać względne długości pasków skierowanych w lewo i prawo. Okazuje się jednak, że i tę trudność można tanim kosztem pokonać. W grupie, w której występuje nadwyżka, wystarczy zaznaczyć, o ile dany pasek jest dłuższy od paska skierowanego w stronę przeciwną.
Lista zastosowań długości jest ograniczona wyłącznie do wyobraźni projektanta wykresu. Przedstawialiśmy przykłady dla długości pasków, ale można wykorzystywać na wykresie długości innych elementów wykresu.
Podrozdział poświęcony długości zakończymy przykładem złego jej wykorzystania. Zdarza się, że całkiem czytelny wykres, jest niszczony przez dodawanie zbędnych udziwnień. Jednym z najbardziej szkodliwych, niczego nie wnoszących udziwnień jest pseudo-perspektywa, mająca stwarzać wrażenie trójwymiarowości. Powoli takie zbędne udziwnienia znikają z raportów, ale wciąż można spotkać wykresy, których autor z jakiegoś powodu sądzi, że zasugerowanie trzeciego wymiaru uczyni wykres ciekawszym. Tymczasem, jeżeli dane i zawarta w nich informacja nie czynią wykresu ciekawym, to żadne ozdobniki mu nie pomogą.
Pseudo-trzeci wymiar jest szkodliwy z wielu powodów. Jednym jest to, że potrafimy dobrze porównywać względne długości obiektów o wspólnym punkcie zaczepienia. Ale gdy w grę wchodzi trzeci wymiar, okazuje się, że obiekty z drugiej linii, “głębiej” położone na wykresie są wyżej lub niżej niż obiekty z pierwszej linii. Przez co znakomicie utrudniamy obserwatorowi możliwość odczytania, który z tych pasków jest dłuższy.
Kolejnym powodem jest trudność z umieszczaniem osi. Obiekty położone głębiej powinny mieć inną oś niż obiekty położone płycej. Gdy oś jest umieszczona z przodu wykresu, czasem okazuje się, że słupek przedstawiający wartość 1810 kończy się przed linią siatki odpowiadającą wartości 1800, tylko dlatego, że słupek jest głębiej niż linie siatki. Jeszcze jednym problemem jest dodatkowe pokazywanie górnej ścianki pudełka, która dodatkowo “podnosi” jego wysokość. Pokazywanie tej górnej ścianki nic nie wnosi, ale zaburza postrzeganie długości.
Podsumowując, długość pasków na wykresie jest cechą pozwalającą na bardzo dokładne prezentowanie zmiennych ze skali ilorazowej, o ile nie zepsujemy tego efektu zbędnymi udziwnieniami.
Kolejną cechą użyteczną do prezentowania danych jest liczebność. Jest ona rzadziej stosowana od długości, ale cechuje się równie doskonałą precyzją przedstawiania i pozwala na otrzymanie interesujących efektów. Liczba wystąpień określonego obiektu na wykresie staje się nową jednostką. Jeżeli tych wystąpień nie jest dużo, to jesteśmy w stanie intuicyjnie dokładnie oszacować tę liczbę. Jeżeli tych wystąpień jest dużo, to można je pogrupować w widoczny sposób tak, by łatwe było oszacowanie liczby grup.
Podobnie jak długość, liczebność jest cechą szczególnie dobrą do prezentacji zmiennych na skali ilorazowej. Jest tak po części dlatego, że jeżeli obiekty umieszczone są w jednej linii, to liczba ich wystąpień jest proporcjonalna do długości całej grupy. Chcemy przedstawić liczbę 75? Określmy, że jeden symbol odpowiada wartości 10 i narysujmy 7 i pół symbolu.
Taki sposób przedstawiania danych był preferowany przez Otto Neuratha [Neurath Otto. Modern Man In The Making 1939], który stworzył system ISOTYPE do komunikacji danych statystycznych szerokiemu odbiorcy. Jego celem było wykorzystanie grafiki statystycznej do komunikowania informacji o funkcjonowaniu państwa obywatelom i system ISOTYPE ten cel realizował. Neurath preferował używanie liczby obiektów do przedstawiania wartości z uwagi na łatwość interpretacji i czytelność tego sposobu prezentacji.
Oczywiście dowolny symbol może zamienić się w jednostkę, ale najlepiej, by ten symbol swoim wyglądem kojarzył się ze zmienną, którą opisuje. Jeżeli opisujemy liczebność populacji ludzi, to ludzik jest dobrym rozwiązaniem, jeżeli opisujemy produkcję samochodów, to może sylwetka samochodu? Otto Neuratha opracował cały zestaw czytelnych ikon, które mogą być używane do opisywania typowych aspektów funkcjonowania państwa.
Wybierając wielkość jednostki, którą przedstawia pojedynczy symbol, warto zadbać by liczba obiektów była łatwa do szybkiego oszacowania. Najlepiej, by była w granicach od kilku do kilkunastu, maksymalnie dwudziestu elementów. Jeżeli elementów jest więcej, to warto je pogrupować np. w grupy po 5–10 obiektów. Jeżeli przy odczytaniu wykresu trzeba spędzić sporo czasu, aby dokładnie porachować liczbę obiektów, to kłóci się to z ideą prezentacji danych jako szybkiego medium w komunikowaniu informacji.
Długość i liczebność to dwie cechy, które najbardziej precyzyjnie przedstawiają informacje o zmiennych w skali ilorazowej. Czasem jednak precyzja przekazania informacji to nie wszystko, liczy się również wizualna atrakcyjność prezentacji danych. Okazuje się, że cechą względnie prostą w odczytaniu, a jednocześnie atrakcyjną wizualnie jest pole. Wizualna atrakcyjność polega na tym, że duże pola łatwo zauważyć, “rzucają się w oczy” i przykuwają uwagę. Używając pola można też lepiej wypełnić dostępną przestrzeń, nie pozostawiając dużych białych plam, jak to ma miejsce w przypadku prezentacji opartej o długość czy pozycję.
Zanim jednak zaprezentujemy przykłady zastosowań pola, warto wymienić kilka wad tego sposobu prezentacji. Cztery wady wydają się być najpoważniejsze.
Względne stosunki pól figur są oceniane z mniejszą dokładnością niż stosunki długości. Dlatego, jeżeli zależy nam na precyzji przedstawienia danych, pole może nie być najlepszym wyborem.
Odbiór powierzchni figury zależy od natężenia koloru tej figury. Jeżeli przedstawiane powierzchnie różnią się kolorami, to kolory intensywniejsze będą optycznie powiększały, a kolory stonowane i ciemniejsze będą wizualnie pomniejszały (Czarne ubrania wyszczuplają). Aby uniknąć tego problemu, należy używać kolorów o podobnym natężeniu lub z nich zrezygnować.
Im bardziej nieregularne są porównywane figury, tym trudniej oszacować i porównać ich pola. Najłatwiej przychodzi porównywanie pól regularnych kształtów, takich jak koła czy kwadraty, trudniej prostokątów, a jeszcze trudniej nieregularnych figur.
Im bardziej różne są kształty porównywanych figur, tym trudniej ocenić ich względne stosunki pól. Porównując dwa prostokąty, najłatwiej ocenić względne stosunki pól, gdy prostokąty te mają tę samą szerokość, ponieważ wtedy ocena pól oparta jest o ocenę długości. Mniej dokładnie, ale wciąż względnie dobrze, można oceniać stosunki pól prostokątów o tych samych proporcjach długości boków. Najmniej dokładnie porównywać można pola prostokątów różniących się znacznie proporcjami długości boków. Podobnie z innymi figurami, takimi jak elipsy, czy bardziej złożonymi symbolami. Im bardziej dwa kształty są podobne, tym łatwiej będzie porównać ich względne pola.
Czy, szanowny Czytelniku, czujesz się ostrzeżony, jak bardzo pola są niebezpieczne? Przyjrzyjmy się zatem teraz przykładom użycia tej cechy.
Najbardziej typowym zastosowaniem są wykresy kafelkowe, czyli wykresy, na których wartości liczbowe przedstawione są za pomocą wielkości prostokątów/kafelków. Intuicyjna interpretacja jest taka, że im większy kafelek tym ważniejsza/większa jest reprezentowana przez niego wartość. Duże wyraźne kafelki wyglądają solidnie, a jak pokazują badania, solidnie wyglądający wykres budzi większe zaufanie (paradoksalnie, nawet jeżeli mniej dokładnie przedstawia wartości).
Kafelki znajdują zastosowanie nie tylko na wykresach statystycznych. Coraz częściej są też wykorzystywane w czytnikach wiadomości do zaznaczania, które wiadomości są ważniejsze, na stronach internetowych gazet lub w systemie operacyjnym do nawigacji po aplikacjach.
Ponieważ kafelki zazwyczaj wypełniają pewien prostokątny obszar, nadają się świetnie do prezentowania struktury, np. struktury wydatków, inwestycji, nakładów.
Pozwalają dodatkowo zaznaczyć hierarchię przedstawianych wartości. Przykładowo można wszystkie wydatki podzielić w pierwszym kroku na obszary, a następnie w ramach każdego obszaru na podobszary. Na wykresie całe dostępne pole będzie w pierwszym kroku podzielone na prostokąty odpowiadające obszarom, a następnie każdy z tych kafelków będzie podzielony na mniejsze kafelki. Strukturę można zaznaczyć na różne sposoby, np. stosując grubsze krawędzie dla kafelków opisujących obszary lub inne kolory dla różnych obszarów.
Wadę wykresu kafelkowego stanowi trudność w porównywaniu względnym pół prostokątów o różnych proporcjach długości boków. Jednym ze sposobów na przezwyciężenie tego problemu jest użycie kół zamiast prostokątów. Taki sposób prezentacji nazywa się często wykresem bąbelkowym
Koło jest bardziej naturalnym kształtem niż prostokąt, jeżeli więc nie dbamy o precyzje prezentowania wielkości, ten typ prezentacji może być graficznie atrakcyjny. Koła są też używane, aby przykuć uwagę oryginalnym wyglądem. Pewnym problemem są puste, nie pełniące żadnej funkcji, pola pomiędzy kołami. Można jednak metodą prób i błędów znaleźć takie rozłożenie kół, przy którym niewiele przestrzeni się marnuje.
Z punktu widzenia dokładności prezentacji liczb wykres kafelkowy jest ciekawym rozwiązaniem, szczególnie, gdy chcemy przedstawić wiele elementów składowych jakiejś większej całości. Pozwala też na przedstawienie hierarchii wartości, co często jest użyteczne. Gdy chcemy prezentować kilkupoziomowe hierarchie, które na kolejnych poziomach dzielone są tymi samymi czynnikami, bardzo użyteczny może być wykres mozaikowy
Aby efektywnie odczytywać informacje z wykresu mozaikowego, potrzeba więcej umiejętności, jest to prawdopodobnie powód, dla którego jest on tak rzadko wykorzystywany, pomimo wielu niewątpliwych zalet.
Jak więc go czytać? Przyjmijmy, że chcemy przedstawić udział pewnych wartości w rozbiciu na różne zmienne. Np udział osób w populacji w rozbiciu na wykształcenie, wiek i płeć. Strukturę kredytów bankowych w rozbiciu na typ kredytobiorcy, wielkość długu, okres zadłużenia. Przykłady można mnożyć.
Punktem wyjścia jest prostokąt opisujący całą populację. Następnie ten prostokąt dzieli się w pionie lub poziomie na części zależne od udziału pierwszej z interesujących nas zmiennych w populacji. Jeżeli podzieliliśmy prostokąt w poziomie, to względny udział szerokości pokaże, jakie wartości pierwszej ze zmiennych są częstsze lub rzadsze.
W kolejnym kroku każdy z uzyskanych w pierwszym kroku prostokątów dzielimy w pionie lub poziomie na części przedstawiające względny udział drugiej zmiennej w grupie osób o określonej wartości pierwszej zmiennej. Jeżeli pierwszą zmienną była grupa wiekowa a drugą wykształcenie, to każdy prostokąt odpowiadający grupie wiekowej dzielimy następnie na podprostokąty odpowiadające udziałowi określonego wykształcenia w danej grupie wiekowej. Pozwala to na bardzo łatwe porównanie, czy w różnych grupach wiekowych struktura wykształcenia jest podobna czy różna. Analogicznie możemy dodawać kolejne wymiary, dalej dzieląc każdy z prostokątów na części.
Wykresy mozaikowe są też bardzo użyteczne podczas prezentacji danych, w których chcemy “zagłębić się w problem”. W takim przypadku kolejność uwzględniania zmiennych w prezentacji różni się jednak od kolejności zmiennych użytych do konstrukcji wykresu.
Dlaczego? Przypuśćmy, że interesuje nas struktura wykształcenia w kraju. Ciekawym sposobem prezentacji takiej struktury jest rozpoczęcie od wykresu pokazującego, ile jest osób z wykształceniem wyższym, średnim i gimnazjalnym lub niższym. Następnie “zejście poziom głębiej” i przyjrzenie się tej strukturze w podziale na grupy wiekowe (ten wykres najpierw dzieli populacje na grupy wiekowe a następnie na wykształcenie). W kolejnym kroku możemy dodatkowo zejść jeszcze głębiej z podziałem i zobaczyć, jak wykształcenie wygląda w różnych grupach wiekowych i w podziale ze względu na płeć (ten wykres otrzymujemy, dzieląc populację najpierw na grupy wiekowe, a następnie na płeć i wykształcenie).
Technicznie rzecz ujmując, wykresy mozaikowe przedstawiają warunkowe rozkłady zmiennych. Używając ich umiejętnie, możemy skuteczniej wyjaśniać względne zależności pomiędzy zmiennymi.
Ostatnią z cech, które są używane do przedstawiania zmiennych w skali ilorazowej, są kąty. Charakteryzują się one mniejszą precyzją kodowania wartości niż długość, liczebność czy pole. Względnie dobrze odczytywane są kąty bliskie wielokrotnościom $90^o$, ale im dalej od kąta prostego, tym trudniej dokładnie oszacować, na jaki kąt właściwie patrzymy.
Pomimo tego braku w precyzji, kąty i nachylenia są wykorzystywane do przedstawiania liczb i zależności pomiędzy nimi, szczególnie w sytuacjach, gdy odczytanie dokładnej wartość liczbowej nie jest ważne, a ważna jest identyfikacja niedużej liczby możliwych wartości (typu niewielkie nachylenie, średnie lub duże). Zaletą kątów jest też ograniczona dziedzina od $0^o$ do $360^o$ i intuicyjna interpretacja kątów jako części całości (kąta pełnego).
Najbardziej znany wykres wykorzystujący kąty to oczywiście wykres kołowy (ang. pie chart). Wartości liczbowe przedstawiane są proporcjonalnie do kątów, a tym samym do pól wycinków koła.
Wykresy tego typu mają wielu zagorzałych zwolenników jak i wielu zagorzałych przeciwników. Przeciwnicy dowodzą, że nasz umysł nie potrafi dokładnie odczytywać kątów, które nie są wielokrotnościami $90^{o}$. Również na dokładność oceny kątów wpływa ich położenie. Dokładniej odczytujemy kąty umieszczone w osi poziomej niż ukośnej. Puryści dbający o dokładność przekazu w najlepszym przypadku odradzają, w najgorszym piętnują używanie wykresów kołowych
Dlaczego więc te wykresy są używane? Z jednej strony ich konstrukcja jest bardzo intuicyjna. Patrząc na wykres od razu wiemy, że przedstawia udział różnych czynników w całości. Pracując kiedyś ze studentami ASP przy prezentacji danych, dowiedziałem się również od nich, że koło jest postrzegane jako obiekt przyjazny, estetyczny, naturalny, nie straszy odbiorcy. Kierując więc komunikat do szerokiej publiczności, można poświęcić precyzję, na rzecz przyjazności.
Modyfikacją wykresu kołowego jest wykres obwarzankowy/
wykres pierścieniowy, czyli wykres kołowy z usuniętym środkiem koła.
Krytyka wykresów obwarzankowych idzie po linii krytyki wykresów kołowych, nie mając wspólnego punktu zaczepienia jest jeszcze trudniej ocenić względne proporcje kątów oraz względne proporcje pól.
Dlaczego więc piszemy o tym typie prezentacji danych? Pewną zaletą wykresów obwarzankowych jest możliwość porównania struktury dwóch lub, w skrajnych przypadkach, większej liczby grup.
Standardowe wykresy kołowe zupełnie się do tego nie nadają. Umieszczenie dwóch wykresów kołowych obok siebie w żaden sposób nie ułatwia porównywanie udziału poszczególnych wycinków w różnych kołach. Obwarzanki mogą być zestawiane jeden w drugim, przez co łatwiej można porównać strukturę. W tym przypadku najlepszym elementem do porównywania jest względna długość łuku wspólnego pierścienia obu obwarzanków.
O ile można szukać usprawiedliwienia dla wykresów kołowych i obwarzankowych, nie sposób znaleźć żadnego usprawiedliwienia dla wykresów kołowych przedstawionych w pseudo trzech wymiarach.
W wykresach kołowych wielkości opisane są przez kąty i powierzchnie. A co się dzieje z kątami i powierzchniami, gdy dodajemy rzut z przestrzeni 3D na 2D? Kąty w osi poziomej są optycznie pomniejszane, kąty w osi pionowej są optycznie powiększane, podobne zniekształcenie dotyczy powierzchni, która jako powierzchnia nieregularnego kształtu jest dodatkowo trudna w oszacowaniu.
Bardzo proste eksperymenty pokazują, że obserwatorzy błędnie oszacowują nie tylko wartości odpowiadające “wycinkom tortu”, ale również porządek tych wycinków.
Jedyne uzasadnienie dla trójwymiarowych wykresów kołowych to potrzeba zniekształcenia danych. Jeżeli chcemy jakąś wartość optycznie powiększyć lub zmniejszyć, to możemy ją umieścić bliżej pionowej lub poziomej osi i możliwie pochylić trójwymiarowy wykres kołowy.
O ile krytyka wykresów kołowych jest dosyć powszechna, to można znaleźć zastosowania kątów w prezentacji danych cieszące się uznaniem nawet konserwatywnych projektantów grafiki statystycznej. Jednym z takich ciekawych rozwiązań są wykresy zmian przedstawiające kierunki i względne wielkości zmian pomiędzy dwoma punktami czasu lub pomiędzy dwoma grupami.
Pomysł polega na umieszczeniu wartości dla pewnej liczby grup w dwóch kolumnach, a następnie połączeniu tych wartości odcinkami. Łatwo jest optycznie ocenić, które odcinki są płaskie, a które strome, przez co optycznie łatwiej ocenić, w których grupach zmiana była największa, a w których najmniejsza.
Typowym zastosowaniem wykresów zmian jest obserwacja, jak w czasie zmieniają się pewne wartości, np. jak zmieniła się liczba studentów w różnych typach uczelni w ciągu 10 lat, jak zmienił się stan pacjentów po zastosowaniu terapii. Można zamiast czasu porównywać zarobki dla różnych zawodów pomiędzy mężczyznami a kobietami lub pomiędzy dwoma krajami.
Wykresy zmian porównują wartości pomiędzy dwoma punktami czasowymi. Można oczywiście naturalnie je rozszerzyć na więcej punktów czasowych, otrzymując wykresy trendu, w których ewolucja pewnej wartości jest obserwowana w większej liczbie punktów czasowych.
Jeżeli chcemy ułatwić porównywanie tempa zmian (a więc ocenę, czy trend przyśpiesza, czy nie) ciekawym rozwiązaniem jest zastosowanie reguły $45^{o}$. Zaleca ona takie dobranie szerokości i wysokości wykresu, by średni kąt zmian był równy $45^{o}$. Ponieważ nasze oko ma tendencję do przekłamywania oceny kątów tak, by była ona bliższa wielokrotnościom $90^{o}$, dlatego zwiększymy w ten sposób optycznie kontrast pomiędzy miejscami, gdzie zmiana jest mniejsza, a miejscami gdzie zmiana jest większa niż $45^{o}$.
Przesadne rozciąganie wykresu będzie optycznie zmniejszało trend, a przesadne ściśnięcie będzie optycznie trend powiększało, z tego też powodu reguła $45^{o}$ jest dobrym wypośrodkowaniem pomiędzy tymi dwoma rodzajami zniekształceń.
Opisane dotychczas cechy nadają się lepiej lub gorzej do przedstawiania względnych stosunków wartości. Jednak gdy przedstawiamy zmienne opisane w skali interwałowej, ilorazy wartości mogą nie mieć sensu, tak jak nie mają sensu ilorazy temperatur. Bywa też, że zmienne są w skali ilorazowej, ale na wykresie chcemy zwrócić uwagę na różnice pomiędzy wartościami, a nie na ilorazy wartości. W obu tych przypadkach dobrym pomysłem jest zakodowanie zmiennej za pomocą pozycji, która świetnie nadaje się do przedstawiania różnic pomiędzy wartościami. Pisząc o pozycji, mam na myśli położenie obiektu wzdłuż jednej lub kilku określonych osi, zazwyczaj pionowej lub poziomej.
Najwygodniejszymi elementami do pozycjonowania są niewielkie kształty, głównie małe okręgi nazywane często punktami. Porównując względne położenie elementów, nasz mózg automatycznie ocenia odległości pomiędzy nimi, określa, które obiekty są bliżej siebie, a które dalej, wyszukuje skupiska i pustynie obiektów.
Ponieważ położenie elementów wykresu porównywane jest z położeniem innych elementów wykresu, dla oceny odległości nie ma znaczenia położenie punktu zerowego, który dla skali interwałowej może nie istnieć.
Najbardziej popularnym wykorzystaniem pozycji są wykresy punktowe, w których liczby przedstawione są jako wartości wzdłuż jednej określonej poziomej lub pionowej osi. Używając różnych kształtów punktów, możemy wzdłuż jednej linii pozycjonować różne wartości, co pozwala na znaczne upakowanie informacji na wykresie. W przypadku wykresów paskowych potrzebowalibyśmy kilku pasków obok siebie, a dla punktów wystarczy jeden odcinek.
Jedna oś jest przydatna do przedstawiania jednowymiarowych zmiennych, np. ułatwia budowanie rankingów krajów w zależności od ich produktu krajowego na mieszkańca. Ale jeżeli zbiór analizowanych obiektów jest opisany przez kilka zmiennych, to każdą z nich można przedstawić na innej osi. Chcemy pokazać dla krajów ich produkt krajowy, średnią długość życia i poziom szczęścia? Wystarczy zestawić obok siebie równolegle trzy osie i na każdej pokazać wybrany parametr każdego z krajów.
Osie nie muszą być zresztą równoległe. Ciekawym zastosowaniem pozycji jest wykres typu radar/gwiazda, na którym osie są zaczepione w jednym punkcie i rozchodzą się promieniście. Możemy za pomocą takiego wykresu przedstawić wiele charakterystyk, co zresztą często się robi, wykorzystując wykresy radarowe do porównywania profili, silnych i słabych stron państw, osób lub innych obiektów.
Jeżeli na różnych osiach przedstawiamy różne cechy, to należy uważać na jednostki na osiach. Wybór zakresu wartości na poszczególnych osiach jest subiektywny, a ściskając lub rozszerzając osie można sugerować większe lub mniejsze podobieństwa dla wskazanych obiektów. Jeżeli w centrum wykresu nie ma wartości zero, to warto to również wyraźnie zaznaczyć.
Mając kilka zmiennych opisujących obiekty, można pokusić się o przedstawienie zależności pomiędzy zmiennymi. Najczęściej wykorzystywany jest w tym przypadku wykres punktowy (wykres rozrzutu, rozproszenia, ang. scatterplot) z dwoma prostopadle ułożonymi osiami, na którym prezentowane są dwie zmienne. Można też ten wykres przenieść w trzy wymiary, używając trzech zmiennych, można zamiast kartezjańskiego układu współrzędnych wykorzystać układ współrzędnych biegunowych, modyfikacji wykresów punktowych jest wiele.
Do wykresów punktowych często dodaje się też linię trendu, pokazującą względną relację obu zmiennych. Należy być jednak ostrożnym ze zbyt pochopnym wyciąganiem zależności przyczynowo-skutkowych z tego typu wykresów. Bardzo często sama zamiana osi miejscami (pionowej z poziomą) daje inne wrażenie zależności. W Internecie można znaleźć wiele humorystycznych wykresów przedstawiających silną zależność np. pomiędzy spożyciem czekolady a liczbą noblistów urodzonych w danym kraju.
Jeżeli prezentowanych obiektów jest bardzo wiele, często nie sposób wszystkich przedstawić na wykresie. Są też sytuacje, w których wcale nie interesują nas poszczególne obiekty, a jesteśmy bardziej zainteresowani opisem rozkładu wartości. W takich sytuacjach bardzo przydatnym wykresem jest wykres ramka-wąsy, nazywany też wykresem pudełkowym lub wykresem skrzynkowym Wykres ten przedstawia tak zwane pięć liczb Tukeya opisujących zbiór danych, czyli minimum, maksimum, 25% i 75% kwantyl (nazywane też dolnym i górnym kwartylem) oraz medianę wartości w pewnej grupie obiektów. Te pięć liczb tworzy cztery przedziały, każdy zawierający 25% zmienności określonej cechy.
Używając wykresów pudełkowych można czytelnie przedstawić rozkład zarobków i zobaczyć, jak duża jest skośność tego rozkładu, czy górny kwartyl jest znacznie dalej od mediany niż dolny kwartyl, czy maksimum jest równie daleko od mediany co minimum. Za pomocą wykresu pudełkowego można też czytelnie porównać dwie podpopulacje, np. zarobki kobiet i mężczyzn. Umożliwi to nie tylko ocenę skośności rozkładu zarobków, ale również względne porównanie median i kwartyli tego rozkładu pomiędzy populacjami.
Oczywiście mając wykres typu pudełko z wąsami, przedstawiający pięć liczb charakteryzujących rozkład, można proponować rozmaite warianty opisujące rozkład cechy za pomocą decyli lub innych charakterystyk (np. średniej i odchylenia standardowego). Takich modyfikacji wykresu pudełkowego zaproponowano wiele, a szerokie omówienie najpopularniejszych wariantów znajduje się w artykule 40 years of boxplots [Hadley Wickham and Lisa Stryjewski. 40 years of boxplots, 2011] Co ciekawe, okazuje się, że spośród rozmaitych wariantów to te pięć liczb Tukeya w większości przypadków najkrócej i najtreściwiej charakteryzuje rozkład. Jest to dobry kompromis pomiędzy zwięzłością a ilością informacji w opisie.
O ile wykres pudełko z wąsami charakteryzuje rozkład cechy za pomocą pięciu liczb, to czasem pożądane jest zobaczenie tego rozkładu z większą liczbą szczegółów, na przykład na wykresie, który pokazywałby względne nagromadzenie się wartości w różnych przedziałach osi. Bardzo często w tym celu wykorzystywane są wykresy typu histogram lub wykres gęstości jądrowej (precyzyjniej by było: wykres oceny gęstości z użyciem estymatora jądrowego, ale to zbyt długa nazwa). Na obu tych wykresach można zaobserwować w jakich przedziałach osi występuje większe lub mniejsze nagromadzenie obiektów.
Wzajemne położenie elementów tych wykresów, takich jak najwyższe wzniesienia, pozwala na krótkie scharakteryzowanie rozkładu, określenie, czy rozkład jest jedno, czy wielomodalny (tej informacji nie sposób odczytać z wykresu pudełkowego), czy też występuje jedno skupienie zawierające większość obserwacji. Ten rodzaj wykresu w naturalny sposób pozwala zauważyć zagęszczenie obserwacji w okolicy określonej wartości, pozwala też na porównanie rozkładów w dwóch lub większej liczbie grup.
Wykres gęstości pokazuje rozkład jednej zmiennej. W określonych sytuacjach pożądane jest opisanie rozkładu dla dwóch zmiennych. Zmienne często występujące w parach to szerokość i długość geograficzna, ciśnienie skurczowe i rozkurczowe czy wzrost i waga. Ale skoro jest potrzeba, to pojawiają się też rozwiązania. Dwuwymiarowym rozszerzeniem wykresu pudełkowego jest wykres torbowy (ang. bagplot), który na dwuwymiarowej płaszczyźnie pokazuje dwuwymiarową medianę oraz obszar zawierający 50% obserwacji. Dwuwymiarowym rozszerzeniem wykresu gęstości jest wykres konturowy, na którym gęstość przedstawiona jest za pomocą poziomic.
Takie wykresy można dodatkowo ubarwiać, dodając natężenie koloru obrazujące wartość gęstości, co ułatwia identyfikacje obszarów o szczególnym natężeniu pewnej cechy. Typowe przykłady dotyczą częstości występowania przestępstw na mapie miasta z zaznaczeniem, gdzie przestępstw jest więcej, lub średniej ceny mieszkań z zaznaczeniem, gdzie jest najdrożej.
Wspomniane powyżej cechy wymagają, by zmienne były opisane przynajmniej na skali interwałowej. Gdy przedstawiamy zmienne opisane w skali porządkowej, zarówno różnice jak i ilorazy wartości mogą nie mieć sensu, jedyne co można pokazać to gradacje wartości. Hierarchię kolejności możemy oczywiście przedstawić za pomocą długości, pola, lub pozycji, ale one zazwyczaj są kojarzone z liczbowymi wartościami i świadomie czy nieświadomie nasz mózg będzie wykonywał na tych wartościach operacje dzielenia lub odejmowania. Ciekawym rozwiązaniem dla przedstawiania zmiennych w skali porządkowej jest użycie natężenia, nasycenia lub jasności elementu wykresu. Należy przy tym pamiętać, że efektywnie jesteśmy w stanie rozróżnić około siedmiu poziomów intensywności czy nasycenia, w miarę możliwości warto więc redukować liczbę przedstawianych poziomów do nie większej niż siedem.
Bezwzględna wartość nasycenia czy jasności będzie się różnić pomiędzy mediami (prostokąt może być jasnoszary na ekranie, ale ciemny na wydruku), ale kolejność stopni szarości zazwyczaj jest zachowana. Natężenie lub jasność jest odczytywana niezależnie od pozycji obiektu, przez co można obie cechy łączyć.
Jednym z typowych zastosowań natężenia jest kartogram, czyli wykres prezentujących rozkład średniej określonej zmiennej w podziale na regiony geograficzne. Zazwyczaj ta średnia jest kodowana barwą lub natężeniem intensywności koloru. Taka forma prezentacji danych jest dosyć popularna, warto więc przedyskutować przynajmniej wybrane jej wady i zalety.
Główną zaletą jest wizualna atrakcyjność. Lubimy oglądać tak zwane mapki, ponieważ przypominają one rzeczywiste mapy, a więc obrazy nam znajome. Pokolorowane mapki zachęcają do wyszukiwania wzorców i relacji, łączą estetykę map z zaproszeniem do samodzielnego rozwiązania zagadki mającej na celu odkrycie zależności. Drugą zaletą jest to, że w przypadku sąsiadujących obszarów możemy z dużą precyzją ocenić, na którym kolor jest mniej lub bardziej nasycony.
Niestety możliwość dokładnego rozróżniania natężenia dotyczy tylko obszarów sąsiadujących ze sobą. Dla wszystkich pozostałych ten sposób prezentacji niesie problemy. Odczytana intensywność zależy też od powierzchni prezentowanego obszaru. Jeżeli porównywane obszary wyraźnie różnią się wielkością, ich względna różnica jasności może być niepoprawnie odczytana. Po drugie intensywność jest silnie zależna od lokalnego kontekstu. Ten sam odcień szarości będzie wyglądał na jaśniejszy, jeżeli otoczymy go ciemnymi obszarami i będzie wyglądał na ciemniejszy, jeżeli otoczymy go obszarami jasnymi. Po trzecie, nawet jeżeli obszary mają ten sam kontekst i tą samą wielkość, to nasycenie trudno porównać, jeżeli obszary są znacznie od siebie oddalone.
Jeżeli jednak w danych istnieje wzorzec przestrzenny (np. jakieś zjawisko na północy Polski jest intensywniejsze niż na południu), to dobierając odpowiednie kodowanie, można go czytelnie przedstawić za pomocą kartogramów i natężenia.
Za swoistą odmianę kartogramu, w którym składową przestrzenną zastąpiono składową czasową są wykresy kalendarzowe Długość i szerokość geograficzną zastąpił dzień tygodnia i tydzień roku. Użycie dwóch osi do przedstawienia liniowego czasu pozwala na atrakcyjne przedstawienie czasu w formie kalendarza, jak również “upakowanie” większej liczby dni na małym obszarze przy zachowaniu dużej czytelności.
Jeżeli w jakimś zjawisku obserwuje się okresowość miesięczną lub tygodniową, to tego typu wykres pozwala na łatwe dostrzeżenie tego typu okresowości, na przykład mniejszej intensywności zjawiska w weekendy lub zwiększonej pod koniec miesiąca.
Regularna siatka kwadratów o różnym stopniu zaczernienia znajduje zresztą wiele zastosowań. Jednym z nich jest mapa ciepła/mapa natężeń, a więc odmiana kartogramu, w której długość i szerokość geograficzna została zastąpiona przez dwie zmienne jakościowe. Ponieważ zmienne jakościowe nie mają żadnego naturalnego porządku, w celu ich pogrupowania można wykorzystać dendrogramy lub inne techniki skalowania wielowymiarowego do wyznaczenia podobieństwa pomiędzy poszczególnymi wartościami.
Nazwa “mapa ciepła” bierze się z popularnego schematu kolorów kodującego wartości na tym wykresie na skali ciemnoczerwony–jasnożółty, nawiązującego do temperatur. Oczywiście zamiast żółto–czerwonej gamy kolorów można wybrać dowolną inną gradację kolorów. Z zastrzeżeniem, że popularna wśród bioinformatyków skala czerwono–zielona jest niezbyt czytelna dla osób cierpiących na ślepotę barw.
Chcemy przedstawić jaka jest średnia pensja w różnych województwach w zależności od wielkości miasta? Nic prostszego! Niech województwa odpowiadają kolumnom, miasta pogrupujmy w pięć klas zależnych od wielkości, a następnie kolorem zaznaczmy, jaka jest średnia pensja w danej grupie.
Jak widzimy, w przypadku każdego z powyższych wykresów cechą, którą chcieliśmy przedstawić, była cecha na skali interwałowej. W wielu jednak przypadkach zredukowanie informacji poprzez przejście z ciągłej skali na niewielki zbiór przedziałów pozwala na czytelniejsze przedstawienie różnic pomiędzy regionami geograficznymi, okresami czasu, zbiorami zmiennych, w których wartości obserwowanej cechy najbardziej się różnią.
W druku czarno-białym natężenie koloru możemy zastąpić skalą szarości lub stopniem zakreskowania.
Gdy przedstawiamy zmienne w skali nominalnej, kodowanie ich za pomocą pola, długości, natężenia może nie mieć sensu. Jak polem zakodować płeć, długością słupka – gatunek, czy kątem – narodowość? Nie da się tego sensownie zrobić.
Zmienne na skali nominalnej najczęściej przedstawia się cechami, które nie mają wyróżnionego porządku, takimi jak kształt czy barwa. Zarówno kształt, jak i barwa wystarczą do określenia, czy dwa obiekty należą do tej samej grupy, czy do różnych grup. Zarówno kształt, jak i barwa mogą pełnić rolę cechy różnicującej, pozwalającej na wyróżnienie określonych wartości spośród pozostałych (trójkąt wyróżni się na tle kół tak jak i czerwona kropka na tle niebieskich kropek).
Barwa i kształt odczytywane są niezależnie od siebie, można więc wykorzystać te cechy do przedstawienia dwóch różnych zmiennych, można też wykorzystać obie te cechy do prezentacji tej samej zmiennej. Warto pamiętać, że barwa szybciej rzuca się w oczy niż kształt, jednak ma mniejszą rozdzielczość. O ile nikt nie będzie miał problemu z rozróżnieniem trzech kolorów, to niewiele osób jest w stanie rozróżniać trzydzieści różnych barw na wykresie. W przypadku kształtu łatwo wyobrazić sobie kodowanie trzydziestu różnych grup różnymi kształtami, wystarczy za kształt przyjąć różne litery z alfabetu.
Najczęściej kształty lub kolory spotyka się na wykresach punktowych, na których służą one do wyróżnienia grup określonych wartości. Na jednym wykresie punktowym można przedstawić wręcz kilka grupowań, wykorzystując kolor dla jednej klasyfikacji, kształt dla drugiej, wielkość punktu dla trzeciej. Oczywiście pokazywanie na jednym wykresie pięciu grupowań to najprostszy sposób, by uczynić wykres całkowicie nieczytelnym, jednak posługując się kształtem i kolorem z rozwagą, można uzyskać ciekawe wyniki.
Kolory na wykresie punktowym pełnić mogą rolę wyróżnika ułatwiającego szybkie dostrzeżenie skupisk punktów. Kształty nie przykuwają uwagi tak bardzo, mogą więc sprawdzić się do przedstawiania relacji “drugoplanowych”. O ile kształt i barwa nie mają żadnego naturalnego porządku, o tyle oczywiście wielkość punktu powinna odpowiadać zmiennej, opisanej przynajmniej na skali porządkowej.
W sytuacji gdy precyzja przekazywanego komunikatu jest bardzo ważna, np. na wykresach naukowych, wybór odpowiedniego kodowania zmiennej za pomocą kształtów punktów jest istotny. Dlatego w dobrych czasopisamach naukowych naukowych znaleźć można artykułu poświęcone temu tematowi. W czasopiśmie “Nature Methods” jest mu poświęcona cała rubryka Points of view, w której para specjalistów od prezentacji danych naukowych, Martin Krzywinski i Bang Wong, wyjaśnia reguły budowy legendy wykresu, dodawania adnotacji do wykresu czy wybierania kształtów punktów. W artykule Points of view: Plotting symbols wyjaśniają dlaczego lepsze są otwarte symbole (koła, trójkąty, kwadraty z pustymi środkami) niż zamknięte (wypełnione koła, trójkąty, kwadraty) – otwarte symbole pozwalają na łatwiejsze dostrzeżenie skupisk punktów, podczas gdy zamknięte się ze sobą zlewają. Dlaczego koła są lepsze niż trójkąty – ponieważ przecięcie dwóch kół nie tworzy kształtu koła, a przecięcie dwóch trójkątów może utworzyć kolejny trójkąt, przez co trudniej zorientować się w liczbie obiektów. Dlaczego używanie liter jest wygodne do oznaczania dużej liczby klas punktów – należy jedynie uważać na małą rozróżnialność liter C i G, E i F czy B, R i P. Dlaczego punkty powinny być dobierane pod kątem podobnej złożoności (pięcioramienna gwiazda jest bardziej złożona niż okrąg) – w przeciwnym przypadku odbiorca będzie miał wrażenie różnej wielkości punktów.
Myśląc o kształtach często ograniczamy się do prostych symboli, typu koło czy trójkąt, lub do popularnych ikon przedstawiających ludzika czy samochód. Kształt daje jednak znacznie szersze możliwości. Jednym z niestandardowych zastosowań są tak zwane twarze Chernoffa, a więc wykresy na których zmienne są przekodowywane na kształty określonych charakterystyk twarzy. Chcemy porównać różne marki samochodów? Możemy za pomocą wielkości twarzy przedstawić cenę samochodu, wielkością oczu kodować zużycie paliwa, wielkością uśmiechu zakodować wielkość bagażnika. Ludzki umysł ma zadziwiającą zdolność analizy cech ludzkich twarzy, błyskawicznie wychwytuje podobieństwa i różnice, można więc tę umiejętność mózgu wykorzystać do jednoczesnego prezentowania wielu różnych zmiennych. Taka prezentacja oczywiście nie jest zbyt dokładna, ale często budzi ciekawość, pokazuje też jak wiele jest możliwości na wykorzystanie kształtu czy wielkości w grafice statystycznej.
W ostatnich latach coraz większą popularnością zaczynają się cieszyć grafiki interaktywne, zachęcające do manipulacji elementami wykresu lub animacje, przedstawiające zmiany zależności w czasie.
Najlepszą reklamą animowanych wykresów statystycznych są prezentacje Hansa Roslinga (kto nie widział, powinien zobaczyć prezentacje The best stats you've ever seen [Hans Rosling. The best stats you've ever seen, 2006] oraz Religions and babies [Hans Rosling. Religions and babies, 2012]
). Sam Rosling stojący na tle wykresu przedstawiającego zmiany w współczynniku płodności oraz średniej długości życia stał się ikoną dla statystyków. W roku 2012 został nawet uznany przez magazyn Time za jednego ze 100 najbardziej wpływowych ludzi roku.
Animacja z pewnością przyciąga uwagę, nadaje się też znakomicie jako tło dla prezentacji, szczególnie tych krótkich. Efekt “wow” gwarantowany. Jednak z punktu widzenia precyzji przedstawienia informacji animacja jest złym rozwiązaniem. Nie ma czasu, by dokładnie odczytać wielkości, które nieustannie się zmieniają. Dodatkowo, jeżeli na wykresie zmienia się jednocześnie wiele rzeczy, to nie sposób śledzić wszystkich. Skupiając się na kilku wybranych, można nie zauważyć istotnych zmian dziejących się w miejscu wykresu, na które akurat nie patrzymy (zjawisko nazywane ślepotą zmian od angielskiego change blindness).
Osobiście nie uważam, by animacje były dobrym rozwiązaniem w prezentowaniu danych. To znaczy świetnie bawią, ale nie przekazują zbyt wielu informacji. Inaczej ma się rzecz, jeżeli chodzi o wykresy interaktywne. Te pozwalają na eksplorację danych, a jeżeli pozwolimy czytelnikowi samodzielnie odkrywać historię przedstawioną przez dane, większa jest szansa, że historia ta zostanie zapamiętana.
Z tego sposobu prezentowania danych znana jest między innymi gazeta “The New York Times”, która często na swojej stronie internetowej przedstawia interaktywne wizualizacje ciekawych zjawisk. Te wizualizacje są najczęściej proste, ale zachęcające do eksploracji.
Również wiele interaktywnych narzędzi do eksploracji dostarczają agencje zajmujące się zbieraniem i udostępnianiem danych, takie jak EuroStat lub OECD. Te z kolei często prezentują złożone zależności pomiędzy wieloma zmiennymi, które często są nieprzyjazne dla nieprzyzwyczajonych oczu.
Osobom chcącym zobaczyć, jakie możliwości niesie interaktywna grafika statystyczna, chciałbym polecić aplikację [Przemyslaw Biecek and Francesca Borgonovi. Do parents' occupations have an impact on student performance? OECD, PISA in Focus n. 36, 2012], którą wykonałem, aby przedstawić zależność pomiędzy zawodem rodzica a wynikami ucznia w szkole. Kilka kliknięć wystarczy, by wykonać wiele różnych porównań, zobaczyć jak wygląda zróżnicowanie średnich wyników w zależności od zawodu lub jak wyniki dla różnych zawodów wyglądają w różnych krajach.
Najlepszym programem do analiz i wizualizacji jest ... Zanim dokończymy to zdanie pozwolę sobie na anegdotkę.
Basia zaprosiła Zbyszka na obiad. Urozmaicając przygotowania do obiadu, Zbyszek pokazywał Basi zdjęcia ze swojej ostatniej podróży do Japonii. Przy co drugim zdjęciu Basia wzdychała “...jakie piękne te zdjęcia, z pewnością masz świetny aparat...”. Nic więc dziwnego, że po obiedzie Zbyszek z zadowolonym wyrazem twarzy powiedział: “To był przepyszny obiad, z pewnością masz świetne garnki.”
Z pewnością są lepsze i gorsze aparaty fotograficzne, z pewnością są lepsze i gorsze garnki, ale najlepszy aparat sam nie zrobi dobrego zdjęcia i najlepszy garnek sam nie ugotuje dobrego obiadu.
Poniżej podzielę się kilkoma przemyśleniami dotyczącymi oprogramowania do tworzenia wykresów, z zastrzeżeniem jednak, że najbardziej zaawansowany program graficzny nie pokaże w ciekawy sposób historii ukrytej w danych.
W Internecie można znaleźć wiele zestawień typu “50 najlepszych narzędzi do wizualizacji danych”. Są też listy 100 najlepszych narzędzi. Czemu służyć mają takie listy? Co najwyżej radosnej prokrastynacji, gdy przeznaczymy kilka minut na obejrzenie stron domowych pierwszych dziesięciu pozycji w zestawieniu.
Narzędzi do prezentacji danych jest wiele i w zależności od tego, czy bardziej cenimy łatwość użycia, techniczne możliwości czy estetykę końcowego rozwiązania, każdy znajdzie coś dla siebie.
W codziennej pracy z danymi w większości przypadków korzystam z czterech narzędzi.
Na wczesnym etapie pracy nad wizualizacją jest to przysłowiowa kartka i ołówek (ewentualnie długopis, tablica i pisak). Nie stronię od elektroniki, używam rozmaitych gadżetów pozwalających na efektywną interakcję z komputerem, ale do prototypowania, gdy trzeba rozważyć różne propozycje, szybko nanosić korekty, zestawić te propozycje ze sobą, kartka i ołówek moim zdaniem nadają się najlepiej. W razie potrzeby szkic łatwo zdigitalizować np. robiąc mu zdjęcie telefonem.
Najlepsze pomysły na grafiki powstają podczas burz mózgów i tutaj długopis w dłoni każdego z dyskutantów i wspólna kartka jest idealnym środowiskiem do prototypowania wykresów.
Do przetwarzania danych i mapowania danych na cechy wykresu wykorzystuję środowisko statystyczne R [R: A Language and Environment for Statistical Computing R Foundation for Statistical Computing, Vienna, Austria, 2013] Łatwo można z jego pomocą przetworzyć dane, wykonać różnorodne transformacje i przygotować dane do naniesienia na wykres.
Do tworzenia wykresów używam zazwyczaj pakietu lattice
[Deepayan Sarkar.
Lattice: Multivariate Data Visualization with R
Springer, New York, 2008] (zbiór kilkunastu szablonów, które można modyfikować i parametryzować, szczególnie wygodne do pokazywania trendów w danych) lub z pakietu ggplot2
[Hadley Wickham.
ggplot2: elegant graphics for data analysis
Springer New York, 2009], w którym pracę zaczyna się od określenia zbioru zmiennych do przedstawienia, a następnie uszczegóławia się wizualizację, określając warstwy, geometrie, statystyki. Do mniej standardowych zastosowań pakiet ggplot2
nadaje się wyśmienicie.
Język R jest względnie prosty do nauczenia się, dostępnych jest wiele książek, także w języku polskim, jak na przykład Przewodnik po pakiecie R z rozdziałem poświęconym tworzeniu grafiki z użyciem pakietów graphics
, lattice
lub ggplot2
Wykres wykonany w programie R można zapisać w formacie wektorowym pdf/svg/ps, a następnie poddać dalszej edycji w programie graficznym. Ja akurat korzystam z Adobe Ilustrator (Płatny program dostępny w ramach odnawialnej licencji, dostępny na stronie http://www.adobe.com/pl/products/), ale można też wykorzystać program Inkspace (Inkscape, darmowy program do pobrania ze strony http://www.inkscape.org/) lub inny edytor plików wektorowych. Co prawda w programie R można dowolnie zmieniać każdy element wykresu, ale wiele rzeczy można wykonać łatwiej lub szybciej z użyciem programów do obróbki grafiki wektorowej.
Do przygotowania aplikacji internetowych lub grafiki interaktywnej wygodnie jest wykorzystać bibliotekę D3 (Biblioteka Data-Driven Documents D3 http://d3js.org/) lub pochodne. Znając JavaScript taką aplikację można napisać samodzielnie, ale ja wolę posiłkować się prostszym językiem Processing(Środowisko do tworzenia animacji i interaktywnej grafiki Processing http://processing.org/), który jest następnie automatycznie tłumaczony na Java Script.
ggplot2
Trochę pracy nad kolorami, legendą, rozmieszczeniem elementów i otrzymujemy całkiem czytelny wykres. Ale ostatnie szlify, takie jak krój pisma czy wielkość elementów, najłatwiej nałożyć w programie do edycji grafiki wektorowej, tutaj Adobe IllustratorRysunek 40 przedstawia kolejne etapy przykładowego procesu tworzenia wykresu. Począwszy od szkicu na kartce, po wykres szlifowany w programie do grafiki wektorowej. Praca nad takim wykresem zajmuje trochę czasu, ale jeżeli jesteśmy zadowoleni z końcowego wyniku, to warto ten czas poświęcić. Krój pisma jest dopasowany do tekstu głównego książki (tutaj to Minion Pro). Kolory odpowiadają specjalizacji zawodów, od najbardziej wyspecjalizowanych (czerwone) do najprostszych (niebieskie).
Wykres ma na celu porównanie dwóch krajów pod kątem umiejętności dzieci przedstawicieli różnych grup zawodów. Zastosowanie odcinków i nachyleń pozwala na proste porównywanie w którym kraju, który zawód ma średnio wyższe wyniki, a nachylenie odcinka pokazuje wielkość tych różnic. Dodatkowa oś pozwala na precyzyjne odczytanie średniego poziomu umiejętności (tutaj są to punkty w badaniu PISA).
Korzystanie z programu R lub biblioteki D3 wymaga przynajmniej podstawowej umiejętności programowania. Osobiście uważam, że nawet jeżeli nie ma się żadnego doświadczenia w programowaniu, to warto się tego nauczyć, bardzo ułatwia to pracę z danymi. Osoby odczuwające dużą alergię na programowanie lub preferujące szybsze osiąganie wyników mogą skorzystać z kilku narzędzi pozwalających na wyklikanie “na szybko” wykresu.
Tableau – narzędzie do szybkiego tworzenia tablic rozdzielczych (ang. dashboards), czyli kompozycji wykresów pokazujących rozmaite aspekty danych. Darmowe do zastosowań niekomercyjnych, dosyć drogie w komercyjnych rozwiązaniach (Tableau bezpłatne do niekomercyjnych zastosowań http://www.tableausoftware.com/).
Many Eyes – narzędzie rozwijane przez oddział badawczy IBM Research, pozwalające na zastosowanie zbioru szablonów do publicznie dostępnych danych (można pracować na własnych danych, ale trzeba je najpierw upublicznić). Wiele ciekawych rozwiązań dotyczących prezentacji tekstu, w tym kontekstowe drzewa słów i chmury słów (Many Eyes, bezpłatny zbiór szablonów dostępnych online http://www-958.ibm.com/).
Excel – popularny arkusz kalkulacyjny. Największą jego wadą jest to, że umożliwia tworzenie wykresów z pseudo trzecim wymiarem. Pomijając tę wadę, można z jego pomocą szybko przygotować czytelne podsumowanie danych. Ponieważ jest to również bardzo popularne narzędzie, nie ma co liczyć na wykresy wyróżniające się oryginalnością (przynajmniej nie pozytywnie).
Google Spreadsheets, czyli darmowa wersja Excela (Google Spreadsheets, https://docs.google.com/spreadsheet).
Bez względu na to jakiego narzędzia się używa, najważniejszy jest pomysł na przestawienie danych w sposób czytelny, poprawny, interesujący i estetyczny. Tak jak i nie jest ważne jakich garnków i kuchenki się używa, jeżeli nie ma się pomysłu na dobrą potrawę.