Rok 2014 na Wikipedii

Choć rok 2014 jeszcze się nie skończył to zdecydowałem się już teraz podsumować aktywność internautów na polskiej Wikipedii i sprawdzić, które tematy i wydarzenia były najważniejsze w ostatnich miesiącach.

Przeanalizowałem dane od stycznia do listopada i wybrałem tylko te artykuły, które należały do 200 najczęściej odwiedzanych w danym miesiącu.

Na początku roku myśli Polaków krążyły wokół gender. Był to zdecydowanie najczęściej czytany artykuł — w styczniu miał ponad 500 tys. odsłon. W kolejnych miesiącach też zaliczał się do 200 najpopularniejszych, ale zainteresowanie stopniowo spadało. Był to jeden z niewielu tematów obyczajowych, który należał do gronia najczęściej czytanych.

Odsłony artykułu 'Gender'

Luty to przede wszystkim Zimowe Igrzyska Olimpijskie w Soczi. Tego miesiąca czytano też często o naszych zawodnikach. Kamil Stoch, czy Justyna Kowalczyk byli polskimi liderami, nie tylko na igrzyskach, ale także na Wikipedii.

Odsłony artykułów dot. Zimowych Igrzysk Olimpijskich w Soczi

W lutym miała też miejsce premiera filmu o Ryszardzie Kuklińskim (Jack Strong) i to wydarzenie mialo swoje odzwierciedlenie na Wikipedii. Artykuł o polskim oficerze pracującym dla CIA należał wówczas do najbardziej popularnych.

Ryszard Kukliński / Jack Strong -- Odsłony na Wikipedii

Niewątpliwie jednym z najczęściej poruszanych tematów w mijającym roku był konflikt na Ukrainie. Artykuły ‘Ukraina‘ i ‘Rosja‘ przez cały rok należały do 200 najpopularniejszych ale w marcu przyciągały szczególnie dużo internautów. W pierwszych miesiącach równiż Krym bił rekordy popularności, podobnie jak artykuł o Władimirze Putinie czy NATO.

Najważniejsze wydarzenia roku 2014 - konflikt na Ukrainie, liczba odsłon

Konflik u naszych sąsiadów sprawił, że Polacy szukali infromacji na temat obronności własnego kraju. ‘Siły Zbrojne Rzeczypospolitej Polskiej‘ prawie przez cały rok należały do czołówki artykułów a największą popularność ta strona odnotowała w marcu (178 tys. odsłon) i nietrudno zauważyć, że zainteresowanie wyglądało podobnie jak we wspomnianych wcześniej artykułach dotyczących Ukrainy. W marcu czytelnicy polskiej Wikipedii byli także bardzo zainteresowani stanem Sił Zbrojnych Federacji Rosyjskiej.

Rok 2014 - zainstaresowanie siłami zbrojnymi

8 marca jest obchodzony Dzień Kobiet, choć w tym miesiącu to Dzień Mężczyzn miał większą liczbę odsłon.

strona              pv
Dzień Kobiet    137371
Dzień Mężczyzn  145732

Kwiecień z kolei należał do Jana Pawła II, bo wtedy miała miejsce kanonizacja. Na Wikipedii towarzyszyło jej pół miliona odsłon i choć widać, że w pozostałych miesiącach było znacznie mniej czytelników, to jednak przez prawie cały rok ten artykuł należał do grupy 200 najpopularniejszych na Wikipedii.

Rok 2014 - odsłony artykułu o Janie Pawle II

W maju prawie 600 tys. odsłon zdobyła Conchita Wurst, zwycieżczyni Eurowizji. Do grona najczęściej czytanych wróciła jeszcze raz w październiku, kiedy to wystąpiła przed Parlamentem Europejskim.

W czerwcu, co w pełni zrozumiałe, ludzie żyli Mistrzostwami Świata w Piłce Nożnej 2014. Tego miesiąca niepokoiło internautów także bezpieczeństwo. Artykuł o Heartbleed, czyli groźnej dziurze w powszechnie wykorzystywanej bibliotece OpenSSL był czytany prawie pół miliona razy. Jest to o tyle zaskakujące, że ten błąd choć został wykryty dwa miesiące wcześniej, to dopiero w czerwcu przeżywał swoją popularność na Wikipedii.

W lipcu było można dostrzeć zainteresowanie mijającymi Mistrzostwami Świata w Piłce Nożnej oraz wzmożoną popularność Harrego Pottera, który zresztą przez całyrok należał do najpopularniejszych artykułów. Poza czarodziejem internauci często interesowali się również Grą o tron oraz programem rozrywkowym Twoja twarz brzmi znajomo. W obu przypadkach szczyt popularności przypadał na kwiecień.

Rok 2014 - odsłony artykułów dot. rozrywki

Mijający rok to także walka z Ebolą. Właśnie w sierpniu ten artykuł bił rekordy popularności. Pierwszy raz trafił do 200 najpopularniejszych artykułów w kwietniu, ale dopiero w sierpniu i październiku osiągał ponad 200 tys. odsłon miesięcznie.

W roku 2014 miały miejsce zmiany w polskiej polityce. Donald Tusk po siedmiu latach przestał pełnić obowiązki premiera i został wybrany na Przewodniczącego Rady Europejskiej. Jego następczyni, Ewa Kopacz, w tym czasie odnotowała rekordową popularność na Wikipedii. Z pozostałych polskich polityków to w maju ponad 200 tys. odsłon miał Janusz Korwin-Mikke, co było było niezwykle wysokim wynikiem. W listopadzie natomiast czytano chętnie o Adamie Hofmanie, co należy pewnie połączyć z kontrowersjami w rozliczaniu podróży służbowych.

Rok 2014 - zainteresowanie polskimi politykami, liczba odsłon na Wikipedii

Nie sposób pominąć najważniejsze wydarzenie września, czyli Mistrzostwa Świata w Piłce Siatkowej Mężczyzn 2014. Ta strona była wyświetlana 1,4 mln razy. Wraz z nią dużą popularnością cieszył się Mariusz Wlazły (178 tys. odsłon), Stéphane Antiga (168 tys. odsłon), czy też Michał Winiarski (135 tys. odsłon).

W paźdzerniku internauci czytali często o Zbigniewie Relidze (za sprawą premiery filmu Bogowie), jednak ten miesiąc należał przede wszystkim do zmarłej Anny Przybylskiej, bo jej strona była wyświetlana ponad milion razy. Wtedy też wysoką pozycję zajął rak trzustki, z którym aktorka walczyła (120 tys. odsłon) i był to jedyny miesiąc, w którym rak, w jakiejkolwiek formie, trafił do 200 najpopularniejszych artykułów. Zdarzało się jednak, że inne artykuły o tematyce medycznej trafiały do grona najczęściej czytanych. Wcześniej wspomniana Ebola zdecydowanie objęła prowadzenie. Poza tym często czytano też o zespole Aspergera, boleriozie, czy też schizofrenii. W tej grupie artykułów znalazło się również strwardnienie zanikowe boczne, pewnie za sprawą Ice Bucket Challenge.

Rok 2014 - zainteresowanie kwestiami zdrowia, odsłony na Wikipedii

Jeśli chodzi o państwa, to w mijającym roku Polacy najczęściej czytali o własnym kraju (‘Polska’ w ogóle była jednym z najczęściej wyświetlanych artykułów). Tylko w lutym i marcu Ukraina wysunęła się wyraźnie na prowadzenie. Poza tym internauci szukali informacji o Niemczech, Rosji i Stanach Zjednoczonych. W lipcu Izrael, choć zazwyczaj miał małą liczbę odsłon, był trzecim państwem pod względem liczby wyświetleń, a w czerwcu wyraźnie wzrosła popularność Brazylii i prawie dorównała Polsce, co należy powiązać oczywiście z Mistrzostwami Świata w Piłce Nożnej.

Spośród polskich miast to Warszawa była niekwestionowaną zwyciężczynią.  Na drugim miejscu, choć z liczą odsłon o 1/3  mniejszą był Kraków, a Wrocław każdego miesiąca wyprzedzał Poznań.

Liczba odsłon arytukułów o polskich miastach -- Wikiepdia

Podsumowując można powiedzieć, że to, co dzieje się na Wikipedii odzwierciedla zainteresowania internautów. Widać to szczególnie dobrze na podstawie artykułów mocno powiązanych z konkretnymi datami, np. wyższa popularność artykułu o powstaniu warszawskim w sierpniu, czy wzmorzone czytanie o II wojnie światowej we wrześniu.

Z drugiej strony trochę zaskoczony byłem skalą niektórych zjawisk. W styczniu rekordy popularności pobijał gender, podczas gdy w lipcu praktycznie nie było śladu po odmowie wykonania aborcji przez Bogdana Chazana i nastepujących protestach. Co prawda artykuł ‘Bogdan Chazan’ wystepował wśród dwustu najpopularniejszych w lipcu, ale z liczbą odsłon na poziomie 30 tys. nie mógł się równać z zainteresowaniem tematyką gender w styczniu.

Wykonując to małe badanie przekonałem się do tego, że być może warto na bieżąco obserwować odsłony z Wikipedii, żeby tworzyć coś w stylu “codziennych newsów“, czyli listy zagadnień, które są obecnie na fali. Może w 2015 roku starczy mi chęci i przede wszystkim czasu, żeby się za to zabrać.

Global language

This time I have prepared a short analysis comparing languages on Wikipedia. We will check what languages are most widely used around the world and which countries have the most Internet users.

Nowadays English is a linga franca, as we can find English speakers in every country. On the other hand there is huge number of languages that are used only locally (in one country or even region).

I can imagine, that languages used globally will have smaller differences between night and day, because in every time zone there are some speakers. Compare English to Czech page view patterns to get the idea:

Global language vs. language used locally -- page view patterns on Wikipedia

Of course, this approach is far from being perfect. Mainly because it is based on time, so it doesn’t include migration within the same time zone, i.e. from Latin America to U.S. Moreover Spanish is definitely a global language as it is used in many countries. But, as you will see, this method doesn’t prove it. The population of Spanish native speakers in Europe to small when compared to Latin America to significantly raise page views for “European” daily hours.

I decided to compute the index as follows:

min number of PV per hour on a given day / average number of PV per hour on a given day

I tried several variants of it (i.e. using 20th percentile instead of min), but the results were similar.

This is the language global index for 20 most popular languages on Wikipedia. Higher values mean small differences between night and day:

                    language  glob_idx
1                    English 0.7981971
2                  Norwegian 0.5851168
3                    Persian 0.5177893
4                     Arabic 0.4909870
5                    Chinese 0.4857803
6                     Korean 0.4816817
7                    Swedish 0.4765534
8                  Ukrainian 0.4445452
9                     Polish 0.4108401
10                   Spanish 0.4013519
11                     Dutch 0.3936351
12                    French 0.3602967
13                   Italian 0.3544782
14                Portuguese 0.3493829
15                   Turkish 0.3481315
16                  Japanese 0.3357735
17                     Czech 0.3345046
18                Indonesian 0.3308224
19                   Russian 0.3130690
20                    German 0.2860656

English as the most popular around the world — no surprise here. Then we can see Norwegian and Persian, which I find hard to explain. Anyway, these values are much lower (0.5) than English (0.8) meaning that they can’t really be compared.

On the other end of the scales we have German and Russian, which also can also be surprising. In case of Russia it probably means that most of the Internet users are in one part of the country.

Of course, there are more controversies about this measure — I mentioned Spanish, which definitely is used widely in many countries, but here it’s in the middle of the scale. In fact it has similar value to Polish (which definitely is not a global language).

Internet users

But there is also something else I wanted to check — number of page views compared with number of native speakers. This could tell as about Internet users in a given country. From the chart below we can see, that this relation is quite linear: the more native speakers, the more daily page views. But some languages are closer to right-bottom corner meaning that there are not so many page views on Wikipedia (and probably not so many Internet users). The colour is the “language global index” described above — lighter means it is more “spread” around the globe.

Wikipedia usage -- daily page views vs. natives speakers

O czym ludzie myślą w nocy?

Myślą o Beskidach, ciekawi ich dysonans poznawczy, a do tego zgłębiają życiorys Wiliama Szekspira. Sytuacja nie jest jednak do końca oczywista 🙂

Nocny ruch

W nocy ruch na polskiej Wikipedii jest niewielki, ale zawsze występuje. Dzisiaj sprawdzę jakie artykuły są najcześciej czytane w godzinach nocnych i czy różni się to od najpopularniejszych artykułów czytanych w ciągu dnia.

Bazowałem na polskiej Wikipedii a zakres danych ograniczyłem tylko do października. Z każdego dnia i każdej godziny wybrałem tylko 100 artykułów o największej liczbie odsłon i ten zbiór analizowałem. Wszystkie godziny są wg UTC.

Zawsze popularne

Było sporo artykułów, które w nocy należały do popularnych, choć także w ciągu dnia miały sporo odwiedzających. Jednym z takich haseł była Warszawa. W zasadzie przez cały czas ta strona należała do 100 najpopularniejszych i zajmowała 20-30 miejsce w rankugu:

Popularność artykułu 'Warszawa' - wysoka przez całą dobę

Poza Warszawą były to m.in. takie artykuły jak:

  • Wirus Ebola
  • Stany Zjednoczone
  • Europa
  • Niemcy

Krótkotrwałe zainteresowanie

Poza takimi ciągle popularnymi artykułami były strony, które przez krótki okres miały w nocy wysoką liczbę odwiedzin:

Typowo nocne artykuły

Najciekawsze jednak według mnie są sytuacje, w których artykuł cieszył się popularnością w nocy, ale w ciągu dnia nie tak często należał do 100 najczęściej czytanych (albo przynajmniej zajmował wyraźnie niższe miejsce w rankingu).

Jednym z takich przypadków był artykuł Beskidenverein (Towarzystwo Beskidzkie). Zdecydowanie najwięcej odsłon przypadało na noc. W dzień też widać jakiś ruch, ale dużo rzadszy (mniej kropek) — zapewne odsłony tego artykułu nie trafiały do 100 najpopularniejszych w danej godzinie. Trudno mi powiedzieć skąd taka nocna aktywność użytkowników. Może w październku ktoś w godzinach nocnych pracował nad tym artykułem.. Ale przez cały miesiąc?

Nocna popularność artykułu 'Beskidenverein'

 

Kolejny taki “nocny” artykuł to Dysonans poznawczy. Ten wzorzec nie jest aż tak wyraźny jak poprzednio, ale mimo wszystko widać, że w nocy ta strona wypadała wyżej w rankingu najpopularniejszych stron. W godzinach dziennych dużo mniej obserwacji, a więc nie była to jednak ze 100 najpopularniejszych stron w ciągu dnia.

Nocna popularność artykułu 'Dysonans poznawczy'

 

Kolejną ciekawostką jest artykuł na temat filmu “V jak Vendetta” (V jak Vendetta (film)). Znowu podobny wzorzec zachowań, jak w przypadku Beskidenverein i dysonansu poznawczego. Zdecydowana przewaga nocnych odsłon. Zagadką pozostanie dlaczego akurat ten film no i skąd ta jego nocna popularność. W okolicach weekendu było odsłon trochę więcej, ale nawet w środku tygodnia trafiał do 100 najpopularniejszych artykułów.

Nocna popularność artylułu 'V jak Vendetta (film)'

 

No i jeszcze na koniec zaskoczenie. Zupełnie nie przypuszczałbym, że artykuł o Williamie Szekspirze będzie zajmował wyższe miejsce w rankingu w nocy:

Nocna popularność artykułu o Williamie Szekspirze

Przy okazji Wiliama Szekspira przyszło mi do głowy możliwe wytłumaczenie tego fenomenu. Może część tej nocnej aktywność to tak naprawdę zwykłe dzienne wejścia tylko z innej strefy czasowej (np. Polonia mieszkająca w Stanach Zjednoczonych)?