Working day vs. weekend page views

Two months ago Stack Overflow published interesting blog post on programming languages and weather people are more likely to ask question during week or on weekend. It gives some
overview of how widely languages are spread in business (week) and hobby (weekend) projects.

From their analysis we can see that for example T-SQL, PowerShell and Oracle are used
during week whereas Huskell, assembly and C during weekend.

On Wikipedia…

I was interested in checking the same using Wikipedia page views data. Of course with Wikipedia it will be a bit differently. When someone learns programming language
they don’t usually read about it on Wikipedia, but rather find tutorial or look for answers on Stack Overflow. In some cases however Wikipedia can be main source of knowledge, especially when someone looks for theoretical aspects of programming or technology.

I checked several articles from different categories: databases, programming and data science. I checked page views of English Wikipedia since September 2016. For each article I computed weekend to week ratio (average page views during weekend / average page views during working days).

Database

Database category shows something interesting. There is a difference between theoretical concepts, for example Slowly changing dimension article is more work-related than normalisation and normal form definitions. On the other end of the scale there is Blockchain that is the most ‘weekend’ page in this section.

Data science

In data science section, there is interesting observation. Deep learning itself and
various modern frameworks usually related to deep learning/neural networks are
much more weekend articles than older machine learning algorithms.

Programming

As mentioned above, reading about programming language on Wikipedia is not really
sign that the language is used in projects. More likely people will check some detail about
it when they hear that name for the first time. Nevertheless there are some interesting facts.
As in Stack Overflow report, Huskell seems to attract more people during weekends.
On the other hand, it’s has similar ratio as Java so probably this is not the best
indicator about how popular in business is given language.

Design patterns are more work-related than some theoretical articles related to
functional programming or internals (garbage collection or stack buffer overflow).

Surprisingly, Scala was seems to be more often read during working days than other
languages that I checked.

Jeden procent

Co roku rozliczając się z Urzędem Skarbowym możemy przekazać 1% podatku PIT na wskazaną przez nas organizację pożytku publicznego. W zeszłym roku darowizny z tego tytuły wyniosły ponad 600 mln zł. Ta kwota z roku na rok jest coraz wyższa, po części z tego, że rośnie kwota odprowadzanych podatków ale także wygląda na to, że coraz więcej osób decyduje się wesprzeć organizacje. W ostatnim roku (2015) wszystkie darowizny stanowiły 0.74% wartości podatku PIT, a jeszcze pięć late temu 0.64%.

Darowizny z 1% jako procent PIT

Najwięksi gracze

Ciekawe jest to, że od lat lwią część wszystkich darowizn otrzymuje jedna organizacja. Fundacja Dzieciom “Zdążyć z Pomocą” jest absolutnym liderem i w 2015 roku dostała aż 23% całej puli (144 mln zł).

Wszystkich organizacji, które dostają darowizny z tytułu 1% było w 2015 roku ponad 8 tysięcy, choć tak naprawdę dużych beneficjentów jest niewiele. Okazuje się, że 28 największych otrzymuje ponad połowę wszystkich darowizn. W ostatnich latach duże organizacje umacniały swoją pozycję i zwiększały swój udział, choć w 2014/2015 roku ten proces się zatrzymał.

Udział największych beneficjentów 1%

Spektakularne zmiany

Porównując rok 2015 z poprzednim okresem można odkryć kilka organizacji, które zanotowały spory wzrost. Stowarzyszenie “Wigilia dla Samotnych i Bezdomnych” zebrało ostatnio aż 31 razy więcej środków niż w roku poprzednim (pół miliona w porównaniu z 16 tys. zł w 2014). Oprócz tego sporym wzrostem może też pochwalić się Fundacja Onkologiczna Nadzieja, która ostatnio zebrała 15 razy więcej (ostatnio 200 tys. w porównaniu z 12 tys zł). I tu rodzi się pytanie, czy zmieniają się tematy, które najbardziej angażują Polaków do pomocy.

Jakie organizacje wspieramy najczęściej?

Czy zmieniają się problemy, które poruszają Polaków najbardziej? Patrząc na nazwę organizacji możemy w pewnym stopniu określić główny zakres jej działaności. Oczywiście taka analiza będzie daleka od doskonałości, bo np. “Wielka Orkiestra Świątecznej Pomocy” nie ma w nazwie “dzieci”, które są przecież głównym beneficjentem działań tej fundacji. Niemniej jednak, jeśli przyjrzymy się słowom kluczowym można zaobserwować kilka ciekawostek.

Głównym tematem, którym angażuje podatników są dzieci. Organizacje, które w nazwie mają wpisane “dzieci” od lat niezmiennie dostają nieco ponad jedną trzecią wszystkich darowizn. Z pozostałych tematów, które często się pojawiają to m.in. niepełnosprawni, hospicja i pomoc zwierzętom. Widać przy tym, że właśnie udział organizacji działających na rzecz niepełnosprawnych w ostatnich latach znacząco urósł. Nieznacznie zwiększyło się zaangażowanie w organizacje związane z nowotworami (słowa rak, onkologia, nowotwór), choć w tym przypadku wzrost był dużo mniejszy.

Słowa kluczowe w nazwa OPP

Linki

Dane pochodzą z Ministerstwa Finansów (udostępnione ze pośrednictwem danepubliczne.gov.pl) [link].

 

 

 

 

Hive – Selecting columns with regular expression

In Hive there is rather an unique feature that allows to select columns by
regular expression instead of using column by names.

It’s very useful when we need to select all columns except one. In most of the SQL databases we would have to specify all columns, but in Hive there is this feature that can save us typing.

Let’s say there is a people table with column name, age, city, country and created_at. To select all columns except created_at we can write:

set hive.support.quoted.identifiers=none;
 
select 
    `(created_at)?+.+`
from people
limit 10;

This is equivalent to:

select
    name, age, city, county
from people
limit 10;

Please note that in Hive 0.13 or later you have to set hive.support.quoted.identifier to none.
I have never seen such functionality in others SQL databases.

References

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select

Spark SQL

This is one of the Hive-specific features that are not available in Spark SQL.

Ekonomiczne losy absolwentów

Parę tygodni temu Ministerstwo Nauki i Szkolnictwa Wyższego udostępniło ciekawe dane. Na stronie absolwenci.nauka.gov.pl możemy sprawdzić jak wiedzie się absolwentom poszczególnych kierunków i uczelni. Dane mogą być niezwykle pomocne dla osób planujących studia i w odróżnieniu od pojawiających się tu i ówdzie listach “najbardziej obleganych kierunków” tutaj znajdziemy faktyczne zarobki absolwentów.

Raporty są dość szczegółowe. Najdziemy informacje na temat liczby absolwentów kończących dany kierunek, oraz jaka część z nich występuje w rejestrach ZUS-u (czyli opłaca bądź opłacała składki). Najciekawszymi danymi są oczywiście te dotyczące zarobków. Oprócz średniego wynagrodzenia możemy też znaleźć rozkład wynagrodzenia i medianę. Póki co wyniki są dostępne dla jednego rocznika, ale struktura raportów sugeruje, że podsumowania będą uaktualniane w kolejnych latach i będzie można śledzić losy absolwentów także w dłuższej perspektywie czasowej.

Brakujący element

Dane są ciekawe i pomocne ale strasznie rozczarował mnie sposób ich prezentacji. W zasadzie jedyne co można zrobić na portalu ministerstwa to wyszukać kierunek albo uczelnie i przeczytać PDF-a, w którym zawarte są wskaźniki podsumowujące absolwentów. Nie uda nam się łatwo porównać kierunków ani uczelni. Nie dowiemy się też w prosty sposób w jakiej dziedzinie zarabia się najwięcej a gdzie czycha największe bezrobocie.

Wizualizacja

Postanowiłem ściągnąć wszystkie raporty i po napisaniu prostego parsera zrobiłem interaktywną wizualizację w d3js, w której możemy wyszukiwać kierunki i uczelnie oraz podglądać oryginalne raporty na stronach ministerstwa.

Ile zarabiają absolwenci

Nie zaskakuje to, że studenci studiów zaocznych zazwyczaj zarabiają w pierwszym roku po studiach więcej niż studenci dzienni. Ma to zapewne związek z tym, że płatna nauka w weekend często idzie w parze z pracą zarobkową tak więc po studiach te osoby mają już doświadczenie zawodowe i co za tym idzie wyższe zarobki.

Najlepsze kierunki

Nie jest zaskoczeniem, że informatyka jest tym kierunkiem, który zazwyczaj gwarantuje dobre zarobki. Jest jednak wiele rozbieżności pomiędzy poszczególnymi uczelniami. W pewnym stopniu może to zależeć od poziomu nauczania, ale istotne jest również miejsce zamieszkania absolwentów. Raporty ministerstwa próbują to pokazać i oprócz średniego wynagrodzenia pokazują zarobki w odniesieniu do przeciętnego wynagrodzenia w powiatach zamieszkania absolwentów.

Zaskoczenie

Niektóre kierunki mogą być zaskoczeniem. Pierwszym takim przypadkiem jest leśnictwio, po którym zarobki są porównywalne z informatyką, choć oczywiście takich kierunków jest niewiele. Drugim nieoczywistym przypadkiem górnictwo i geologia w trybie zaocznym. Po tym kierunku również dobrze się zarabia, ale możliwe, że jest to związane z doszkalaniem się osób pracujących już w górnictwie. Absolwenci studiów dziennych tego kierunku zarabiają bowiem przeciętnie.

Hadoop user name

Some time ago I was looking for this option:

Environmental variable HADOOP_USER_NAME lets you specify the username that will be used when connecting to Hadoop, for example to create new HDFS files or accessing existing data.

Let’s have a look at the short example:

[root@sandbox ~]# echo "New file" | hdfs dfs -put - /tmp/file_as_root
[root@sandbox ~]# export HADOOP_USER_NAME=hdfs
[root@sandbox ~]# echo "New file" | hdfs dfs -put - /tmp/file_as_hdfs
[root@sandbox ~]# hdfs dfs -ls /tmp/file_*
-rw-r--r--   3 hdfs hdfs        154 2016-05-21 08:20 /tmp/file_as_hdfs
-rw-r--r--   3 root hdfs        154 2016-05-21 08:19 /tmp/file_as_root

So the second (file_as_hdfs) is owned by hdfs user because that was the value of HADOOP_USER_NAME variable.

Of course it works only on Hadoop cluster without Kerberos, but still it’s very useful on test environment or on VM. You can act as many users without executing sudo commands all the time.