reklama

Ako (ne)fungujú otvorené dáta a ako by mohli

Otvorené dáta (opendata) by mali byť skvelý nástroj na kontrolu ako funguje a hospodári tento štát. Avšak to by ich implementáciu musel robiť niekto, kto má seriózny záujem niečo stransparentniť.

Písmo: A- | A+
Diskusia  (3)

Od 30.11.2015 (podľa údajov na stránke) existuje web data.gov.sk, katalóg rôznych datasetov povinných osôb v SR, ako ho opisuje Národná agentúra pre sieťové a elektronické služby (NASES). Nápad to je skvelý, poďme zverejniť všetky štátne/verejné dáta, u ktorých to je možné. Realizácia však už kríva na obe nohy.

Princíp otvorených dát je jednoduchý, zverejníme dáta v strojovo spracovateľnej forme a nechajme ľudí/firmy/neziskovky/doplň podľa ľubovôle nech z nich vyťažia maximum informácií. Celkom pravidelne som si len tak browsoval webom data.gov.sk a hľadal zaujímavé dáta (roky sa živím spracovaním rôznych dát, je to moje hobby), avšak to čo som našiel bol často nepoužiteľný zhluk niečoho, len aby si úradník odfajkol splnenú úlohu (excel súbor s niekoľkými údajmi, ktorý dával zmysel až po stiahnutí ďaľších x excel súborov), alebo aj možno užitočný dataset, avšak nefunkčný. Ak už však nájde človek dataset, ktorý obsahuje zaujímavé informácie v na prvý pohľad rozumnej forme, ešte nemá vyhraté.

SkryťVypnúť reklamu
Článok pokračuje pod video reklamou
príklad nefunkčného datasetu
príklad nefunkčného datasetu 

Niekedy na jar tohto roku ma zaujali verejné obstarávania, alebo skôr ich prevedenie v slovenských podmienkach. Webová stránka úradu pre verejné obstarávanie (ktorá napr. v dobe písania tohto článku nefunguje) ponúka kostrbatú cestu ako sa prelúskať všetkými zverejnenými obstarávaniami, čim sa akoby snaží odradiť ľudí hrabať sa v detailoch. Preto, keď som našiel dataset vestníkov na data.gov.sk, dokonca v xml forme, potešil som sa ako ich spracujem a spravím si nejaké štatistiky. Nasledujúce riadky budú možno ťažšie čitateľné pre neITčkárov, ale pokúsim sa zrozumiteľne vysvetliť, čo máme a čo by mohlo byť, a ako príklad použijem dáta od UVO, konkrétne len výsledky verejných obstarávaní.

SkryťVypnúť reklamu
reklama

Štruktúra dát

Ako to je

Život v korporáciach ma naučil, že nie všetko sa vždy robí efektívne, dočasné riešenia sa stávajú v momente uvedenia do produkcie trvalé a už nikto ich neprerobí, alebo že aj jednoduchá vec kvôli procesom miesto jednu hodinu trvá týždeň. Avšak pri systéme na prístup ku otvoreným dátam, ktorý má na starosti štát a sú platené z vreciek daňových poplatníkov očakávam tip-top riešenia, keď už sa do informatizácie tejto krajiny lejú nenormálne peniaze.

Keď si človek začne študovať datasety ku jednotlivým vestníkom, po chvíľke ho prepadne pocit, že tu niečo nie je dobre. Po druhej chvíľke dojde na to, že dataset pôsobí ako generovaný XML súbor z nejakej web/statickej aplikácie, kde úradníci, či iní ľudia evidujú jednotlivé obstarávania.

SkryťVypnúť reklamu
reklama
Obrázok blogu

Pre lepšie čítanie kliknite na obrázok

Miesto zrozumiteľnej štruktúry je vidno, že jednotlivé tagy sú pomenované tak ako sa autor danej aplikácie(resp ten, čo aplikáciu nasadzoval na úrade) rozhodol pomenovať políčko v tabuľke, riadok kam užívateľ zapisuje údaj. Pri písaní aplikácie a pomenovávaní jednotlivých elementov, samozrejme nemusí byť až tak dôležitá štruktúra/pomenovanie každého elementu (sám si elementy pomenuvávam podľa toho akú mám zrovna náladu, keď niečo programujem), ale keď plánujem robiť export tých dát na ďalšie použitie, naberá to zrazu úplne iný význam. Keď už som sa vysomáril, čo asi čo znamená, všimol som si, že to čo mám otvorené je len jeden typ formuláru (na obrázku <Zovoform Version....>), tak som si prešiel všetky uverejnené vestníky aby som zistil, čo ma čaká. Možno sa ešte hodí spomenúť, že pôvodne som prechádzal len "Informácie o výsledku verejného obstarávania" a až neskôr som zistil, že máme aj "Oznámenia o výsledku verejného obstarávania", ktoré obsahujú iné dáta. Po konzultácii s právnikmi mi bolo vysvetlené, aký je medzi nimi rozdiel (týmto chcem poďakovať všetkým zákonodarcom, ktorý tvoria čo najväčší chaos v názvosloví), tak som sa pustil do študovania jednotlivých formulárov. Z pôvodne dvoch verzií formulárov s inou štruktúrou ich počet narástol na 22! a ako som včera zistil pri zbere dát, boli použité ďalšie dve verzie, takže dokopy to už máme 24 formulárov s inou štruktúrou/pomenovaním elementov, ktoré obsahujú rovnaký, či veľmi podobný typ dát. Pre vysvetlenie, je to akoby ste hľadali telefónne číslo v poznámkovom bloku, ale pre každých desať čísel by ste mali iný blok, v inej miestnosti, písaný inou farbou a v každom bloku by ste začínali od inej strany. Keďže mi z UVO nik doteraz neodpovedal na otázku koľko týchto formulárov existuje, môžem len hádať, že asi nekonečne veľa a vo vestníkoch sa objavia náhodne, preto mi neostáva nič iné len sledovať, či a kedy pribudli.

SkryťVypnúť reklamu
reklama

Ako by to mohlo byť

XML formát je už pomaličky na ústupe a viac sa používa JSON, ale osobne mi je jedno v akom formáte to bude, ak budú dáta ľahko čitateľné, rozumne štruktúrované a ľahko strojovo spracovateľné (žiadne uzavreté formáty). Pre príklad netreba chodiť ďaleko, požičal som si ho od slovensko.digital. Možno postačí, aby export dát nerobila aplikácia, v ktorej sa dáta zapisujú, ale aby export bol urobený na mieru.

Obrázok blogu
(zdroj: slovensko.digital)

Jednoduchá stromová štruktúra s jasne pomenovanými elementami, ktorá bude štandardizovaná a nebude x rôznych verzií ako v prípade formulárov spomenutých vyššie. Rozumiem, že vďaka našim skvelo napísaným zákonom bude dôvod rôznych verzií formulárov legislatíva, kde obstaranie služby pre ministerstvo ide ináč ako obstaranie tovaru pre obec, ale dátam to je jedno. Im nevadí byť v rovnako štruktúrovanom datasete, kde dáta budú vyplnené, či chýbať podľa toho aký tovar, služba, hocičo sa obstarávalo. KISS princíp (keep it simple stupid) je cesta.

Kvalita dát

Keď už máme vyriešenú štruktúru, všetko je ľahko čitateľné pre ďalšie spracovanie, môžme sa zamerať na to, kvôli čomu to vlastne robíme. Dáta. Netuším, kto a ako tieto vestníky vytvára, ale bolo by vhodné, keď už tu máme informatizáciu za miliardu dorobiť nejaké kontroly dát predtým, než vyjdú na svetlo internetové. Ináč sa udejú také veci, ako uklepnutie o tri nuly a zrazu máme obstarávanie za 2 miliardy, nie 2 milióny (áno, vydali opravu ale opäť sa tým len komplikuje spracovanie), či dodávateľa z mesta Trenčín, ktoré sa nachádza v Somálsku, resp neuviesť dodávateľa vôbec a hŕbu ďalších väčších či menších chýb. Preklepy v názvoch firiem, či miest ani nepočítam.

Obrázok blogu

Zároveň by som uvítal, aby dát bolo čo najviac. Obsahu a aj z pohľadu histórie. Oceňujem, že aspoň nejaké dáta su na data.gov.sk, ale od roku 2014 je to málo pre lepšie analýzy, štatistiky. Predpokladám, že do daného roku sú v inom formáte, čo sa asi nikomu nechce prerábať, ale uverejniť ich v štruktúre akej sú by potešilo. Prehrabú sa nimi už ľudia, ktorí majú záujem. Taktiež viac detailov, aj keď by bolo nutné zložitejšie spracovanie, by v konečnom dôsledku prinieslo úžitok.

Komunikácia

UVO má na svojej stránke kontaktné emaily, tak som ich využil a spýtal sa niekoľko otázok. Klasicky, tu to padá na ľuďoch. Zatiaľ čo pán za emailom info@uvo.gov.sk mi ochotne odpovedal na otázky a poskytol údaje, čo vedel poskytnúť, keď ma s IT otázkami presmeroval na helpdesk_it@uvo.gov.sk, tam som sa už skoro mesiac nedočkal odpovede.

Prečo o tom píšem

Keď som začal spracovávať dáta z UVO, bolo to hobby, ale zároveň som mal chuť spraviť niečo užitočné. Postupne som sa rozhodol, že výsledok spracovania, ktorý bude automatický a aktualizácia dát bude bežať v pravidelných intervaloch, uverejním von, nech poslúži aj iným. Až tesne pred tým, než som to uverejnil, som zistil, že už podobné informácie existujú na tender.sme.sk (nespravil som si prieskum vopred). Rozhodol som sa ale, že takýchto informácií nikdy nie je príliš veľa na slovenskom internete a preto som od novembra spustil betaverziu www.uvostat.sk, ktorú postupne budem vylepšovať.

Aký to má význam?

Jedným slovom veľký. Ak by sme mali všetky štátne dáta prístupné v jednoduchej, zrozumiteľnej forme, bolo by možné v priebehu chvíľky zistiť rôzne prepojenia nie len pri obstarávaniach, ale všade, kde sa točia verejné peniaze. Zistiť prepojenia medzi vedením rôznych úradov, či obcí a ich dodávateľskými firmami by vedeli algoritmy a automaticky by takéto informácie mohli vyhodnocovať a zverejnovať. Ak napríklad starosta úradu obstaráva podozrivo často od jednej firmy, algoritmus by sám zistil, či náhodou pred rokmi nebol vo vedení tej firmy a či ceny, za ktoré sa nakupuje zodpovedajú realite.

Pred niekoľkými dňami som tu na SME čítal o tom ako obstaráva lieky naša najväčšia zdravotná poistovňa. Stačilo mi vyťukať jej názov do vyhľadávania a v momente vidím u koho obstaráva najčastejšie cez verejné obstarávania a približne za aké sumy.

Obrázok blogu

Takéto a mnoho ďalších informácií máme k dispozícii od štátnych inštitúcií, ale predpokladám, že určití ľudia sa spoliehajú na ich neprehľadnosť a vďaka tomu, aj keď sa hráme na otvorené dáta, vedia, že je šanca prehliadnuť ich zárobkovú činnosť veľmi vysoká a nik sa ich nebude pýtať tie nepríjemné otázky prečo, s kým a za koľko. Preto by ma potešilo ak by úradníci, ktorí rozhodujú o informatizácii potlačili svoje egá a dali si poradiť od ítečkárov ako sa to má robiť a nesnažili sa len konzervovať neefektívne procesy štátnej správy do jednotiek a núl.

Ak by vás zaujímalo, ako napredujem s vylepšeniami, sledovať to môžete tu

Miroslav Babič

Miroslav Babič

Bloger 
  • Počet článkov:  205
  •  | 
  • Páči sa:  10x

...dusou cestovatel.. zakladateľ portálu UVOstat.sk Zoznam autorových rubrík:  Myšlienky z nevyspatej hlavyTour de Europe 2009Potulky EurópouPotulky svetomParódia na životSúkromnéFotkyOstatnéSprostostiŠtatistikyOpendata

Prémioví blogeri

Adam Valček

Adam Valček

14 článkov
Milota Sidorová

Milota Sidorová

5 článkov
Lucia Šicková

Lucia Šicková

4 články
Karolína Farská

Karolína Farská

4 články
Jiří Ščobák

Jiří Ščobák

750 článkov
reklama
reklama
SkryťZatvoriť reklamu