R – prostredie pre štatistické spracovanie dát
V predchádzajúcom článku z kategórie dáta a spracovanie dát, sme poukázali na jeden zo zaujímavých nástrojov na spracovanie dát. Jednalo sa o nástroj RapidMiner, ktorý je voľne šíriteľný a má široké možnosti využitia v oblasti spracovania dát a získavania znalostí.
Skôr než sa pustíme do názorných príkladov analýzy dát a získavania znalostí z databáz, rad by som poukázal ešte na jeden zaujímavý nástroj na prácu s dátami. Tak ako RapidMiner ani ďalší spomínaný nástroj nie je na Slovensku u širokej verejnosti veľmi známy, no celosvetovo je to odborníkmi využívaný mohutný nástroj na spracovanie dát. Reč je o aplikácií „R“ – jedná sa o jazyk a prostredie pre štatistické výpočty a tvorbu grafov.
Tak ako väčšina nástrojov, ktoré využívame, aj tento patrí do kategórie open source riešení (voľne šíriteľný) a vytvorený pre operačné systémy Windows, Mac OS X a Linux. Je voľne stiahnuteľný na stránke projektu: R projekt
Po nainštalovaní a spustení programu zistíte, že užívateľské rozhranie nie je až také prijateľne ako ste možno zvyknutý, a pre efektívnu prácu s týmto nástrojom treba mať nejaké vedomostí a skúsenosti. Nezobrazí sa Vám množstvo tlačidiel a ikoniek, na ktoré treba kliknúť aby sa Vám zobrazil výsledok. A možno práve preto mnoho užívateľov nepríjme tento nástroj. Zvykli sme si na pohodlie a komfort, ale nástroj R je prostredie, v ktorom si spracovanie dát musíte „naprogramovať“.
Existuje mnoho štatistických nástrojov ako napríklad IBM SPSS, SAS, alebo ten najrozšírenejší Microsoft Excel. Prečo sa teda obrátiť na R?
- Väčšina kvalitných nástrojov z tejto kategórie stojí tisicé alebo státisice eúr. R je zadarmo!
- R je komplexný štatistický nástroj, ktorý ponúka všetky analytické techniky spracoania dát
- R má nástroje na komplexnú vizualizáciu a grafické zobrazenie dát
- Výsledky z analytických krokov môžu byť ľahko uložené a použité na ďalšiu analýzu
- Jednoduché importovanie dát na spracovanie napríklad z textových súboroc, databáz a pod.
- R poskytuje bezkonkurenčnú platformu pre programovanie nových štatistických metód
- Možnosť rozšírenia o ďalšie analytické metódy (balíčky). Tie si môžete stiahnuť napríklad na nasledujúcej stránke R packages
- Ako už bolo spomenuté, R beží na širokej škále platforiem (Windows, Mac OS, Linux)
Aj nástroj R je dôkazom toho, že aj nekomerčné a voľne šíriteľné nástroje môžu pomôcť pri spracovaní dát a z ich pomocou získate z dát veľa zaujímavých poznatkov. Aj keď R možno nepatrí medzi nástroje s užívateľsky najprijateľnejším rozhraním, určite stoji za zváženie ak sa chystáte analyzovať a spracúvať vaše dáta.