Organizovanie súborov pri spracovaní dát
Z vlastných skúsenosti som si vedomí, že tento článok má svoj význam a môže pomôcť pri ďalšej práci s dátami ale aj iných projektoch, kde sa pracuje s viacerými súbormi. Nie raz som sa aj ja stratil v dokumentoch , dátach ,či súboroch s ktorými som pracoval a využíval pri projektoch na ktorých som pracoval. Niektorí ľudia majú svoj vlastný systém aby si udržali poriadok a vedeli nájsť to, čo potrebujú. Mnohí majú v dátach chaos a všetko dávajú do jedného adresára, kde sa chvíľu vedia zorientovať, ale ak sa k týmto súborom dostanú po týždňoch či mesiacoch, nemajú ani šajnu o tom, čo, kde hľadať. Moje začiatky boli podobné. Všetko som dával do jedného adresára s podivnými názvami súborov v ktorých som sa po istej dobe aj ja sám stratil. Po zhliadnutí jedného z online kurzov ohľadom spracovania dát, som si uvedomil, že správne organizovanie dát, s ktorými pracujete má svoj význam a poukazujú na to aj iní odborníci.
Štruktúra organizovania dát, ktorú tu budem prezentovať je odporúčaním pre spracovanie dát cez štatistický nástroj R, ktorý sme popisovali v článku R – prostredie pre štatistické spracovanie dát, no podobný model môžete aplikovať aj pri iných úlohách.
Štruktúra archivovania dát:
- Dáta (Data)
-
Surové dáta (Raw data) – dáta, ktoré chceme spracovať, často sú neočistené, v textovej podobe, rozdelené do viacerých súborov a pod.
-
Spracované dáta (Processed data) – dáta vo formáte použiteľnom na analýzu (tabuľky alebo iný vhodný formát). Mali by to byť čisté dáta.
- Obrázky (Figures)
-
Predbežne grafy (Exploratory figures) – Pomocné grafy a obrázky vytvorené počas analýzy, slúžia na vlastné pochopenie dát a nemusia byť „pekné“, a väčšinou nebývajú súčasťou záverečnej správy
-
Finálne grafy (Final figures) – zvyčajne menšie množstvo „pekných“ grafov (označené osi, farby, názvy grafov a pod.)
- R kód (R code)
-
Predbežné skripty (Raw scripts) – kompletné skripty používane pri analýze. V skriptoch nemusí byť všetko okomentované a môže zahŕňať aj pomocné a „nepodarené“ prepočty, ktoré vo finálnych skriptoch nemusia byť použité
-
Finálne skripty (Final scripts) – obsahuje skripty, ktoré sa používajú pre analýzu dát, zahŕňa detaily spracovania a kompletné komentáre ku skriptom
-
R markdown súbor (R Markdown files) – je možné ho vytvoriť cez Rstudio. Obsahuje skripty a komentáre, a je možné ho použiť na generovanie reportov.
- Text
-
CITAJMA súbor (Readme file) – nie je potrebný, ak používate R-markdown súbor. Zahŕňa postupné inštrukcie pre analýzu dát. Môže taktiež obsahovať informácie o dátach (odkiaľ pochádzajú, kedy boli získane, označenie polí..)
-
Texty k analýze (Text of analysis) – Report by mal obsahovať názov, úvod do problematiky, použité metódy, výsledky analýzy, zhrnutie. Môže obsahovať referencie pre využité metódy a pod.
Veríme, že tento článok Vám ukáže, ako možno súbory vhodne zálohovať a dúfam, že správne archivovanie spracovaných dát Vám uľahčí prácu a niekedy možno aj nervy 🙂