Organizovanie súborov pri spracovaní dát

Z vlastných skúsenosti som si vedomí, že tento článok má svoj význam a môže pomôcť pri ďalšej práci s dátami ale aj iných projektoch, kde sa pracuje s viacerými súbormi. Nie raz som sa aj ja stratil v dokumentoch , dátach ,či súboroch s ktorými som pracoval a využíval pri projektoch na ktorých som pracoval. Niektorí ľudia majú svoj vlastný systém aby si udržali poriadok a vedeli nájsť to, čo potrebujú. Mnohí majú v dátach chaos a všetko dávajú do jedného adresára, kde sa chvíľu vedia zorientovať, ale ak sa k týmto súborom dostanú po týždňoch či mesiacoch, nemajú ani šajnu o tom, čo, kde hľadať. Moje začiatky boli podobné. Všetko som dával do jedného adresára s podivnými názvami súborov v ktorých som sa po istej dobe aj ja sám stratil. Po zhliadnutí jedného z online kurzov ohľadom spracovania dát, som si uvedomil, že správne organizovanie dát, s ktorými pracujete má svoj význam a poukazujú na to aj iní odborníci.

Štruktúra organizovania dát, ktorú tu budem prezentovať je odporúčaním pre spracovanie dát cez štatistický nástroj R, ktorý sme popisovali v článku R – prostredie pre štatistické spracovanie dát, no podobný model môžete aplikovať aj pri iných úlohách.

Štruktúra archivovania dát:

  • Dáta (Data)
      Surové dáta (Raw data) – dáta, ktoré chceme spracovať, často sú neočistené, v textovej podobe, rozdelené do viacerých súborov a pod.
      Spracované dáta (Processed data) – dáta vo formáte použiteľnom na analýzu (tabuľky alebo iný vhodný formát). Mali by to byť čisté dáta.
  • Obrázky (Figures)
      Predbežne grafy (Exploratory figures) – Pomocné grafy a obrázky vytvorené počas analýzy, slúžia na vlastné pochopenie dát a nemusia byť „pekné“, a väčšinou nebývajú súčasťou záverečnej správy
      Finálne grafy (Final figures) – zvyčajne menšie množstvo „pekných“ grafov (označené osi, farby, názvy grafov a pod.)
  • R kód (R code)
      Predbežné skripty (Raw scripts) – kompletné skripty používane pri analýze. V skriptoch nemusí byť všetko okomentované a môže zahŕňať aj pomocné a „nepodarené“ prepočty, ktoré vo finálnych skriptoch nemusia byť použité
      Finálne skripty (Final scripts) – obsahuje skripty, ktoré sa používajú pre analýzu dát, zahŕňa detaily spracovania a kompletné komentáre ku skriptom
      R markdown súbor (R Markdown files) – je možné ho vytvoriť cez Rstudio. Obsahuje skripty a komentáre, a je možné ho použiť na generovanie reportov.
  • Text
      CITAJMA súbor (Readme file) – nie je potrebný, ak používate R-markdown súbor. Zahŕňa postupné inštrukcie pre analýzu dát. Môže taktiež obsahovať informácie o dátach (odkiaľ pochádzajú, kedy boli získane, označenie polí..)
      Texty k analýze (Text of analysis) – Report by mal obsahovať názov, úvod do problematiky, použité metódy, výsledky analýzy, zhrnutie. Môže obsahovať referencie pre využité metódy a pod.

Veríme, že tento článok Vám ukáže, ako možno súbory vhodne zálohovať a dúfam, že správne archivovanie spracovaných dát Vám uľahčí prácu a niekedy možno aj nervy :)

Tento obsah bol zaradený v Dáta, Tipy a rady. Zálohujte si trvalý odkaz.

Komentáre sú uzavreté.