Dáta a popis obrazu realného sveta

dataDáta uchovávajú informácie o reálnom svete. Z pohľadu získavania znalostí, budeme práve dáta považovať za zdroj pre získanie nových znalostí. Dáta skúmame s cieľom objavenia znalostí, no aby sme znalosti mohli považovať za hodnoverný obraz reálneho sveta, musíme predpokladať nasledovné skutočnosti:

  • Znalosti je možné v množine dát objaviť
  • Objavené znalosti sú užitočné a použiteľné vo svete
  • Dáta majú trvalý vzťah k svetu, z ktorého boli získané
  • Vzťahy vyskytujúce sa v dátach môžu byť zmysluplne vzťahované k fenoménom reálneho sveta

Môžeme povedať, že svet pozostáva z objektov, ktoré vieme identifikovať a popísať. Objekty identifikujeme na základe ich vlastnosti, ktoré sa dajú odmerať. Inštancia nejakého objektu predstavuje množinu konkrétnych, nameraných hodnôt vlastnosti za určitých overujúcich okolností. Ako sme spomenuli, vlastností objektov by mali byť merateľné. Je potrebné si uvedomiť, že pri meraní vznikajú rôzne druhy chýb. Okrem chýb pri meraní, je tu ešte jeden fenomén, a sú to chýbajúce dáta. Tu je však potrebné rozlišovať medzi chýbajúcimi a prázdnymi hodnotami.
Chýbajúce hodnoty – hodnoty, ktoré v dátach nie sú uvedené, ale existujú v reálnom svete (napríklad pohlavie, ktoré zabudli zaznamenať do dotazníka)
Prázdne hodnoty – vyskytujú sa u premenných, kde nemusíme očakávať reálnu hodnotu, alebo jej nevyplnenie nesie špecifickú informáciu (napríklad nápoj, ktorý si zákazník zobral k obedu. Ak je táto hodnota prázdna, znamená, že zákazník nechcel nápoj, nie že tato hodnota chýba)

Dáta v databázach môžu mať rôzne formy. Našim cieľom nebude rozdeliť typy dát z programátorského hľadiska, ale z pohľadu ich spracovania a reprezentovania informácii v procese získavania znalostí z databáz (KDD). Vo všeobecnosti hovoríme o atribútoch symbolických a numerických.

Numerické atribúty – predstavujú číselne údaje (napr. dĺžka 300cm).
Symbolické atribúty – používajú sa pre popis nejakých kvalitatívnych vlastností (nap. kvalita: výborná, dobrá, horšia, zlá a podobne)
Okrem týchto základných, existujú aj zložené typy dát, teda atribúty ktoré tvoria nejakú hierarchiu.

zlozeny datovy typ

Stromová štruktúra atribútov - príklad zloženého dátového typu

Z pohľadu procesu CRISP-DM, práca s dátami je zahrnutá v druhej a tretej fáze procesu (pochopenie dát a príprava dát). Samozrejme s dátami sa pracuje počas celého procesu, ale práve v spomínaných krokoch zohrávajú dáta kľúčovú úlohu.
Najdôležitejšou otázkou z pohľadu KDD je, možnosť manipulácie s dátami. Zaujímavý je napríklad problém vyjadrenia vzdialeností. Pri numerických dátach je možné použiť niektorú vzdialenosť napr. Euklidovskú alebo Minkowského. Problematické sú však symbolické a zložené typy dát, kde určenie tejto vzdialenosti nie je také priamočiare.

Rozdelenie:
Ordinálne atribúty – definičné obory symbolických atribútov vytvárajú prirodzené usporiadanie
ordinalny atribut

Nominálne atribúty – definičné obory symbolických atribútov nevytvárajú prirodzené usporiadanie
nominalny atribut

Binárne atribúty – sú dvojhodnotové nominálne atribúty (pokiaľ by boli reprezentované pomocou hodnôt 0 a 1, jedná sa o numerické atribúty).

Ako je vidieť, objekty a teda aj celý svet môže byť reprezentovaný pomocou dát, ktoré majú rôznu formu. Ich správne pochopenie a následná príprava zohráva v procese KDD dôležitú úlohu.

Tento obsah bol zaradený v Dáta. Zálohujte si trvalý odkaz.

Komentáre sú uzavreté.