Metodika CRISP-DM ako proces získavania znalostí z databáz
V úvodnom príspevku do problematiky objavovania znalostí z databáz sme spomenuli aj metodiku CRISP-DM.
Metodika CRISP-DM (Cross Industry Standard Process for Data Mining) vznikla v rámci Európskeho výskumného projektu, ktorého cieľom bolo navrhnúť univerzálny postup použiteľný v najrôznejších komerčných aplikáciach.
Cyklus podľa metodiky CRISP-DM pozostáva zo 6 fáz, medzi ktorými existujú vzťahy. Výsledok dosiahnutý v jednej fáze ovplyvní voľbu kroku nasledujúcich. Často sa treba k niektorým krokom a fázam vracať (napríklad príprava dát, modelovanie).
Fázy procesu:
Vonkajší kruh na obrázku symbolizuje cyklickú povahu celého procesu objavovania znalostí z databáz.
- 1. Pochopenie cieľa – zameriava sa na pochopenie obchodných alebo iných cieľov a požiadaviek z manažérskeho hľadiska a následne ich pretransformovať na definíciu úlohy pre získavanie znalostí z databáz. V tejto fáze sa vykonáva aj inventúra zdrojov, hodnotia sa možné rizika, náklady a prínos použitia metód KDD.
- 2. Pochopenie dát – začína prvotným zberom dát a pokračuje sa aktivitami pre oboznámenie sa s dátami a získanie základnej predstavy o dátach, ktoré sú k dispozícií. Zistenie ich kvality a charakteru, prípadne zistenie podmnožiny dát zaujímavých pre ďalší výskum. Obvykle sa v tomto kroku zisťujú rôzne deskriptívne charakteristiky dát (priemerné hodnoty, minima, maxima a pod.) . Taktiež sa využívajú rôzne vizualizačné techniky na zobrazenie dát.
- 3. Príprava dát – zahŕňa činnosti, ktoré vedú k vytvoreniu množiny dát pre modelovanie a ktoré budú spracované jednotlivými analytickými metódami. Tieto dáta by mali obsahovať údaje dôležité pre danú úlohu KDD a mali by byť vo formáte, ktorý je potrebný pre jednotlivé analytické algoritmy. Príprava dát zahrňuje selekciu dát, čistenie dát, transformáciu dát, vytváranie dát, integrovanie a formátovanie dát. Operácie vykonávane v rámci tejto fázy prebiehajú väčšinou viackrát v nepredpísanom poradí.
- 4. Modelovanie – v tejto fáze sú vyberané a aplikované metódy modelovania. Väčšinou existuje mnoho rôznych metód pre riešenie danej úlohy, je preto potrebné vybrať tie najvhodnejšie a vhodne nastaviť ich parametre. Keďže väčšina metód ma špecifické požiadavky na formu dát, je nevyhnutná interakcia s fázou prípravy dát. Súčasťou tejto fázy je aj overenie objavených znalostí (napríklad testovanie klasifikačných znalostí na nezávislých dátach).
- 5. Vyhodnotenie výsledkov – v tejto fáze sú dostupné kvalitné modely z pohľadu dolovania v dátach. Dosiahnuté výsledky je potrebné vyhodnotiť z manažérskeho hľadiska, či boli splnené ciele formulované pri zadaní úlohy.
- 6. Nasadenie – vytvorením vhodného modelu riešenie úlohy nekončí. Je potrebné získané znalostí upraviť do podoby použiteľnej pre zákazníka. Nasadenie získaných modelov môže byť pomerne jednoduché napríklad ak ide o vygenerovanie správy, ale môže to byť aj zložitejšia úloha napríklad implementácia opakovateľného procesu KDD pre danú aplikáciu. Vo väčšine prípadov nie analytik, ale zákazník vykonáva kroky vedúce k využitiu výsledkov analýzy. Preto je dôležité, aby pochopili, čo je potrebné vykonať aby mohli byť dosiahnuté výsledky využívane efektívne.
Jednotlivé kroky procesu získavania znalostí sú rôzne časovo náročné a majú rôznu dôležitosť pre riešenie úlohy. Uvádza sa, že najdôležitejšia fáza je pochopenie problému (až 80% významu, 20% času) a fáza prípravy dát je časovo najnáročnejšia (až 80% času, 20% významu).
A na záver ešte jeden výrok, pred tým, než sa pustíte do získavania znalostí z databáz (Christieho-Daviesov teorém):
Ak mate zlé údaje, ale dokonalú logiku, tak sú vaše závery určite nesprávne. Ak si však doprajete sem tam nejakú trhlinu v logickom uvažovaní, môžete vďaka náhode dôjsť ku správnemu záveru.