Objavovanie znalostí z databáz – úvod
Všade okolo nás je čím ďalej, tým viac dát. Možnosť ich spracovania a analýzovania dávno presahuje ľudské možnosti. A práve túto problematiku sa snažia riešiť metódy objavovania znalostí. Ich snahou je získavať nové, platné a potencionálne užitočné znalostí z objemných dostupných dát.
O objavovaní znalostí z databáz sa začalo v odborných kruhoch hovoriť začiatkom 90. rokov minulého storočia a od tej doby rastie záujem odbornej komunity o danú problematiku, o čom svedčí aj množstvo konferencií, vznik odborných skupín ale aj vydávanie odborných časopisov a iných publikácií venovaných práve tejto oblasti.
Objavovanie znalostí z databáz je multidisciplinárna oblasť, a k jej rozvoju okrem metód umelej inteligencie, prispievajú a napomáhajú napríklad databázové technológie a štatistika. Tieto disciplíny sa spočiatku vyvíjali samostatne, až kým nenastalo obdobie, keď rozsah automatický zbieraných dát začalo ľuďom prerastať cez hlavu, a zároveň vznikla potreba využívať dáta pre podporu rozhodovania.
Ako už bolo spomenuté, objavovanie znalostí z databáz (KDD – Knowledge Discovery in Databases) je proces extrakcie znalostí z databáz, pričom extrahované znalostí musia byť: platné, doposiaľ neznáme a potencionálne užitočné. Proces objavovania znalostí je multidisciplinárny (zastúpenie viacerých oblastí výskumu), iteratívny a interaktívny. Aby sme dosiahli optimálne výsledky, ktoré by mohli byť pre nás prínosné, spravidla tento proces nie je možné plne automatizovať. Pravé preto je dôležitá asistencia človeka, ktorý rozhoduje o výbere vhodných operácií, algoritmov, parametrov a v konečnom dôsledku aj o tom, ktorá z objavených znalostí je prínosom a mala by sa aplikovať do praxe.
Tak ako aj v iných oblastiach a procesoch, existuje viacero modelov a metodík pre jednotlivé procesy. Podobne je to aj pri objavovaní znalostí z databáz. Za niektorými metodikami stoja producenti programových systémov (metodika 5A od firmy SPSS, metodika SEMMA od firmy SAS). Existujú snahy o štandardizáciu procesu KDD. Veľký význam v tomto smere je iniciatíva CRISP-DM (Cross Industry Standard Process for Data Mining) Výsledkom tejto iniciatívy je nádejný krok smerom k definovaniu štandardnej metodológie objavovania znalostí. Práve na tejto metodológií sa pokúsim popísať jednotlivé fázy procesu KDD už v ďalšom príspevku.
Cieľom tohto článku bolo poukázať na dôvod vzniku tejto multidisciplinárnej oblasti – objavovanie znalostí z databáz a jej základnú charakteristiku. V ďalších príspevkoch sa budeme snažiť ponoriť hlbšie do tejto problematiky a priniesť Vám zaujímave a hodnotné informácie z danej oblasti.