Andmekaevandus vs OLAP
Nii andmekaevandamine kui ka OLAP on kaks tavalist äriteabe (BI) tehnoloogiat. Ärianalüüs viitab arvutipõhistele meetoditele kasuliku teabe tuvastamiseks ja äriandmetest väljavõtmiseks. Andmekaevandamine on arvutiteaduse valdkond, mis tegeleb huvitavate mustrite väljavõtmisega suurtest andmekogumitest. See ühendab paljusid tehisintellekti, statistika ja andmebaaside haldamise meetodeid. OLAP (veebianalüütiline töötlus), nagu nimigi ütleb, on mitmemõõtmeliste andmebaaside päringute esitamise viiside kogum.
Andmekaevandust tuntakse ka kui teadmiste avastamist andmetes (KDD). Nagu eespool mainitud, on tegemist arvutiteaduse valdkonnaga, mis tegeleb seni tundmatu ja huvitava teabe toorandmetest väljavõtmisega. Andmete hüppelise kasvu tõttu, eriti sellistes valdkondades nagu ettevõtlus, on andmekaevandamine muutunud väga oluliseks vahendiks selle suure hulga andmete teisendamiseks ärianalüüsiks, kuna mustrite käsitsi väljavõtmine on viimase paarikümne aasta jooksul muutunud näiliselt võimatuks. Näiteks kasutatakse seda praegu mitmesuguste rakenduste jaoks, näiteks sotsiaalvõrgustike analüüs, pettuste avastamine ja turustamine. Andmekaevanduses käsitletakse tavaliselt nelja ülesannet: klasterdamine, klassifitseerimine, regressioon ja assotsieerumine. Klasterdamine on sarnaste rühmade tuvastamine struktureerimata andmete põhjal. Klassifikatsioon on õppereeglid, mida saab rakendada uutele andmetele ja mis sisaldavad tavaliselt järgmisi samme: andmete eeltöötlus, modelleerimise kavandamine, õppimine / funktsioonide valik ja hindamine / valideerimine. Regressioon on andmete modelleerimiseks minimaalse veaga funktsioonide leidmine. Ja assotsiatsioon otsib muutujate vahelisi seoseid. Andmekaevandust kasutatakse tavaliselt küsimustele vastamiseks, näiteks millised on peamised tooted, mis võivad aidata järgmisel aastal Wal-Martis suurt kasumit saada. Andmekaevandust kasutatakse tavaliselt küsimustele vastamiseks, näiteks millised on peamised tooted, mis võivad aidata järgmisel aastal Wal-Martis suurt kasumit saada. Andmekaevandust kasutatakse tavaliselt küsimustele vastamiseks, näiteks millised on peamised tooted, mis võivad aidata järgmisel aastal Wal-Martis suurt kasumit saada.
OLAP on süsteemide klass, mis annab vastused mitmemõõtmelistele päringutele. Tavaliselt kasutatakse OLAP-i turunduse, eelarve koostamise, prognoosimise ja muude sarnaste rakenduste jaoks. On ütlematagi selge, et OLAP-i jaoks kasutatavad andmebaasid on konfigureeritud keerukate ja ajutiste päringute jaoks, pidades silmas kiiret jõudlust. Tavaliselt kasutatakse OLAP-i väljundi kuvamiseks maatriksit. Ridad ja veerud moodustatakse päringu mõõtmete järgi. Kokkuvõtete saamiseks kasutavad nad sageli mitmel tabelil liitmise meetodeid. Näiteks saab selle abil teada saada selle aasta müügi kohta Wal-Martis võrreldes eelmise aastaga? Kuidas ennustatakse järgmise kvartali müüki? Mida võib trendi kohta öelda, kui vaadata protsentuaalset muutust?
Kuigi on ilmne, et andmekaevandamine ja OLAP on sarnased, kuna nad töötavad andmete abil luure saamiseks, tuleneb peamine erinevus sellest, kuidas neid andmetega opereeritakse. OLAP-i tööriistad pakuvad mitmemõõtmelist andmete analüüsi ja need pakuvad andmete kokkuvõtteid, kuid seevastu keskendub andmekaevandamine andmekogumi suhetele, mustritele ja mõjudele. See on OLAP-i kokkulepe liitmise kohta, mis taandub andmete töötamisele liitmise kaudu, kuid andmete kaevandamine vastab jagamisele. Teine tähelepanuväärne erinevus on see, et kui andmekaevandamise tööriistad modelleerivad andmeid ja tagastavad toimivaid reegleid, teostab OLAP võrdlus- ja kontrastimeetodeid reaalajas ärimõõtme järgi.