Què passaria si les organitzacions processessin totes les seves dades fins convertir-los en suport per a la presa de decisions? Què passaria si fessin servir programari especialitzats que servissin per a la presentació de la informació i l'anàlisi de la mateixa? donarem alguns exemples de Data Warehouse per respondre aquestes preguntes.
Exemples de Data Warehouse
En primer lloc, és important diferenciar entre dos termes que, per la seva abreviatura, poden confondre'ns fàcilment, i des d'un principi la intenció és que l'usuari sàpiga a què atenir-se i conegui alguns conceptes bàsic al que es va a enfrontar. Aquí mostrarem infinits exemples que serveixin perquè l'individu tingui les eines per distingir aquests elements.
definició
Vista la diferència entre els dos termes, farem definir formalment, ja que es tracta d'un procés que extreu, transforma, consolida i integra les dades d'una organització, tant interns com externs, amb la finalitat de fer-los accessibles i útils en la presa de decisions .
De la mateixa manera el Data warehouse també pot definir-se com una base amb informació de sistema d'arxius electrònics, que emmagatzema les dades necessàries per a l'anàlisi de la informació i la presa de decisions. La seva diferència radica que que està orientada a l'negoci, integrada, variant en el temps i no volàtil.
Bàsicament, Data Warehousing (DWH) és un procés i Data Warehouse (DW) és una base de dades.
Característiques
Són diversos us aspectes que caracteritzen el Data warehouse que proporcionen les eines necessàries per a la seva òptima utilització, complint així directrius programats que generin les eines per a la seva suso de la millor manera possible. Detallarem les característiques d'un Data Warehouse:
Orientada a l'negoci
A el Data Warehouse només ingressen dades rellevants per a l'anàlisi i presa de decisions. És a dir, no es consideren dades que no tenen valor analític, com per exemple, adreces d'habitació, codis postals, adreces de correu, entre d'altres. Però són d'interès variables com, tipus de client, ubicació geogràfica, edat, etc.
Es manegen entitats d'alt nivell, com a clients, productes, rubros, zones, i altres. Les dades es guarden de forma multidimensional, és a dir en taules de fets i dimensions.
integrat
Totes les dades provinents de fonts heterogènies es consoliden per garantir la seva qualitat i neteja. Els principals orígens de dades són:
Segons el tipus d'usuari.
-
- Operacional: Diàriament produeix gran quantitat de dades, però per si mateixos són de poca rellevància per a l'anàlisi requerit. Per exemple, les vendes de productes.
- Medi: Genera dades amb implicació a curt i mitjà termini, basats en les dades operacionals. Un bon exemple d'aquest concepte és la generació d'inventaris.
- Gerencial: Empra dades resultants de l'procés d'integració i transformació. Al seu torn, genera nova informació. Es refereix, bàsicament, a l'usuari de el Data Warehouse.
Segons l'àrea o el departament de l'organització
-
- Àrees: Cadascuna té responsabilitats ben definides. Produeixen dades pròpies que són compartits amb les altres àrees.
- Subdivisions: Solen ser geogràfiques. Aporten dades de localització, que han de ser incorporats juntament amb els altres.
Segons la font
-
- Internes: Generen dades pròpies, provinents de les activitats diàries de l'empresa.
- Externes: Complementen les dades internes, per exemple censos i estadístiques.
Variant en el temps
Permet l'accés a diferents versions d'una mateixa situació, ja que les dades actuals són emmagatzemats juntament amb els històrics, en els exemples de data warehouse.
no volàtil
Garanteix l'estabilitat de la informació, ja que una vegada que les dades entren, no canvien. És a dir, les dades són manipulats únicament quan s'introdueixen i quan es consulten.
En resum, les principals qualitats de el Data Warehouse són:
qualitats
Maneja dades en volum, conseqüència de l'acumulació de dades històriques, actuals i agregats, provinents de diverses fonts.
Col·loca tot el volum de dades en una mateixa base de dades centralitzada. Estructura les dades de manera multidimensional.
Beneficis
A causa de les seves característiques i qualitats, el Data Warehouse, presenta els següents beneficis:
- Redueix el temps mínim que es requereix per recollir totes les dades rellevants sobre un tema en específic.
- Proporciona eines d'anàlisi.
- Molts informes i anàlisis són definits per l'usuari.
- Permet accedir, analitzar i monitoritzar directament els indicadors de l'organització.
- Ajuda a identificar els factors que incideixen en el funcionament de l'empresa.
- Permet avançar i determinar el comportament futur de la institució.
- Els usuaris poden consultar dades de manera ràpida i senzilla.
En definitiva, el Data Warehouse ajuda a l'organització a respondre preguntes essencials per a la presa de decisions. Això aconsegueix obtenir beneficis de forma competitiva que optimitzen el seu lloc en el mercat en el qual operen. Algunes d'aquestes preguntes són:
- Quin és el perfil dels clients?
- Com és el seu comportament?
- Quina és la rendibilitat d'el negoci?
- Quin és el risc que corre l'organització?
- Quins serveis i productes utilitza i com pot incrementar-los?
Àmbit d'aplicació
Un Data Warehouse pot adaptar-se a qualsevol organització, independentment de la seva grandària i complexitat. Això és com a conseqüència de l'agenda de qualsevol institució, empresa o organització a l'hora de prendre decisions pertinents referents a les dades que produeix.
Riscos d'aplicació
Requereix una gran inversió per part de l'organització. Els beneficis de la seva implementació no es veuen a curt termini, sinó a mitjà i llarg termini.
La manipulació de dades atempta contra la manipulació de les dades sensibles.
Aspectes a tenir en compte
Tal com es va comentar a el principi, són diversos els aspectes que cal tenir en compte per a l'aplicació d'aquests elements per a l'ús d'un servidor. Entre ells podem esmentar els següents:
Costos d'aplicació
Un data Warehouse comporta costos de construcció, operació i de sosteniment. El cost de construcció implica els costos de recursos humans, temps i tecnologia, mentre que el d'operació i manteniment, contempla els costos d'evolució, creixement i els produïts pels canvis en l'origen de les dades.
Impacte en les persones
L'aplicació d'un Data Warehouse sempre genera expectatives en els usuaris, els quals necessàriament hauran d'adquirir noves destreses. L'èxit d'aquest tipus de data depèn de l'ús actiu i retroalimentació per part dels usuaris.
Impacte en els processos empresarials i de presa de decisions
Amb l'aplicació d'un Data Warehouse poden quedar a l'descobert certes deficiències en els processos empresarials, però a el mateix temps augmenta la confiança en les decisions preses en base als resultats llançats per la mateixa.
Arquitectura
L'arquitectura general d'un exemple de data Warehouse és la que es mostra a la figura de dalt. Com es pot apreciar, aquest sistema implica una sèrie d'interaccions entre els seus components. A l'respecte ia manera de resum, el seu funcionament es pot descriure de la següent manera:
- Les dades són presos de diverses fonts, com serveis web, arxius i altres bases de dades, tant internes com externes.
- Un cop extrets les dades, aquests són integrats, transformats i netejat, per posteriorment ser carregats en el Data Warehouse.
- Amb la finalitat de generar informació tàctica i estratègica, s'obtenen informes i anàlisis provinents de la càrrega de les dades.
- Finalment, els usuaris poden consultar i explorar els informes i anàlisis generats.
elements
Anem ara a descriure alguns dels elements que es poden avaluar en el Data Warehouse que han de ser de la nostra consideració.
Fonts de el Data Warehouse
Generalment, són el resultat de l'activitat diària de l'empresa, en aquest cas es denominen fonts internes. Quan les dades són presos de, per exemple, servidors web, aquestes són considerades fonts externes. Són diferents entre si, perquè depenen de la seva procedència, format, funció, etc.
Extracció, transformació i càrrega
Conegut com ETL, és el procés que comprèn totes les tasques que es realitzen des que s'obtenen les dades fins que es carreguen en el Data Warehouse. Aquestes són: extracció, manipulació, control, integració, depuració de dades, càrrega i actualització.
extracció
Inclou tècniques enfocades a obtenir, des de diverses fonts, només les dades rellevants i mantenir-los en un emmagatzematge intern. Aquest tipus d'emmagatzematge permet manipular les dades sense intervenir ni alterar amb mes dades les fonts ni el Data Warehouse, crear una capa d'extracció entre la lectura i la càrrega, emmagatzemar i gestionar les metadades que es generen en el procés i facilitar la integració.
L'extracció es basa en les necessitats dels usuaris i els requisits definits per a la solució.
transformació
Es tracta de les tècniques encarregades de fer compatibles els diferents formats, així com de filtrar i classificar les dades, i relacionar fonts.
Aquesta funció és la responsable d'aplicar tots els ordres aptes en relació a les dades, per tal de promoure'ls de manera forta i raonable que facin compatibilitat i coherència amb el Data Warehouse. A més, s'encarrega de la neteja i qualitat de les dades.
Carrega
Pel que fa a les tècniques pròpies de la càrrega inicial de les dades i l'actualització periòdica de el Data Warehouse.
- La càrrega inicial es refereix a la primera càrrega de dades que rep el Data Warehouse. Generalment, consumeix moltíssim temps a causa de la gran quantitat de registres que pertanyen a llargs períodes de temps.
- L'actualització periòdica es refereix a la inserció de petits volums de dades. El seu objectiu és afegir als exemples de data warehouse només aquelles dades que es generen de l'última actualització. Depèn de les necessitats i requeriments de l'usuari.
En definitiva, mitjançant el procés de la càrrega de dades, es garanteix el manteniment de el Data Warehouse.
A tall de resum, es pot dir que el procés ETL es porta a terme de la següent manera:
- Les dades, un cop extrets de les fonts rellevants, es dipositen en l'emmagatzematge intern.
- Mentre les dades es mantenen en l'emmagatzematge intern, s'integren i transformen.
- Quan les dades són netejats, després de el pas anterior, són passats a el Data Warehouse.
informes
Els informes són eines gràfiques que li permeten a l'usuari obtenir informes detallats sobre la informació de la seva empresa. La forma d'interactuar amb aquests informes és bastant senzilla per a l'usuari, ja que es tracta d'instruccions de fàcil seguiment. Bàsicament, ha de seleccionar opcions d'un menú, referent a les condicions i especificacions de el tema presentat.
OLAP
És el component més poderós de el Data Warehouse, ja que conté el motor de consultes multidimensionals especialitzades de el sistema.
Permet l'anàlisi de l'organització des de diferents escenaris històrics. Projecta el seu comportament i evolució des d'una visió multidimensional, és a dir, mitjançant la combinació de diferents perspectives, temes d'interès o dimensions. Això permet deduir tendències per mitjà de la descoberta de relacions entre les perspectives que a primera vista serien difícils de trobar.
Data Mining
És, principalment, una eina estadística, mitjançant la qual es poden fer prediccions. Es tracta d'inferir comportaments, sense que hagin regles preestablertes. Genera informes en forma de taules i gràfics, entre d'altres, els quals promouen la presa de decisió d'una manera proactiva. Treballa sobre la base de la informació que ja ha estat enterament processada.
Diferència entre OLAP i Data Mining
Un cop considerats els principals aspectes de OLAP i el Data Minig, es pot establir una diferència bàsica entre ells.
- Mitjançant OLAP s'interpreta la situació actual de l'empresa, donant respostes ràpides que facilitin la presa de decisions.
- El Data Minig prediu situacions, basat en l'estudi de coneixements ocults que provoquen cert tipus de comportaments.
En conseqüència, tots dos sistemes s'ocupen de resoldre diferents tipus de situacions analítiques.
Data Minig i la seva relació amb Data Warehouse
Un sistema Data Minig és una tecnologia de suport per a l'usuari final, l'objectiu és extreure informació útil a partir de la informació continguda a la base de dades de les empreses. És a dir, l'origen de la informació que utilitzen els algoritmes de Data Minig solen ser dades històriques continguts en un Data Warehouse.
Hi ha d'haver una integració entre les tècniques de Data Minig i els processos que comporta el Data Warehouse. És a dir, per poder realitzar l'anàlisi de l'negoci, ha d'haver concordança entre el Data Minig, el Data Warehouse i el servidor OLAP.
Cada vegada que Data Warehouse proporciona nous resultats, l'empresa pot tornar a aplicar Data Minig per optimitzar la presa de decisió.
En definitiva, el Data Minig i el Data Warehouse, són eines completament compatibles. El Data Warehouse aporta memòria, i el Data Minig intel·ligència.
Bases de dades tradicionals vs Data Warehouse
L'anàlisi dels aspectes exposats fins ara, ens porta a comprendre que un Data Warehouse difereix de les bases de dades que suporten les transaccions diàries de les organitzacions. Aquí les diferències bàsiques
- En les bases de dades tradicionals la informació està organitzada perquè sigui recuperada i actualitzada fàcilment. Un Data Warehouse està organitzat i orientat cap a l'usuari final, el qual únicament pot realitzar consultes.
- Les bases de dades transaccionals s'ocupen de l'processament diari de les dades. El Data Warehouse treballa amb dades històriques, és a dir, corresponents a llargs períodes de temps.
- Les bases de dades tradicionals són accesadas en diverses oportunitats durant una jornada de treball. En un Data Warehouse les lectures i consultes són mínimes, ja que s'accedeix esporàdicament.
- El volum de dades que administra un Data Warehouse és molt més gran que l'administrat en les bases de dades tradicionals.
- L'estructura de les bases transaccionals és estable. L'estructura d'un Data Warehouse varia d'acord amb la seva pròpia evolució i utilització.
A continuació, establirem alguns exemples de Data Warehouse.
Exemples de Data Warehouse
Una empresa d'abast nacional, dedicada a la venda d'articles de neteja a l'major i al per menor, considerada a més de mida pel seu volum de vendes, té com a meta principal maximitzar els seus guanys. De la mateixa manera, per tal d'aconseguir major quantitat de clients, desitja expandir-se a un nou nivell de mercat i, posteriorment, ampliar la seva rubro de productes. Una de les seves principals polítiques és millorar contínuament per aconseguir una millor posició respecte als seus competidors dels exemples de data warehouse.
L'aplicació d'un Data Warehouse li ofereix els següents beneficis a l'organització.
- Permet als usuaris tenir una visió general de l'negoci.
- Transforma dades operatives en informació analítica, enfocada cap a la presa de decisions.
- Genera informes dinàmics que faciliten la seva anàlisi.
- Facilita la formació d'estratègies per al compliment de les metes de l'organització.
- Beneficia l'estabilitat de l'estructura de l'empresa.
Un altre exemple de data warehouse quotidià es refereix a la gestió d'una institució educativa, la qual presenta deficiències pel que fa a la comunicació amb els seus estudiants. De la mateixa manera, no té un centre d'informació unificat que tingui tota la informació dels mateixos. L'objectiu de la institució és acompanyar els alumnes durant la seva carrera i després de la seva graduació, per oferir-li noves propostes que potenciïn el rendiment de l'organització i el desenvolupament dels estudiants.
Amb l'aplicació d'un Data Warehouse es busca respondre a les necessitats de la universitat. En principi, eliminant la duplicitat de la informació i la presència de detalls erronis sobre els estudiants, així com tota la informació que, en general, es consideri de mala qualitat i que no resulti rellevant. Addicionalment, s'integra tota la informació, formant un registre unificat d'estudiants que serveixi de base per al bon desenvolupament de el projecte de la institució.
Finalment, s'impulsen les activitats de màrqueting, donant-li a la universitat major benefici i ajudant al seu creixement a través de la correcta gestió de la informació.
En conclusió, en exemples de data warehouse brinda l'oportunitat de conèixer el que està succeint en l'organització, el que ha passat, el que pot arribar a succeir i el perquè. Pots veure l'article tipus de virus informàtics.