e-TI
la revue �lectronique des technologies de l'information
Pr�c�dent Bas de page Suivant Signaler cette page Version imprimable



Num�ro 4 > G�nie logiciel et intelligence artificielle

Article

Construction et maintenance des entrep�ts de donn�es h�t�rog�nes


Sana Hamdoun, LIPN Universit� Paris 13, 99 avenue Jean Baptiste Cl�ment, 93430 Villetaneuse, France, sh@lipn.univ-paris13.fr.
Faouzi Boufar�s, LIPN Universit� Paris 13, 99 avenue Jean Baptiste Cl�ment, 93430 Villetaneuse, France, boufares@lipn.univ-paris13.fr.
Mohamed Badri, CRIP5 Universit� Paris 5, 45 rue des Saints P�res, 75270 Paris Cedex 06, France, badri@univ-paris5.fr.

Date de publication : 23 juin 2007

R�sum�

La construction de gros volumes de donn�es afin de disposer, � tout moment, d?outils d?aide � la d�cision est devenue, de nos jours, un sujet tr�s important dans le monde industriel. L?abondance des informations et leur h�t�rog�n�it� complique la t�che d?int�gration de donn�es et leur maintenance au moindre co�t. Nous proposons dans cet article un outil d?int�gration de donn�es h�t�rog�nes structur�es et semi-structur�es. Notre m�thode est bas�e sur les liens de synonymie et d?inclusion qui peuvent exister entre les informations � travers les bases de donn�es concern�es. Nous proposons, par ailleurs, une proc�dure de maintenance pour pallier l?insuffisance d?Oracle.

Abstract

This work describes the construction of a data warehouse by the integration of heterogeneous relational and object-relational data. In fact, developing intelligent tools for the integration of information extracted from multiple heterogeneous sources is a challenging issue to effectively exploit the numerous sources available in global information systems. Due to the heterogeneity of the sources, various languages of interrogation and different data models are used for the warehouses. Thus the construction of the latter can be made in several manners. Our work is based on the extraction of the inter-schema relationships between the sources. Related to this, a global schema is generated and the views of the data warehouse are constructed. A maintenance procedure is also presented to mitigate the insufficiency of Oracle.


Table des mati�res

Texte int�gral

L?environnement informationnel actuel se caract�rise par des donn�es fortement distribu�es. Ces donn�es surabondantes sont g�n�ralement �parpill�es, puisqu?il existe souvent de multiples syst�mes con�us chacun pour �tre efficace pour les fonctions pour lesquelles il est sp�cialis�. Ces donn�es sont �galement h�t�rog�nes. En effet, avec l?apparition de l?Internet et le d�veloppement des diff�rentes repr�sentations et formats des documents, les donn�es peuvent �tre class�es en plusieurs cat�gories�: structur�es (donn�es relationnelles, donn�es objet), semi-structur�es (HTML, XML, graphes) ou m�me non structur�es (texte, images, son). Dans un tel contexte, le besoin d?int�gration se fait de plus en plus sentir. Cependant, pour r�pondre � ce besoin, le d�veloppement des applications d?int�gration (telles que pour un traitement �labor� de donn�es, pour la construction des entrep�ts de donn�es ou des syst�mes d?aide � la d�cision) se voit contraint de composer avec la r�partition des sources, �l?h�t�rog�n�it� de leurs structures et la complexit� des donn�es.

Afin d?alimenter les processus d?aide � la d�cision, notre travail consiste, d?une part, � int�grer des donn�es h�t�rog�nes pour la construction des entrep�ts de donn�es (ED) et, d?autre part, � les maintenir.

Plusieurs travaux sont men�s par plusieurs �quipes afin de construire des entrep�ts XML (Nassis, Rajugan et al., 2004), (Byung-Kwon Park, Hyoil Han et Il-Yeol Song, 2005), (Boussaid, �Ben Messaoud et Choquet, 2006).

La d�finition de l?h�t�rog�n�it� est assez ambigu� dans la litt�rature. En effet, certains travaux qualifient les donn�es de diff�rentes cat�gories d?h�t�rog�nes (Kim et Park, 2003), (Beneventano, �Bergamaschi et al., 2002), (Maibaum, Zamboulis et al., 2005). Alors que d?autres, traitant des donn�es de m�me cat�gorie mais avec des mod�lisations diff�rentes utilisent aussi le terme d?h�t�rog�n�it� (Saccol� et Heuser, 2002). On trouve m�me des travaux, d�signant des donn�es de m�me cat�gorie avec la m�me mod�lisation qui parlent de donn�es h�t�rog�nes (da Silva, �Evangelista Filha et al., 2002). Ceci est d� au fait qu?il n?y a pas de mod�le de repr�sentation unique pour les donn�es � int�grer. Plusieurs mod�les, selon les caract�ristiques des sources et les manipulations � effectuer peuvent �tre retenus. Il n?existe pas, par ailleurs, un langage universel d?interrogation de donn�es h�t�rog�nes mais plusieurs langages peuvent �tre utilis�s. Le traitement de donn�es compl�tement h�t�rog�nes structur�es, semi-structur�es et non structur�es s?av�re donc un volet de recherche r�cent et assez peu explor�.

Un entrep�t de donn�es, qu?il soit homog�ne ou h�t�rog�ne, n�cessite d?�tre maintenu. Il doit aussi �voluer en fonction de l?�volution des donn�es sources aussi bien au niveau des structures que celui des donn�es.

Le probl�me de la maintenance est �galement tr�s complexe. Les algorithmes propos�s dans la litt�rature traitent essentiellement de donn�es sources (DS) homog�nes (Zhuge, Garcia-Molina et al., 1995), (Zhuge, Garcia-Molina et Wiener, 1996), (O?Gorman, Agrawal et El Abbadi, 1999), (Laurent, Lenchtenboer-Ger et al., 2001).

Cet article est structur� comme suit. Le paragraphe 2 traite de la construction des entrep�ts de donn�es h�t�rog�nes. La concr�tisation de la cr�ation des vues mat�rialis�es de l?entrep�t est pr�sent�e dans le paragraphe 3. Nous abordons ensuite les probl�mes de maintenance des vues mat�rialis�es dans la section 4. L?accent est mis, l� aussi, sur les limites de ce SGBD. Nos travaux futurs sont donn�s en guise de conclusion.

Notre objectif est l?int�gration �de donn�es provenant de sources diff�rentes et h�t�rog�nes afin de construire des entrep�ts de donn�es (cf. figure 1). Dans notre travail, les DS sont dites h�t�rog�nes si elles v�rifient l?une des deux propri�t�s suivantes�:

  1. Elles appartiennent � la m�me cat�gorie (structur�es, semi-structur�es et non-structur�es) de donn�es mais elles ont des mod�lisations diff�rentes. Ainsi le traitement d?une base de donn�es relationnelles et d?une base de donn�es objet-relationnelles revient � traiter des donn�es h�t�rog�nes.

  2. Elles appartiennent � des cat�gories de donn�es diff�rentes. Ainsi le traitement d?une base de donn�es relationnelles et d?une base de donn�es XML entre dans le cadre du traitement de donn�es h�t�rog�nes.�

Nous ne traitons dans cet article que l?int�gration de donn�es h�t�rog�nes structur�es relationnelles et objet-relationnelles (avec des types d�finis par l?utilisateur ou d?autres types tels que le type texte ou le type XML).

Figure 1. L?h�t�rog�n�it� des sources d?un entrep�t de donn�es

Soit un ensemble E de bases de donn�es � int�grer afin de former un entrep�t de donn�es DW, {E= DBk, k? }. Dans la suite, nous noterons le sch�ma de la base de donn�es DBk par Sk. On note Sk =(�Rk, ATTk, DOMk).

Rappelons que�pour le mod�le relationnel ou objet-relationnel, un sch�ma S, sans contrainte, repose sur l?existence d?un ensemble RS de noms de relations, d?un ensemble ATTS de noms d?attributs et d?un ensemble DOMS de noms de domaines. Ces ensembles sont consid�r�s comme des donn�es du niveau conceptuel. Un sch�ma de base de donn�es relationnelles ou objet-relationnelles peut donc �tre d�fini comme S = (�RS, ATTS, DOMS)�; tel que :

  • Chaque nom d?attribut A ATTS est associ� � un seul nom de domaine domS(A) DOMS. Cette association d�finit un attribut, not� A�: domS(A) ou simplement A, s?il n?y a pas risque de confusion.

  • Chaque nom de domaine D DOMS d�note un ensemble de valeurs atomiques (types de base) ou bien des types compos�s. Dans le cas du relationnel, les types de base sont ceux propos�s par le syst�me de gestion de bases de donn�es (tels que Oracle, DB2).

  • Chaque nom de relation �R RS est associ� � un ensemble fini et non vide d?attributs attS(R) ATTS. Cette association d�finit un sch�ma de relation de nom R et de structure (A1:domS(A1),?,An:domS(An)) not� par� R (A1 : domS (A1), ?, An : domS (An)) o� n est la cardinalit� de attS(R).

Notons qu?un ensemble Cs de contraintes peut accompagner la d�finition d?un sch�ma S.

Notre approche d?int�gration de bases de donn�es peut �tre d�crite par plusieurs �tapes. La premi�re se r�sume par le choix des diff�rents composants de l?entrep�t de donn�es � construire. Un ensemble de liens est d�fini ensuite entre les diff�rents composants de sources de donn�es. Cet ensemble est utilis� dans l?�tape suivante qui consiste � filtrer les composants de l?entrep�t. Le sch�ma global de l?entrep�t est ensuite d�fini, cette �tape est suivie par celle de construction qui consiste � alimenter les vues de l?entrep�t par les donn�es des sources.

Dans cette �tape, l?ensemble L des composants de l?entrep�t est s�lectionn�. L constitue l?ensemble des attributs (de type pr�d�fini ou de type utilisateur) ou des �l�ments (XML) des sources de donn�es qui doivent figurer dans l?entrep�t�: .

L?ensemble des composants de l?entrep�t est donc un sous-ensemble de �tous les composants des diff�rentes bases h�t�rog�nes constituant les sources de donn�es.

Plusieurs relations peuvent �tre d�finies entre les diff�rents composants des sources (synonymie, inclusion, disjonction, incompatibilit�?) (Beneventano, Bergamaschi et al., 2000). C?est le concepteur (administrateur) de l?entrep�t qui donne ces liens.

Dans le cadre de ce travail, nous d�finissons deux types de liens�qui peuvent exister entre les diff�rents composants des bases de donn�es concern�es : la SYNonymie et l?INClusion.

Le lien de SYNonymie est alors d�fini en tant qu?une relation d?�quivalence SYN sur L. Celui d?INClusion est d�fini en tant qu?une relation d?ordre stricte INC sur L.

Nous d�finissons, par ailleurs, la compatibilit� entre domaines de la mani�re suivante�:

D�finition 3�(compatibilit� entre domaines)

Etant donn�s deux composants A et A?, Dom(A) et Dom(A?) sont compatibles :

Dans le cas des bases de donn�es relationnelles ou objet-relationnelles les deux liens consid�r�s sont d�finis ci-dessous.

D�finition 4�(Synonymie) : Etant donn�s deux attributs A (AR, RDB1) et A? (A?R?, R?DB2), A SYN A? Si�Dom(A) ? Dom(A?), et si l?ensemble C1 des contraintes de domaine pour A est logiquement �quivalent � l?ensemble C2 des contraintes de domaines pour A?.

D�finition 5 (Inclusion) : Etant donn�s deux attributs A (AR, RDB1) et A? (A?R?, R?DB2), A INC A? Si�Dom(A) ? Dom(A?), et si C1 et C2 ne sont pas logiquement �quivalents et toute contrainte de l?ensemble C2 est impliqu�e par C1.

Dans le cas des attributs compos�s ces deux liens sont d�finis dans ce qui suit.

D�finition 6 (Synonymie, attributs compos�s) : Soient les deux attributs compos�s A et A?o� A={c1,?,cr} et A?={c?1,?,c?r?} avec c1,?,cr et c?1,?,c?r? sont des attributs atomiques. A SYN A? si r = r? et cs SYN c?s pour tout s compris entre 1 et r.

D�finition 7�(Inclusion, attributs compos�s)

Soient les deux attributs compos�s A et A?: A={c1,?,cr} et A?={c?1,?,c?r?} avec c1,?,cr et c?1,?,c?r? sont des attributs atomiques. A INC A? si r ? r? et cs SYN c?s pour tout s compris entre 1 et r.

L?ensemble des composants de l?entrep�t est raffin� en utilisant l?ensemble des liens d�finis dans l?�tape pr�c�dente. En effet, deux �tapes de filtrage sont effectu�es, sur l?ensemble L, selon les liens �tablis.

Etape 1�: Filtrage en �utilisant la relation d?�quivalence SYN

L est filtr� en laissant un seul repr�sentant de chaque classe d?�quivalence correspondante au lien SYN. Le choix du repr�sentant est al�atoire et il n?intervient pas dans le processus d?int�gration. Le domaine associ� au repr�sentant choisi est �gal � l?union des diff�rents domaines de tous les composants de la classe d?�quivalence.

Etape 2�: Filtrage en utilisant la relation d?ordre INC

La deuxi�me op�ration de filtrage consiste � laisser le "plus grand" �l�ment correspondant � la relation d?ordre INC. Le domaine associ� au repr�sentant choisi est �gal � l?union des diff�rents domaines de tous les �l�ments inclus ou �gale (INC) � ce dernier.

L?ensemble L? r�sultat du filtrage est donc form�: L?L. L? peut �tre �crit de la mani�re suivante�:

2.4. G�n�ration du sch�ma global de l?entrep�t

La g�n�ration du sch�ma global comporte les �tapes suivantes�:

1- Pour chaque L?k un graphe non orient� Gk est construit. Chaque n?ud correspond � une relation RRk et chaque arc indique l?existence d?une contrainte de cl� �trang�re entre deux relations. Soit d? le nombre de ces graphes.

2- On d�tecte les sous-graphes connexes pour chaque graphe Gk. Rappelons qu?un graphe est dit connexe s?il existe au moins un chemin entre chaque couple de noeuds du graphe (Lellahi et �Zamulin, 2001). Le graphe Gk est donc l?union de ses �sous graphes connexes.

3- Soit [k �l?ensemble form� de ces sous graphes, � savoir, [k={Gki / i?Tk} o� Tk d�signe une indexation pour [k

4- Soit . Pour tout u = (u1,?,ud) T. On consid�re le graphe Cu form� de l?union de tous les Cui (i=1,?,d), et on d�note par C l?ensemble des graphes ainsi obtenu�: C={ Cu / u T}

5- Un sch�ma de vue Vu est associ� � chaque sous graphe Cu telles que les relations intervenant dans Vu sont celles repr�sent�es par des n?uds dans le graphe Cu et les attributs de Vu sont ceux de L? qui appartiennent aux relations intervenant dans Vu.

L?�tape pr�c�dente de l?approche a permis d?�tablir le nombre de vues (?) de l?entrep�t et leurs structures (DW={Vi / i [1.. ?]}). Un algorithme de construction ConstruitVue( ) sera appliqu� pour chacune d?entre elles.

Pour toute vue V � construire, l?algorithme construitVue( ) consiste � int�grer des donn�es de diff�rentes bases afin d?alimenter la vue. Cet algorithme est pr�sent� dans la suite�pour une vue V. La proc�dure Cr�er_Vue(Q) consiste � ex�cuter une requ�te de s�lection, des diff�rents composants figurant dans Q. Dans notre cas, la s�lection consiste � interroger la base concern�e avec le langage SQL.

2.6. Bases de donn�es exemple

L?exemple sur lequel nous travaillons porte sur les syst�mes d?information de sant�: SIM. En effet, le dossier m�dical informatis� d?un patient, qui peut �tre suivi pour plusieurs pathologies, est un cas tr�s complet d?int�gration de donn�es h�t�rog�nes (web, informations sp�cialis�es, images num�riques, ?) et de leurs mises � jour r�guli�res.

Figure 2. Structure des deux bases SIM

Les diff�rentes �tapes de construction de l?entrep�t de donn�es sont les suivantes�:

-1- Liste des composants de l?entrep�t

L={DB1.MEDECINS.MENUM; DB1.MEDECINS.MENOM�; DB1.VISITES.VINUM�; DB1.VISITES.VIDATE�; DB2.PRATICIENS.PRNUM�; DB2.PRATICIENS.PRNOM�; DB2.ACTES.ACNUM�; DB2.ACTES.ACDATE�; DB2.ACTES.ACCODE}

-2- Etablissement des liens de Synonymie et d?Inclusion

DB1.VISITES.VINUM� SYN DB2.ACTES.ACNUM�

DB1.VISITES.VIDATE� SYN DB2.ACTES.ACDATE

DB1.MEDECINS.MENUM INC DB2.PRATICIENS.PRNUM

DB1.MEDECINS.MENOM INC DB2.PRATICIENS.PRNOM

-3-�Filtrage en �utilisant la relation d?�quivalence SYN et la relation d?ordre INC

Utilisation de la SYNonymie

L={DB1.MEDECINS.MENUM; DB1.MEDECINS.MENOM�; DB1.VISITES.VINUM�; DB1.VISITES.VIDATE�; DB2.PRATICIENS.PRNUM�; DB2.PRATICIENS.PRNOM�; DB2.ACTES.ACNUM�; DB2.ACTES.ACDATE�; DB2.ACTES.ACCODE}

Utilisation de l?INClusion

L={DB1.MEDECINS.MENUM; DB1.MEDECINS.MENOM�; DB1.VISITES.VINUM�; DB1.VISITES.VIDATE�; DB2.PRATICIENS.PRNUM�; DB2.PRATICIENS.PRNOM�; DB2.ACTES.ACNUM�; DB2.ACTES.ACDATE�; DB2.ACTES.ACCODE}

L?={DB1.VISITES.VINUM�; DB1.VISITES.VIDATE�; DB2.PRATICIENS.PRNUM�; DB2.PRATICIENS.PRNOM�; �DB2.ACTES.ACCODE}

-4- G�n�ration du sch�ma global

On a donc une seule vue r�sultat pour l?entrep�t. Elle contient tous les attributs de L?.

V={DB1.VISITES.VINUM�; DB1.VISITES.VIDATE�; DB2.PRATICIENS.PRNUM�; DB2.PRATICIENS.PRNOM�; �DB2.ACTES.ACCODE}

5-En applicant l?algorithme ConstruitVue �� la vue V de l?entrep�t, nous aurons�:

Pour k=1

Q={DB1.VISITES.VINUM�;DB1.VISITES.VIDATE�;DB1.MEDECINS.MENUM�; DB1.MEDECINS.MENOM�; null}

Pour k=2

Q={DB2.ACTES.ACNUM�;DB2.ACTES.ACDATE;DB2.PRATICIENS.PRNUM�; DB2.PRATICIENS.PRNOM�; DB2.ACTES.ACCODE}

Ainsi les composants de l?ED sont d�termin�s. La construction physique des vues est effectu�e � l?aide des requ�tes (SQL dans le cadre du relationnel-�tendu, XML-query pour les donn�es de type XML).

Dans cette section, nous illustrons la gestion (cr�ation et maintenance) des vues mat�rialis�es (VM) � travers le SGBD Oracle. Notre choix de l?outil se justifie essentiellement par la position qu?il occupe sur le march� et notamment par sa r�putation en mati�re de performance et de gestion de gros volumes de donn�es complexes.

Une vue mat�rialis�e (VM) est d�finie sur une ou plusieurs tables � partir d?une ou de plusieurs bases. Ces derni�res peuvent �tre homog�nes ou h�t�rog�nes. La structure d?une vue peut �tre ainsi compos�e d?attributs de types complexes. Les donn�es sont extraites � partir des DS.

L?entrep�t de donn�es mentionn� � construire peut �tre compos� de plusieurs vues issues de l?int�gration de plusieurs sources h�t�rog�nes (cf. Figure 2). Nous avons effectu� des tests de cr�ation de VM sous Oracle en utilisant les diff�rentes combinaisons possibles entre type et p�riodicit� de rafra�chissement. Chaque combinaison est test�e � la fois sur des donn�es de types simples et des donn�es de types complexes. Les m�mes tests ont �t� effectu�s sur des VM mono-table et des VM multi-tables.

Nous constatons, � notre grand �tonnement, que la seule possibilit� pour int�grer des donn�es h�t�rog�nes serait de cr�er une vue multi-tables mono-base avec le type de rafra�chissement le plus co�teux vu qu?il doit �tre complet et sur demande.

Nous avons d�velopp� en PL/SQL le package pck_constvues qui permet la cr�ation d?entrep�ts de donn�es h�t�rog�nes en rempla�ant les vues mat�rialis�es, version Oracle, par des tables classiques (Boufares et Hamdoun, 2005). Nous n?avons pas pu joindre, en annexe, le package par manque de place.

La maintenance des VM revient � r�percuter les changements apparus au niveau des DS. �Afin de s?adapter � l?�volution des processus d?analyse, l?�volution d?un entrep�t requiert, d?une part, la maintenance de structure et, d?autre part, la maintenance de donn�es.

La maintenance structurelle a pour objectif de maintenir le sch�ma des vues de l?ED suite aux changements des structures des DS (ajout/suppression de DS, ajout/suppression de relation/classe, ajout/suppression d?attribut, ?). L?ED peut aussi subir des changements �de structure, ind�pendamment des DS, suite � une red�finition de l?une ou de plusieurs de ses vues, ou suite � la mat�rialisation de vues non mat�rialis�es, ou suite � une reconfiguration (ajout de vues). La maintenance structurelle peut engendrer un changement fondamental du sch�ma de l?ED (Badri, Boufares et al., 2005)

A travers les tests qu?on a effectu� lors de la manipulation des vues mat�rialis�es sous Oracle, nous constatons qu?il est impossible de modifier la structure des donn�es d?une table source si l?un de ses attributs est de type complexe. Il est cependant possible de modifier la structure de certaines donn�es de types simples qui appartiennent � des tables relationnelles, seulement ces modifications ne sont pas r�percut�es sur les VM.

La maintenance des donn�es consiste � alimenter l?entrep�t suite aux mises � jour des sources de donn�es. Oracle assure la maintenance de donn�es � travers le rafra�chissement. Ce dernier est d�clanch� de deux mani�res�selon la p�riodicit� du rafra�chissement choisi lors de la d�finition de la VM (ON COMMIT ou ON DEMAND).

Pour assurer le type de rafra�chissement incr�mental (FAST), un journal de vues mat�rialis�es doit �tre cr�e manuellement par l?utilisateur avec la syntaxe CREATE MATERIALIZED VIEW LOG ON nom_de_la_table. Le journal cr�� est une vue mat�rialis�e qui a pour nom MLOG$_nom_de_la_table. La liste des journaux se trouve dans la m�ta-table USER_MVIEW_LOGS.

La maintenance des VM issues de donn�es h�t�rog�nes et complexes n?est possible, sous Oracle, qu?avec les options COMPLETE et ON DEMAND. Ce qui signifie que les vues sont enti�rement recalcul�es. Afin d?�viter de les r�g�n�rer compl�tement nous proposons une gestion "manuelle" du rafra�chissement. Ceci n�cessite la clause FOR UPDATE�: CREATE MATERIALIZED VIEW nom_de_la_MV FOR UPDATE as sous_requ�te. Ce qui pourrait permettre de reporter des insertions, des modifications ou des suppressions dans la VM selon les op�rations de mise � jour sur les donn�es sources.

Nous remarquons qu?Oracle ne permet pas de cr�er des VM modifiables dans le cas o� les donn�es sources sont issues de plusieurs tables.

Ces manquements dans les versions actuelles 9i/10g d?Oracle < www.oracle.com> nous am�nent � construire un entrep�t de donn�es avec sources h�t�rog�nes non sous forme de vues mat�rialis�es mais sous forme de tables. Celles-ci sont construites � partir de plusieurs tables �ventuellement d�finies sur des colonnes de types complexes. Ainsi, la maintenance de cet entrep�t suivra la proc�dure que nous proposons ci-dessous.

Nous proposons la proc�dure MV_maintenance qui assure la maintenance incr�mentale des VM multi-tables issues de donn�es complexes de type objet. Notre proc�dure, contrairement � celle employ�e par Oracle (DBMS_MVIEW.REFRESH), ne recalcule pas enti�rement la vue mais rajoute uniquement les lignes qui ont �t� mises � jour dans les tables sources.

Dans cet article, nous ne traitons que le cas mono-base. On donne ci-dessous notre d�marche�:

Etant donn�, l?ensemble des relations Rk (k[1..n]) des donn�es sources.

La relation Rk est d�finie sur l?ensemble de ses attributs Ak, on note Rk (Ak) ou Rk, avec Ak = {Ak1, Ak2, ? Akm}.

La vue mat�rialis�e V est d�finie sur le sous-ensemble B des attributs des relations concern�es�: �; On note V(B) ou V.

Les donn�es de la vue V(B) constituent un sous-ensemble du produit (?) des relations Rk. Soit R?1(A1) l?ensemble des mises � jour, depuis la derni�re maintenance, dans une relation source donn�e R1(A1).

On d�finit la vue V?(B) comme �tant �gale au sous-ensemble du produit de R?1 et des relations Rj �j [2..n].

Le rafra�chissement de la vue V sera �gal � l?union de V et de V?�:

4. Conclusion

Nous avons enti�rement termin�, en utilisant Oracle Forms et PL/SQL, le d�veloppement de l?outil HDI. Celui-ci permet d?int�grer des donn�es h�t�rog�nes relationnelles et objet-relationnelles (avec types complexes et XML). L?algorithme pr�sent� prend en consid�ration les relations qui existent entre les composants (attributs ou �l�ments) dans une m�me base et les liens qui existent (synonymie et inclusion) �entre ces composants dans des bases diff�rentes. La maintenance des vues mat�rialis�es qui constituent l?entrep�t s?est av�r�e tr�s limit�e avec le SGBD Oracle. En effet, celui-ci ne permet que la cr�ation de VM multi-tables mono-base et une maintenance en recalculant toute la vue. Nous avons ainsi propos� une proc�dure de maintenance afin de ne r�percuter que les mises � jour n�cessaires.

Des mesures sont en cours de r�alisation sur plusieurs outils afin d?aider � d�terminer le type de VM � cr�er (relationnelles, objet ou XML). L?extension des liens entres les composants dans les DS (autres que la synonymie et l?inclusion) d?une part, et d?autre part, la g�n�ralisation de notre algorithme aux donn�es non structur�es constituent nos travaux futurs.



Bibliographie

Badri, M., Boufares, F., Ducateau, C.F., et Gargouri, F., (2005). Etat de l?art de la maintenance des entrep�ts de donn�es issus de syst�mes d?information h�t�rog�nes. Cinqui�mes Journ�e Scientifiques GEI, pp 13-18, Mars 2005, Sousse Tunisie.

Beneventano, D., Bergamaschi, S., Castano, S., De Antonellis, V., Ferrara, A., Guerra, F., Mandreoli, F., Ornetti, G. C., et Vincini, M., (2002). Semantic Integration and query optimization of�heterogeneous data sources. LNCS 2426, pp 154-165, Septembre.

Beneventano, D., Bergamaschi, S., Castano, S., Corni, A., Guidetti, R., Malvezzi, G., Melchiori, M., et Vincini, M., (2000). Information integration: the MOMIS project demonstration. In International Conference on Very Large Data Bases VLDB, pp 611-614, 2000, Le Caire Egypt.

Boufares F. et Hamdoun S., (2005). Integration Techniques to Build a Data Warehouse using Heterogeneous Data Sources. Journal of Computer Science, pp 48-55, November 2005, New York USA.

Boussaid O., Ben Messaoud, R., Choquet, R., Anthoard, S., (2006). Conception et construction d'entrep�ts en XML.�Dans la RNTI correnspondant � la 2i�me journ�e francophone sur les entrep�ts de donn�es et l'analyse en ligne EDA'06 Versaille 19 juin 2006.

Da Silva, A.S., Evangelista Filha, I. M. R., Laender, A. H. F., Embley, D. W., (2002). Representing and querying semistructured Web Data Using Nested Tables With structural Variants. LNCS-2503�: 21st International conference on conceptual modelling ER, pp 135-151, Octobre, Tampere Finland.

Kim, H.H. et Park, S. S., (2003). Building a Web-enabled Multimedia Data warehouse. LNCS 2713, pp 594-600, Juin.

Laurent, D., Lenchtenboer-Ger, J., Spyratos, N., Vossen, G., (2001). Monotonic Complements for Independent Data Warehouses, The International Journal of Very Large Data Base VLDB, volume 10 issue 4, pp 295-315, D�cembre.

Lellahi, S.K., Zamulin, A. (2001). Object-oriented database as a dynamic system with implicit state. Proceedings of the Fifth East-European Conference on Advances in Database and Information System (ADBIS?01). pp 239-252, Vilnius, Lithuania, Septembre.

Maibaum, M., Zamboulis, L., Rimon, G., Orengo, C., Martin, N. et Poulovassilis, A., (2005). Cluster based Integration of Heterogeneous Biological Databases using the AutoMed toolkit. In Proceedings of DILS'05.

Nassis, V., Rajugan, R. , Dillon, T. S. �et Rahayu, W., (2004). Conceptual Design of XML Document Warehouses. Data Warehousing and Knowledge Discovery: 6th International Conference, DaWaK 2004, Zaragoza, Espagne, Septembre 1-3.

O?Gorman, K., Agrawal, D., et El Abbadi, A., (1999). Posse: A Framework for Optimizing Incremental View Maintenance at Data Warehouses. Data Warehousing and Knowledge Discovery. pp 106-115, Italie.

Park, B.-K., Han, H. �et Song, I.-Y., (2005). XML-OLAP: A Multidimensional Analysis Framework for XML Warehouses. Data Warehousing and Knowledge Discovery: 7th International Conference, DaWaK 2005, Copenhagen, Denmark, Aout 22-26.

Saccol, D.d.B.,� et Heuser, C. A., (2002). Integration of XML Data, LNCS 2590, pp 68-80.

Zhuge, Y., Garcia-Molina, H., Hammer, J., Windom, J., (1995). View Maintenance in a Warehousing Environment. Proc. of the ACM SIGMOD, pp 316-327, Mai. California

Zhuge, Y., Garcia-Molina, H., Wiener, J.L., (1996). The Strobe Algorithms for Multi-Source Warehouse Consistency. Parallel and Distributed Information Systems, pp 146-157 D�cembre.

< www.oracle.com> Oracle Database 10g Release 2.www.oracle.com.

Pour citer cet article


Sana Hamdoun, Faouzi Boufar�s et Mohamed Badri. �Construction et maintenance des entrep�ts de donn�es h�t�rog�nes�. e-TI - la revue �lectronique des technologies d'information, Num�ro 4, 23 juin 2007, https://www.revue-eti.netdocument.php?id=1331.




Revue �lectronique internationale
publi�e par SIR de l'Ecole Mohammadia d'Ing�nieurs(Maroc)
en partenariat avec l'ENSIAS (Maroc), Cnam(France), ENIT(Tunisie) et Khawarizmi'c(Maroc)
avec le soutien de l'Agence universitaire de la Francophonie.

Ecole Nationale Sup�rieure d'Informatique et d'Analyse des Syst�mes���� Conservatoire National des Arts et M�tiers���� Ecole Nationale d'Ing�nieurs de Tunis���� Ecole Mohammadia d'Ing�nieurs���� laboratoire de Systèmes d'Information répartis���� Agence Universitaire de la Francophonie���� Maroc Telecom���� khawarizm'ic����
ISSN 1114-8802