e-TI
e-revue en Technologies de l'Information
Pr�c�dent Bas de page Suivant Signaler cette page Version imprimable



Num�ro 2 > Recherche

Article

Approximation des cubes OLAP et g�n�ration de r�gles dans les entrep�ts de donn�es


Sami Naouali, LARIM, Universit� du Qu�bec en Outaouais, Canada, sami.naouali@uqo.ca.
Rokia Missaoui, LARIM, Universit� du Qu�bec en Outaouais, Canada, rokia.missaoui@uqo.ca.

Date de publication : 17 avril 2006

R�sum�

Cet article d�crit une nouvelle approche d?approximation des r�sultats d?une requ�te OLAP soumise � un entrep�t de donn�es. �Cette approche est bas�e sur une adaptation de la th�orie des ensembles approximatifs (rough set theory) aux donn�es multidimensionnelles et offre de nouvelles possibilit�s d?exploration et d?extraction de connaissances � partir des cubes OLAP. L?objectif de cet article est d?int�grer des outils d?approximation dans les entrep�ts de donn�es dans le but de produire de nouvelles vues que l?on peut par la suite analyser et explorer en faisant appel � des op�rateurs OLAP et/ou des algorithmes d?extraction de connaissances. Cette int�gration permet alors � l?utilisateur de travailler soit en mode "strict" (ou restreint) en utilisant une approximation basse du cube OLAP, ou en mode "rel�ch�" en utilisant une approximation haute de ce dernier. Le premier mode est utile dans le cas o� la r�ponse � la requ�te est volumineuse, permettant ainsi � l?utilisateur de focaliser son attention sur un ensemble r�duit de cellules fortement similaires. Le deuxi�me mode est utile dans le cas d?une requ�te retournant un ensemble r�duit de cellules, permettant ainsi de rel�cher les conditions de la requ�te afin d?�largir le volume du r�sultat.

Abstract

This paper presents a new approach toward approximate query answering in data warehouses. The approach is based on an adaptation of rough set theory to multidimensional data, and offers cube exploration and mining facilities. The objective of this work is to integrate approximation mechanisms and associated operators into data cubes in order to produce views that can then be explored using OLAP or data mining techniques. The integration of data approximation capabilities with OLAP techniques offers additional facilities for cube exploration and analysis. The proposed approach allows the user to work either in a restricted mode using a cube lower approximation or in a relaxed mode using cube upper approximation. The former mode is useful when the query output is large, and hence allows the user to focus on a reduced set of fully matching tuples. The latter is useful when a query returns an empty or small answer set, and hence helps relax the query conditions so that a superset of the answer is returned.


Table des mati�res

Texte int�gral

1. �Introduction

Puisque les donn�es d?un entrep�t proviennent de multiples sources de donn�es h�t�rog�nes et parfois peu fiables, les utilisateurs sont plus tol�rants dans un environnement d?entrep�t de donn�es et acceptent une certaine perte d?information et un l�ger �cart par rapport aux donn�es r�elles. Dans le domaine des bases de donn�es relationnelles, la probl�matique de traitement approximatif et flexible des requ�tes a fait l?objet de plusieurs travaux�(Andreasen, T., Motro, A., Christiansen, H., Larsen, H, 2002)�; (Chu et Chen, 1994)�; (Huh, Moon, Ahn et al. 2002)�; (Muslea, 2004). Ces travaux sont g�n�ralement ax�s sur la relaxation des conditions dans des requ�tes retournant un r�sultat vide.

Dans un contexte d?entreposage de donn�es multidimensionnelles, l?approximation des requ�tes a �t� utilis�e dans le but d?optimiser le calcul d?agr�gation et par la suite de r�duire le temps de r�ponse aux requ�tes utilisateur au prix d?une certaine perte d?information. La plupart des travaux ont �t� r�alis�s en se basant sur des techniques d?�chantillonnage�(Babcock, Chauhuri et Das, 2003) ,�(Ganti, Lee et Ramakrishnan, 2000). Chakrabarti et al.�(Chakrabarti, Garofalakis, et al., 2001) proposent une approche fond�e sur le principe d?approximation par ondelettes (wavelets) et montrent qu?elle est plus efficace que l?�chantillonnage. Dans ce m�me esprit, Fayyad et al.�(Shanmugasundaram, Fayyad et Bradley, 1999) utilisent une distribution de la densit� de probabilit� des donn�es pour proposer une repr�sentation compacte des cubes de donn�es r�duisant ainsi leur espace de stockage et permettant une r�ponse approximative aux requ�tes d?agr�gation. �

Les techniques bas�es sur le principe d?approximation par ondelettes ont �t� par la suite utilis�es aussi bien pour des �valuations progressives de quelques requ�tes OLAP assez sp�cifiques�(Ambite, Shahabi, Schmidt et al., 2001) que pour faire de l?�chantillonnage. Dans�(Vitter et Wang, 1999). Ces techniques ont �t� utilis�es dans le m�me objectif que�(Shanmugasundaram, Fayyad et Bradley, 1999) pour g�n�rer une repr�sentation compacte des cubes de donn�es �parses et mieux g�rer les requ�tes d?agr�gation de ces donn�es.

Notre approche permet une approximation des requ�tes OLAP de fa�on � retourner soit un sous-ensemble ou un sur-ensemble de l?ensemble exact des donn�es r�pondant � la requ�te. Elle peut �galement �tre utilis�e pour introduire une certaine tol�rance (ex. v�rification d?un sous-ensemble des conditions de la requ�te) lors de la manipulation des donn�es bruit�es pouvant �tre contenues dans les entrep�ts.

Notre contribution consiste � offrir des m�canismes permettant une certaine flexibilit� lors du traitement d?une requ�te ainsi qu?une exploration plus riche des cubes. Dans cet objectif, nous avons, primo, int�gr� les principes des ensembles approximatifs au contexte multidimensionnel des donn�es dans le but de fournir des r�ponses approximatives aux requ�tes et d�finir des concepts (partitions du cube en sous-ensembles de faits) en r�ponse aux requ�tes des utilisateurs, secundo, propos� un enrichissement des techniques OLAP avec de nouveaux op�rateurs apportant plus de flexibilit� lors des interactions de l?utilisateur avec l?entrep�t de donn�es, et tertio d�fini des vues mat�rialis�es de donn�es pour encapsuler et exploiter les r�ponses aux op�rateurs d?approximation � des fins d?extraction de connaissances (segmentation de cubes et calcul des r�gles d?association). En cons�quence, l?approximation concerne non seulement la r�ponse aux requ�tes mais �galement le r�sultat d?extraction de connaissances.

Cet article est organis� comme suit. Nous pr�sentons dans la section�2, les notions de base n�cessaires pour la pr�sentation de l?approche d?approximation des cubes. Un exemple illustratif est pr�sent� en section�3. L?approche propos�e est par la suite pr�sent�e en d�tail dans la section�4.

2. �Contexte
2.1 �Travaux connexes et motivations

Dans la section pr�c�dente, nous avons pr�sent� une br�ve description des travaux traitant de l?approximation des requ�tes dans les bases et les entrep�ts de donn�es. Dans ce qui suit, nous pr�sentons un bref aper�u des travaux proposant des extensions au processus OLAP pour une meilleure exploitation des donn�es de l?entrep�t en d�couvrant des ph�nom�nes et structures cach�s dans ces bases multidimensionnelles. Nous supposons que le lecteur dispose des connaissances de base sur les entrep�ts de donn�es. Des informations utiles sur le sujet se trouvent dans les travaux de Lakshmanan et al.�(Gyssens et Lakshmanan, 1997), Lehner�(Lehner, 1998), Pedersen et al.�(Pedersen, Jensen, 1999), etc. De m�me, cette section n?est pas d�di�e aux travaux proposant l?int�gration dans un m�me syst�me d�cisionnel des capacit�s OLAP avec des m�canismes de fouille de donn�es tel que le syst�me DBMiner�(Han, Chiang, Chee et al., 1997).

�tant donn�s l?importance de l?aspect temporel des donn�es d?un entrep�t et l?int�r�t que pr�sente l?exploration de l?historisation de ces donn�es multidimensionnelles, Ravat et al.�(Ravat et Teste, 2001) proposent une mod�lisation � objets munie d?une alg�bre regroupant des op�rateurs issus de l?alg�bre � objet et en particulier des op�rateurs sp�cifiques � la mod�lisation temporelle propos�e pour l?entrep�t. Ces op�rateurs permettent de transformer les donn�es de l?entrep�t en s�ries temporelles pour offrir diff�rents points de vues sur les donn�es de mani�re � enrichir leur analyse en tirant profit de leur aspect temporel.

S?appuyant sur le fait que les donn�es d?un entrep�t sont souvent entach�es d?imperfection et que les requ�tes des utilisateurs des cubes OLAP sont dans la plupart du temps vaguement formul�es, Laurent�(Laurent, 2002�) propose un cadre formel pour la mise en oeuvre d?un syst�me de fouille de donn�es floues conjointement avec des outils OLAP. Cette proposition concerne alors l?int�gration du flou dans le processus de fouille de donn�es, tant au niveau des bases multidimensionnelles qu?au niveau de leur int�gration dans le processus global de fouille de donn�es. Cette proposition permet, en particulier, le couplage d?algorithmes de construction d?arbres de d�cision flous et de g�n�ration de r�sum�s flous avec une base de donn�es multidimensionnelles floues.

C?est dans ce m�me esprit d?enrichissement des op�rateurs OLAP que s?int�gre le pr�sent travail. Nous faisons appel aux capacit�s de la th�orie des ensembles approximatifs � traiter des donn�es imparfaites en vue de proposer des approximations aux r�sultats d?ex�cution des requ�tes OLAP. Une extension des syst�mes OLAP vers de telles capacit�s est sans aucun doute d?une extr�me importance vue l?h�t�rog�n�it� des donn�es source d?un entrep�t � laquelle s?ajoute une longue et lourde �tape de pr�traitement visant l?int�gration des donn�es selon un sch�ma d?entrep�t de donn�es. Afin d?illustrer nos propos, prenons l?exemple de deux cellules d?un cube OLAP qui se partagent les m�mes valeurs pour toutes les dimensions sauf une. Si on avait pu, lors de la cr�ation de la table des faits, introduire de la flexibilit� dans le traitement des deux enregistrements (faits) tr�s similaires, et plus pr�cis�ment lors de leur comparaison, il nous aurait �t� possible d?agr�ger ces deux enregistrements en un seul permettant ainsi de compacter le cube.

2.2 �Structure multidimensionnelle des donn�es

La construction d?un cube de donn�es � partir d?un entrep�t fait appel � l?ensemble des tables suivantes. �

  • Une table des faits (FT) qui sert � connecter n tables de dimension et � contenir m mesures. Elle comprend des coordonn�es correspondant aux dimensions du cube et un contenu correspondant � ses mesures. Elle peut �tre une table de base (faisant partie du sch�ma multidimensionnel) ou calcul�e suite � l?application d?une ou plusieurs op�rations d?analyse OLAP ou d?extraction de connaissances.

  • Des tables de dimension qui sont associ�es � chacune des dimensions r�f�renc�es dans la table des faits FT.

  • Des tables qui sont reli�es aux tables de dimension et qui sont utilis�es pour repr�senter la hi�rarchie des dimensions permettant ainsi d?exprimer les op�rateurs de granularit� (par exemple�: le RollUp).

2.3 �La th�orie des ensembles approximatifs

La th�orie des ensembles approximatifs, connue sous l?expression "Rough Set Theory" (RST), a �t� introduite au d�but des ann�es 80 par Pawlak�(Pawlak, 1982�). Elle constitue un cadre math�matique appropri� pour le traitement des concepts vagues aux fronti�res mal d�finies�(Szladow et Ziarko, 1993). Son apparition f�t une avanc�e tr�s importante dans le domaine de l?intelligence artificielle et notamment en apprentissage inductif de concepts � partir de donn�es incoh�rentes. Elle a �t� utilis�e dans divers domaines tels que la m�decine, l?industrie, la finance et le commerce.

Cette th�orie est fond�e sur les notions d?indiscernabilit� et d?approximation. La premi�re notion exprime le degr� de similitude entre des objets tandis que la deuxi�me permet la description d?un concept (ensemble d?objets de l?univers) en tenant compte d?�ventuelles imperfections des donn�es manipul�es.

Dans un contexte d?approximation, un syst�me d?information A est repr�sent� par un couple (U, A) o� U est un ensemble fini et non vide d?objets appel� univers et A un ensemble fini et non vide d?attributs.

Soit f une fonction permettant de retourner la valeur de l?attribut d?un objet quelconque de U : �

La relation d?indiscernabilit� est une relation d?�quivalence d�finie sur un sous-ensemble P d?attributs appel�s ��attributs de description�� servant � d�crire les objets de l?univers. Deux objets de l?univers sont indiscernables par rapport � P s?ils se partagent les m�mes valeurs pour chaque attribut de P. Plus g�n�ralement, A est divis� en deux sous-ensembles d?attributs : �un sous-ensemble C d?attributs de description (condition) utilis�s pour d�crire les objets de l?univers, et un sous-ensemble D d?attributs de d�cision (classification) utilis�s pour partitionner l?univers en plusieurs concepts dans lesquels les objets de l?univers seront approximativement classifi�s.

O�, f(oi,q) est la valeur associ�e � l?attribut q pour l?objet o.

Puisque la relation d?indiscernabilit� est une relation d?�quivalence, l?univers U peut �tre partitionn� en une ou plusieurs classes d?�quivalence regroupant des objets indiscernables entre eux par rapport aux attributs pris dans P : U={G1,...,Gn} avec Gi(1,...,n) la ie classe d?�quivalence calcul�e � partir de U.

La RST permet, pour tout concept, le calcul de deux espaces d?approximation. Le premier, ��approximation basse��, contient des objets dont l?appartenance au concept est certaine. Le second espace, ��approximation haute��, peut contenir des objets n?appartenant pas au concept mais �tant indiscernables avec un ou plusieurs objets de ce concept (figure 2). De ces deux espaces d?approximation d�rivent d?autres espaces secondaires telles que la r�gion douteuse d?un concept quelconque ainsi que les r�gions positive et n�gative des attributs de d�cision. Il nous est �galement possible de g�n�rer des r�gles de classification et de caract�risation. Les d�tails sur ces espaces d?approximation et r�gles seront fournis en section�4.

Une g�n�ralisation de la RST est appel�e ��-Rough Set Theory�� (-RST/alpha-RST1)�(Quafafou, 1997)�; (Naouali et Quafafou, 2004), o� alpha repr�sente le degr� de similitude tol�r�e entre les objets selon un ensemble d?attributs de description. De plus amples d�tails sur cette g�n�ralisation de la RST seront donn�s dans la section�4.

3. �Illustration par un exemple

L?exemple suivant illustre l?approche propos�e. Il consiste en une structure simplifi�e d?un entrep�t de donn�es appel� Patents-OLAP d�crivant une application de demande et d?affectation de brevets. Le sch�ma du cube de donn�es relie directement ou indirectement la table des faits aux dimensions suivantes (figure�1) : �

  • APDM (APplication Date in Month) : mois durant lequel le brevet a �t� demand�,

  • APDY (APplication Date in Year) : ann�e correspondant � la demande du brevet,

  • ISDM (ISsue Date in Month) : mois durant lequel le brevet a �t� accord�,

  • ISDY (ISsue Date in Year) : ann�e durant laquelle le brevet a �t� accord�,

  • ET (Elapsed Time) : temps �coul�, en tranches de mois, entre la date de la demande et celle de l?obtention du brevet,

  • INV (INVentor) : inventeur,

  • AT (ATtorney or agent) : repr�sentant l�gal de l?inventeur,

  • ICL (International CLassification) : nomenclature internationale correspondant au produit faisant l?objet du brevet. �

L?unique mesure (nb_patents) de la table des faits repr�sente le nombre de brevets selon les dimensions retenues. �

Comme la classification des brevets est �tablie manuellement par des agents du bureau des brevets, un brevet quelconque peut facilement appartenir � une classification diff�rente de celle �tablie par une personne non experte du domaine des brevets. Pour illustrer ce fait, consid�rons un inventeur qui a demand� deux brevets : �un pour un m�dicament et un autre pour l?emballage qu?il a mis au point sp�cialement pour ce m�dicament. �L?inventeur a par la suite fait sa demande aupr�s d?un m�me repr�sentant l�gal. Par cons�quence, les deux demandes de brevets se partagent plusieurs propri�t�s communes (l?inventeur, le repr�sentant l�gal, la date de demande et fort probablement la date d?obtention et le temps �coul�). Selon notre approche, et suivant ces m�mes variables caract�ristiques des demandes de brevets, les deux demandes seraient indiscernables et appartiendraient par la suite � une m�me classification, ce qui n?est effectivement pas le cas car le m�dicament a �t� classifi� par les experts dans le secteur pharmacie et son emballage dans le secteur papier et imprimerie. Ainsi donc, notre approche peut agir comme un m�canisme d?alerte ou de suggestion de r�vision de la classification propos�e par les agents en mettant l?accent sur la similarit� pouvant exister entre les faits de l?entrep�t selon un sous-ensemble des dimensions correspondant � une perspective sp�cifique de l?utilisateur.

Figure 1. Sch�ma en flocon de neige et �tat du cube de donn�es Patents-OLAP

4. �Approximation des cubes

Notre contribution consiste, en premier lieu, � int�grer les notions de base de la alpha-RST au contexte multidimensionnel des donn�es d?un entrep�t. Par la suite, des m�canismes de calcul de r�ponses approximatives aux requ�tes utilisateur ainsi que des requ�tes d?analyse OLAP et d?extraction de connaissances peuvent �tre exploit�s.

4.1 �Adaptation de la alpha-RST aux donn�es multidimensionnelles

La alpha-RST offre plus de flexibilit� que la RST dans la mesure o� l?indiscernabilit� entre deux objets est �valu�e selon un sous-ensemble des attributs de description pris dans P plut�t que l?ensemble P en entier. Dans cette section, nous pr�sentons une adaptation de la th�orie des ensembles approximatifs�(Pawlak, 1982) telle que g�n�ralis�e dans�(Quafafou, 1997) aux donn�es multidimensionnelles en proposant de nouveaux op�rateurs d?approximation de concepts. Ces op�rateurs sont bas�s sur les notions d?approximations basse et haute d?un concept, les r�gions positive et n�gative et les r�gles de classification et de caract�risation. Ceci peut �tre per�u comme un enrichissement des techniques OLAP avec des m�canismes de gestion de l?incertitude dans les donn�es manipul�es. Cet enrichissement permet d?introduire une certaine flexibilit� lors de l?interrogation des donn�es multidimensionnelles.

Dans un contexte multidimensionnel, l?univers U correspond � la table des faits FT et les alpha-attributs cl� de FT sont des pointeurs logiques vers les tables de dimension. Les dimensions sont partitionn�es selon deux ensembles distincts : �les dimensions de description C utilis�es pour d�crire les faits, et les dimensions de d�cision D utilis�es pour des fins de classification et de pr�diction. � une m�me dimension de d�cision correspondent autant de concepts cibles que de membres (valeurs) de cette dimension. Par la suite, le calcul des approximations pour une dimension de d�cision consiste � d�terminer l?appartenance des faits de l?entrep�t � chacun des concepts cibles associ�s � cette dimension selon les dimensions contenues dans C.

Exemple 1 En utilisant l?exemple Patents-OLAP, on peut prendre la dimension ICL comme dimension de d�cision, et utiliser le reste des dimensions pour caract�riser les faits de l?entrep�t. Notre objectif �tant par la suite de d�terminer l?appartenance d?un brevet quelconque � une certaine classification internationale non seulement selon la nature du produit faisant l?objet de la demande du brevet mais aussi selon un certain nombre de dimensions. Les dimensions retenues dans cet exemple sont la date de demande et la date d?obtention du brevet, le laps de temps �coul� entre ces deux dates, l?inventeur ainsi que son repr�sentant l�gal. Il nous est par la suite possible de mener une certaine comparaison (superposition) entre la classification �tablie par les experts et les r�sultats d?approximation de cette classification tels que retourn�s par notre approche.

En s?appuyant sur les m�canismes d?approximation de concepts offerts par la th�orie des ensembles approximatifs, on peut g�n�rer deux classes dans lesquelles un brevet quelconque peut �tre class�. La premi�re est une classe "stricte" contenant des brevets indiscernables entre eux et auxquels ne correspond aucun autre brevet qui leur soit indiscernable tout en �tant en dehors de cette classe. La deuxi�me est une classe "relax�e" contenant ces m�mes brevets ainsi que ceux appartenant �galement au m�me concept trait� mais �tant indiscernables avec des brevets n?appartenant pas au concept. Ces derniers sont �galement pris dans ce second espace d?approximation. L?utilisateur peut par la suite d�cider, selon ses besoins et selon le degr� de similitude tol�r� qu?il a d� fixer, de consid�rer telle ou telle classe pour d�crire le concept faisant l?objet de l?approximation, plut�t que de consid�rer l?ensemble entier des brevets qu?un m�canisme "classique" de requ�te aurait retourn�.

Puisque la dimension cible ICL poss�de deux valeurs possibles ; textile et pharmacie (figure 1), deux concepts cibles sont d�gag�s, i.e., ICL = textile et ICL = pharmacie.

O� alpha qui prend ses valeurs dans l?intervalle [0,1] d�finit la proportion minimale de dimensions de description que les faits x et y doivent partager pour �tre consid�r�s comme indisernables (pour alpha = 1, Ipalpha = Ip)

Exemple 2 Soit alpha = 0.75, et P = C = {APDM, ET, INVC, ATC}. Les deux faits fait2 et fait9 sont indiscernables (conf�rer figure�1).

Il est important de noter ici que Ipalpha agit diff�remment de la relation Ip en partitionnant la table des faits trait�e non pas en classes d?�quivalence mais plut�t en classes de recouvrement. Ceci est d� au fait que dans une m�me classe, deux faits quelconques peuvent ne pas �tre indiscernables mais chacun l?est de son c�t� avec un m�me troisi�me fait de la m�me classe. Notons par contre que pour alpha =1, les classes ainsi form�es sont des classes d?�quivalence.

L?approximation haute de X par rapport � P, qu?on note P(X), est l?union des classes de recouvrement d�finies selon Ipalpha et contenant au moins un fait de X : �

L?approximation haute de X peut par la suite contenir des faits qui ne sont pas forc�ment contenus dans X mais qui sont indiscernables avec au moins un fait de X. Ainsi donc, les approximations haute et basse d?un concept X correspondent respectivement � l?int�rieur et � la fermeture de cet ensemble dans la topologie g�n�r�e par la relation d?indiscernabilit� tel qu?illustr� par la figure 2.

La r�gion douteuse de X FT, qu?on note P(X), est d�finie comme suit : �

Exemple 3�: En consid�rant toujours le m�me exemple illustratif, les classes de recouvrement extraites � partir de la table des faits par rapport au sous-ensemble de dimensions de description P={APDM,� ET,� ATC,� INVC} et pour alpha = 0.75 sont {fait1, fait4, fait7, fait8} , {fait2, fait3, fait9}, et {fait5, fait6}.

Pour le concept cible (ICL = textile), l?ensemble des faits lui correspondant est {fait1, fait4, fait5, fait6, fait8}

Son approximation basse est l?union des classes de recouvrement incluses dans l?ensemble de ses exemples, i.e., P (ICL = textile) = {fait5,� fait6}. Son approximation haute est l?union des classes de recouvrement pr�sentant une intersection non vide avec ses exemples, i.e. P (ICL = textile) = {fait1, �fait4, �fait5, �fait6, �fait7, fait8}. La r�gion douteuse de ce concept cible contient les faits qu?on ne peut pas classer sans ambigu�t� mais qui sont indiscernables avec des faits de ce concept, i.e., P (ICL = textile) = {fait1, �fait4, �fait7, �fait8}.

La figure�2 illustre la mani�re avec laquelle les brevets sont distribu�s selon les espaces d?approximation correspondant � ce concept. Le signe "+" illustre les brevets appartenant certainement au concept, le signe "-" illustre ceux n?appartenant pas au concept et la diff�rence entre ces deux r�gions d�limit�es par des pointill�s, repr�sente la r�gions douteuse, i.e., les brevets dont l?appartenance au concept cible est possible mais pas certaine.

De la m�me fa�on, le concept cible (ICL = pharmacie ) dont l?ensemble des exemples est {fait2, �fait3, �fait7, fait9} admet comme approximation basse P (ICL = pharmacy) = {�fait2, �fait3, �fait9} et comme approximation haute P(ICL=�pharmacy) = {fait1,� fait2, �fait3, �fait4, �fait7, �fait8, �fait9}. Sa r�gion douteuse est P(ICL=�pharmacie) = {�fait1, fait4, ��fait7, ��fait8}.

Figure 2. Espaces d?approximation correspondant au concept ICL=Textile

Consid�rons d1,?, dn les valeurs (membres) de la dimension cible d. La r�gion positive de d, qu?on note�POSp(d), par rapport au sous-ensemble de dimensions de description P contient les faits qu?on peut classer avec certitude et sans ambigu�t� dans l?un des concepts cibles d�termin�s pour cette dimension. Elle est d�finie par : �

Exemple 4 Pour la dimension cible ICL, la r�gion positive est POSp(ICL) = {fait2, �fait3, �fait5, �fait6, �fait9}.

La r�gion n�gative de d par rapport � P contient les faits dont on est s�r de leur non appartenance � aucun des concepts cibles correspondant � d. Elle est d�finie comme suit : �

Exemple 5 Dans notre exemple, NEGp(ICL) =. ��

Une fois que les approximations basses et hautes de chacun des concepts cibles sont calcul�es, des r�gles d?association peuvent �tre g�n�r�es. L?approximation basse permet de g�n�rer des r�gles dites de classification ou de d�cision, d�finies � partir de la description des faits dont l?appartenance au concept cible ne pose aucune ambigu�t�. Les r�gles extraites � partir de l?approximation haute d?un concept cible quelconque sont dites r�gles de description (caract�risation) du moment qu?elles sont bas�es sur la description de faits dont l?appartenance au concept cible est possible mais sans n�cessairement �tre certaine.

Une r�gle de classification est une expression de la formeextraite � partir de l?approximation basse, tandis qu?une r�gle de description est exprim�e parextraite � partir de l?approximation haute o� d est une dimension de d�cision, vd une valeur quelconque (membre) de cette dimension et est une disjonction de pr�dicats d�finissant des descriptions de faits. Chaque pr�dicat peut �tre simple comme il peut �tre une conjonction de pr�dicats c = vc �avec cC (dimension de description) et vc une valeur attribu�e � c par le fait courant.

Exemple 6 Les r�gles de classification correspondant � notre exemple illustratif sont :

La premi�re r�gle peut �tre exprim�e comme suit : ��si le brevet a �t� soumis en octobre ou en mai et son acceptation est survenue dans un d�lai compris entre 90 et 114 mois et le pays de l?inventeur est la Belgique et le pays du repr�sentant l�gal est le Canada, alors sa classification internationale est Textile.
Cette r�gle est g�n�r�e � partir de l?approximation basse P(ICL = textile) = �{fait5, �fait6}.

4.2 �Algorithme

L?algorithme que nous proposons pour le calcul d?approximation de concepts � partir de donn�es multidimensionnelles permet de calculer en une seule fois tous les espaces approximatifs (approximations haute et basse et r�gion douteuse) correspondant � chacun des concepts cibles d�termin�s pour la dimension cible. Il permet �galement le calcul des r�gions positive et n�gative ainsi que les r�gles de classification et celles de description correspondant � la dimension cible.

L?algorithme utilise pour ceci les tables de dimension ainsi que la table des faits, prend en consid�ration le sous-ensemble P de dimensions de description, la dimension de d�cision d ainsi qu?une valeur pour alpha dans l?intervalle [0,�1].

L?algorithme se compose principalement de deux �tapes. Lors de la premi�re �tape (lignes 8 � 20), l?algorithme d�termine les concepts cibles associ�s � la dimension de d�cision. Un concept cible est not� Di ce qui est �quivalent � d = di avec d la dimension cible et di la i�me valeur de d. Par la suite, et pour chacun de ces concepts cibles, l?algorithme d�termine la liste de ses exemples qui sont les faits v�rifiant la valeur en question de d (ligne 10). Ensuite, et pour chaque exemple du concept cible, on d�termine sa classe de recouvrement � la ligne 12. Puis, si cette classe de recouvrement est incluse dans l?ensemble des exemples du concept courant, alors cette classe est ajout�e � la vue d�crivant l?approximation basse du concept cible trait�. Sinon elle est ajout�e � la vue d�crivant son approximation haute. A la fin de cette premi�re �tape et avant de passer au concept suivant, l?algorithme calcule (ligne 19) la vue repr�sentant la r�gion douteuse du concept cible trait�.

Apr�s avoir trait� tous les concepts cibles, on g�n�re pour la dimension cible les r�gions positive et n�gative ainsi que les r�gles de classification et de description � partir des vues cr��es lors de la premi�re �tape.

Comme indiqu� plus haut, l?algorithme propos� calcule les espaces d?approximation qu?il stocke dans des vues partageant la m�me structure que la table des faits initiale. Ces vues deviennent par la suite des composants importants de l?entrep�t de donn�es, et syst�matiquement reli�es aux tables de dimension. Encore mieux, ces vues permettent � l?utilisateur de g�n�rer de nouveaux cubes OLAP encapsulant les approximations basse et haute ainsi que la r�gion douteuse de chaque concept cible ainsi que les r�gions positive et n�gative de la dimension cible. Quant aux r�gles d?association, elles sont stock�es dans des tables relationnelles ind�pendamment du sch�ma de l?entrep�t.

Les avantages de l?algorithme propos� sont�:

  • le calcul des espaces d?appro�xi�mation correspondant � une dimension cible quelconque et par rapport � un sous-ensemble de dimensions de description,

  • la similarit� relative entre les faits par le biais du param�tre alpha,

  • la transparence dans l?extraction de connaissances et requ�tes OLAP approximatives � partir des vues cr��es.

4.4 �Nouveaux op�rateurs pour l?approximation de concepts

Le mot cl� Select est utilis� pour permettre � l?utilisateur d?avoir les espaces d?approximation et les r�gles d?associations ci-dessus discut�s une fois l?algorithme ex�cut� et les tables et vues g�n�r�es. Les nouveaux op�rateurs que nous proposons sont : �

  • select lower dimension_cible = valeur_cible

  • select upper dimension_cible = valeur_cible

  • select boundary_region dimension_cible = valeur_cible

  • select characteristic_rules dimension_cible = valeur_cible

  • select classification_rules dimension_cible = valeur_cible

  • select positive_region dimension_cible

  • select negative_region dimension_cible

Ces op�rateurs agissent comme des filtres sur les cubes OLAP existants en retournant seulement les cellules correspondant � la requ�te d?approximation pos�e par l?utilisateur. Ce dernier peut par la suite poursuivre son exploration des donn�es en se limitant au nouveau cube OLAP ainsi g�n�r� et en lui appliquant des op�rateurs d?analyses OLAP et/ou d?extraction de connaissances. De tels m�canismes enrichissent le processus OLAP en lui rajoutant de nouvelles capacit�s et en int�grant des aspects OLAP et de nouveaux m�canismes d?extraction de connaissances.

5. �Conclusion

Nous avons pr�sent� une approche d?approximation de concepts dans les cubes OLAP par l?int�gration de notions puis�es de la th�orie des ensembles approximatifs. Le but est de calculer des approximations de la r�ponse � une requ�te utilisateur en permettant � ce dernier de consid�rer soit un ensemble "restreint" ne contenant que les cellules qu?on peut classer sans ambigu�t� dans la r�ponse � la requ�te, soit un ensemble "relax�" pouvant �ventuellement contenir des cellules qu?on ne peut pas classer avec certitude dans le concept. �Le premier cas est utile surtout quand la r�ponse � une requ�te utilisateur est tr�s volumineuse, d?o� l?int�r�t de la r�duire, tandis que la deuxi�me alternative est utile surtout dans le cas o� la r�ponse � la requ�te utilisateur est vide ou presque, d?o� l?int�r�t de rel�cher les conditions de la requ�te pour que des cellules puissent �tre class�es dans le concept recherch�. Notre approche permet �galement la g�n�ration de r�gles de classification et de description pour des fins de pr�diction ou d?association. �

Nos travaux actuels consistent � explorer diff�rentes alternatives de r�duction de la dimensionnalit� au sein des cubes de donn�es ainsi que l?approximation de ces derniers par des techniques statistiques de pr�diction.



Bibliographie

Ambite, J.�L., Shahabi, C., Schmidt, R.�R., Philpot, A. (2001). Fast approximate evaluation of olap queries for integrated statistical data. Proceedings of the First National Conference on Digital Government Research.

Andreasen, T., Motro, A., Christiansen, H., Larsen, H. (2002). On measuring similarity for conceptual querying. Proceedings of the 5th International Conference on Flexible Query Answering Systems, FQAS?2002, London, UK, 100?111.

Chu, W.�W., Chen, Q. (1994). A structured approach for cooperative query answering. IEEE Transactions on Knowledge and Data Engineering, 6(5): 738?749.

Ganti, V., Lee, M.�L., Ramakrishnan, R. (2000). Icicles: �Self-tuning samples for approximate query answering. �Proceedings of the 26th International Conference on Very Large Data Bases, VLDB?2000, Morgan Kaufmann Publishers Inc. 176?187

Gyssens, M., Lakshmanan, L.�V.�S. (1997). A foundation for multi-dimensional databases. In VLDB?1997: �Proceedings of the 23rd International Conference on Very Large Data Bases, Morgan Kaufmann Publishers Inc. 106?115.

Han, J., Chiang, J.�Y., Chee, S., Chen, J., Chen, Q., Cheng, S. et al. (1997). Dbminer: �A system for data mining in relational databases and data warehouses. Meeting of Minds, CASCON?1997, Toronto, Canada, November, 249?260.

Huh, S.�Y., Moon, K.�H., Ahn, J.�K. (2002). Cooperative query processing via knowledge abstraction and query relaxation. Advanced topics in database research, vol. 1, Idea Group Publishing, 211?228.

Laurent, A. (2002). Bases de Donn�es Multidimensionnelles Floues et leur Utilisation pour la fouille de donn�es. PhD thesis, Universit� Paris 6, France.

Lehner, V. (1998) Modelling large scale olap scenarios. Proceedings of the 6th International Conference on Extending Database Technology, Springer-Verlag, 153?167.

Muslea, I. (2004). Machine learning for online query relaxation. Proceedings of the 2004 ACM SIGKDD International Conference on Knowledge Discovery and Datamining, KDD?2004, ACM Press, 246?255.

Naouali, S., Quafafou, M. (2004). Rough sql : �Approximation base querying for pragmatic olap. Proceedings of the IEEE International Conference on Information and Communication Technologies: �from Theory to Applications, ICTTA?2004.

Pawlak, Z. (1982). Rough sets. International Journal of Computer and Information Sciences, 341?356.

Pedersen, T.�B., Jensen, C.�S. (1999). Multidimensional data modeling for complex data. Proceedings of the 15th International Conference on Data Engineering, ICDE?1999, IEEE Computer Society, 336.

Quafafou, M. (1997). alpha-rst: �A generalization of rough sets theory. Proceedings of the Fifth International Workshop on Rough Sets and Soft Computing, RSSC?1997.

Ravat, F., Teste, O. (2001). Mod�lisation et manipulation de donn�es historis�es et archiv�es dans un entrep�t orient� objet. 17�me Journ�es Bases de Donn�es Avanc�es, C�padues Editions - ISBN 2-85428-570-0, 243-256.

Szladow, A., Ziarko, W. (1993). Rough sets - working with imperfect data. In AI Expert, vol. 8, no. 7, 36-41.

Babcock, B., Chaudhuri, S., Das, G. (2003). Dynamic sample selection for approximate query processing. Proceeding of the SIGMOD?03 Conference, 539?550.

Chakrabarti, K., Garofalakis, M., Rastogi, R., Shim, K. (2001). Approximate query processing using wavelets. The VLDB Journal, 10(2-3). 199?223.

Shanmugasundaram, J., Fayyad, U., Bradley, P.�S. (1999). Compressed data cubes for olap aggregate query approximation on continuous dimensions. Proceeding of the KDD?1999 Conference, 223?232.

Vitter, J.�S., Wang, M. (1996). Approximate computation of multidimensional aggregates of sparse data using wavelets. Proceeding of the SIGMOD?99 Conference, 193?204.

Naouali, S. (2004). Enrichissement d?Entrep�ts de Donn�es par la Connaissance : Application au Web. PhD thesis, Universit� de Nantes, France.

Notes de bas de page

1�Dans la suite de ce document, on le notera alpha-RST

Pour citer cet article


Sami Naouali et Rokia Missaoui. �Approximation des cubes OLAP et g�n�ration de r�gles dans les entrep�ts de donn�es�. e-TI, Num�ro 2, 17 avril 2006, https://www.revue-eti.netdocument.php?id=836.




Revue �lectronique internationale
publi�e par SIR de l'Ecole Mohammadia d'Ing�nieurs(Maroc)
en partenariat avec l'ENSIAS (Maroc), Cnam(France), ENIT(Tunisie) et Khawarizmi'c(Maroc)
avec le soutien de l'Agence universitaire de la Francophonie.

Ecole Nationale Sup�rieure d'Informatique et d'Analyse des Syst�mes���� Conservatoire National des Arts et M�tiers���� Ecole Nationale d'Ing�nieurs de Tunis���� Ecole Mohammadia d'Ing�nieurs���� laboratoire de Systèmes d'Information répartis���� Agence Universitaire de la Francophonie���� Maroc Telecom���� khawarizm'ic����
ISSN 1114-8802