e-TI

la revue �lectronique des technologies de l'information

Num�ros

Index

Pr�sentation

Soumission

Soumettre un article

Contact

Nous contacter

Lettre d'information

Inscrivez-vous

�

Premier Num�ro > Recherche

Article

Vers une int�gration de la connaissance dans l?analyse exploratoire des cubes OLAP

Sami Naouali, LARIM, Universit� du Qu�bec en Outaouais, [email protected].

Date de publication : 31 octobre 2005

R�sum�

Cet article propose une approche pour l?int�gration de la connaissance dans les entrep�ts de donn�es et en particulier dans le processus d?analyse et d?exploration des cubes de donn�es. Cette proposition permet d?enrichir l?exploration des cubes OLAP en faisant intervenir la connaissance extraite � partir de ces cubes et int�gr�e au m�me niveau que les donn�es multidimensionnelles. Un mod�le physique supportant les donn�es et les connaissances est par la suite propos� ainsi qu?un ensemble d?op�rateurs pour l?analyse multidimensionnelle et l?extraction de connaissances. Une interface utilisateur est impl�ment�e et permet d?interagir avec l?utilisateur ainsi que de visualiser le cube int�grant les donn�es aussi bien que la connaissance. Pour illustrer l?approche propos�e et montrer l?int�r�t d?un tel enrichissement des syst�mes d�cisionnels, une application r�elle traitant de l?analyse du comportement des utilisateurs naviguant sur un serveur Web est pr�sent�e.

Abstract

This paper presents a general framework allowing a tight coupling between data warehousing and data mining capabilities in a uniform and integrated way. The proposed approach consists in integra�ting knowledge into data warehouses and especially in OLAP cubes exploration. This integration aims to make the OLAP process guided both by multidimensional data and knowledge. A multidimensional structure is then proposed to support data and knowledge. We propose also a set of analytical operators and multidimensional data mining operators. To illustrate the proposed approach, a real OLAP cube built to understand the behaviour of users navigating on the Web is proposed and used to show by concrete examples the interest of such extension of data warehouses.

Table des mati�res

1.Introduction

2. Travaux connexes et motivations

3. Structure multidimensionnelle des donn�es

4. Int�gration de la connaissance dans les entrep�ts de donn�es

4.1 Approximation des cubes de donn�es

4.2 �D�couverte de relations entre les cellules dans les cubes OLAP

5. Manipulation des cubes de donn�es

5.1 �Niveau 1: �Int�gration des outils d?analyse OLAP classiques

5.1.1 �Op�rateurs d?agr�gation

5.1.2 �Op�rateurs de restructuration

5.2 �Niveau 2: �Extension avec de nouveaux op�rateurs d?analyse et d?extraction de connaissances

5.2.1 �Nouveaux op�rateurs d?analyse en ligne des donn�es

5.2.2 �Int�gration des op�rateurs issus du mod�le relationnel

5.2.3 �Op�rateurs d?approximation des cubes de donn�es

5.2.4 �Op�rateurs de d�couverte de liens entre les cellules d?un cube de donn�es

5.3 �Niveau 3: �op�rateurs de visualisation et d?interaction

6. Application: �analyse du comportement des utilisateurs via le Web

6.1 �Donn�es exp�rimentales et r�sultats de pr�traitement

6.2 �Mod�lisation multidimensionnelle des donn�es provenant des fichiers journaux

6.3 �Analyse et exploration de l?entrep�t de donn�es exp�rimental

7. Conclusion

Texte int�gral

1.Introduction

La mise en place d?entrep�ts de donn�es a permis la construction de bases de donn�es multidimension�nelles supportant l?analyse et la compr�hension de ph�nom�nes cach�s dans les bases de donn�es op�ra�tionnelles. Le processus OLAP (On Line Analytical Processing) d?analyse en ligne des donn�es multidi�mensionnelles de l?entrep�t s?appuie sur une structure particuli�re de l?entrep�t, un langage d?interrogation et une visualisation 3D de l?hypercube de donn�es OLAP (Codd, Codd et Salley, 1993, Kimbal, 1996).

Par ailleurs, l?extraction de connaissances est devenue populaire gr�ce aux d�veloppements scienti�?ques et techniques dans plusieurs champs de recherche tels que l?algorithmique, l?apprentissage automa�tique, les statistiques, les bases de donn�es, etc. � cela s?ajoute un d�veloppement technologique permettant le stockage et les �changes de gros volumes de donn�es � des co�ts raisonnables. Mais, c?est principalement l?engouement des industriels pour l?extraction de connaissances qui a permis le d�veloppement de solutions diverses pour des domaines d?application vari�s tels que la m�decine, le marketing, la ?nance, etc.

Cependant, l?analyse exploratoire et interactive des cubes OLAP reste focalis�e sur les donn�es multidi�mensionnelles. Ainsi, seules les donn�es sont visualis�es dans les cubes, et m�me les op�rations de manipu�lation des cubes ne traitent que les donn�es. De plus, l?approche OLAP n?int�gre pas les avanc�es r�a�lis�es par la communaut� l?extraction de connaissances. La connaissance n?est pas repr�sent�e explicitement dans l?entrep�t et aucun op�rateur classique ne permet de la manipuler lors de la visualisation et de l?exploration des cubes. A cela s?ajoute le fait que l?analyse exploratoire des cubes OLAP est principalement bas�e sur les intuitions et les connaissances acquises par l?utilisateur qui, par cons�quent, doit �tre expert du domaine. Cette d�pendance entre la connaissance cach�e dans les cubes OLAP et les hypoth�ses et les intuitions des utilisateurs de ces cubes peut mener deux experts � interpr�ter diff�remment le m�me cube OLAP.

D?autre part, l?extraction de connaissances � partir de donn�es conna�t des limites dues au volume et � la qualit� des donn�es consid�r�es, au temps de calcul ainsi qu?au volume et � la qualit� de la connaissance extraite. Ainsi, les travaux de la communaut� l?extraction de connaissances continuent, en grande partie, � se focaliser sur le d�veloppement d?algorithmes ef?caces pour faire face au grand volume et � la mauvaise qualit� des donn�es. Aussi, bien que la visualisation prend de plus en plus d?importance dans les recherches actuelles, elle est en g�n�ral per�ue comme un processus sans un r�el retour sur les donn�es ou une remise en cause des m�thodes et du processus d?extraction de connaissances utilis�. A cela s?ajoute le fait que rares sont les approches capables d?extraire de la connaissance � partir d?une v�ritable base de donn�es en utilisant son sch�ma, son catalogue, les proc�dures stock�es disponibles, etc.

Nous pensons que les travaux r�alis�s dans le cadre de l?entreposage de donn�es (i.e., data warehou�sing), de l?analyse OLAP et de l?extraction de connaissances peuvent se renforcer mutuellement pour per�mettre une exploration des cubes bas�e sur les donn�es et les connaissances multitype (statistiques, r�gles, arbres de d�cisions, etc.).

En r�ponse � ces constats, nous pr�sentons dans cet article un syst�me OLAP int�grant, en plus des don�n�es multidimensionnelles, des m�tadonn�es ainsi que des connaissances extraites � partir de ces donn�es multidimensionnelles. Notre contribution se situe au niveau de la mod�lisation et de la manipulation :

Mod�lisation : enrichir l?entrep�t de donn�es avec des m�tadonn�es (d�crivant ces donn�es) et connais�sances de diff�rentes natures.

Manipulation : d�?nir un ensemble d?op�rateurs structur�s selon trois niveaux :

Niveau 1 : D�?nition d?un mod�le couvrant la totalit� des op�rateurs classiques OLAP.
Niveau 2 : Enrichissement avec de nouveaux op�rateurs de manipulation multidimensionnelle des donn�es, des op�rateurs d?extraction d?informations et d?extraction de connaissances.
Niveau 3 : Ajout d?op�rateurs de visualisation, d?interaction et d?exploration conjointe des donn�es et connaissances. Par cons�quent, l?approche propos�e conduit � une red�?nition de la notion de l?hypercube de donn�es OLAP qui inclut non seulement les donn�es, mais aussi la connaissance (r�gles, mesures statistiques, etc.).

Cet article proc�de comme suit. Un aper�u sur les travaux en rapport avec cette probl�matique est fourni dans la section 2 suivi dans les sections 3, 4 et 5 respectivement par la proposition d?une structure multidimensionnelle pour supporter le mod�le d?entrep�t enrichi par la connaissance, une br�ve description des approches propos�es pour l?extraction et l?int�gration de la connaissance dans les cubes de donn�es, et la proposition d?un ensemble d?op�rateurs pour la manipulation des cubes OLAP. Avant de conclure la proposition avec des perspectives d?extension, la section 6 pr�sente une application du syst�me propos� sur des donn�es r�elles extraites � partir d?un serveur Web pour l?analyse et la compr�hension du comportement des utilisateurs ayant navigu� sur ce serveur.

2. Travaux connexes et motivations

De nombreux travaux ont �t� r�alis�s dans la th�matique de l?extraction de connaissances � partir des entrep�ts de donn�es (Han et Kamber, 2001). Nous citons parmi les approches propos�es la g�n�ra�tion d?arbres de d�cision et de r�gles d?association � partir des donn�es multidimensionnelles (Han, Fu, Wang et al., 1996), la d�couverte d?exceptions (�carts signi?catifs entre la valeur observ�e et la valeur es�tim�e, i.e., outliers) (Barnett et Lewis, 1994) (Knorr, Ng et Tucakov, 2000), la g�n�ration des cubegrades (Imielinski, Khachiyan et Abdulghani, 2002) (g�n�ralisation des r�gles d?association pour l?�tude de l?impact de la manipulation des cubes de donn�es sur les mesures), l?analyse des tendances dans les cubes OLAP (Dong, Han, Lam et al., 2001) et l?exploration des cubes guid�e par la d�couverte (Sarawagi, Agra�wal et Megiddo, 1998).

D?autres travaux ont �t� propos�s non pas pour l?extraction de connaissances � partir des entrep�ts de donn�es mais pour l?optimisation du calcul d?agr�gats, c?est � dire iceberg. Ainsi, Xin et al. (Xin, Han et Wah, 2003) se sont focalis�s sur cet aspect et ont propos� une approche pour le calcul d?agr�gats selon plusieurs dimensions simultan�ment. Dans ce m�me objectif, Ross et al. (Ross et Srivastava, 1997) ont propos� de partitionner le cube de donn�es en plusieurs partitions pouvant tenir en m�moire centrale. Dans ce m�me esprit, Li et al. (Li, Han et Gonzalez, 2004) ont propos� de r�duire la dimensionnalit� d?un cube OLAP en le partitionnant en plusieurs sous-cubes (fragments) disjoints. Les identi?ants des tuples (faits) du cube initial servent par la suite � maintenir la relation entre le cube initial et les sous-cubes d�riv�s, et ce dans le but de pouvoir r�g�n�rer � tout moment le cube initial ou pour r�pondre � des requ�tes complexes � partir de plusieurs sous-cubes.

Toujours � des ?ns d?optimisation, des travaux ont �t� propos�s pour l?approximation des cubes OLAP. Les auteurs dans (Babcock, Chauhuri et Das, 2003) se basent pour cela sur des techniques d?�chantillonnage. Chakrabarti et al. (Chakrabarti, Garofalakis, Rastogi et al., 2001) proposent une approche d?approximation des r�ponses aux requ�tes par ondelettes (wavelets). Shanmugasundaram et al. (Shanmugasunda�ram, Fayyad et Bradley, 1999) se basent sur une estimation de la densit� de probabilit� des donn�es pour construire une repr�sentation compacte du cube de donn�es supportant des requ�tes d?agr�gation. Dans ce m�me esprit, Vitter et al. (Vitter et Wang, 1999) utilisent le principe des ondelettes pour la compression des cubes de donn�es �parses ainsi que pour fournir des r�ponses approximatives � des requ�tes de cal�cul d?agr�gats. Lakshmanan et al. (Lakshmanan, Pei et Han, 2002) proposent une approche, Quotient Cube, pour g�n�rer un r�sum� du contenu s�mantique d?un cube OLAP en s?appuyant sur le principe de partitionnement du cube en classes d?�quivalence regroupant les cellules avec les m�mes valeurs d?agr�gats. Ces classes peuvent par la suite remplacer les cellules pour aboutir � un cube plus compact. Toutefois, les structures obtenues sont peu compactes et non adapt�es aux mises � jour des donn�es. En r�ponse � cette d�faillance, Lakshmanan et al. (Lakshmanan, Pai et Zhao, 2003) ont propos� l?approche QC-Tree permet�tant l?extraction de cubes int�ressants r�sumant les donn�es du cube initial tout en r�servant sa s�mantique. Dans ce m�me ordre d?id�es, Feng et al. (Feng, Agrawal, Abbadi et al., 2003) proposent la technique Range Cube permettant la compression d?un cube en se basant sur la corr�lation qui existe entre ses cellules et qui permet d?aboutir � un cube plus compact et moins co�teux en terme d?espace de stockage et de temps de r�ponse aux requ�tes qui lui sont destin�es. D?autres travaux ont �t� destin�s � la mat�rialisation partielle des cubes de donn�es. Ainsi Barbara et al. (Barbara et Sullinvan, 1997) se basent sur une description (incom�pl�te mais suf?sante) d?un cube initial pour en produire des vues mat�rialis�es correspondant � l?essentiel de ses donn�es.

Par la suite, l?objectif de cet article est d?int�grer la connaissance qu?on peut extraire du cube OLAP au m�me niveau que les donn�es multidimensionnelles d?une fa�on uniforme et homog�ne. Le but est qu?� tout moment de l?exploration des cubes OLAP, les donn�es multidimensionnelles, les m�tadonn�es et les connaissances extraites sont manipul�es, explor�es et visualis�es conjointement pour une exploration des cubes OLAP guid�e non seulement par les donn�es, mais �galement par la connaissance et surtout par les interactions entre les donn�es et les connaissances.

3. Structure multidimensionnelle des donn�es

Nous proposons dans cette section une structure multidimensionnelle permettant l?enrichissement de l?entrep�t de donn�es par de la connaissance. �Cette structure �est un �cadre g�n�ral permettant une r�elle int�gration des donn�es multidimensionnelles et connaissances extraites � partir de ces donn�es. Elle est pr�sent�e plus en d�tail dans�(Naouali, 2004)

Une dimension de l?entrep�t est un axe s�mantique permettant la repr�sentation des donn�es selon plusieurs perspectives dans le but de faciliter et d?enrichir leur analyse. �

Soit DIM = {dim₁,?, dim_n} �un ensemble de n dimensions directement connect�es � la table des faits. �� chacune de ces dimensions correspond un ensemble d?attributs qu?on note chacun de ces attributs admet un ensemble de valeurs possibles. �Consid�rons alors A = {a₁,a₂,?} l?ensemble global des attributs de toutes les dimensions et dom_ai le domaine d?un attribut quelconque . Par la suite f est une fonction informative attribuant � chaque dimension l?ensemble des attributs qui lui correspondent:

avec P(A) d�signe la fonction "partie de".

Chaque dimension est �tablie selon une certaine hi�rarchie permettant d?organiser ses attributs selon plusieurs niveaux d?abstraction ce qui lui offre un aspect granulaire. �C?est la raison pour laquelle � chaque attribut d?une dimension quelconque correspond une table accessible � partir de la table dimension en question, et c?est cette s�quence de tables li�es qui d�crit la hi�rarchie de cette m�me dimension1 . Une dimension peut avoir plus d?une hi�rarchie, chacune d?entre elles organise diff�remment ses attributs. �

On d�finit une expression de chemin comme �tant le moyen d?acc�der � un certain attribut (soit a) d?une dimension quelconque (soit dim_i) en parcourant une ou plusieurs tables reli�es � cette m�me dimension (soient t_j,?,t_k) et d�crivant sa hi�rarchie. Une expression de chemin permet par la suite de changer le niveau d?abstraction courant de la dimension dim_i et est not�e comme suit : �dim_i ?t_j ???t_k?a �avec . Toutes les expressions de chemin commen�ant par dim_i appartiennent au chemin g�n�rique

Une mesure repr�sente g�n�ralement une valeur agr�g�e selon un ensemble de dimensions, chacune de ces dimensions est donn�e selon un niveau quelconque d?abstraction (ce qui explique l?utilisation d?une expression de chemin pour d�signer une dimension quelconque) : �

mesure = agr�gation (,?,) (1)

avec dim₁,?,dim_n des tables dimensions directement reli�es � la table des faits en question. �Cette fonction d?agr�gation �permettra de recalculer les agr�gats � la suite du changement du niveau hi�rarchique d?une ou de plusieurs dimensions du cube de donn�es (section�5.1.1).

La construction d?un cube fait appel � un ensemble de tables: �

Une table des faits (TF). C?est le lieu de connexion de n dimensions, et contenant m mesures. �Elle admet des coordonn�es correspondant aux diff�rentes valeurs (membres ou encore modalit�s) des dimensions du cube et un contenu correspondant aux valeurs prises par ses mesures. �Une table des faits peut �tre la table initiale (table des faits principale contenant les donn�es correspondant au plus bas niveau hi�rarchique de chacune des dimensions du cube) ou une table g�n�r�e � la suite de l?application d?une (ou plusieurs) op�ration(s) de manipulation du cube et/ou d?extraction de connaissances.
Les tables dimensions sont associ�es � chaque dimension r�f�renc�e dans la table des faits initiale � laquelle elles sont directement connect�es.
Les tables reli�es aux tables dimensions sont utilis�es pour repr�senter la d�composition de la hi�rarchie de chacune de ces dimensions en sous niveaux de granularit�.

La structure multidimensionnelle propos�e suit ainsi un sch�ma en flocons de neige. �Une cellule de ce cube correspond par la suite � un enregistrement de la table des faits (i.e., fait) et est repr�sent� comme suit : �

fait (TF) : [ coordonn�es : [ v₁, . . . , v_n], contenu : [g( v₁, . . . , v_n)]]

avec: �

g : fonction informative retournant le contenu du fait dont les coordonn�es sont pass�es en param�tre. �Cette fonction retourne une des valeurs suivantes: �
"? " si la cellule correspondante est manquante.
La (ou les) valeur(s) correspondante(s) sinon² .

Nous tenons � mentionner ici que les cellules manquantes ou inexistantes sont prises en compte dans la structure propos�e afin de pouvoir introduire des approches pour leur pr�diction ou leur approximation (mod�les log-lin�aires, th�orie des ensembles approximatifs, etc). Pour ces m�mes raisons, et toujours�dans le but d?enrichir l?entrep�t de donn�es par de nouvelles approches d?extraction de connaissances et d?analyse de donn�es, nous repr�sentons un groupement de faits (sous-cube) en d�limitant leurs coordonn�es entre crochets comme suit: �

avec j l?identifiant du groupe et w_i�:1,?,ncorrespond � un ou plusieurs membres de la i^�me dimension (soit dim_i). w_i prend une des formes suivantes: �

v_k: une valeur unique correspondant au k^i�me �membre de dim_i
v_k,m: �le k^i�me �et le m^i�me membre de dim_i
v_k-m: du k^i�me ��au m^i�me membre de dim_i
v_? : tous les membres de dim_i.

4. Int�gration de la connaissance dans les entrep�ts de donn�es

Nous pr�sentons dans cette section deux approches pour l?extraction et l?int�gration de la connaissance dans les entrep�ts en tenant compte de la structure multidimensionnelle propos�e ci-dessus. �La premi�re approche est une extension des capacit�s d?analyse OLAP vers l?approximation de concepts dans les cubes de donn�es selon la th�orie des ensembles approximatifs, i.e., Rough Set Theory (RST). La seconde approche consiste en la d�couverte de similarit�s entre les cellules d?un cube de donn�es � des fins de segmentation, i.e., clustering. Cette approche est bas�e sur le calcul des ensembles fr�quents � partir des cubes de donn�es. �Le pr�sent document ne comporte pas des d�tails techniques (notamment d?�valuation de performances) de ces deux approches. �On se contente juste de montrer leurs int�r�ts dans le cube de donn�es ainsi que dans le processus d?analyse OLAP.

4.1 Approximation des cubes de donn�es

Nous pr�sentons dans cette section une approche permettant l?approximation des r�ponses aux requ�tes OLAP soumises � un entrep�t de donn�es. �Cette approche est bas�e sur une adaptation de la th�orie des ensembles approximatifs aux donn�es multidimensionnelles et offre de nouvelles possibilit�s d?exploration et d?extraction de connaissances � partir des cubes OLAP. Puisque les entrep�ts proviennent g�n�ralement de multiples sources de donn�es h�t�rog�nes et peu fiables, les utilisateurs peuvent accepter une r�ponse approximative � une requ�te OLAP et donc une perte d?information.

Cette approche permet �galement l?int�gration d?outils d?approximation dans les entrep�ts de donn�es dans le but de produire de nouvelles vues que l?on peut par la suite analyser et explorer en faisant appel � des op�rateurs OLAP et/ou des algorithmes d?extraction de connaissances. �Cette int�gration permet par la suite � l?utilisateur de travailler soit en mode restreint en utilisant une approximation basse3 �du cube OLAP, ou en mode rel�ch� en utilisant une approximation haute de ce dernier4. Le premier mode est utile dans le cas o� la r�ponse � la requ�te est volumineuse, permettant ainsi � l?utilisateur de focaliser son attention sur un ensemble r�duit de cellules (faits) fortement similaires. �Le second est utile dans le cas d?une requ�te retournant un ensemble vide ou r�duit de cellules, permettant ainsi de rel�cher les contraintes de la requ�te afin d?�largir le volume du r�sultat.

Dans cet objectif, nous avons tout d?abord int�gr� les principes des ensembles approximatifs dans le contexte multidimensionnel des donn�es dans le but de fournir des r�ponses approximatives aux requ�tes et d�finir des concepts (partitions du cube en sous-ensemble de faits) en r�ponse aux requ�tes des utilisateurs, ensuite nous avons propos� un enrichissement des techniques OLAP avec de nouveaux op�rateurs apportant plus de flexibilit� lors des interactions entre l?utilisateur et les entrep�ts de donn�es, et enfin, nous avons d�fini des vues mat�rialis�es de donn�es pour encapsuler et exploiter les r�ponses aux op�rateurs d?approximation � des fins d?extraction de connaissances (segmentation des cubes et calcul des r�gles d?association). En cons�quence, l?approximation concerne non seulement la r�ponse aux requ�tes mais �galement le r�sultat d?extraction de connaissances. �Pour plus de d�tails sur cette approche, le lecteur peut se r�f�rer �(Naouali, 2004,Naouali et Missaoui, 2005).

4.2 �D�couverte de relations entre les cellules dans les cubes OLAP

Cette approche propose l?enrichissement de l?entrep�t de donn�es en permettant la d�couverte et la mise en �vidence de relations de similarit� et de partage de propri�t�s communes entre les cellules du cube OLAP. Le but �tant de visualiser et par la suite de pouvoir explorer ces liens simultan�ment avec les donn�es multidimensionnelles elles-m�mes. �Cette approche est bas�e sur la d�couverte des ensembles fr�quents � partir des cubes de donn�es qui a �t� commun�ment utilis�e comme une premi�re �tape dans un processus de calcul de r�gles d?association. �Notre objectif est par la suite, en plus du calcul des r�gles d?association, d?explorer cette connaissance en la visualisant dans le cube de donn�es et en permettant la g�n�ration de nouvelles vues mat�rialis�es tr�s particuli�res dont l?exploration peut conduire � des aspects d?analyse plus avanc�s que ce que permet les syst�mes OLAP classiques. Notons �galement que notre but n?est pas de calculer la liste exhaustive des ensembles fr�quents, seulement une approximation de cet ensemble complet est calcul�e, puis int�gr�e dans les cubes de donn�es. �Quant aux r�gles d?association, elles sont calcul�es et sauvegard�es ind�pendamment du sch�ma de l?entrep�t et selon la demande de l?utilisateur.

L?approche propos�e consid�re en entr�e la table des faits et comprend essentiellement les �tapes suivantes: En premier la s�lection et la transformation de donn�es � partir de l?entrep�t et en second lieu la g�n�ration des ensembles fr�quents � partir de ces donn�es. �Comme on s?int�resse dans cette proposition � la connaissance exprim�e par le partage d?ensembles fr�quents entre les cellules d?un cube, nous ajoutons � ce processus la troisi�me et derni�re �tape qui consiste en la d�couverte de liens s�mantiques entre les cellules du cube de donn�es. �Ces liens sont alors bas�s sur les ensembles fr�quents que se partagent les cellules du cube.

L?objectif de la premi�re �tape du processus est la restructuration de la table des faits. �Elle consiste � attribuer � chaque modalit� de chacune des dimensions un item dans la nouvelle table des faits en ne gardant que ceux dont la fr�quence est sup�rieure � un certain seuil minimum pr�d�fini dans le but d?aboutir � une repr�sentation qui soit dense. �Un fait de la table ainsi pr�trait�e est repr�sent� par N bits (N �tant la somme des cardinalit�s des dimensions du cube initial moins le nombre d?items supprim�s lors du pr�traitement) avec la valeur 1 si l?item en question est pr�sent et 0 est absent. �Un tel fait est par la suite consid�r� comme un chromosome ce qui nous permet l?application du principe des algorithmes g�n�tiques dans le but d?aboutir � une liste non exhaustive des ensembles fr�quents du moment que le calcul de la liste exhaustive se r�v�le NP-complet�(Ganter et Wille, 1999). L?approche adopt�e pour la d�couverte des ensembles fr�quents est bas�e sur les notions de fronti�re et de pseudo-fronti�re introduites par Zaki et al.�(Zaki, Parthasarathy, Ogihara et al., 1997). �

Fronti�re : La fronti�re est l?ensemble des itemsets fr�quents maximaux. �On dit qu?un itemset fr�quent est maximal s?il n?existe pas un autre itemset fr�quent qui le contient. �Tout itemset fr�quent maximal devient rare (non fr�quent) si on lui rajoute un nouvel item, c?est d?ailleurs ce qui explique l?utilisation du terme fronti�re car c?est la limite pour qu?un itemset (appartenant � cette fronti�re) reste fr�quent.

Pseudo-fronti�re : Une pseudo-fronti�re est un ensemble d?itemsets fr�quents potentiellement maximaux. �Un itemset fr�quent est potentiellement maximal si, � un moment pr�cis de la d�couverte, aucun autre itemset fr�quent l?incluant n?a �t� d�couvert. �Les pseudo-fronti�res sont donc des approximations de la fronti�re r�elle. �Ce sont, en d?autres termes, ce qu?on a pu trouver comme itemsets maximaux � un moment donn� du processus de recherche de la fronti�re.

Le but du processus g�n�tique est par la suite de calculer une pseudo-fronti�re qui s?approche le maximum possible de la fronti�re r�elle. �A chaque it�ration du processus g�n�tique, une nouvelle pseudo-fronti�re est calcul�e et �valu�e. �Le processus est arr�t� syst�matiquement d�s que les performances de la d�couverte deviennent obsol�tes, et l?ensemble total des itemsets fr�quents est par la suite obtenu en g�n�rant tous les sous-itemsets possibles � partir des itemsets de la pseudo-fronti�re finale5 . La performance de la d�couverte est calcul�e par un param�tre ? selon : �

o� FD est l?ensemble des itemsets fr�quents d�couverts (inclus les itemsets maximaux calcul�s ainsi que les sous-itemsets g�n�r�s � partir de ces itemsets maximaux), FC est l?ensemble des itemsets fr�quents calcul�s6 �et RC est l?ensemble des itemsets non fr�quents (rares) calcul�s. �Un algorithme classique, comme APRIORI�(Agrawal et Srikant, 1994), donne ?<1, voire ?<<1, ce qui signifie que sur le nombre total d?itemsets calcul�s7 , beaucoup s?av�rent non fr�quents. �Notre approche vise � r�duire cet inconv�nient et faire tendre ? vers 1.

La survie d?un chromosome quelconque d?une g�n�ration � une autre est d�termin�e moyennant une fonction de qualit�, i.e., fitness, calcul�e selon : �

o� support(C), age(C) et longueur(C) sont des fonctions d�terminant le support, l?age et le nombre d?items de C. N repr�sente le nombre total d?items de la table des faits, p(X_i) la fr�quence d?apparition de l?item X_i dans la table des faits et ? est un facteur constant �gal � l?inverse de la moyenne g�om�trique des fr�quences de tous les items de la table des faits. �

Les exp�rimentations effectu�es ont montr� que la d�couverte se stabilise au del� de 80 � 90% du nombre total des ensembles fr�quents ce qui est suffisant pour avoir une approximation de cet ensemble en temps raisonnable.

Une fois les ensembles fr�quents calcul�s, ils sont utilis�s pour la d�couverte de liens entre les cellules du cube de donn�es. �Deux cellules c_i et c_j quelconques sont connect�es si et seulement si les ensembles fr�quents que v�rifie chacune de ces cellules v�rifient la relation ? d�finie par : �

o� ? exprime la liaison s�mantique entre c_i et c_j tandis que F retourne l?ensemble des itemsets fr�quents que v�rifie la cellule pass�e en param�tre. �Pour des raisons de simplicit�, ? v�rifie par d�faut que l?intersection des deux ensembles pass�s en param�tre est non vide. �Par cons�quent, deux cellules sont connect�es si elles v�rifient au moins un m�me ensemble fr�quent. �Plus ce nombre d?ensembles fr�quents est �lev�, plus les cellules en question sont fortement connect�es. �Ceci est graphiquement illustr� par la couleur des liens entre les cellules du cube.

L?approche propos�e s?�tend �galement pour permettre la g�n�ration de nouvelles vues de donn�es contenant seulement les groupements de cellules inter-connect�es, des groupements de cellules faiblement ou fortement li�es (en se fixant un seuil minimum pour le degr� de liaison entre les cellules), ou de nouvelles vues avec seulement les faits n?appartenant � aucun groupement et illustrant ainsi des exceptions dans le cube de donn�es. �Pour plus de d�tails sur cette approche, le lecteur peut se r�f�rer � (Naouali, Quafafou et Nachouki, 2004) et (Naouali, 2004).

5. Manipulation des cubes de donn�es

5.1 �Niveau 1: �Int�gration des outils d?analyse OLAP classiques

Cette section pr�sente une int�gration des outils d?analyse OLAP tels que connus et r�f�renc�s dans la litt�rature. �Nous nous sommes appuy�s pour leur �tude et leur collecte sur des travaux de recherche sur les besoins utilisateurs�(Han et Kamber, 2001,Inmon, 1994,Kimbal, 1996,Codd, Codd et Salley, 1993). Ces outils consistent en des d�finitions informelles de ces besoins utilisateurs. �Ces besoins peuvent �tre regroup�s en deux cat�gories d?op�rations : �D?une part observer les donn�es multidimensionnelles selon plusieurs niveaux d?abstraction (op�rateurs d?agr�gation), et d?autre part pouvoir changer la structure selon laquelle les donn�es sont repr�sent�es8 (op�rateurs de restructuration). Le but de ces manipulations est de pouvoir d�couvrir des aspects insoup�onnables dans la grande masse de donn�es disponibles dans un entrep�t permettant ainsi l?enrichissement de leur analyse exploratoire.

5.1.1 �Op�rateurs d?agr�gation

Nous pr�sentons en ce qui suit une version simple et plus sp�cifique9 �des op�rations d?agr�gation Roll_up (connue aussi sous le terme Drill_up) et Drill_down que nous appellerons SRoll_up and SDrill_down. �Ces op�rateurs permettent de repr�senter les donn�es d?un cube � un niveau de granularit� imm�diatement sup�rieur (pour le SRoll_up) ou inf�rieur (pour le SDrill_down) selon une dimension: �

TF?=SRoll_up(TF,) TF?=SDrill_down(TF, )

5.1.2 �Op�rateurs de restructuration

Rotate: op�re sur un cube une rotation autour d?un des axes correspondant � ses dimensions, de mani�re � rendre visible de nouvelles facettes de ce cube. �Cet op�rateur prend en entr�e la table TF et la dimension correspondant � l?axe de rotation. �Il fournit en sortie une nouvelle table TF': �

TF?=Rotate(TF, )

Switch: permet d?�changer les positions de deux membres d?une m�me dimension. �Il prend en entr�e une table TF, une expression de chemin sur les membres dont on veut �changer les positions ainsi que deux valeurs d�signant ces deux membres et fournit en sortie une nouvelle table TF' : �

TF?=Switch(TF, ,val₁(),val₂())

avec val₁() et val₂() prises dans le domaine de .

Pull: permet de changer le statut de certaines mesures d?un cube en membres, constituant ainsi une nouvelle dimension. �Il prend en entr�e une table TF, la mesure dont on veut changer le statut et un nom pour la nouvelle dimension: �

TF= Pull ( TF, mes_j, dim)

Push: consiste � faire passer des membres d?une dimension quelconque pass�e en param�tre comme contenu de cellules, et donc transformer une dimension en mesure: �

TF= Push ( TF, dim_j, mes)

Nest: permet de regrouper sur une m�me repr�sentation bi-dimensionnelle toutes les informations d?un cube ou d?un hypercube en imbriquant des membres de diff�rentes dimensions. �Cette op�ration consiste alors � transformer la table TF � n dimensions et k mesures en une table TF' � seulement 2 dimensions et (k+n-2) mesures. �Elle prend en entr�e la table TF ainsi que deux expressions de chemin sur les deux dimensions � garder: �

TF?=Nest(TF, ,)

Split: permet de r�duire le nombre de dimensions d?un cube de donn�es. �Le nombre de tables ou de cubes r�sultats d�pend des informations de la repr�sentation initiale. �Cet op�rateur transforme alors une table TF � n dimensions et k mesures en un ensemble de tables � n-1 dimensions et toujours k mesures. �Le nombre de tables g�n�r�es est donc �gal au nombre de modalit�s dans la dimension �clat�e: �

Split ( TF, dim_j, /TF₁, . . . , /TF_card)

5.2 �Niveau 2: �Extension avec de nouveaux op�rateurs d?analyse et d?extraction de connaissances

5.2.1 �Nouveaux op�rateurs d?analyse en ligne des donn�es

Cette classe d?op�rateurs comprend une extension des op�rateurs d?agr�gation, respectivement le Roll_up et le Drill_down, pour permettre respectivement d?agr�ger ou de d�tailler les donn�es d?un cube � plus d?un niveau selon une dimension quelconque. �Ces op�rateurs sont par la suite appel�s MRoll_up et le MDrill_down10 . Ces op�rateurs prennent en entr�e une table des faits ainsi que deux expressions de chemins sur la m�me dimension tout en d�crivant deux niveaux hi�rarchiques diff�rent, le MDrill_down prend en plus en entr�e la table des faits initiale qui est la seule � contenir les donn�es au plus bas niveau de d�tails: �

TF?=MRoll_up(TF, ,) ��TF?=MDrill_down(TF,TV, ,)

Cube: cet op�rateur restructure le cube de donn�es en rajoutant le r�sultat d?agr�gation de tous les membres de chaque dimension comme un nouveau membre pour la dimension en question. �

TF?=Cube(TF, ,,)

Roll_up2: �cet op�rateur permet la restructuration d?une dimension quelconque du cube en agr�geant quelques uns de ses membres tout en gardant le m�me niveau hi�rarchique de cette m�me dimension11 . Cet op�rateur prend en entr�e une table des faits, la dimension � restructurer ainsi que l?ensemble des membres � agr�ger et un libell� pour ce nouveau membre: �

TF?=Roll_up2(TF, ,{val₁(),?,val_n()},lib)

Il est important de noter que cet op�rateur doit �tre utilis� avec beaucoup de pr�caution car il permet de restructurer les hi�rarchies pr��tablies.

Drop: r�duit le nombre de dimensions d?un cube de donn�es en supprimant celle pass�e en param�tre et en recalculant les agr�gations n�cessaires dans le cube en question (pass� �galement en param�tre):

TF?=Drop(TF, dim_j)

Add-measure: rajoute une nouvelle mesure, dont le nom est pass� en param�tre, � un cube de donn�es. �Cette nouvelle mesure est calcul�e gr�ce � une requ�te SQL pass�e �galement en param�tre: �

TF?=Add-measure(TF, lib, requ�teSQL)

Select_Links: op�rateur d?ajout de contraintes dans le cube de donn�es en g�n�rant des liens entre les cellules partageant les m�mes valeurs correspondant � la dimension ou la mesure pass�e en param�tre: �

Select_links from <TF> on <dimension|mesure>

5.2.2 �Int�gration des op�rateurs issus du mod�le relationnel

Les op�rateurs issus du mod�le relationnel sont adapt�s � la structure multidimensionnelle propos�e. �Ces op�rateurs sont la s�lection, la jointure, l?union, l?intersection, la diff�rence, le renommage et la suppression. �Cette int�gration a pour objectif d?enrichir la manipulation des cubes de donn�es en permettant de s�lectionner des sous-cubes, calculer l?union, l?intersection ou la diff�rence de deux cubes, etc. �L?application de l?un de ces op�rateurs produit par la suite une nouvelle vue mat�rialis�e avec le r�sultat de la requ�te utilisateur. �Ce dernier peut alors continuer l?exploration du cube r�pondant � sa requ�te avec des op�rateurs d?analyse et/ou d?extraction de connaissances.

5.2.3 �Op�rateurs d?approximation des cubes de donn�es

Nous d�crivons dans cette section les op�rateurs d?approximation des cubes OLAP que nous avons bri�vement introduits dans la section�4.1. Ces approximations ainsi que les r�gles de classification et de description sont accessibles via les op�rateurs suivants (dont l?appel g�n�re non pas un ensemble de tuples mais plut�t une nouvelle vue mat�rialis�e avec les faits r�pondant � la requ�te en question12 ): �

select_lower: g�n�re un nouveau cube avec les faits r�pondant sans ambigu�t� � la requ�te utilisateur.

select_ upper: le cube g�n�r� peut contenir des faits ne r�pondant pas parfaitement � la requ�te.

select_ boundary_region: g�n�re un cube avec seulement les faits douteux (r�pondant de fa�on incertaine � la requ�te).

select_ classification_rules: g�n�re des r�gles bas�es sur la description des faits r�pondant sans ambigu�t� � la requ�te utilisateur permettant ainsi de d�terminer l?appartenance de nouveaux objets (faits) � la requ�te utilisateur.

select_ characteristic_rules: les r�gles g�n�r�s sont bas�es sur la description de faits pouvant ne pas r�pondre parfaitement � la requ�te utilisateur permettant ainsi de donner des descriptions possibles aux faits r�pondant � la requ�te utilisateur.

Ces op�rateurs permettent ainsi de filtrer les cubes OLAP pour ne garder que les cellules r�pondant � une requ�te donn�e. �L?utilisateur peut poursuivre par la suite son processus exploratoire en focalisant son attention sur des donn�es plus pr�cises et peut y appliquer des op�rateurs d?analyse et/ou d?extraction de connaissances. �

5.2.4 �Op�rateurs de d�couverte de liens entre les cellules d?un cube de donn�es

Les op�rateurs suivants permettent le calcul et la visualisation des relations inter-cellules telles que d�crites dans la section�4.2: �

Show_Links_All : calculer et visualiser l?ensemble total des liens d�couverts entre les cellules du cube.

Show_Links_One(cell_id) : ne g�n�rer que les liens sortant d?une seule cellule � la fois.

Show_Links_Off : d�sactiver la visualisation des liens entre les cellules du cube de donn�es.

Associer ces op�rateurs avec d?autres op�rateurs de s�lection et de visualisation permet � l?utilisateur de g�n�rer de nouveaux cubes de donn�es avec seulement des cellules fortement ou faiblement li�es ou encore des cellules exceptionnelles, etc. �L?exploration de ces nouveaux cubes avec des op�rateurs d?analyse et/ou d?extraction de connaissances reste toujours possible.

5.3 �Niveau 3: �op�rateurs de visualisation et d?interaction

Pour ce dernier niveau d?op�rateurs, nous mettons � la disposition de l?utilisateur une interface graphique permettant d?acc�der � toutes les op�rations ci-dessus d�crites. �Cette interface permet �galement la visualisation en 2D et 3D du cube de donn�es. �L?impact des op�rateurs d?analyse et/ou d?extraction de connaissances est visualis� directement sur le cube ainsi manipul�.

En plus des op�rateurs issus des deux premiers niveaux, nous d�crivons ci-dessous de nouveaux op�rateurs d�di�s � la visualisation des donn�es et des connaissances ainsi que des op�rateurs d?enrichissement des interactions avec l?utilisateur. �

Convert: permet de convertir la table des faits TF, que l?utilisateur veut visualiser, sous un format (fichier texte) propre � la visualisation: text_file f=convert(TF). L?int�r�t est d?�viter la visualisation de toute une succession de vues que l?utilisateur g�n�re dans le seul but d?atteindre un objectif bien pr�cis.

Project: permet de montrer une des facettes du cube. �

Zoom_in, Zoom_out: �largir ou r�tr�cir le cube de donn�es.

Enlarge(dim_i), Reduce(dim_i): �largir ou r�tr�cir une dimension donn�e du cube.

GetInfo(cell_id): retourne toutes les informations relatives � la cellule dont l?identifiant est fourni en param�tre.

Plane_Clipping(x,y,z): permet diff�rentes possibilit�s de plans de coupe selon une ou plusieurs dimensions permettant ainsi d?explorer le cube de donn�es de l?int�rieur. �Cet op�rateur prend en entr�e trois coefficients appartenant � l?intervalle [0,1) et qui correspondent aux trois axes du cube. �

6. Application: �analyse du comportement des utilisateurs via le Web

Un fichier journal, i.e., log file, est un fichier en code ASCII dans lequel un serveur Web enregistre toutes les requ�tes qui lui sont adress�es par les navigateurs. �Ces requ�tes d�crivent par la suite les transactions entre le serveur Web et les clients navigateurs. �Une ligne du fichier journal correspond � une requ�te. �La taille du fichier journal est par la suite proportionnelle � la fr�quentation du serveur Web. �Ce fichier contient des informations telles que l?adresse IP de l?utilisateur, la date de la requ�te utilisateur, l?URL demand�, etc. �Analyser les fichiers journaux permet de r�pondre � des interrogations comme qui vient visiter notre site? �d?o� viennent ces internautes? �pour quelle raison viennent-ils sur notre site? �etc.

6.1 �Donn�es exp�rimentales et r�sultats de pr�traitement

Les donn�es exp�rimentales utilis�es dans cet article proviennent de fichiers journaux g�n�r�s par le serveur LOGIN qui est une association d?�tudiants-chercheurs de l?Universit� de Nantes en France. �Ces fichiers couvrent la p�riode du 25�Mars�2002 au 28�Avril�2002. Cet article ne traite pas de l?�tape de pr�traitement des fichiers journaux, on se contente de mentionner qu?on ne consid�re que les requ�tes demandant des pages HTML ou PHP et qu?on ignore les requ�tes g�n�r�es par les robots Web. �Les donn�es sont �galement transform�es en sessions plut�t qu?en requ�tes. �Une session est un ensemble de pages visit�es par un m�me utilisateur tel que le laps de temps �coul� entre deux pages successives ne d�passe pas un certain seuil pr�d�fini. �Le pr�traitement des donn�es exp�rimentales ici consid�r�es permet de g�n�rer 663 sessions. �Cette �tape de pr�traitement a �galement montr� que la page la plus visit�e traite, �trangement, d?une activit� de baseball13 , ce qui n?a rien � voir avec le th�me du serveur qui est la recherche scientifique, la vie des �tudiants chercheurs et leur insertion professionnelle. �Cette page est accessible via la page personnelle d?un membre de l?association.

Par cons�quent, le but de notre �tude est l?identification et la compr�hension du comportement des utilisateurs acc�dant � cette page de sport via le serveur de l?association LOGIN.

6.2 �Mod�lisation multidimensionnelle des donn�es provenant des fichiers journaux

Pour r�pondre � notre objectif, et comme l?illustre la figure�1 nous proposons le mod�le d?entrep�t en �toile permettant de relier la table des faits Trafic aux dimensions suivantes: �

Domaine_Internet : �information extraite de l?adresse IP de l?utilisateur ;
Date : �correspond � la date � laquelle l?URL a �t� demand� ;
Commande : �Get, Post ou HEAD ;
URL : �l?URL demand�, restructur� en URL?adresse_h�te?domaine ;
Protocole : �http ou autre ;
Code : �la r�ponse du serveur, restructur�e en code?�tat?r�ponse ;
Taille : �la taille du fichier objet de la requ�te, restructur� en taille?intervalle;
R�f�rent : �L?URL d?origine, restructur� en r�f�rent?adresse_h�te?domaine ;
Navigateur : �le navigateur utilis� par l?utilisateur, extrait � partir du champ user_agent des fichiers journaux, mentionne "autre" si le navigateur est inconnu par le syst�me ;
SE : �le syst�me d?exploitation utilis� par l?utilisateur, extrait � partir du champ user_agent des fichiers journaux, mentionne "autre" si le SE est inconnu par le syst�me.

En plus des identifiants de dimensions, la table des faits contient comme mesure NbHits illustrant le nombre de requ�tes (clicks) utilisateur, i.e., hits, dans la session. �Il est important de mentionner ici que l?entrep�t ci-dessus d�crit peut �tre utilis� pour tout serveur Web et son utilisation n?est dans aucun cas restreinte au serveur ici utilis�. Ainsi, les diff�rentes cat�gories de fichiers journaux, leur pr�traitement et fusion, etc, sont tous des aspects pris en compte dans notre proposition. �Plus de d�tails sur ces aspects sont disponibles dans�(Naouali, 2004 ).

Figure 1. Sch�ma en �toile de l'entrep�t construit pour les fichiers journaux

6.3 �Analyse et exploration de l?entrep�t de donn�es exp�rimental

Dans le but de mieux cibler les utilisateurs demandant les pages de sport via le serveur LOGIN, nous utilisons le mod�le d?entrep�t enrichi propos� pr�cedemment. �Notre but �tant de poursuivre et comprendre le parcours de ces utilisateurs sur le serveur de LOGIN avant de demander les pages de sport. �En effet, l?identification de leur parcours permettra d?identifier l?objectif pour lequel ces utilisateurs visitent le serveur LOGIN rien qu?en interpr�tant la relation s�mantique pouvant exister entre les pages sources et celles de LOGIN (e.g., un utilisateur venant d?une page de sport cherche bien �videmment des informations sportives tandis qu?un utilisateur provenant du serveur de l?universit� de Nantes, � titre d?exemple, cherche fort probablement des informations sur LOGIN).

Pour ceci, nous produisons en premier lieu un cube de donn�es avec les dimensions R�f�rent, URL et Date et comme mesure (illustr�e par la couleur des cellules) NbHits. �Le sc�nario n�cessaire pour g�n�rer ce cube est illustr� dans la figure�2 o� on fait appel principalement � l?op�rateur Drop pour ne garder dans le cube final que les dimensions d�sir�es. �Le r�sultat de ce sc�nario est repr�sent� dans le cube de la figure�3 qui illustre l?interface utilisateur propos�e mettant � la disposition de l?utilisateur les trois niveaux d?op�rateurs comme expliqu� plus haut dans ce papier. �Ce cube contient 6479 cellules dont la couleur illustre de faibles valeurs pour la mesure NbHits. �Pour r�soudre ce probl�me, nous proc�dons � l?agr�gation de la dimension Date au moyen de l?op�rateur MRoll_up pour l?exprimer en jour plut�t qu?en seconde. �Nous appelons la table des faits r�sultat Trafic_r�duit14 .

Consid�rons � pr�sent le concept (sous-cube) GTrafic_r�duit¹ d�fini � partir de la table des faits Trafic_r�duit comme �tant l?ensemble des faits demandant la page "http: //www.irin.univ-nantes.fr/�mariners" (page de sport) ainsi que toute page qui d�coule de ce r�pertoire. �On calcule par la suite l?approximation haute du concept cible �GTrafic_r�duit¹ pour prendre en compte tous les faits demandant certainement une page de sport ainsi que les faits qui leurs sont indiscernables. �L?objectif est de focaliser notre attention sur les parcours utilisateurs qui peuvent conduire � une page de sport et ignorer le reste. �Le cube de donn�es r�sultant de cette approximation est illustr� dans la figure�4 mettant en �vidence (par le cadre blanc) des cellules correspondant � des parcours r�guliers et fr�quents dont l?exploration (avec les outils int�gr�s au syst�me) montre qu?ils m�nent au concept cible. �Nous supprimons par la suite les connexions venant de l?int�rieur du serveur LOGIN pour focaliser notre attention sur les connexions depuis l?ext�rieur. �Le cube r�sultat est illustr� dans la figure�5. Par la suite nous colorons en blanc toutes les cellules avec NbHits inf�rieur � 4 pour ne garder que les cellules les plus int�ressantes (cube de la figure�6). L?exploration du cube ainsi obtenu montre que les cellules du c�t� droit du cube appartiennent au concept cible (demandent des pages de sport) alors que celles encercl�es en jaune ne le sont pas, elles sont juste indiscernables des autres cellules (ce qui explique leur appartenance � l?approximation haute) tout en provenant du serveur google. Nous concluons alors que les utilisateurs ayant visit� des pages de sport proviennent essentiellement de "http: //fantasybaseball.free.fr" ou de "http: //mariners.free.fr". Ces utilisateurs adoptent un parcours indiscernable de celui effectu� par des utilisateurs provenant du serveur google.

Pour r�sumer, nous avons pu identifier des cellules indiscernables illustrant deux types d?utilisateurs ; des utilisateurs en qu�te d?informations sportives et ceux en qu�te d?informations sur LOGIN. N�anmoins, on peut se poser la question sur l?homogeneit� du comportement de chacun des deux groupes.

Pour r�pondre � cela, nous introduisons � ce m�me cube une nouvelle mesure associant � chaque cellule du cube le temps moyen mis par l?utilisateur � visualiser la page en question et ce en utilisant l?op�rateur Add_mesure. �Le cube ainsi obtenu contient d�s lors trois dimensions et deux mesures. �Pour visualiser la deuxi�me mesure, nous dressons un segment de droite entre deux cellules si et seulement si elles ont quasiment la m�me valeur pour cette deuxi�me mesure. �Le r�sultat de ceci est repr�sent� dans la figure�7 montrant que les cellules demandant des pages de sport bien qu?elles soient reli�es entre elles par la premi�re mesure NbHits (dans la mesure o� elles correspondent � des nombres �lev�s de requ�tes utilisateurs), ne le sont pas par rapport � la deuxi�me mesure (les utilisateurs ne mettent pas tous le m�me temps pour visualiser les pages correspondantes). Ces cellules sont par la suite homog�nes par rapport � la premi�re mesure mais h�t�rog�nes par rapport � la seconde.

En conclusion, nous avons pu gr�ce au mod�le d?entrep�t enrichi ici propos�, identifier les utilisateurs ayant effectu� les parcours les plus fr�quents via le serveur de LOGIN. Ce groupe d?utilisateurs comprend en r�alit� deux sous-groupes d?utilisateurs ; ceux en qu�te d?informations sportives et ceux en qu�te d?informations sur LOGIN. Et m�me si les parcours des utilisateurs de chacun de ces deux sous-groupes semblent homog�nes, les utilisateurs en qu�te d?informations sportives ne passent pas le m�me temps � visualiser les pages correspondantes m�me s?ils ont les m�mes int�r�ts. �En plus, les deux sites dont proviennent les trafics les plus importants sont "http: //fantasybaseball.free.fr" et "http: //mariners.free.fr". Ces pages correspondent � des associations sportives dont le Web Master est un membre de LOGIN. Les utilisateurs provenant de ces deux pages ne sont pas l� pour s?informer sur LOGIN mais seulement pour du sport, c?est pourquoi ils quittent rapidement le serveur.

Figure 2. �Sc�nario 1 ��

Figure 3. Cube de donn�es initial (Url, R�f�rent, Date�; NbHits)

Figure 4 - Cube de donn�es illustrant l?approximation haute du concept G_{Reduced_Traffic} ¹.

��

Figure 5. �Suppression des requ�tes internes. ��

� ��

Figure 6. Suppression des cellules avec NbHits<4. ��

��Figure 7. Visualisation de la nouvelle mesure.

7. Conclusion

Cet article pr�sente un cadre g�n�ral pour l?int�gration d?outils d?analyse OLAP et d?extraction de connaissances. �Nous avons pr�sent� un entrep�t de donn�es enrichi avec de la connaissance. �Le but de cette proposition est de mieux guider l?utilisateur dans son processus d?analyse et d?exploration du cube de donn�es. �Pour illustrer cette proposition, nous avons construit et utilis� un entrep�t de donn�es r�el dont l?objectif est la compr�hension du comportement des utilisateurs en naviguant sur un serveur donn�. Nous avons alors propos� un mod�le en �toile pour cet entrep�t que nous avons explor� en utilisant des op�rateurs d?analyse OLAP, des op�rateurs d?extraction de connaissances ainsi que des op�rateurs de visualisation et d?interaction avec l?utilisateur. �Nous avons montr� avec un exemple r�el et concret que l?enrichissement des entrep�ts de donn�es avec de tels outils am�ne certainement � des possibilit�s d?analyse et d?exploration des cubes de donn�es avanc�es et non support�es par les syst�mes OLAP classiques. Nos travaux actuels traitent, en partie, de la red�finition des op�rateurs d?analyse OLAP pour agir non seulement sur les donn�es multidimensionnelles mais �galement sur la connaissance extraite � partir de ces donn�es. �Le but de cette extension est qu?� tout moment du processus exploratoire du cube de donn�es, les donn�es multidimensionnelles ainsi que les connaissances sont conjointement manipul�es, explor�es et visualis�es.

Bibliographie

�(Agrawal et Srikant, 1994) Agrawal, R., Srikant, R., (1994). Fast algorithms for mining association rules. In Proceeding of the VLDB?1994 Conference, pages 487?499.

(Babcock, Chauhuri et Das, 2003) Babcock, B., Chaudhuri, S., Das, G., (2003). Dynamic sample selection for approximate query processing. In Proceeding of the SIGMOD?03 Conference, pages 539?550.

(Barbara et Sullinvan, 1997) Barbara, D., Sullivan, M., (1997). Quasi-cubes: �exploiting approximations in multidimensional databases. Proceeding of the SIGMOD?97 Conference, 26(3): 12?17.

(Barnett et Lewis, 1994) Barnett, V., Lewis, T., (1994). Outliers in Statistical Data. free paper.

(Chakrabarti, Garofalakis, Rastogi et al., 2001) Chakrabarti, K., Garofalakis, M., Rastogi, R., Shim, K., (2001). Approximate query processing using wavelets. The VLDB Journal, 10(2-3): 199?223.

(Codd, Codd et Salley, 1993) Codd, E.F., Codd, S.B., Salley, C.T., (1993). Providing olap (on line analytical processing) to user analysts�: �an it mandate [on line].

(Dong, Han, Lam et al., 2001) Dong, G., Han, J., Lam, J., Pei, J., Wang, K., (2001). Mining multi-dimensional constrained gradients in data cubes. In Proceeding of the VLDB?01 Conference.

(Feng, Agrawal, Abbadi et al., 2003) Feng, V., Agrawal, D., Abbadi, A., Metwally, A., (2003). Range cube: �Efficient cube computation by exploiting data correlation. In Proceeding of the ICDE?2004 Conference, pages 658?670.

(Ganter et Wille, 1999) Ganter, B., Wille, R., (1999). Formal Concept Analysis - Mathematical Foundations. Springer.

(Han, Fu, Wang et al., 1996) Han, J., Fu, Y., Wang, W., Chiang, J., Gong, W., Koperski, K., et al., (1996). Dbminer: �A system for mining knowledge in large relational databases. In Proceeding of the KDD?1996 Conference, Portland, Oregon, pages 250?255.

(Han et Kamber, 2001) Han, J., Kamber, V., (2000). Data Mining: �Concepts and Techniques. Morgan Kaufmann.

(Imielinski, Khachiyan et Abdulghani, 2002) Imielinski, T., Khachiyan, L., Abdulghani, A., (2002). Cubegrades: �Generalizing association rules. Data Mining and Knowledge Discovery, 6(3): 219?257.

(Inmon, 1994) Inmon, W., (1994). Building the Dada Warehouse Toolkit. Wiley Computer Publishing.

(Kimbal, 1996) Kimbal, (1996). The Data Warehouse Toolkit. Wiley Computer Publishing.

(Knorr, Ng et Tucakov, 2000) Knorr, E.M., Ng, R.T., Tucakov, V., (2000). Distance-based outliers: �algorithms and applications. The VLDB Journal, 8(3-4): 237?253.

(Lakshmanan, Pei et Han, 2002) Lakshmanan, L., Pei, J., Han, J., (2002). Quotient cube: �How to summarize the semantics of a data cube. In Proceeding of the VLDB?2002 Conference, pages 778?789.

(Lakshmanan, Pai et Zhao, 2003) Lakshmanan, L.V.S., Pei, J., Zhao, Y., (2003). Qc-trees: �an efficient summary structure for semantic olap. In Proceeding of the SIGMOD?2003 Conference, New York, USA, pages 64?75.

(Li, Han et Gonzalez, 2004) Li, X., Han, J., Gonzalez, H., (2004). High-dimensional olap: �A minimal cubing approach.

(Naouali, 2004) Naouali, S., (2004). Enrichissement d?Entrep�ts de Donn�es par la Connaissance : �Application au Web. PhD thesis, Universit� de Nantes, France, December 2004.

(Naouali et Missaoui, 2005) Naouali, S., Missaoui, R., (2005). Flexible query answering in data cubes. In Proceeding of the DAWAK?2005 Conference, Copenhagen, Denmark, Springer Verlag, pages 221?232.

(Naouali, Quafafou et Nachouki, 2004) Naouali, S., Quafafou, M., Nachouki, G., (2004). Mining olap cubes: �Semantic links based on frequent itemsets. In Proceedings of the IEEE Int. �Conf. �on Information and Communication Technologies: �from Theory to Applications, Damascus, Syria.

(Ross et Srivastava, 1997) Ross, K.A., Srivastava, D., (1997). Fast computation of sparse datacubes. In Proceeding of the VLDB?1997 Conference, San Francisco, CA, USA, pages 116?125.

(Sarawagi, Agrawal et Megiddo, 1998) Sarawagi, S., Agrawal, R., Megiddo, N., (1998). Discovery-driven exploration of olap data cubes. In Proceeding of the EDBT?1998, London, UK, pages 168?182.

(Shanmugasundaram, Fayyad et Bradley, 1999) Shanmugasundaram, J., Fayyad, U., Bradley, P.S., (1999). Compressed data cubes for olap aggregate query approximation on continuous dimensions. In Proceeding of the KDD?1999 Conference, pages 223?232.

(Vitter et Wang, 1999) Vitter, J.S., Wang, M., (1996). Approximate computation of multidimensional aggregates of sparse data using wavelets. In Proceeding of the SIGMOD?99 Conference, pages 193?204.

(Xin, Han et Wah, 2003) Xin, D., Han, J., Wah, B.W., (2003). Starcubing: �Computing iceberg cubes by top-down and bottom-up integration. In Proceeding of the VLDB?03 Conference.

(Zaki, Parthasarathy, Ogihara et al., 1997) Zaki, M.J., Parthasarathy, S., Ogihara, M., Li, W., (1997). Parallel algorithms for discovery of association rules. Data Mining and Knowledge Discovery, 1(4): 343?373.

Notes de bas de page

1Un exemple serait une table dimension Lieu li�e � la table Ville qui � son tour est li�e � la table R�gion qui � son tour est li�e � la table Pays.

2Plusieurs valeurs si plusieurs mesures dans le cube.

3Sous-ensemble de la r�ponse exacte contenant seulement les faits r�pondant sans ambigu�t� � la requ�te

4Sur-ensemble de la r�ponse exacte pouvant contenir des faits ne r�pondant pas � la requ�te OLAP mais qui sont indiscernables avec d?autres faits qui eux r�pondent sans ambigu�t� � la requ�te

5Les sous-itemsets d?itemsets fr�quents sont forc�ment fr�quents

6On appelle itemset calcul� tout itemset candidat qui a �t� consid�r� et trait� dans le processus de d�couverte des itemsets fr�quents. �Cet ensemble est par la suite inclut dans FD qui contient en plus les sous-itemsets g�n�r�s � partir des itemsets de FC.

7Ce nombre n?est rien d?autre que FC+RC.

8changer les dimensions observ�es, ajouter de nouvelles mesures, interchanger les membres d?une ou de plusieurs dimensions, etc.

9Car tel que connu dans la litt�rature, l?op�rateur Roll_up, � titre d?exemple, peut agr�ger les donn�es d?un cube de plus d?un niveau selon une dimension donn�e. �Nous avons choisi d?implanter une telle action s�par�ment car elle implique que l?utilisateur conna�t � priori, et exactement, le niveau hi�rarchique auquel il d�sire agr�ger les donn�es ce qui n?est pas toujours le cas.

10Multi-niveau_Roll_up et Multi-niveau_Drill_down.

11Il est par exemple possible d?agr�ger les mois de d�cembre 2000 et janvier 2001, ce qui n?est pas support� par la hi�rarchie pr��tablie de la dimension temps.

12Sauf pour les op�rateurs de g�n�ration de r�gles.

13Cette page est: �"http: //login.irin.sciences.univ-nantes.fr/mariners/fantasybaseball/index.php3".

14Trafic_r�duit=MRoll_up(Trafic7, date, date_en_jour).

Pour citer cet article

Sami Naouali. �Vers une int�gration de la connaissance dans l?analyse exploratoire des cubes OLAP�. e-TI - la revue �lectronique des technologies d'information, Premier Num�ro, 31 octobre 2005, https://www.revue-eti.netdocument.php?id=467.

Document pr�c�dent

Document suivant

Acc�s R�serv�
Acc�s r�serv� LI
Acc�s r�serv� OP

Revue �lectronique internationale
publi�e par SIR de l'Ecole Mohammadia d'Ing�nieurs(Maroc)
en partenariat avec l'ENSIAS (Maroc), Cnam(France), ENIT(Tunisie) et Khawarizmi'c(Maroc)
avec le soutien de l'Agence universitaire de la Francophonie.

��

ISSN 1114-8802