Home
RODOLPHE DEVILLERS - Collection des thèses et mémoires
Contents
1. 26 2 3 Documentation et communication de la qualit eee cetceeeeeceeteeeeeeetseeees 29 2 3 1 Evaluation et documentation de la qualit interne 30 2 3 2 Gestion de l information sur la qualit cece cceeceesceesceeeeceteeeeseeeeeeenseees 32 2 3 3 Communication et utilisation de l information sur la qualit 34 2 4 Outils d intelligence d cisionnelle issus mettaient 37 2 5 SUM Secs nou a de de en Samet 38 P ARCTCTETO Cae acacia ces ne ne ART Re ae ne 39 Chapitre 3 Indicateurs de qualit hein Ase er est Ae acest 45 3 1 R s m de l AC nest eoar nn re Te nue 45 32 Introdiction sssiinanns dant nait tuba 46 3 3 SIG et pris de d cision RS AR nd aa te 50 3 3 1 SIG Un processus de communication 50 3 3 2 Prise de d cision et incertitude csciscceidastiercasanecsesuvidanes dees arava toned 51 3 3 3 Communication de l information sur la qualit des donn es g ospatiales 52 3 4 Tableaux de bord et indicateurs pour supporter la prise de d cision 55 3 4 1 Tableaux de Dofus iea pe EAE A aE EESTE 55 3 4 2 IMCICALCUIES rs tn a ee aa Ne 56 3 5 Tableaux de bord et indicateurs pour la prise de d cision g ospatiale 58 3 5 1 Tableaux de bord et syst me MUM 58 3 5 2 Indicateurs de qualit des donn es g ospatiales c ce ccesseceteceeeeeereeeeees 62 3 5 3 Prototype du syst me MUM ss sssessseessese
2. Beaucoup de termes gravitant autour du concept de qualit se retrouvent dans la litt rature scientifique ex incertitude erreur pr cision exactitude vague flou ces termes tant souvent employ s de mani re inexacte Pour cette raison plusieurs auteurs voir par exemple Fisher 1999 ou Smithson 1989 ont propos des d finitions de ces termes et les ont mis en relation dans des taxonomies Les d finitions de ces termes sont vari es est donnent lieu de riches discussions dans la communaut Sans vouloir entrer dans des discussions philosophiques cette section vise clarifier l utilisation qui va tre faite de certains termes dans cette th se Par exemple le terme qualit allant tre d crit en d tail dans la section suivante est la plupart du temps employ ailleurs dans la litt rature dans le sens d impr cision incertitude erreur etc Des donn es de qualit sont ainsi souvent uniquement associ es des donn es ayant une grande pr cision spatiale Toutefois le concept de qualit est bien plus large que la seule notion de pr cision 21 22 Smithson 1989 propose une taxonomie de l ignorance L ignorance y est vue comme tant multiple et ayant diff rents niveaux Elle constitue le concept le plus lev de sa taxonomie Elle est au m me titre que la connaissance une construction sociale variant selon le point de vue qu ont d autres acteurs ayant eux m mes une certaine connaissanc
3. poids entrent en jeu lors de l agr gation des sous indicateurs en indicateurs de plus hauts niveaux Permettre la d finition et la gestion des profils des utilisateurs niveau de risque acceptable etc diff rents utilisateurs peuvent vouloir diff rentes fa ons d agr ger des indicateurs Par exemple certaines personnes peuvent avoir une plus grande tol rance face aux risques que d autres dans leurs d cisions suivant par exemple leur contexte organisationnel ex une personne utilisant un SIG pour planifier une sortie de loisir en famille pourra accepter plus de risques qu un gestionnaire utilisant un SIG pour g rer des pid mies dans un organisme de sant environnementale Offrir diff rentes repr sentations des indicateurs que les utilisateurs peuvent s lectionner certains utilisateurs peuvent pr f rer certaines repr sentations pour les indicateurs ex feux de circulation histogrammes compteur de vitesse Les utilisateurs doivent pouvoir choisir le mode de repr sentation qu ils pr f rent parmi un choix de repr sentations d pendant du type d indicateur et des valeurs qu il communique ex quantitatif qualitatif Offrir un mode de visualisation cartographique des indicateurs de qualit en plus d une repr sentation des indicateurs dans un tableau de bord la valeur des indicateurs doit pouvoir tre repr sent e sur la carte Par exemple un indicateur ayant une repr sentation du
4. simple ignorance et le second double ignorance Martinet et Marti 2001 les identifient comme ignorance savante et ignorance profonde et Smithson 1989 ignorance consciente et m ta ignorance B dard 1986 dans ses travaux sur les sources de distorsion de l information parle de m ta incertitude c d l incertitude sur l incertitude qu il est important de bien conna tre c a d sortir de la double ignorance pour utiliser les donn es g ospatiales en connaissance de cause Dans le domaine de l information g ographique Fisher 1999 pr sente une taxonomie de l incertitude cf Figure 5 formant un sous ensemble de la taxonomie plus globale de Smithson Il fait ensuite le lien entre les concepts ex vague et les m thodes pouvant tre utilis es pour g rer et repr senter ces concepts ex th orie des ensembles flous certains concepts n ayant parfois pas de m thode associ e Dans cette classification l erreur est associ e aux objets bien d finis et peut tre mod lis e par des approches statistiques probabilit s Les objets mal d finis fr quemment rencontr s dans le domaine des ressources naturelles ex limite d une for t limite entre deux types de sols peuvent eux tre vagues mod lis par des approches logiques telles que la th orie des ensemble flous ou ambigus 23 Incertitude Objets bien Objets mal d finis d finis Probabilit Vague Ambigu t
5. 1 7 Curry M R Digital places Living with Geographic Information Technologies London amp New York Routeledge 1998 Duckham M McCreadie J An intelligent distributed error aware OOGIS Proceedings of Ist International Symposium on Spatial Data Quality Hong Kong 18 20 juillet 1999 p 496 506 Duckham M McCreadie J E Error aware GIS Development Spatial Data Quality W Shi P F Fisher et M F Goodchild Eds Taylor amp Francis London 2002 p 63 75 71 Elshaw Thrall S Thrall G I Desktop GIS software Geographical Information Systems P A Longley M F Goodchild D J Maguire et D W Rhind Eds John Wiley amp Sons New York 1999 p 331 345 Epstein E F Hunter G J Agumya A Liability insurance and the use of geographical information International Journal of Geographical Information Science vol 12 n 3 1998 p 203 214 Faiz S O Syst mes d Informations G ographiques Information Qualit et Data Mining Tunis Editions C L E 1999 Fernandez A Les nouveaux tableaux de bord des d cideurs Paris Editions d organisation 2000 FGDC Content Standard for Digital Geospatial Metadata Workbook version 2 2000 Fisher G User Modeling in Human Computer Interaction User Modeling and User Adapted Interaction vol 11 2001 p 65 86 Fisher P Models of uncertainty in spatial data Geographical Information Systems P A Longley M F Goo
6. arriv e de notre petit gar on Pai eu la chance de faire ma th se sous la direction de deux personnes qui m ont beaucoup apport es Yvan B dard Qu bec et Robert Jeansoulin France Merci beaucoup vous deux J ai eu la chance que tout le monde n a pas d avoir deux directeurs humains Vos conseils votre bonne humeur combin votre rigueur a t une excellente cole Je remercie aussi norm ment Bernard Moulin pour ses excellents conseils ainsi que la minutie et la c l rit de ses valuations Merci galement mes deux pr lecteurs les Pr Bernard Cervelle en France et David Coleman au Canada Votre pr sence sur mon jury de th se m honore Un coup de chapeau sp cial Bernard Cervelle pour l efficacit impressionnante qu il a montr du d but la fin de la cotutelle pour d nouer les m andres de l administration fran aise Je remercie aussi le Dr Sami Faiz de l INSAT Tunisie pour les discussions que nous avons eu propos de mon projet lors de mon passage Tunis ainsi que le Prof Gary Hunter de l universit de Melbourne Australie qui m a donn ses commentaires pour mon deuxi me article Un gros merci aussi aux professionnels de recherche situ s du c t de chez SIRS dans le local jaune Rona du sous sol du Casault Ils ont t d un grand secours pour de nombreuses questions techniques scientifiques et sociales Merci donc par ordre de bureau
7. exactitude temporelle la compl tude et la coh rence logique cf chapitre 4 pour plus de d tails Chacun de ces crit res est par la suite compos de sous crit res Pour chacun de ces crit res des mesures sont faites pour les chantillons s lectionn s entre les donn es produites et les donn es de contr le Il existe une grande vari t de techniques permettant de mesurer les diff rents crit res de qualit ex moyenne quadratique des erreurs pour la pr cision g om trique ou taux de confusion pour la pr cision s mantique David et Fasquel 1997 2 3 2 Gestion de l information sur la qualit Les informations sur la qualit peuvent d crire la qualit de donn es diff rents niveaux de d tails Certaines informations peuvent par exemple tre associ es un jeu de donn es dans sa globalit c d ensemble des objets le composant d autres peuvent par exemple porter sur une classe d objets sp cifique ex uniquement les routes ou encore sur une instance d objet particuli re Hunter 2001 identifie la granularit des informations sur la qualit comme devant tre une des consid rations principales des travaux de recherche futurs portant sur la qualit des donn es g ospatiales Il mentionne que la qualit souffre en g n ral d une repr sentation faite un niveau trop g n ral plut t qu des niveaux de granularit plus fins traduction libre Hunter fournit plusieurs exemp
8. int grer les articles crits dans la pr sente th se r diger une revue de litt rature plus compl te et coh rente chapitre 2 et des chapitres d introduction et de conclusion 1 5 Pr sentation de la th se Les r sultats de la th se ont t communiqu s travers trois publications principales soumises des revues scientifiques comit de lecture dans le domaine de la g omatique Ces trois articles constituent le c ur de la th se et sont pr sent s dans les chapitres 3 4 et 5 de ce document Des modifications mineures ont t apport es aux articles afin de mieux les int grer dans le format de la th se Toutefois le texte des articles n a pas t significativement modifi par rapport aux versions soumises ou accept es tant donn que les trois articles portent sur le m me projet il existe parfois une certaine redondance entre 14 R seau Canadien des Centres d Excellence en g omatique http www geoide ulaval ca 11 les articles celle ci faisant parfois suite 4 la demande des valuateurs des revues d sirant connaitre les diff rentes parties du projet Toutefois les articles ayant t crit a diff rentes p riodes de la th se le contenu qui peut sembler redondant est crit avec diff rents niveaux de maturation de la r flexion Le chapitre 2 pr sente une revue de litt rature plus compl te et coh rente que celles pr sent es dans les articles permettant ainsi d introduir
9. z Th orie des ensembles flous Non sp cificit Figure 5 Taxonomie de l incertitude traduit de Fisher 1999 Goodchild et al 1994 diff rencient l incertitude de I erreur l incertitude tant une mesure relative de la divergence tandis que l erreur est une valeur pour cette mesure Windholz 2001 d finit l incertitude comme un tat de connaissance sur les relations existant entre le monde et un tat de ce monde Une diff rence doit tre faite entre les termes pr cision et exactitude qui sont souvent utilis s indiff remment dans le langage courant Le terme pr cision peut avoir deux d finitions Longley et al 2001 Une premi re r f re la capacit qu ont certains outils de mesure a obtenir des mesures successives les plus similaires possibles pour un m me ph nom ne observ ex positions d un m me site enregistr es par GPS La seconde plus g n rale se r f re au nombre de d cimales fournies par un appareil de mesure plus la mesure aura de d cimales et plus elle sera pr cise L exactitude peut elle tre d finie comme la proximit d une mesure par rapport une valeur vraie ou consid r e comme telle David et Fasquel 1997 Mowrer 1999 Ainsi des donn es g ospatiales peuvent tre enregistr es avec beaucoup de pr cision mais tre totalement inexactes 24 2 2 2 Concept de qualit Le terme qualit vient du latin qualitas n ologisme bas sur
10. 5 5 Quality indicators and Quality Information Management Model QIMM 112 5 5 1 Quality indicators enaga a a huis 112 5 5 2 Quality Information Management Model QIMM 114 5 5 3 Populating the quality database combining Bottom up and Top down approaches uen aero e T E E N E A Cente OOE 115 5 6 Applying the concepts developing the Multidimensional User Manual MUM PTOtONY Denisa a a Hate E E E E eae 117 5 6 1 Prototype architecture sisisi ncscias iiaae 117 5 6 2 Indicators selection calculation and representation cccceseeseeeeeeeees 118 5 6 3 Navigation into Spatial Data Quality information 120 ST OOo RS RS nn te ant 124 5 87 References esc ory ARR ne ns a a cae at ine aN Re cee a 125 Chapitre 6 Conclusions es tee Sn a Ut ch nn 130 6 1 SONO TOR ee Ur des D mais 130 62 Disc ssi n aan o iaie Waa Aa te era es 131 6 3 OUT LEET a SR RTS A RE be gal eon esas 133 GA Perspectives de F C RCNE Sn ae An ne An ns mn a te 135 6 5 R RTENCES sn wate ecg peadec eka eai ca Gedaatedin satsdangvantad Asie 138 ANNEXES MEET leh beh eas RAS tah I ee Uh ah NN or ooh res 156 viii Liste des tableaux Table 1 Examples of data quality characteristics provided by standards or cartographic OLD ATH AA ONS enn TR RE een 82 Table 2 Liste des abr viations utilis es dans la th se hein 156 Liste des figures Fig re l M thode de recherche seinek ea E EE et es 8 Figure 2 Routes provena
11. Analysed Data dimension using two successive drill down operations SOLAP navigation along the Quality Indicator dimension Within the quality indicator dashboard SOLAP drill down and roll up operators allow users to navigate from one level of detail to another along the Quality Indicator dimension Users can then explore quality indicators at the aggregated level and move down for instance to detailed levels when there seems to be a problem regarding quality cf Figure 29 Such an approach helps avoiding information overload and offers interactions between the user and the system For instance on the example of Figure 29 a user looks first at the higher level indicators He realises that General Quality is only average i e yellow because of the lower Internal Quality He can then drill down into the indicator hierarchy to see the sub indicators composing the Internal Quality At this second level he can wonder why the Logical Consistency indicator is only average and then drill down again to get more details He finally arrives at the last level of detail available and sees that the problem comes from the 123 Topological Consistency He can then decide if this aspect of data quality is important for his application or not and then decide to either absorb the residual uncertainty of reduce it by for instance looking for another dataset B dard 1987 Hunter 1999 Navigation within the in
12. Drill Roll Indicators layer Down Up Positional accuracy Map J QUALITY DASHBOARD Global Quality Indicator And what data quality characteristics can be a problem according to the context defined for this application What is the average quality of the data displayed on my screen Enr looks problematic but is it spatially heterogeneous gt 2 clicks 12 seconds OK Fm more interested in gt nu the road network how ep 3 is the positional Limited knowledge accuracy of this of the quality specific object class gt 2 clicks 15 seconds Improved knowledge And what about the quality of the road section 347 in particular 2 clicks 6 seconds OK Figure 27 User mind stream using the MUM system Quality indicators dashboard and global indicator Data quality information is communicated through the various indicators possible representations e g street light smiley speed meter as well as quality maps Using SOLAP operators it is possible to drill on these representations as well as cartographic features We provide a global indicator to represent the aggregation of all indicators for the displayed area 121 Each indicator is the aggregation of sub indicators down to detailed metadata where it is possible In our prototype the quality dashboard can include up to nine indicators which is consistent with Miller s ru
13. Global quality indicator EQ Map Quality A Poor 1 Average O ieee oe us 5 FA High ae m ss C d Completeness Logical Consist Positional Accu JOC L Temporal Accur Thematic Accur Up to date Pde y x I A i ZL ff Bs eg Figure 23 Prototype using the QIMM model to manage and communicate data quality information As seen on Figure 23 an important outcome of this approach is to support the spatial variability of quality information Indeed because of the heterogeneity of acquisition methods used to acquire geospatial data e g Total station GPS aerial images to update them spatial extent and frequencies differences in methods the different objects and geometric primitives contained in a geospatial database can have varying levels of quality The high level of granularity potentially used for quality information in the QIMM model down to the geometric or semantic primitives level allows a very powerful analysis of quality when desired That is the calculation of quality exclusively for the spatial extent defined or visualized by the users Hence quality information displayed to the user is an aggregation of qualities of every object instances located in the user defined area or in his cartographic view Different possible aggregation techniques were mentioned earl
14. O Mod lisation exploitation et visualisation de l information qualit dans les bases de donn es g ographique Ph D thesis Universit Paris Sud Paris 1996 Faiz S O Syst mes d Informations G ographiques Information Qualit et Data Mining Tunis Editions C L E 1999 Fernandez A Les nouveaux tableaux de bord des d cideurs Paris Editions d organisation 2000 FGDC 2000 Content Standard for Digital Geospatial Metadata Workbookversion 2 Fischhoff B Lichtenstein S Slovic P Derby S L Keeney R L Acceptable risk Cambridge UK Cambridge University Press 1981 Fisher G User Modeling in Human Computer Interaction User Modeling and User Adapted Interaction vol 11 2001 p 65 86 Fisher P Animation and sound for the visualization of uncertain spatial information Visualization in Geographic Information Systems H M Hearnshaw and D J Unwin Eds Wiley p 181 185 1994a Fisher P Visualising the uncertainty of soil maps by animation Cartographica vol 30 1994b p 20 27 Fisher P F Models of uncertainty in spatial data Geographical Information Systems P A Longley M F Goodchild D J Maguire and D W Rhind Eds John Wiley amp Sons New York p 191 205 1999 146 Frank A U Metamodels for Data Quality Description Data Quality in Geographic Information From Error to Uncertainty M F Goodchild and R Jeansoulin Eds Editions Hermes p 19
15. Proceedings of 6th International Symposium on Spatial Accuracy Assessment in Natural Resources and Environmental Sciences Portland Maine USA 2004 150 Lowell K Jaton A 3rd International on Spatial Accuracy Assessment Land Information Uncertainty in Natural Resources Ann Arbor Press Quebec Canada 1999 Luger G Stubblefield W A Artificial Intelligence Structures and Strategies for Complex Problem Solving Addison Wesley 1999 Mac Eachren A M Visualizing uncertain information Cartographic Perspectives vol 13 1992 p 10 19 MacEachren A Bishop I Dykes J Dorling D Gatrell A Introduction to Advances in Visualizing Spatial Data Visualization in Geographic Information Systems H M Hearnshaw and D J Unwin Eds Wiley p 51 59 1994 MacEachren A Kraak M J Exploratory Cartographic Visualization Advancing the Agenda Computer and Geosciences vol 23 n 4 1997 p 335 343 Malczewski J GIS and Multicriteria Decision Analysis New York Wiley 1999 Manche Y Analyse spatiale et mise en place de syst mes d information pour l valuation de la vuln rabilit des territoires de montagne face aux risques naturels Th se de doctorat Universit Joseph Fourier Grenoble 2000 Martinet B Marti Y M L intelligence conomique Editions d Organisation 2001 McGranaghan M A cartographic View of Spatial Data Quality Cartographica vol 30 n 2 3 1993 p 8 19 Medyck
16. absorbant ainsi l incertitude r siduelle Les m tadonn es i e donn es sur les donn es distribu es par certains producteurs de donn es fournissent d j une partie de ces informations Toutefois les m tadonn es actuellement fournies sont plus des descriptions techniques des jeux de donn es que des informations compr hensibles destin es aux usagers Timpf et al 1996 Harvey 1998 Les m tadonn es sont donc dans la pratique tr s peu utilis es laissant les utilisateurs experts comme non experts en g omatique dans un tat d ignorance concernant la qualit des donn es g ospatiales qu ils manipulent De plus les m tadonn es sont tr s rarement assez d taill es Hunter 2001 Gan et Shi 2002 tant la plupart du temps une description au niveau du jeu de donn es La qualit d crite dans les m tadonn es est alors une agr gation de qualit s h t rog nes des objets composant le jeu de donn es ex la pr cision spatiale du jeu de donn es varie entre 10 m et 1 km Pour tre utiles celles ci devraient d crire les donn es un niveau de d tail plus fin comme au niveau de l instance d objet ou m me de la valeur d un attribut ce qui fournirait un grand volume d information aux utilisateurs Toutefois les humains ne r solvent pas les situations complexes avec un grand volume d information mais en s lectionnant les informations pertinentes Klein 1999 Dans ce sens Fisher 2001 mentio
17. droite La symbologie vert jaune rouge est repr sent e ici par des niveaux de gris de gris clair fonc respectivement 67 Figure 15 Outil permettant la navigation dans la hi rarchie d indicateurs de qualit 68 Figure 16 Evolution of the usefulness of the information communicated to data users for assessing geospatial data QuAlIt Vs Susanne tete 78 Figure 17 Quality Information Management Model QIMM dimensions and members 89 Figure 18 Example of an indicator hierarchy Each indicator is a member of the Quality Indicator Dimensions ue UE ne die tente nd 90 Figure 19 Example Of data mer ci sites ut Re ms ne 92 Figure 20 Examples of user navigation into the quality information along both Quality TENSIONS eus LS tn baa es 94 Figure 21 Examples of user navigation in a tabular view using the drill down operator on the two QIMM dimensions 2 cchcd tae a a tat Gd ed ee aude veda e nt ade tate 95 Figure 22 Possible visualizations of Quality information using the QIMM Quality information can be for instance displayed in a dashboard left on a cartographic base top in attribute tables on the individual value level top right or on the attribute LEVEL bottoni THEME SR TN ee ete 96 Figure 23 Prototype using the QIMM model to manage and communicate data quality informatio ane iia Arr AR A AR 99 Figure 24 Quality Information System objective ccceccceesseesseceseceeeeeeseecsseceeeneeee
18. et Hunter 2002 pr sentent un mod le de communication de l incertitude adapt de Gottsegen et al 1999 cf Figure 9 Dans ce mod le la repr sentation est centrale dans le processus de communication de l incertitude Toutefois cette repr sentation ne se fait pas de mani re unidirectionnelle c a d du syst me l utilisateur mais sugg re des r troactions entre les deux permettant ainsi une plus grande interaction de l usager pouvant mener une meilleure communication R alit accept e Producteurs de donn es de donn es R troaction temps r el Donn es dans le syst me d information Figure 9 Mod le de communication aux usagers de l incertitude dans les bases de donn es g ospatiales traduit de Reinke et Hunter 2002 36 Bas sur ce mod le Reinke et Hunter proposent des bases th oriques permettant de communiquer l incertitude des donn es aux utilisateurs Cette communication utilisant des informations sur la qualit stock es dans une base de donn es peut par exemple tre faite sous la forme de messages faits aux utilisateurs mis lorsqu ils effectuent des op rations jug es illogiques en fonction des donn es utilis es et de leur qualit Beard 1989 Hunter et Reinke 2000 D autres travaux visent de mani re plus g n rale d velopper des SIG prenant en compte les incertitudes dans diff rentes op rations ex pr cision des r sultats des op rateur
19. indicateurs de qualit affich s dans un syst me SOLAP Spatial On Line Analytical Processing combin un syst me d information g ographique Abstract Nowadays Geographic information is a mass product often manipulated by users without expertise in geomatics and who have little or no knowledge about the quality of the data being manipulated Such context significantly increases the risks of data misuse and of negative consequences resulting from these misuses This thesis aims at providing expert users and data quality experts with a new approach allowing them to better evaluate spatial data quality in order to advise non expert users This approach is based on the management of quality information within a multidimensional database and on the dynamic and contextual exploration of quality information through quality indicators displayed into a SOLAP system Spatial On Line Analytical Processing built on a Geographical Information System GIS il R sum Les utilisateurs de donn es g ospatiales sont de plus en plus confront s au probl me complexe de l valuation de l ad quation de donn es un usager particulier tant donn la disponibilit croissante de sources de donn es les jeux de donn es sont plus que jamais h t rog nes et complexes interpr ter L information d crivant la qualit des donn es est disponible tout en tant cependant h t rog ne s mantiquement et spatiallement inaccessible he
20. is very limited Baddeley 1997 This duration can be quite variable depending on the modality i e acoustic visual or semantic the necessity of performing actions e g selecting an item on the screen of a computer and other factors for instance the level of concentration Experimental results usually provide durations varying from 2 to 30 seconds According to Newell s 1990 physical and biological tests among the four computational bands emerging from the natural hierarchy of information processing respond times between 10 to 10 seconds are needed to perform cognitive tasks and maintain a line of thoughts Consequently an efficient method to communicate quality information should limit the volume of information less than nine chunks and rapidly provide information to users in order to avoid interrupting his mind stream Another point highlighted by Reinke and Hunter 2002 is the need for users not only to get quality information from the system but also to be able to interact with the system i e feedback loop To cope with all these constraints we base our approach on the multidimensional database model used in the field of Business Intelligence data warehousing OLAP data mining In this domain multidimensional does not refer to x y z and t as in the GIS domain but rather to semantic temporal and spatial hierarchies of concepts called dimensions which are represented by the metaphor of a data hypercube containin
21. navigation p destre dans des environnements urbains validant ainsi d s la production du jeu de donn es l ad quation de celles ci leur utilisation Si cette approche existe depuis longtemps ex les donn es topographiques taient initialement produites pour des applications militaires le contexte a chang Les cartes de base ex topographique cadastrales sont pr sent souvent utilis es des fins diff rentes de leur objectif initial D un autre c t bas sur une exploration des consid rations l gales reli es l utilisation de syst mes d information g ographiques SIG Gervais 2004 recommande entre autres aux utilisateurs novices de recourir des experts en g omatique geomatics officer qui identifieraient les risques potentiels de mauvaises utilisations et confirmeraient ou infirmeraient l ad quation de certains jeux de donn es certaines utilisations Une autre mani re pouvant permettre la r duction des 48 risques de mauvaises utilisations pr sent e dans cet article consiste fournir au sein de l interface du SIG des informations contextuelles et compr hensibles sur la qualit des jeux de donn es manipul s L utilisateur tant inform de la qualit si celle ci semble probl matique il a alors le choix entre rechercher des donn es r pondant mieux ses besoins r duisant ainsi l incertitude ou utiliser les donn es en tant conscient des cons quences ventuelles
22. or Moose Road The overall semantic quality for a certain object is an aggregation of the qualities of each data value e g aggregated quality of Road 138 e Attribute this level provides the quality related to an object class or layer attribute being an aggregation of primitive value qualities for this attribute e g aggregated quality of attribute house income for all buildings instances Notice that only qualities related to the semantics can be associated to the attribute level 92 e Layer or Object Class this level provides the aggregation of the quality geometric and semantic of all the object instances of a same layer or class object A layer can be for instance Roads Buildings Rivers or Parks e g average quality for all lakes e Dataset The dataset includes the quality information geometric and semantic related to all the object instances of all data layers The dataset quality is an aggregation of data layer qualities A dataset can be for instance a topographic map including lakes rivers streets and buildings Global Dataset f NX Road Building Eres Object ae rs Primitive Figure 19 Example of data hierarchy The quality of groups of objects can be aggregated from each object s instance individual qualities Such a measure can be obtained using spatial queries e g what is the overall quality of buildings l
23. p 8 19 42 Morrison J L 1974 A theoretical framework for cartographic generalisation with the emphasis on the process of symbolisation International Yearbook of Cartography vol 14 p 115 127 Morrison J L Spatial data quality Elements of spatial data quality S C Guptill and J L Morrison Eds Elsevier Science inc New York 1995 Mowrer H T Accuracy Re assurance Selling Uncertainty Assessment to the Uncertain Spatial Accuracy Assessment Land Information Uncertainty in Natural Ressources K Lowell and A Jaton Eds Quebec Ann Arbor Press p 3 10 1999 Office qu b cois de la langue fran aise 2004 www olf gouv qc ca Paradis J Beard K Visualization of Spatial Data Quality for the Decision Maker A Data Quality Filter URISA Journal vol 6 n 2 1994 p 25 34 Qiu J Hunter G J Managing Data Quality Information Proceedings of International Symposium on Spatial Data Quality Hong Kong 18 20 July 1999 p 384 395 Qiu J Hunter G J A GIS with the Capacity for Managing Data Quality Information Spatial Data Quality W Shi M F Goodchild and P F Fisher Eds Taylor amp Francis London p 230 250 2002 Reinke K J Hunter G J A Theory for Communicating Uncertainty in Spatial Databases Spatial Data Quality W Shi P F Fisher and M F Goodchild Eds Taylor amp Francis London p 77 101 2002 Schramm W How Communication Works Communication Co
24. peuvent alors tre explor es pour aborder ce probl me Bas sur le paradigme de communication des SIG d velopp par B dard la Figure 10 illustre de fa on th orique quelques solutions possibles en d crivant les relations entre les connaissances des producteurs et utilisateurs de donn es ainsi que la position des m tadonn es dans ce cadre de r f rence Les cercles repr sentent les cadres de r f rence des producteurs et des utilisateurs de donn es et leurs intersections correspondent aux connaissances communes 54 2 Orient utilisateurs M tadonn es 7 lt 3 Orient producteurs 4 Action externe Figure 10 Les m tadonn es dans le processus de communication utilisateurs producteurs 1 Situation actuelle 1 Situation actuelle Actuellement les producteurs de donn es et les utilisateurs ont des connaissances communes faibles concernant les donn es g ospatiales Les m tadonn es utilisent un vocabulaire technique et sont donc situ es dans le cadre de r f rence des ue f e f producteurs de donn es Les utilisateurs n ayant g n ralement pas de connaissance dans le domaine de la g omatique projections chelles techniques d acquisition et de traitement des donn es etc ils ont une compr hension tr s r duite des m tadonn es 2 Approche orient e utilisateurs Une solution possible serait d accroitre le cadre de r f rence des utilisateurs en leur ense
25. quipe SIRS du Centre de recherche en g omatique CRG et de INRS G oressources En France et en Europe les tudiants de l quipe de Robert Jeansoulin au CMI Universit de Provence et ceux du projet europ en REVIGIS A mes parents Francoise et Claude ma conjointe Alix et mon fils Kerian Table des mati res Chapitre l Introductionis sen nn nn ta 1 1 1 Contexte de latechetc he imien ee de A en 1 12 BRODICITIAU GUE sen e a ne mpbent nae 3 1 2 1 D mocratisation des donn es g ospatiales et prise de d cision 00 3 122 Probl matique UTILS st cates ar es vahceos eu gees Memda te RP Ne ee 4 1 3 Hypoth se et objectifs de la recherche ss sinusite te 5 14 IMS GP OLO G16 sn ai a RE inter din ART EREE 6 Teo Pr sentation de la these Rss Tr a a a r i a 11 150 5 R ICT ROCS nesana e A a earn eee AN 12 Chapitre 2 Revue de IHH TAUTS SN na nm a ee 14 2 1 Syst mes d information g ographique et processus de prise de d cision 15 2 1 1 Information g ographique abstraction et sources d erreur eeeeeeeeeeees 15 2 1 2 Incertitude et prise de d cision x2 sales race cseoinc docs Ne anses 17 2 1 3 SIG un processus de communication 20 2 2 OWA te d s CONTE ES ee tat tn ar nn le es ans 21 2 2 1 Terminologie de l incertitude et de l ignorance eee eeeeeteeneeereeeeeeeeeenees 21 222 Concept deg alit SUN Sn On en Re SAT En OA 25 2 2 3 Qualit des donn es g ospatiales
26. re intensive au d but du projet afin de mieux cerner le contexte de la recherche d identifier les hypoth ses et les objectifs de mani re plus pr cise et de se positionner de mani re g n rale par rapport aux travaux pr c demment publi s Par la suite tout au long du projet des recherches bibliographiques ont t effectu es pour chaque nouveau th me abord Une veille bibliographique a galement t faite jusqu la fin du projet afin d identifier les nouvelles publications pertinentes pour le projet La recherche bibliographique effectu e a couvert diff rents sujets tels que la qualit des donn es g ospatiales acquisition valuation gestion communication visualisation utilisation les m tadonn es normalisation production et utilisation le domaine de la prise de d cision de la gestion du risque des bases de donn es traditionnelles relationnelles et analytiques multidimensionnelles les techniques du Business Intelligence ou adapt es de ce domaine ex OLAP SOLAP tableaux de bord de gestion entrep ts de donn es ainsi que des aspects l gaux reli s l information g ographique Bas sur cette revue de litt rature consid rant environ 250 articles et livres le projet de recherche a t d fini d taillant le contexte les questions hypoth ses et objectifs de la recherche une synth se de la litt rature puis une m thodologie incluant les tapes et un ch ancier Ce projet a
27. utilisation d un langage plus proche de celui utilis par les utilisateurs des donn es 2 1 1 Information g ographique abstraction et sources d erreur Les donn es g ospatiales sont des repr sentations de ph nom nes du monde r el selon des points de vue particulier Ainsi pour une tendue spatiale donn e un plan cadastral pourra repr senter le territoire sous la forme de parcelles tandis qu une carte topographique repr sentera ce m me territoire sous la forme de b timents rivi res routes courbes de niveau etc Une autre carte topographique pourra galement repr senter le m me territoire une chelle plus petite simplifiant certains d tails du territoire consid r s comme moins utiles sur cette carte c d processus de g n ralisation cartographique Ainsi chaque repr sentation cartographique de l espace r sulte d abstractions permettant de repr senter le territoire de mani re simplifi e suivant un but d fini Ainsi du fait des processus d abstraction et de simplification effectu s toutes les cartes papier ou num riques sont diff rents niveaux inexactes incompl tes et inactuelles La Figure 2 illustre la repr sentation d un m me ph nom ne dans un SIG c d les routes pour une m me tendue spatiale mais diff rentes chelles allant de 1 1000 1 250 000 En plus de la diff rence dans la position des routes on observe une diff rence dans le type de repr sentation
28. 1999 Ces travaux ont typiquement des approches de type producteur de donn es quant la perception de la qualit Il semble toutefois y avoir un int r t croissant pour int grer ce type d approche au sein des processus de prise de d cision Lowell 2004 B dard et Valli re 1995 soutiennent qu il n existe pas et n existera jamais de m thode g n rique rigoureuse math matique permettant de calculer de fa on parfaitement objective la qualit de n importe quelle donn e r f rence spatiale Il demeure tout de m me possible de mesurer la qualit avec des indicateurs tant qualitatifs que quantitatifs et ceci de mani re utile et qu il est possible d utiliser un ensemble minimal de crit res permettant de d crire la qualit Plusieurs auteurs tel que Kahn et Strong 1998 soutiennent que la qualit du point de vue de l utilisateur doit rencontrer ou d passer les besoins de l utilisateur B dard et Valli re proposent dans ce sens un syst me d valuation de la qualit d un jeu de donn es pour lequel le jeu de donn es de qualit rencontre les besoins des utilisateurs sans les d passer Le Center for Technology in Government CTG 2000 souligne la nuance faire entre des donn es parfaites et des donn es ad quates pour l utilisation rejoignant le concept de satisfycing de Simon 1955 bien connu dans le domaine de la prise de d cision Des consid rations conomiques entre
29. 202 215 DE BRUIN S BREGT A and VAN DE VEN M 2001 Assessing fitness for use the expected value of spatial data sets International Journal of Geographical Information Science 15 457 471 DRECKI I 2002 Visualisation of Uncertainty in Geographic Data In Spatial Data Quality edited by W Shi P F Fisher and M F Goodchild Taylor amp Francis pp 140 159 DUCKHAM M and MCCREADIE J E 2002 Error aware GIS Development In Spatial Data Quality edited by W Shi P F Fisher and M F Goodchild London Taylor amp Francis pp 63 75 FERNANDEZ A 2000 Les nouveaux tableaux de bord des d cideurs Editions d organisation FISHER P 1994 Animation and sound for the visualization of uncertain spatial information In Visualization in Geographic Information Systems edited by H M Hearnshaw and D J Unwin Wiley pp 181 185 FRANK A U 1998 Metamodels for Data Quality Description In Data Quality in Geographic Information From Error to Uncertainty edited by M F Goodchild and R Jeansoulin Editions Hermes pp 15 29 FRANK A U GRUM E and VASSEUR B Submitted How to select the Best Dataset for a Task International Journal of Geographical Information Science GERVAIS M 2004 Pertinence d un manuel d instructions au sein d une strat gie de gestion du risque juridique d coulant de la fourniture de donn es g ographiques num riques Ph D thesis Sciences G omatiques Universit
30. D 1992 The balanced scorecard Measures that Drive Performance Harvard Business Review 70 71 79 KLEIN G 1999 Sources of Power How people make decisions MIT Press LEITNER M and BUTTENFIELD B P 2000 Guidelines for the Display of Attribute Certainty Cartography and Geographic Information Science 27 3 14 LOWELL K 2004 Why aren t we making better use of uncertainty information in decision making In Proceedings of 6 International Symposium on Spatial Accuracy Assessment in Natural Resources and Environmental Sciences Portland Maine USA McGRANAGHAN M 1993 A cartographic View of Spatial Data Quality Cartographica 30 8 19 MILLER G A 1956 The Magical Number Seven plus or minus two Some limits on our capacity for processing information The Psychological Review 63 81 97 MILLER H J and HAN J 2001 Geographic Data Mining and Knowledge Discovery Taylor amp Francis MONMONIER M 1994 A Case Study in the Misuse of GIS Siting a Low Level Radioactive Waste Disposal Facility in New York State In Proceedings of Conference on Law and Information Policy for Spatial Databases Tempe AZ USA pp 293 303 MORRISON J L 1995 Spatial data quality In Elements of spatial data quality edited by S C Guptill and J L Morrison New York Elsevier Science inc NEWELL A 1990 Unified theories of cognition Harvard University Press PLAN CANADA 1999 Sustainable community indicators pr
31. Drill up is the opposite allowing one to get more global information These operators do not require any knowledge of database query languages such as SQL the queries being transparent to the users They provide instantaneous answers Extensions of OLAP to the geospatial data exploration i e SOLAP have recently been developed in order to support decision making processes based on geospatial data Rivest et al 2001 B dard et al 2003 These systems associate OLAP tools with GIS components to enhance geospatial data visualization and analysis As geospatial data quality may be highly heterogeneous in space our research aims at integrating the spatial characteristics of data quality into the QIMM model that could be integrated into traditional GIS or SOLAP tools 4 7 2 Quality Information Management Model QIMM 4 7 2 1 QIMM dimensions Information about geospatial data quality i e quality characteristics can be organized at different levels of detail along dimensions into an OLAP multidimensional database We suggest in this paper two dimensions that can structure quality information related to most GIS data cf Figure 17 89 Quality Indicator Analysed Data dimension dimension Summarised quality data Global indicator Global Dataset A 15t level Layer 2nd level Object Attribute 34 level Primitive Detailed quality data Figure 17 Quality Information Management Model QIMM dimensions and members Th
32. F Goodchild D J Maguire and D W Rhind Eds John Wiley amp Sons New York p 191 205 1999 Frank A U Metamodels for Data Quality Description Data Quality in Geographic Information From Error to Uncertainty M F Goodchild and R Jeansoulin Eds Editions Hermes p 192 1998 Gervais M Pertinence d un manuel d instructions au sein d une strat gie de gestion du risque juridique d coulant de la fourniture de donn es g ographiques num riques Th se de doctorat D partement des Sciences G omatiques Universit Laval Qu bec 2004 Goodchild M F Sharing Imperfect Data Sharing Geographic Information H J Onsrud and G Rushton Eds Rutgers University Press New Brunswick NJ p 413 425 1995 Goodchild M F Buttenfield B Wood J Introduction to visualizing data validity Visualization in Geographic Information Systems H M Hearnshaw and D J Unwin Eds Wiley p 141 149 1994 Gottsegen J Montello D Goodchild M F A Comprehensive Model of Uncertainty in Spatial Data Proceedings of Spatial Accuracy Assessment Land Information Uncertainty in Natural Resources Qu bec Canada Ann Arbor Press 1998 p 175 182 Heuvelink G B M Lemmens M J P M 4th International Symposium on Spatial Accuracy Assessment in Natural Resources and Environmental Sciences Amsterdam The Nederland 2000 Holmwood T S Data Quality Defining an achievable standard Proceedings of GITA Annual
33. G J Hunter 2002 Responding to the consequences of uncertainty in geographical data International Journal of Geographical Information Science 16 5 405 417 Beard K 1989 Use error the neglected error component Proceedings of AUTO CARTO 9 March 1989 Baltimore Maryland pp 808 817 102 Beard K 1997 Representations of Data Quality Geographic Information Research Bridging the Atlantic M Craglia and H Couclelis editors Taylor and Francis pp 280 294 B dard Y 1997 Spatial OLAP 2 Annual R amp D Forum Geomatics IV Canadian Institute of Geomatics Montreal November 13 14th B dard Y P Gosselin S Rivest M J Proulx M Nadeau G Lebel and M F Gagnon 2003 Integrating GIS Components with Knowledge Discovery Technology for Environmental Health Decision Support International Journal of Medical Informatics 70 1 79 94 B dard Y and D Valli re 1995 Qualit des donn es r f rence spatiale dans un contexte gouvernemental Technical report for the Minist re des Ressources Naturelles Universit Laval Qu bec Canada Berson A and S J Smith 1997 Data Warehousing Data Mining and OLAP Data Warehousing Data Management McGraw Hill New York 612 p CEN TC 287 1994 1995 WG 2 Data description Quality Working paper N 15 August 1994 PTOS Draft Quality Model for Geographic Information Working paper D3 January 1995 Chrisman N R 1983 The Role of Quality Information i
34. Generation Expert Systems Second Generation Expert Systems J M David J P Krivine and R Simmons Eds Springer Verlag Berlin New York p 543 585 1993 Tastan H Altan M O Spatial Data Quality Proceedings of Third Turkish German Joint Geodetic Days Istanbul Turquie 1 4 juin 1999 p 15 30 Taylor J R An introduction to error analysis the study of uncertainties in physical measurements Oxford University Science Books 1982 Thomsen E OLAP Solutions Building Multidimensional Information Systems Wiley 2002 Thrill J C ed 1999 Spatial Multicriteria Decision Making and Analysis Ashgate 377 p Timpf S Raubal M Kuhn W Experiences with Metadata Proceedings of Symposium on Spatial Data Handling SDH 96 Advances in GIS Research II Delft The Netherlands 12 16 ao t 1996 IGU p 12B 31 12B 43 Tsou M H Buttenfield B P An Agent based Global User Interface Distributed Geographic Information Services Proceedings of 8th International Symposium on Spatial Data Handling Vancouver Canada July 11 15 1998 p 603 612 Unwin D Geographical information systems and the problem of error and uncertainty Progress in Human Geography vol 19 1995 p 549 558 Vasseur B Devillers R Jeansoulin R Ontological approach of the fitness of geospatial datasets Proceedings of 6th Agile Conference on Geographic Information Science Lyon France 24 26th April 2003 p 497 504 Vassili
35. Information System Proceedings of International Symposium on Automated Cartography Auto Carto 6 Ottawa Canada 1983 p 303 321 Chrisman N R The error component in spatial data Geographic Information Systems Principles and Applications D J Maguire M F Goodchild et D W Rhind Eds Wiley London p 165 174 1990 Chrisman N R Speaking Truth to Power An Agenda for Change Spatial Accuracy Assessment Land Information Uncertainty in Natural Ressources K Lowell et A Jaton Eds Quebec p 27 31 1999 CTG 2000 Insider s Guide to Using Information in Government The devil is in the data Center for Technology in Government http www3 ctg albany edu static usinginfo Data data htm Dassonville L Vauglin F Jakobsson A Luzet C Quality Management Data Quality and Users Metadata for Geographical Information Spatial Data Quality W Shi P Fisher and M F Goodchild Eds Taylor amp Francis p 202 215 2002 David B Fasquel P 1997 Bulletin d information de l IGN Qualit d une base de donn es g ographique concepts et terminologie N 67 IGN France De Bruin S Bregt A Van de Ven M Assessing fitness for use the expected value of spatial data sets International Journal of Geographical Information Science vol 15 n 5 2001 p 457 471 Drecki I Visualisation of Uncertainty in Geographic Data Spatial Data Quality W Shi P F Fisher and M F Goodchild Eds Taylor amp Fr
36. La contrepartie qu b coise du projet tait le projet du Minist re de la Recherche Science et Technologie d veloppement de technologies de fusion de donn es g ospatiales Cette th se ayant t effectu e en cotutelle France Qu bec trois trimestres ont t pass s en France au Centre de Math matiques et d Informatique de Marseille et ont ainsi permis travers des r unions et discussions de plus interagir avec les autres partenaires du projet REVIGIS Ce contexte de recherche a ainsi permis d explorer les id es avec un grand nombre et une grande diversit d intervenants universitaires s talant de la g ographie l intelligence artificielle ainsi que gouvernementaux et industriels La m thodologie g n rale suivie dans cette th se est pr sent e sur la Figure 1 Recherche D finition du projet bibliographique de recherche xamen de doctorat D finition du cadre conceptuel notions d indicateur et de tableau de bord de qualit des donn es g ospatiale R daction du premier article laboration de la structure de gestion de l information sur la qualit R daction du deuxi me article D veloppemen du prototype R daction du oisi me article R daction de la th se Soutenance de la th se D p t final de la th se Figure 1 M thode de recherche D p t initial de la th se Une recherche bibliographique a t effectu e de mani
37. None Representation shape hosed te Save Selection J a Bebo Indicator interpretation and utilization management concerns warnings This indicator provides an insight on the intrinsic quality of data Cancel Figure 26 Indicators selection tool left with the empty dashboard template and indicators description and graphical representation form right Indicator values are always based on the spatial extent visualised by the user Indeed if the user zoomed on a particular region of interest it would not make sense to communicate quality information based on the objects located outside this area Then indicators values are updated every time the user navigates into the map view using the zoom in zoom out or pan functions Ad hoc polygon would also be of interest 120 5 6 3 Navigation into Spatial Data Quality information Using the prototype described in the previous section geospatial data experts can improve their knowledge of data quality through the use of different navigation tools Displaying information at different levels of detail within a short time period allows users to analyse the data quality without interrupting their line of thoughts Figure 27 illustrates the benefits of such a system through different questions a user may have regarding data quality and the different tools offered by the system that can help answering these questions SOLAP
38. Passive Dynamic and Proactive User Manual Passive User Manual the passive User Manual is defined as a textual User Manual as usually provided with other goods e g medical drugs electronics providing different information related to datasets specifications possible use and limitations Such manual can rely on metadata other information or recommendations provided by data producers or shared experience from other parties that used these datasets in different contexts Each manual is contextual in the sense that it is produced for certain data used in a certain context Dynamic User Manual the dynamic User Manual is designed to be integrated within a GIS interface Such manual provides users with relevant aggregated information and allows them to navigate at different levels of detail through this information Devillers et al 2002 Using different levels of detail helps to avoid information overload and to synthesize the quality information The information provided to the user is either quantitative or qualitative the latter being more frequent at general levels while the former more frequent at detailed levels and would help identify some datasets characteristics that could possibly be risky for the intended use Doing so requires the comparison of users expectations and the intrinsic characteristics of geospatial data Proactive User Manual the proactive User Manual is designed to act directly on the fly on users GIS
39. Quality Model for Geographic Information Working paper D3 January 1995 Charnay L Dialogue et explication dans les syst mes base de connaissances ADex un mod le informatique pour l nonciation Th se de doctorat U Orsay Paris 1999 Charron J D veloppement d un processus de s lection des meilleures Sources de donn es cartographiques pour leur int gration a une base de donn es a r f rence spatiale M moire Universit Laval Qu bec 1995 Chrisman N R The Role of Quality information in the Long Term Functioning of a Geographical Information System Proceedings of International Symposium on Automated Cartography Auto Carto 6 Ottawa Canada p 303 321 Chrisman N R The error component in spatial data Geographic Information Systems Principles and Applications D J Maguire M F Goodchild and D W Rhind Eds Wiley London p 165 174 1990 Chrisman N R Exploring Geographic Information Systems John Wiley amp Sons 1997 Chrisman N R Speaking Truth to Power An Agenda for Change Spatial Accuracy Assessment Land Information Uncertainty in Natural Resources K Lowell and A Jaton Eds Quebec p 27 31 1998 Clarke D G Clark D M Lineage Elements of spatial data quality S C Guptill and J L Morrison Eds p 13 30 1995 Clarke K C Teague P L Representation of Cartographic Uncertainty Using Virtual Environments Proceedings of 4th International Sympo
40. S i discourse B J Universe of discourse N DATA AA L j PRODUCER y cis Product specification prod ut on Figure 8 Cadre conceptuel pour la d finition de la qualit ISO TC 211 2002 tant donn le grand volume d information comparer le temps de traitement qui serait n cessaire pour valuer la qualit de chaque donn e la disponibilit d autres donn es suffisamment exactes pour permettre une comparaison etc les producteurs de donn es proc dent g n ralement un chantillonnage jug repr sentatif de l ensemble des donn es allant permettre d valuer la qualit de l ensemble des donn es produites Diff rents types d chantillonnage peuvent tre utilis s d pendant entre autres de la taille et de la distribution de la population globale Fa z 1999 ISO TC 211 2002 Il est difficile voire impossible de caract riser la qualit d un jeu de donn es l aide d un crit re unique Ainsi diff rents aspects peuvent tre analys s Bien qu il existe une certaine variabilit dans les crit res de qualit utilis s pour d crire des donn es g ospatiales on retrouve depuis une vingtaine d ann es un ensemble de crit res pr sents dans la plupart des proc dures d estimation de la qualit et des normes d crivant la qualit ex CEN ISO FGDC IGN Ces crit res sont la g n alogie des donn es l exactitude spatiale l exactitude s mantique l
41. Working on data quality issues in general i e not restricted to geospatial data Wang and Strong 1996 identified several characteristics based on a large survey among data users grouped into four categories Intrinsic e g believability reputation Contextual e g relevancy timeliness Representational e g interpretability ease of understanding and Accessibility e g accessibility security Most of these criteria are not available in today s metadata but would be necessary to help users to assess the fitness for use of datasets for certain applications For instance accurate and up to date data may not fit for the intended use if the data producer is not recognized reputation price is extremely high cost time to get them is too long accessibility or if data sharing is not permitted legal issues 4 6 Geospatial Data Quality Information Hierarchy The design of a data model allowing the management of geospatial data quality information requires knowing how information about data quality is related to the data being described Quality information can for instance describe a whole dataset quality or only a subset of it e g quality of the data related to an object class quality of the data of a single attribute of an instance As described by B dard and Valli re 1995 there are different levels of detail of data quality also named granularity of data quality They suggest a method to aggregate quality information
42. and each level can include one or several members i e nodes in a tree For instance a grocery store can use a dimension Consumer product including members Vegetable Salad and Lettuce each member being at a different level of detail A measure is a piece of information e g total sales within a fact 88 describing the unique combination of members that make this fact A fact is a unique grouping of instantiated measures for the intersection of the different dimensions e g the fact 36000 can be associated to the measure Total Sales for the member Salad of the dimension Consumer Product when intersected with the member Week 23 of the dimension Time and the member Quebec City of the dimension Region Different types of models are possible when designing a multidimensional database such as the star and the snowflake schemas Berson and Smith 1997 Their implementation can be in typical relational DBMS called ROLAP in specialized multidimensional databases called MOLAP or in Hybrid multi tiers architectures called HOLAP The selection of the model depends on the type of data and the expected operations Different operators e g drill down roll up and pivoting allow users to navigate into the data For example the Drill down operator allows navigating in one dimension from a parent member down to a child member thus getting more details Roll up or
43. applications et diff rents niveaux organisationnels c d op rationnel tactique et strat gique Longley et al 1999 Toutefois ces donn es contiennent toujours un certain niveau d incertitude les rendant utiles dans certains contextes et moins dans d autres Ainsi il existe des risques significatifs utiliser des donn es non ad quates dans certains processus de prise de d cision Goodchild 1995 sugg re que les recherches actuelles ne doivent pas uniquement s int resser la description de la qualit des donn es et leur transfert aux utilisateurs mais galement la nature de l impact qu ont les informations sur la qualit des donn es sur les processus de d cision que les SIG doivent supporter Il affirme que personne ne peut d sirer utiliser des donn es dans lesquelles il n a pas confiance ou avec des pr cisions qu il ne peut pas comprendre Goodchild d crit alors les SIG comme tant leur propre ennemi en invitant les personnes trouver de nouvelles utilisations pour les donn es on les invite tre irresponsables dans leur utilisation Dans le m me sens Beard 1989 souligne l importance des probl mes d utilisation en enrichissant la typologie des erreurs ajoutant aux erreurs d acquisition source errors et de traitement process errors les erreurs d utilisation use errors ce type d erreur tant rencontr de plus en plus souvent avec la d mocratisation des donn es g ospa
44. architecture Data quality information used for the experimentation was based on the recent ISO 19113 international standard dealing with quality information description ISO TC 211 2002 For increased speed quality information is stored into the multidimensional database or data cube using a full Multidimensional OLAP data structure MOLAP as to the other possible relational OLAP structure ROLAP mimicking the former see Berson and Smith 1997 for more details about the different OLAP architectures After a complete database design making the proof of concept required to experiment with a subset of the QIMM dimensions within the prototype including the entire indicator dimension and three levels of detail of the Analysed Data dimension i e dataset data layer and object feature instance 5 6 2 Indicators selection calculation and representation The quality indicator approach is based on the observation that 1 it is impossible in practice to obtain all detailed metadata and algorithmically derive a unique value for quality 2 it is too complex to exhaustively consider all factors with their detailed spatial and temporal variability and 3 all users do not evaluate quality based on the same type of information For instance certain users will be more interested in spatial accuracy others in data completeness Certain persons will have an interest in temporal data quality aspects and others will not For this reason qualit
45. area For more than 20 years standardisation bodies have identified characteristics describing internal quality e g ICA FGDC CEN ISO OGC If these characteristics differ between standards there is however an agreement on most of them and common criteria are often identified as the famous five positional accuracy attribute accuracy temporal accuracy logical consistency and completeness Guptill and Morrison 1995 ISO TC 211 2002 It is intended to document these criteria within the metadata provided with datasets by data producers One objective of providing metadata is to allow end users to assess the fitness of a dataset for their use ISO TC 211 2003 However academic studies and practical experience clearly show the limited benefit of metadata in their current form Timpf et al 1996 Frank 1998 Gervais 2004 It is even not rare to see users asking producers not to give them metadata when ordering data Our experience is that users rarely use metadata beyond the subset necessary for selecting and ordering datasets from digital libraries In addition to their inadequate form which is too hermetic for non expert as well as several expert users a strong limitation lies in the fact that metadata are often provided at a level of aggregation that is too general to enable an adequate quality assessment hidding most of the information richness which should be communicated Hunter 2001 clearly illustrates this point by giving
46. avoir de surcharge d information 69 3 6 Conclusion et perspectives Cet article pr sente une nouvelle approche permettant de communiquer l information relative la qualit des donn es g ospatiales dans le but de r duire les risques de mauvaises utilisations Afin de ne pas surcharger les utilisateurs d informations et de supporter ad quatement leur processus de d cision cette approche pr conise l utilisation de tableaux de bord et d indicateurs de qualit int gr s dans l interface du SIG La qualit tant ici d finie comme l ad quation l utilisation l information fournie aux utilisateurs compare les attentes de ceux ci aux sp cifications et caract ristiques internes des donn es Cette information relative la qualit des donn es peut tre bas e sur les m tadonn es ou toute autre source d information sur la qualit L information sur la qualit est alors communiqu e l utilisateur sous la forme d indicateurs de statut ou de risque que celui ci peut s lectionner modifier au besoin puis consulter diff rents niveaux de d tails tant donn l h t rog n it spatiale de l information sur la qualit des outils permettant une visualisation cartographique de la qualit sont galement propos s Cette approche fournit aux utilisateurs de SIG des outils qui leur permettent d identifier rapidement des divergences potentielles entre leurs besoins tels qu exprim s et la q
47. both internal and external quality Several quality characteristics are suggested by standardization organizations and academic researchers for both internal and external qualities Standardization bodies largely developed the data producer perspective e g CEN TC 287 ICA ISO TC 211 OpenGIS SDTS They 82 usually classify data quality into 5 to 7 parameters being Lineage Positional accuracy Attribute accuracy Semantic accuracy Temporal accuracy Logical consistency and Completeness CEN TC 287 1994 1995 Guptill and Morrison 1995 FGDC 2000 ISO TC 211 2003 Each class is usually composed of several sub classes but few of these address issues such as accessibility costs delays rights to reproduce copyright policy official or legal character of the data privacy restriction or any other issues that are needed to assess the fitness for use from the user s point of view Table 1 provides an overview of geospatial data quality characteristics identified in standards i e CEN ICA ISO and SDTS or by a data producer organization i e IGN France This table reflects the meaning of quality characteristics i e if two organizations have two different names for similar aspects of the quality they are grouped in the same category Table 1 Examples of data quality characteristics provided by standards or cartographic organizations CEN ICA IGN ISO SDTS Lineage Sou
48. cette th se Nous pr sentons dans un premier temps la place des donn es g ospatiales et des SIG dans les processus de prise de d cision mettant l accent sur l importance des imperfections reli es aux donn es g ospatiales Dans un deuxi me temps nous pr sentons le concept de qualit central dans cette th se ainsi que la terminologie gravitant autour de ce terme Nous examinons ici le concept de qualit de mani re g n rale puis nous nous int ressons plus sp cifiquement la qualit des donn es g ospatiales Nous pr sentons ensuite les diff rentes tapes menant la communication de l information sur la qualit soit l valuation de la qualit de donn es g ospatiales la gestion de ces informations d crivant la qualit puis les approches permettant de communiquer ces informations Finalement une synth se g n rale des constats faits dans ce chapitre est pr sent e afin d appuyer l approche suivie dans cette th se 2 1 Syst mes d information g ographique et processus de prise de d cision Les syst mes d information g ographiques sont de plus en plus utilis s pour supporter des processus de prise de d cision Cette section montre 1 que de l incertitude est inh rente aux donn es g ospatiales 2 que cette incertitude devrait tre prise en compte lors de l utilisation des donn es et 3 que la communication des donn es g ospatiales et aussi de l incertitude passent par l
49. cifique nous pr senterons les SIG comme un processus de communication entre des producteurs et des utilisateurs de donn es Nous pr senterons l incertitude reli e aux processus de prise de d cision et mentionnerons les informations relatives la qualit des donn es actuellement communiqu es aux utilisateurs et leurs limites pour le support la prise de d cision La section 3 4 pr sente les concepts et 50 caract ristiques des tableaux de bord de gestion et des indicateurs Les caract ristiques des tableaux de bord et indicateurs dans le contexte g ospatial seront pr sent es Finalement la section 3 5 pr sente un aper u d un prototype int gr dans une interface cartographique permettant de g rer et communiquer ces indicateurs Le prototype sera pr sent plus en d tails dans le chapitre 5 3 3 SIG et prise de d cision 3 3 1 SIG Un processus de communication Shannon 1948 d finit la communication comme reproduire en un point exactement ou approximativement un message s lectionn en un autre point traduction libre Bas sur les adaptations de la th orie de la communication de Shannon pour le domaine de la communication de masse ex journalisme et pour les sciences cognitives ex perception interpr tation de signaux B dard 1987 identifie les SIG en tant que syst me organisationnel comme tant un processus de communication complexe entre des producteurs et des utilisateurs de donn e
50. communication dynamique des informations sur la qualit des donn es g ospatiales Proceedings of G omatique 2002 Montr al Canada 30 Octobre 2002 B dard Y Devillers R Gervais M Jeansoulin R Towards Multidimensional User Manuals for Geospatial Datasets Legal issues and their Considerations into the design of a Technological Perspective Proceedings of 3rd International Symposium on Spatial Data Quality ISSDO 04 Bruck an der Leitha Austria April 15 17 2004 p 183 195 142 B dard Y Gosselin P Rivest S Proulx M J Nadeau M Lebel G Gagnon M F Integrating GIS Components with Knowledge Discovery Technology for Environmental Health Decision Support International Journal of Medical Informatics vol 70 n 1 2003 p 79 94 B dard Y Merrett T Han J Fundamentals of Spatial Data Warehousing for Geographic Knowledge Discovery Geographic Data mining and Knowledge Discovery H Miller and J Han Eds Taylor amp Francis 2001a B dard Y Proulx M J Larriv e S Qualit des donn es a r f rence spatiale 2001b B dard Y Valliere D 1995 Qualit des donn es a r f rence spatiale dans un contexte gouvernemental Rapport de recherche Universit Laval Qu bec Canada B dard Y Valli re D M tivier R Nouvelle m thode d valuation de la qualit des donn es a r f rence spatiale Proceedings of Se Conf rence internationale sur la g omatique Ottawa May 28 30th 199
51. dans quelle mesure cette approche peut tre adapt e des utilisateurs non experts bas sur des consid rations la fois l gales et technologiques mais aussi en terme d efficacit du processus de communication L approche pr sent e dans cette th se permet de communiquer plus efficacement des informations sur la qualit des experts qui vont alors pouvoir mieux conseiller d autres utilisateurs non experts en qualit de l information g ographique Toutefois le lien existant entre la qualit des donn es et la qualit de la d cision faite pourra tre approfondi C est a dire voir dans quelle mesure certains probl mes de qualit d amplitude variable auront des impacts sur les d cisions qui vont tre prises Certaines quipes de recherche telle que S de Bruin Pays Bas et G Hunter Australie s int ressent ces probl mes Une exploration plus pouss e de ces aspects pourra permettre de mieux cerner l impact qu aura une telle approche sur la communaut d utilisateurs finaux L approche pr sent e dans cette th se r pond certaines composantes que diff rents auteurs appellent Error Aware GIS Quality Aware GIS ou encore Intelligent 138 GIS Burrough 1992 Unwin 1995 Duckham and McCreadie 2002 Elle offre entre autres une m thode permettant de g rer communiquer et analyser l information sur la qualit D autres fonctionnalit s pourraient tre ajout es au s
52. data they describe up to the instance and attribute levels Beard 1997 mentions that there is potentially great benefit from an integral association of data with descriptions or measures of its quality Approaches which separate quality descriptions from the data risk reducing ease of access Such structured quality information would be accessed more easily by users or software programs but would be more difficult to generalize if the granularity of quality information is very fine One of the reasons for a tighter link is the need to propagate data updates to metadata An explicit link between metadata and data would also allow the dynamic use of metadata during data manipulation Commercial tools such as ArcGIS ArcCatalog ESRI or SMMS for Geomedia Intergraph provide a way to manage metadata and dynamically link them to data However these tools are still limited in terms of the types of metadata that can be stored and the level of detail of the metadata i e metadata are usually stored on the dataset or object class level only 80 We suggest a stage further exploiting the metadata structured in the stage 4 This level exemplified by the MUM Multidimensional User Manual project Devillers et al 2002 provides high level information or functionalities aiming at reducing the risks of misuse by reducing users meta uncertainty when manipulating geospatial data The User Manual can be divided into three complementary parts namely
53. es pour les g or pertoires dans internet Geomatica vol 52 n 2 1998 p 145 163 Monmonier M A Case Study in the Misuse of GIS Siting a Low Level Radioactive Waste Disposal Facility in New York State Proceedings of Conference on Law and Information Policy for Spatial Databases H Onsrud Ed Tempe AZ USA 1994 p 293 303 Morrison J L Spatial data quality Elements of spatial data quality S C Guptill et J L Morrison Eds Elsevier Science inc New York 1995 Proulx M J B dard Y Le g or pertoire un outil de gestion cartographique Arpenteur G om tre Revue de l Ordre des Arpenteurs G om tres du Qu bec vol 21 n 5 1995 p 21 24 Proulx M J B dard Y L tourneau F Martel C Catalogage des donn es spatiales sur le world wide web concepts analyses des sites et pr sentation du g or pertoire personnalisable GEOREP Revue Internationale de G omatique vol 7 n 1 1997 p 7 32 REV GIS 2001 Uncertain Knowledge Maintenance and Revision in Geographic Information Systems Projet europ en IST 1999 14189 http www lsis org REVIGIS 13 Chapitre 2 Revue de litt rature La recherche abord e par cette th se n cessite la compr hension de diff rents concepts reli s entre autres aux domaines des syst mes d information g ographiques et des bases de donn es Ce chapitre pr sente une synth se de la litt rature portant sur diff rents concepts jug s pertinents pour
54. et autres informations pertinentes d crivant les jeux de donn es sont int gr es et structur es dans une m me base de donn es diff rents niveaux de d tails Ce processus d int gration doit id alement tre automatique ou semi automatique afin d assurer une certaine flexibilit au syst me 4 Les indicateurs ayant t s lectionn s leurs valeurs sont calcul es en utilisant la r gle d agr gation d finie celle ci d pendant de l indicateur de l information disponible pour le calculer et du profil de l usager 5 Les indicateurs s lectionn s sont alors affich s dans l interface du SIG selon le mode de repr sentation choisi par l usager afin d informer l utilisateur de la qualit des donn es qu il utilise Ces indicateurs sont par la suite mis jour d s que des changements ont lieu ex changement au profil de l utilisateur navigation dans l interface cartographique navigation l aide de fonctions OLAP 62 Systeme lectionne Affichage F Ensemble d indicateurs A pr d finis Indicateurs de qualit Agr gation Informations d crivant la qualit des donn es infiuence I L I I I l l ISO OGIS FGDC Opinions Autre z d expert I I Sources d informations h t rog nes Figure 11 Fonctionnement simplifi du syst me MUM 3 5 2 Indicateurs de qualit des donn es g ospatiales Les mauvaises utilisati
55. from a single data up to the complete dataset Hunter 2001 identified quality information granularity as one of the main concerns in geospatial data quality research saying that data quality suffers generally from being presented at the global level rather than at greatest levels of granularity Hunter provides several examples illustrating that today s metadata do not provide information at a sufficient level of detail such as Positional Accuracy being Variable 100m to 1000m or 1 5m urban to 250m rural The quality of data also varies temporally e g 30m before 1992 to 10 meters since 1992 for the more recently covered areas and thematically e g 15000 for residences to 100 000 for stores These examples illustrate that geospatial data quality 84 heterogeneity is not adequately recorded in today s metadata to properly assess data quality for the subset of data being used A description at a more detailed level would allow for quality information to be provided such as the positional accuracy of a given road the precision of commercial value of residences in a given area or the level of updateness of building constructions Although we are well aware that organizations have difficulties complying with today s metadata standards even for the general dataset level we believe that there exists a need to combine breadth and depth in quality information The latter can be of varying lev
56. ils utilisent Selon les principales normes en g omatique les m tadonn es devraient fournir de l information relative la qualit des donn es g ospatiales telle que la pr cision spatiale la compl tude omission commission ou la consistance logique de la base de donn es Guptill et Morrison 1995 FGDC 2000 ISO TC 211 2003 Toutefois l exp rience montre que ces m tadonn es sont complexes comprendre et utiliser pour des utilisateurs non experts mais aussi par les experts en donn es g ospatiales restant de ce fait la plupart du temps inutilis es Timpf et al 1996 Frank 1998 Ce sont 53 plus des descriptions techniques dont le contenu d coule des proc dures de production des jeux de donn es que des informations compr hensibles et pertinentes pouvant tre utilis es par des utilisateurs de donn es pour supporter leur processus de prise de d cision Frank 1998 De plus les m tadonn es fournissent la plupart du temps une description des donn es au niveau du jeu de donn es Comme la qualit peut tre tr s h t rog ne dans l espace et dans le temps des m tadonn es un niveau de d tail plus fin tel que l occurrence d objet ou l attribut seraient souvent n cessaires Hunter 2001 Gan et Shi 2002 Les m tadonn es ne sont donc pas un moyen efficace de communiquer les informations relatives la qualit des donn es aux utilisateurs de donn es Diff rentes approches
57. its characteristics Hence he uses certain observations and measures e g temperature blood pressure pulse to get broad view of the patient s condition In similar ways number of organisations use indicators to assess what is going on in larger complex systems e g economical indicators social indicators or ecological indicators Klein 1999 observed different types of decision makers that have to make rapid decisions e g firemen aircraft pilots and based on these observations he built the Recognition Primed Decision model that is well known in the decision making community He observed that indicators cues are key components in decision making processes and are used to characterise situations and choose which action to perform Indicators are thought of as efficient synthetic key information about complex phenomena and provide global pictures and major trends Typical strategic decision making processes use a small number of indicators as one may see in numerous BI Business Intelligence applications and EIS 113 Executive Information Systems Typical indicators can be drilled down in a small number of layers that are expanded to provide available details when needed Selecting the most relevant indicators among available ones or collecting new data to build a new indicator represents an interesting challenge when designing decision support systems Using such indicators in a quality assessment decision support sy
58. l Usager Multidimensionnel a t d velopp afin de tester l approche de communication de la qualit sous la forme d indicateurs Le prototype a t programm en orient objet utilisant des objets de diff rentes applications et se base principalement sur trois technologies SQL Server GeoMedia et Proclarity Une base de donn es multidimensionnelle g rant les informations de qualit a t implant e avec le serveur OLAP SQL Server Analysis Services de Microsoft Le mod le de donn es utilis est d crit dans le chapitre 4 Les fonctionnalit s cartographiques du prototype zoom 66 in out cartes th matiques etc ont t d velopp es avec des objets du logiciel GeoMedia Professional 5 d Intergraph Les fonctionnalit s OLAP permettant a l utilisateur de naviguer dans une base de donn es multidimensionnelle ont utilis des objets du logiciel OLAP client Proclarity 5 Les donn es utilis es dans le prototype sont un extrait de la Base Nationale de Donn es Topographiques du Canada BNDT pour le secteur de la ville de Sherbrooke Qu bec Canada Ces donn es incluent les routes b timents principaux rivi res etc pour des zones de qualit variable Pour tester le prototype les indicateurs propos s par le syst me sont principalement bas s sur la norme internationale ISO 19113 Principes de qualit et 19115 M tadonn es Les indicateurs de qualit sont g r s de fa on hi rarchique selon une di
59. les routes tant repr sent es au 1 1000 par l espace situ entre deux lignes limites de la route et par une ligne repr sentant le centre de la route pour les chelles plus petites 15 GeoMedia Professional MapWindow1 15 x 1 File Edit View Insert Tools Analysis Warehouse Legend Window Help 5 x alsa S res 212 alal el ARE EE sis a x ses salad e eere ME rolls lela AE LonLat dm s 71 54 33 695 45 23 49 378 x E emy EE x Til by A7 Routes 1 1000 tel by AY Routes 1 1000 al by A Routes 1 20 000 ty AM Routes 1 50 000 S AY Routes 1 100 000 2 ss lele EME Gale Press and drag to pan Esc I 1 1814 Figure 2 Routes provenant de jeux de donn es gouvernementaux et municipaux allant de l chelle 1 1000 1 250 000 Ainsi le statisticien Box 1976 dit que tous les mod les sont faux mais certains sont utiles De fa on similaire B dard 1986 dit que les mod les ne sont pas vrais ou faux mais utiles ou inutiles Longley et al 2001 mentionnent aussi qu il est impossible de produire une repr sentation parfaite du monde et donc que l incertitude associ e cette repr sentation est in vitable Eco 2000 pr sente certaines limites de la cartographie dans son texte carte de l empire dans lequel il montre avec humour les difficult s et l absurdit de produire un
60. p 193 198 Peuquet D It s about time A conceptual framework for the representation of temporal dynamics in geographic information systems Annals of the Association of American Geographers vol 84 n 3 1994 p 441 461 Plan Canada 1999 Sustainable community indicators program Vol 39 5 Platon Les lois Plewe B The Nature of Uncertainty in Historical Geographic Information Transactions in GIS vol 6 n 4 2002 p 431 456 Pontikakis E Frank A Basic Spatial Data According to User s Needs Aspects of Data Quality Proceedings of Third International Symposium on Spatial Data Quality Bruck an der Leitha Austria GeoInfo Series p 13 21 2004 Proulx M J B dard Y Le g or pertoire un outil de gestion cartographique Arpenteur G om tre Revue de l Ordre des Arpenteurs G om tres du Qu bec vol 21 n 5 1995 p 21 24 Proulx M J B dard Y L tourneau F Martel C Catalogage des donn es spatiales sur le world wide web concepts analyses des sites et pr sentation du g or pertoire personnalisable GEOREP Revue Internationale de G omatique vol 7 n 1 1997 p 7 32 152 Qiu J Hunter G J Managing Data Quality Information Proceedings of International Symposium on Spatial Data Quality Hong Kong 18 20 juillet 1999 p 384 395 Qiu J Hunter G J Towards Dynamic Updating of Data Quality Information Proceedings of Accuracy 2000 Amsterdam juillet 2000 p 529 5
61. par la suite t d fendu devant un comit l oral et l crit lors d un examen de doctorat La deuxi me tape a port sur l laboration des notions d indicateurs et de tableau de bord de qualit pour les donn es g ospatiales Cette tape a eu pour objectif de voir dans quelle mesure il est possible d utiliser des indicateurs approche couramment utilis e dans le domaine de la gestion comme outil de communication des informations sur la qualit des donn es g ospatiales Bas sur la revue de litt rature faite dans le domaine des indicateurs et de la prise de d cision un cadre th orique a t d velopp pour adapter cette approche au domaine de la g omatique Les caract ristiques que devrait avoir le syst me ont t identifi es Une maquette visuelle a t d velopp e cette tape afin de pr ciser les caract ristiques qu aurait une interface cartographique incluant des indicateurs de qualit La maquette a t pr sent e diff rents intervenants du domaine de la g omatique provenant des milieux universitaires gouvernementaux et industriels La troisi me tape a port sur la d finition d un mod le permettant de g rer l information sur la qualit Ce mod le permet la fois de g rer l information sur la qualit diff rents niveaux de d tails mais int gre galement une hi rarchisation des indicateurs de qualit Un mod le multidimensionnel a t propos perme
62. political or economical impacts e g Beard 1989 Monmonier 1994 Agumya and Hunter 1997 Gervais 2004 In today s situation it is difficult and sometimes impossible to clearly assess the fitness of certain data for a specific use over a given area This is due amongst others to the inadequate documentation regarding data specifications in spite of the development of standards over the past 10 years more particularly e g FGDC CEN ISO OpenGIS An increasing number of papers were published in the last years to address the problem of the evaluation of fitness for use e g Frank 1998 Agumya and Hunter 1999b Agumya and Hunter 1999a De Bruin et al 2001 Vasseur et al 2003 Grum and Vasseur 2004 Frank et al Submitted However assessing the fitness for use is a very complex task and more research is needed to provide a simple and complete way to do it On the legal side as geospatial data can now be considered as a mass product one may argue they should follow the corresponding legislation and properly deal with consumer protection liability guarantees clear instruction manuals etc In this context data producers should be able to 108 communicate meaningfully quality information to users in order to help them assess the fitness of the data for their purpose Gervais 2004 Metadata i e data about data currently distributed by data producers should contribute to help assessing the fitness for use However metadata typica
63. qualis signifiant quel c d la nature d une chose On trouve encore ce sens dans l expression en qualit de ainsi qu en philosophie o la qualit peut tre d finie comme l aspect de l exp rience qui diff re sp cifiquement de tout autre aspect et par l permet de distinguer cette exp rience Office qu b cois de la langue fran aise 2004 La qualit est une pr occupation que l on retrouve dans beaucoup d autres domaines que la g omatique D s l antiquit des philosophes grecs tels que Socrate Platon et Aristote me associaient la qualit l excellence D s le d but du XX si cle diff rentes significations ont t associ es au concept de qualit issues principalement du domaine de la confection et de la distribution de produits et de services Deux grands groupes de d finitions peuvent ainsi tre identifi s Le premier associe la qualit d un produit ou d un service au respect de normes sp cifications permettant d laborer des produits exempts d erreurs ex Crosby Lewitt Gilmore Le second associe la qualit la satisfaction des utilisateurs utilisant ce produit ou service un produit de qualit devant rencontrer ou exc der les besoins des utilisateurs ex Juran Gronroos Deming Ces deux concepts sont fr quemment identifi s par qualit interne et qualit externe Aalders 2002 Dassonville et al 2002 En g omatique la premi
64. related to data quality usually remain unused by non expert as well as by experts even with the best datasets leaving users in a state of ignorance about the characteristics of the geospatial dataset being used As demonstrated by Gervais 2004 an increasing number of geospatial data is intended for general public and must follow legal requirements related to mass product category Metadata as currently provided or defined within international and national standards do not reach these obligations especially concerning the requirements of providing easily understandable information as well as information about potential risks of misuse According 77 to Gervais there is a need for a computerized instruction manual that would reduce the risks of misuse by providing to the users of geospatial data information that is easier to understand Several authors highlighted the need to design such a tool sometimes identified as Quality aware GIS Quality GIS or Error aware GIS that would dynamically take quality information into consideration during data manipulation visualization queries update etc in order for instance to prevent the user from illogical operations Unwin 1995 Hunter and Reinke 2000 Duckham and McCreadie 2002 Qiu and Hunter 2002 Such systems require to automatically access and use the information related to geospatial data i e metadata Such metadata do not have to be restricted to the metad
65. rents jeux de donn es et en comparant l utilisation des donn es faite avec et sans le syst me Toutefois une telle approche aurait n cessit des temps de d veloppement et donc financiers d passant largement le cadre de cette th se 133 Le mod le QIMM pr sent dans cette th se permet une mod lisation plus pouss e des informations sur la qualit que les solutions propos es par d autres auteurs ex Qiu et Hunter 1999 et 2002 Fa z 1999 En effet en plus de descendre un niveau plus d taill dans la dimension des donn es en allant aussi g rer la s mantique le mod le permet aussi de hi rarchiser les indicateurs de qualit pour all ger le volume d informations communiqu es en m me temps aux usagers La structure de donn es de type OLAP permet de plus une exploitation plus efficace de l information sur la qualit que les structures de donn es traditionnelles ex relationnelles L adaptation des approches de tableaux de bord de gestion pour communiquer les informations sur la qualit n a pas de pr c dent dans la litt rature Si certains auteurs utilisent le terme indicateur de qualit ce n est pas toutefois dans la m me optique les indicateurs de gestion tant contextuels aux utilisateurs Cette th se est galement la premi re utiliser des outils de type OLAP et SOLAP pour g rer et communiquer les informations sur la qualit de donn es g ospatiales permettant une communica
66. sent e ici par des niveaux de gris de gris clair fonc respectivement La possibilit pour l utilisateur d utiliser des fonctions de type OLAP telles que Drill Down et Roll Up afin de naviguer dans les donn es multidimensionnelles diff rents 68 niveaux de d tails ex visualiser la qualit globale du jeu de donn es puis la qualit des routes uniquement et enfin la qualit d une seule route Ces outils permettent galement de visualiser les indicateurs de qualit diff rents niveaux de d tails l int rieur de la hi rarchie d indicateurs cf Figure 15 La Figure 15 pr sente un indicateur et les sous indicateurs le composant L utilisateur peut utiliser les op rateurs de forage OLAP afin de visualiser un niveau plus d taill ou plus g n ral de la hi rarchie Indicator navigation interface loj x Navigation within the indicator hierarchy Internal Quality Thematic Accurf Positional Accu Completeness Logical Consist Temporal Accur Drilling operators E e wy Figure 15 Outil permettant la navigation dans la hi rarchie d indicateurs de qualit Le tableau de bord permet aux utilisateurs de naviguer dans la hi rarchie des indicateurs de qualit diff rents niveaux de d tails gr ce des fonctions OLAP Il est alors possible de visualiser l information de qualit de l indicateur global aux donn es sources servant au calcul des indicateurs sans
67. several examples of existing metadata such as Positional Accuracy being variable 100m to 1000m or 1 5m urban to 250m rural Such metadata rapidly become useless when someone wants to know the quality of data for a certain region object class or object instance for example Moreover if metadata were not separated from data as it is curently done in most cases quality information included within metadata could be directly exploited to enhance certain GIS functions Let us consider for instance the simple case of a distance measurement between two objects on a map A typical GIS will provide a very precise answer whatever the data accuracy recorded in the metadata e g ArcGIS 8 0 provides distances with six decimals corresponding to a spatial precision of a thousandth of millimetre Given the appropriate level of detail in metadata it would however be possible to make the system get 111 the spatial data accuracy from the metadata and adapt the precision of the measurement according to it Hence from a more general point of view there is a real possibility of benefiting from the quality information described into metadata The benefit would be twofold 1 a more efficient communication of quality information would help users to assess how datasets fit for their use i e an issue discussed in this paper 2 the management of quality information into a structured database would allow when associated w
68. soit d finie par le concept de fitness for use les producteurs utilisent en g n ral le concept de qualit pour la seule qualit interne et nomment fitness for use la qualit externe cf Figure 6 plamfication du produit application application application frs o Tes produits ou Zz fitness application services for use Figure 6 Concepts de qualit interne et externe fitness for use des donn es traduit de Morrisson 1995 La Figure 6 illustre clairement l opposition des deux points de vue la qualit pour le producteur tant vue d un c t comme le niveau de similarit entre la repr sentation de la 27 r alit d sir e terrain nominal et le jeu de donn es effectivement produit et de l autre comme l ad quation entre les produits et services et les besoins des utilisateurs en fonction d une ou plusieurs applications donn es Dans le domaine acad mique beaucoup de travaux de recherche actuels traitant du domaine de la qualit des donn es g ospatiales s int ressent la caract risation de l incertitude spatiale et la mod lisation de sa propagation Lowell et Jaton 1999 Heuvelink et Lemmens 2000 Hunter et Lowell 2002 Ces approches en g n ral bas s sur des approches quantitatives ex simulation Monte Carlo ne sont souvent utilisables que dans des cas pr cis Morrison 1995 Lowell et Jaton
69. tolerance levels Then quantitative quality information e g 15 meters for positional accuracy is compared to a user tolerance level e g 1 meter and then transformed into quantitative values for detailed information or into qualitative values such as green yellow red streetlight display for lower detailed information The qualification of quality information uses user defined thresholds Other more complex techniques could be used as mentioned in section 4 7 2 1 Figure 23 shows the main interface of the MUM prototype This interface is composed of a cartographic view displaying the NTDB dataset a quality indicator dashboard located on the left part of the display and different tools offered to the user located on the top of the cartographic view They are from the left to the right cartographic tools e g pan zoom in zoom out fit all MUM tools i e selection of the quality element to be mapped definition of the user s tolerance to risk and some OLAP tools i e drill down and roll up This example shows the values for six quality indicators selected by the user commission omission up to date etc and for a global quality indicator General quality aggregation of all quality indicators was mapped by the user in order to visualize the spatial heterogeneity of quality at the general level 99 MUM 2 O x File MUM Help Risk Tolerance Slat ole 20 pe QUALITY DASHBOARD EM
70. types d utilisateurs dans tous les contextes possibles Tandis que de nombreux travaux ont port sur la d finition de la qualit interne encore peu d tudes se sont pench es sur les probl mes de qualit externe Parmi ces travaux Wang et Strong 1996 classifient la qualit selon le point de vue des utilisateurs suivant plusieurs axes dimensions Se basant sur un sondage effectu aupr s d environ 350 utilisateurs de donn es ils classifient la qualit suivant quatre dimensions e Qualit intrins que cr dibilit pr cision objectivit et r putation e Qualit contextuelle valeur ajout e pertinence propos compl tude volume de donn es appropri e Qualit repr sentationnelle interpr tabilit facilit de compr hension consistance de la repr sentation concision de la repr sentation e Accessibilit de la qualit accessibilit s curit d acc s Wang et Strong d finissent le concept de dimension de la qualit comme un ensemble d attributs d finissant la qualit des donn es qui repr sentent un aspect unique de la qualit des donn es traduction libre 2 2 3 Qualit des donn es g ospatiales Les donn es g ospatiales rencontrent en partie les m mes probl mes que les donn es plus traditionnelles ou les produits de mani re plus g n rale en regard de la qualit Les probl mes de documentation de la qualit ont connu un int r t croissant lors d
71. visent cr er et maintenir des tableaux de bord de gestion Ils sont par exemple Esperant et Media de Speedware Metrics Manager de Cognos EIS de SAS Oracle Balanced Scorecard de Oracle Hyperion Performance Scorecard de Hyperion Crystal Application de Crystal Decisions Comme les tableaux de bord fournissent habituellement des informations a diff rents niveaux de d tails la plupart des syst mes reposent sur des bases de donn es multidimensionnelles Une telle structure con ue pour la gestion des informations relatives la qualit des donn es g ospatiales est d crite dans le chapitre 4 et est utilis e pour la conception du prototype de tableau de bord g ospatial Cette structure permet de g rer les informations de qualit diff rents niveaux de d tails Les fonctionnalit s du tableau de bord devraient s inspirer des concepts nonc s dans les sections pr c dentes tel que communiquer des informations sur une base visuelle viter une surcharge d information permettre aux utilisateurs d adapter leur tableau de bord leurs besoins ex choix des indicateurs type de visualisation type de calcul des indicateurs etc En plus des fonctionnalit s offertes par un tableau de bord classique la composante spatiale doit elle aussi tre prise en compte Le tableau de bord de qualit devrait donc tre capable de Repr senter l information de qualit sous la forme d indicateurs les indicateurs fournisse
72. visualisation Cette approche repose techniquement sur une combinaison des fonctions d un SIG avec des technologies d intelligence d cisionnelle principalement le On Line Analytical Processing OLAP afin d adapter l approche de tableau de bord ex cutif pour fournir des indicateurs interactifs et contextuels d crivant la qualit des donn es g ospatiales Un prototype nomm MUM Manuel l Usager Multidimensionnel est pr sent afin d illustrer cette approche 5 2 Abstract Geospatial data users increasingly face the complex problem of assessing the fitness of datasets for an intended use Due to the increasing availability of data sources datasets are more than ever heterogeneous and complex to interpret Information describing data quality is available but often remains itself heterogeneous semantically and spatially inaccessible hermetic and in practice ends up to be neglected by most users In fact someone must develop a strong expertise to properly understand metadata and assess the fitness of given datasets and subsets for a specific use in well defined areas and varying periods Such a complex task involves thousands of partially correlated metadata Consequently data quality experts must rely on tools to help them pinpoint potential problems as well as synthesise the information necessary to write their opinion in a report involving their professional liability In order to support such experts to assess fitness for u
73. 1998 sugg rent que l incertitude peut tre diminu e lorsque 1 on acquiert plus d information et ou 2 on am liore la qualit de l information disponible L incertitude r siduelle pouvant tre absorb e correspond alors au niveau de risque reli l utilisation de l information B dard 1986 Epstein et al 1998 Hunter 1999 pr sente une strat gie globale permettant de g rer l incertitude dans les SIG int grant les concepts d absorption et r duction d incertitude cf Figure 3 Dans cette d marche une comparaison est faite entre les caract ristiques des donn es et les besoins des utilisateurs qualit n cessaire 18 19 Consid rations initiales Type d application Type de d cision s Type d utilisateur S lection des donn es logiciels et mat riels processus type de produit Cartes amp rapports Quelles formes significatives d incertitude vont affecter le produit Comment peuvent elles tre adress es Comment peuvent elles tre communiqu es Quelle qualit est n cessaire pour le produit st ce que la qualit du produit est acceptable Absorber R duire l incertitude l incertitude r siduelle existante Effectuer la d cision Figure 3 Strat gie de gestion de l incertitude dans les SIG traduit de Hunter 1999 Certains auteurs proposent des m thodes quantitatives permettant de d terminer l ad quation entre les caract ristiques des jeux de donn e
74. 2 1998 Frank A U Grum E Vasseur B How to select the Best Dataset for a Task International Journal of Geographical Information Science vol Submitted Gan E Shi W Error Metadata Management System Spatial Data Quality W Shi P F Fisher and M F Goodchild Eds Taylor Francis London and New York p 336 2002 Gervais M Pertinence d un manuel d instructions au sein d une strat gie de gestion du risque juridique d coulant de la fourniture de donn es g ographiques num riques Ph D thesis Universit Laval Qu bec 2004 Gervais M Devillers R B dard Y Jeansoulin R GI Quality and Decision making toward a contextual user manual Proceedings of Geolnformation Fusion and Revision Workshop Quebec city Canada April 9 12 2001 Goglin J F Le datawarehouse pivot de la relation client Paris France Herm s Sciences 2001 Goodchild M F Attribute accuracy Elements of spatial data quality S C Guptill and J L Morrison Eds p 59 79 1995a Goodchild M F Sharing Imperfect Data Sharing Geographic Information H J Onsrud and G Rushton Eds Rutgers University Press New Brunswick NJ p 413 425 1995b Goodchild M F Measurement based GIS Spatial Data Quality W Shi P F Fisher and M F Goodchild Eds Taylor amp Francis London p 5 17 2002 Goodchild M F Buttenfield B Wood J Introduction to visualizing data validity Visualization in Ge
75. 36 Qiu J Hunter G J A GIS with the Capacity for Managing Data Quality Information Spatial Data Quality W Shi M F Goodchild and P F Fisher Eds Taylor amp Francis London p 230 250 2002 Rafanelli M Multidimensional Databases Problems and Solutions Hershey USA Idea Group Publishing 2003 Reinke K J Hunter G J Communicating Quality in Spatial Information Notification the First Step Proceedings of International Symposium on Spatial Data Quality Hong Kong 18 20 juillet 1999 p 66 75 Reinke K J Hunter G J A Theory for Communicating Uncertainty in Spatial Databases Spatial Data Quality W Shi P F Fisher and M F Goodchild Eds Taylor amp Francis London p 77 101 2002 REVIGIS 2001 Uncertain Knowledge Maintenance and Revision in Geographic Information Systems http www lsis org REVIGIS Rivest S B dard Y Marchand P Towards Better Support for Spatial Decision Making Defining the Characteristics of Spatial On Line Analytical Processing SOLAP Geomatica vol 55 n 4 2001 p 539 555 Roche V Batton Hubert M Dechomets R Ambiguity and uncertainty in GIS design Proceedings of 4th International Symposium on Spatial Accuracy Assessment in Natural Resources and Environmental Sciences Amsterdam Pays Bas p 549 551 2000 Salg F Semantic accuracy Elements of spatial data quality S C Guptill and J L Morrison Eds p 139 151 1995 Salg
76. 471 De Groeve T L incertitude spatiale dans la cartographie foresti re Ph D Thesis Universit Laval Qu bec 1999 Drecki I Visualisation of Uncertainty in Geographic Data Proceedings of International Symposium on Spatial Data Quality Hong Kong 18 20 July 1999 p 260 271 Drecki I Visualisation of Uncertainty in Geographic Data Spatial Data Quality W Shi P F Fisher and M F Goodchild Eds Taylor amp Francis p 140 159 2002 Drummond J Positional accuracy Elements of spatial data quality S C Guptill and J L Morrison Eds p 31 58 1995 Duckham M Implementing an object oriented error sensitive GIS Proceedings of Spatial accuracy assessment land information uncertainty in natural resources Qu bec Canada p 209 215 1998 Duckham M A user oriented perspective of error sensitive GIS development Transactions in GIS vol 6 n 2 2002 p 179 194 Duckham M Drummond J Forrest D Spatial data quality capture through inductive learning Spatial Cognition and Computation vol 2 n 4 2000 p 261 282 Duckham M McCreadie J An intelligent distributed error aware OOGIS Proceedings of Ist International Symposium on Spatial Data Quality Hong Kong 18 20 July 1999 p 496 506 Duckham M McCreadie J E Error aware GIS Development Spatial Data Quality W Shi P F Fisher and M F Goodchild Eds Taylor amp Francis London p 63 75 2002 145
77. 6 Bernhardsen T Choosing a GIS Geographical Information Systems P A Longley M F Goodchild D J Maguire and D W Rhind Eds John Wiley amp Sons Inc p 589 600 1999 Berry B Approaches to regional analysis a synthesis Annals of the Association of American Geographers vol 54 1964 p 2 11 Berson A Smith S J Data Warehousing Data Mining and OLAP Data Warehousing Data Management New York McGraw Hill 1997 Bertin J S miologie graphique les diagrammes les r seaux les cartes Paris Mouton Gauthier Villars Bordas 1973 Blackmore M High or Low Resolution Conflicts of Accuracy Cost Quality and Application in Computer Mapping Computers amp Geosciences vol 11 n 2 1985 p 345 348 Body M Miquel M B dard Y Tchounikine A Handling Evolutions in Multidimensional Structures Proceedings of 19th International Conference on Data Engineering ICDE Bangalore India 5 8 March 2003 Box G E P Science and statistics Journal of the American Statistical Association vol 71 1976 p 791 799 Brassel K Bucher F Stephan E M Vckovski A Completeness Elements of spatial data quality S C Guptill and J L Morrison Eds p 81 108 1995 Brodeur J B dard Y Edwards G Moulin B Revisiting the Concept of Geospatial Data Interoperability within the Scope of Human Communication Processes Transactions in GIS vol 7 n 2 2003 p 243 265 Br
78. 9b p 33 44 Agumya A Hunter G J Translating Uncertainty in Geographical Data into Risk in Decisions Proceedings of Ist International Symposium on Spatial Data Quality Hong Kong 18 20 July 1999 p 574 584 Agumya A Hunter G J Responding to the consequences of uncertainty in geographical data International Journal of Geographical Information Science vol 16 n 5 2002 p 405 417 Albaredes G A New Approach User Oriented GIS Proceedings of EGIS 92 Munich p 830 837 Azouzi M Merminod B Qualit des donn es spatiales Vermessung Photogrammetrie Kulturtechnik vol 12 1996 p 645 649 141 Baddeley A Human Memory Theory and Practice East Sussex U K U K Psychology Press 1997 Bard S Quality Assessment of Cartographic Generalisation Transactions in GIS vol 8 p 63 81 Bartsh Sp rl B Lenz M H bner A Case Based Reasoning Survey and Future Directions Proceedings of XPS 99 Knowledge Based Systems Survey and Future Directions W rzburg Germany March 3 5 1999 Springer p 67 89 Beard K Use error the neglected error component Proceedings of AUTO CARTO 9 Baltimore Maryland March 1989 p 808 817 Beard K Representations of Data Quality Geographic Information Research Bridging the Atlantic M Craglia and H Couclelis Eds Taylor and Francis p 280 294 1997 Beard K Roles of Meta Information in Uncertainty Management Mapping Ecologic
79. Banque Mondiale Nations Unies agences am ricaine et canadienne de d veloppement international etc utilisent galement des indicateurs sociaux conomiques g opolitiques ou environnementaux Les tableaux de bord permettent la visualisation d un ensemble d indicateurs En effet l utilisation d un seul indicateur serait trop dangereuse Kaplan et Norton 1992 Prenez par exemple un pilote d avion qui a besoin d information sur de nombreuses variables telles que l essence l altitude la vitesse de l air la position la destination etc Ces informations ne peuvent pas tre fournies par un seul indicateur Le nombre d indicateurs doit cependant tre limit afin d viter une surcharge d information D apr s Miller 1956 l tre humain peut percevoir 7 2 l ments en m me temps Ce nombre magique est maintenant largement utilis pour la communication d informations et peut donc tre utilis dans la conception de tableaux de bord en g omatique 3 4 2 Indicateurs Le Jackson Community Council Plan Canada 1999 d finit un indicateur comme une mani re de voir un portrait g n ral en regardant un petit morceau de celui ci traduction 57 libre Fernandez 2000 le d finit comme une information ou un regroupement d informations contribuant l appr ciation g n rale d une situation par le d cideur p 232 Klein 1999 identifie les indicateurs comme tant des indic
80. Eco U De l impossibilit d tablir une carte de l empire l chelle de 1 1 Pastiches et Postiches U Eco Eds Editions 10 18 p 183 2000 Edwards G Fortin M J A Cognitive View of Spatial Uncertainty Mapping Ecological Uncertainty Implications for Remote Sensing and GIS Applications C T Hunsaker M F Goodchild M A Friedl and T J Case Eds Springer Verlag p 133 157 2001 Elmes G A Cai G Data Quality Issues in User Interface Design for a Knowledge Based Decision Support System Proceedings of Fith International Symposium on Spatial Data Handling Charleston USA p 303 312 Elshaw Thrall S Thrall G I Desktop GIS software Geographical Information Systems P A Longley M F Goodchild D J Maguire and D W Rhind Eds John Wiley amp Sons New York p 331 345 1999 Epstein E F Hunter G J Agumya A Liability insurance and the use of geographical information International Journal of Geographical Information Science vol 12 n 3 1998 p 203 214 Faiz S Abbassi K Boursier P Applying Data Mining Techniques to Generate Quality Information from Geographical Databases Data Quality in Geographic Information From Error to Uncertainty M F Goodchild and R Jeansoulin Eds Editions Hermes p 192 1998 Faiz S Zghal H B Managing Quality by using OLAP Techniques and Data Warehouses Proceedings of Accuracy 2000 Amsterdam July 2000 p 203 206 Faiz S
81. F National and international standards Geographical Information Systems Principles and Applications P A Longley M F Goodchild D J Maguire and D W Rhind Eds John Wiley amp Sons Inc p 693 706 1999 Schramm W How Communication Works Communication Concepts and Processes J A DeVito Ed Prentice Hall New Jersey p 12 21 1971 Schreiber G Akkermans H Anjewierden A de Hoog R Shadbolt N Van de Velde W Wielinga B Knowledge Engineering and Management The CommonKADS Methodology Cambridge Massachusetts MIT Press 2000 Shannon C E A Mathematical Theory of Communication The Bell System Technical Journal vol 27 1948 p 379 423 Simon H A A Behavioral Model of Rational Choice Quarterly Journal of Economics vol n 69 1955 p 99 118 153 Sinton D F The inherent structure of information as a constraint in analysis Harvard papers on Geographic Information Systems G Dutton Ed Addison Wesley Reading USA 1978 Smithson M Ignorance and Uncertainty Emerging Paradigms New York Springer Verlag 1989 Storey V C Wang R Y Modeling Quality Requirements in Conceptual Database Design Proceedings of Third Conference on Information Quality Cambridge USA p 64 87 1998 Sui D Z Goodchild M F GIS as a Media International Journal of Geographical Information Science vol 15 n 5 2001 p 387 390 Swartout W R Moore J D Explanation in Second
82. ICA International Cartographic Association IDG Infrastructure de donn es g ospatiales IEEE Institute of Electrical and Electronics Engineers IGN Institut G ographique National ISO TC International Organization for Standardization IST Information Society Technologies LBS Location Based Services MDX Multidimensional Expressions Language MOLAP Multidimensional OLAP 157 MUM MUM Manuel a l Usager Multidimensionel Multidimensional User Manual NCDCDS National Committee For Digital Cartographic Data Standards NCGIA National Centre for Geographic Information amp Analysis NTBD National Topographic Database OGC Open Geospatial Consortium OLAP On Line Analytical Processing OLTP On Line Transactional Processing OIMM Quality Information Management Model ROLAP Relational OLAP RPD Recognition Primed Decision SDTS Spatial Data Transfer Standard STM Short Term Memory SIG Syst me d Information G ographique SMMS Spatial Metadata Management System SOLAP SOLAP OLAP Spatial Spatial OLAP SOL Structured Query Language XML Extensible Markup Language
83. IMM model is afterward manipulated using Spatial On Line Analytical Processing SOLAP see Rivest et al 2001 B dard et al 2003 to allow users to navigate into quality dimensions and to intersect them at any level of detail The proposed model is based on two dimensions namely Quality Indicator and Analysed Data both having 4 levels of granularity cf Figure 17 Users can explore quality information by navigating within the system at different levels of detail going for instance along the Analysed Data dimension to obtain the quality of an entire dataset down to the quality of a single object instance and even geometric primitive when available In each case the quality may refer to a global indicator down to a very specific characteristic of quality Examples are presented later in this paper 5 5 3 Populating the quality database combining Bottom up and Top down approaches Once a multidimensional database structure is designed to manage quality information the next step is to fill this database with existing or derived quality information Two approaches can be identified Bottom up this approach aims at taking the quality information documented at detailed levels e g spatial accuracy metadata for the geometric primitives of the National Topographic Database of Canada for instance and to aggregate it into higher level 116 information e g average and standard deviation for the spatial accuracy of the
84. Journal vol 7 1998 p 179 193 Hunsaker C T Goodchild M F Friedl M A Case T J ed 2001 Mapping Ecological Uncertainty Implications for Remote Sensing and GIS Applications Springer Verlag 402 p Hunter A Uncertainty in Information Systems 1996 Hunter G J Managing uncertainty in GIS Geographical Information Systems P A Longley M F Goodchild D J Maguire and D W Rhind Eds John Wiley amp Sons Inc p 633 641 1999a Hunter G J New Tools For Handling Spatial Data Quality moving from Academic Concepts to Practical Reality URISA Journal vol 11 n 2 1999b Hunter G J Spatial Data Quality Revisited Proceedings of Geolnfo 2001 Rio de Janeiro Brazil 4 5th October p 1 7 148 Hunter G J Understanding Semantics and Ontologies They re Quite Simple Really If You Know What I Mean Transactions in GIS vol 6 n 2 2002 p 83 87 Hunter G J Lowell K 5th International Symposium on Spatial Accuracy Assessment in Natural Resources and Environmental Sciences Melbourne Australia 2002 Hunter G J Masters E What s Wrong with Data Quality Information Proceedings of GIScience 2000 Savannah USA p 201 203 2000 Hunter G J Reinke K J Adapting Spatial Databases to Reduce Information Misuse Through logical Operations Proceedings of 4th International Symposium on Spatial Accuracy Assessment in Natural Resources and Environmental Sciences Accur
85. Laval Qu bec GOGLIN J F 2001 Le datawarehouse pivot de la relation client Herm s Sciences GOODCHILD M F 1995 Sharing Imperfect Data In Sharing Geographic Information edited by H J Onsrud and G Rushton New Brunswick NJ Rutgers University Press pp 413 425 GRUM E and VASSEUR B 2004 How to select the best dataset for a task In Proceedings of 3 International Symposium on Spatial Data Quality ISSDQ 04 Bruck an der Leitha Austria pp 197 206 GUPTILL S C and MORRISON J L 1995 Elements of spatial data quality Elsevier Science HUNTER G J 1999 Managing uncertainty in GIS In Geographical Information Systems edited by P A Longley M F Goodchild D J Maguire and D W Rhind John Wiley amp Sons Inc pp 633 641 128 HUNTER G J 2001 Spatial Data Quality Revisited In Proceedings of Geolnfo 2001 Rio de Janeiro Brazil pp 1 7 HUNTER G J and REINKE K J 2000 Adapting Spatial Databases to Reduce Information Misuse Through Illogical Operations In Proceedings of 4 International Symposium on Spatial Accuracy Assessment in Natural Resources and Environmental Sciences Accuracy 2000 Amsterdam pp 313 319 ISO TC 211 2002 Geographic Information Quality principles Report 19113 ISO TC 211 2003 Geographic Information Metadata Report 19115 JURAN J M GRYNA F M J and BINGHAM R S 1974 Quality Control Handbook McGraw Hill KAPLAN R and NORTON
86. Quality mapping aims at tackle this issue Quality maps can use different types of classification according to the distribution of values We implemented five different ways to create the qualitative classes equal count equal range standard deviation custom equal count and custom equal range Changing the way to create classes can be useful for instance when all data of a certain dataset have similar quality levels Instead of getting the same value e g green for all feature instances it is then possible to highlight features having the lowest and the highest qualities in the distribution cf Figure 23 5 7 Conclusion This paper presented an approach helping expert users of geospatial data as well as data quality experts to improve their knowledge about data in order to assess their fitness for a given use This approach is based on a multidimensional data structure QIMM that supports the fast and easy exploration of quality information at different levels of detail Exploration goes along an Analysed Data dimension as well as a Quality Indicator dimension in addition to being supported by interactive quality mapping Quality information is communicated to users through the contextual indicators displayed into a dashboard integrated into the SOLAP The architecture of a prototype was presented as well as its main functionalities that allow users to navigate into diverse quality information at different levels of detail Th
87. RODOLPHE DEVILLERS CONCEPTION D UN SYST ME MULTIDIMENSIONNEL D INFORMATION SUR LA QUALITE DES DONNEES GEOSPATIALES Th se de doctorat pr sent e en cotutelle la Facult des tudes sup rieures de l Universit Laval Qu bec dans le cadre du programme de Sciences g omatiques pour l obtention du grade de Philosophiae Doctor Ph D FACULTE DE FORESTERIE ET DE GEOMATIQUE UNIVERSITE LAVAL QUEBEC et UNIVERSITE DE MARNE LA VALLEE INSTITUT FRANCILIEN DES GEOSCIENCES FRANCE pour l obtention du grade de Docteur en Sciences de l information g ographique D cembre 2004 Rodolphe Devillers 2004 R sum court L information g ographique est maintenant un produit de masse fr quemment manipul par des utilisateurs non experts en g omatique qui ont peu ou pas de connaissances de la qualit des donn es qu ils utilisent Ce contexte accroit significativement les risques de mauvaise utilisation des donn es et ainsi les risques de cons quence n faste r sultant de ces mauvaises utilisations Cette th se vise fournir des utilisateurs experts ou des experts en qualit une approche leur permettant d valuer la qualit des donn es et ainsi tre m me de conseiller des utilisateurs non experts dans leur utilisation des donn es Cette approche se base sur une structuration des donn es de qualit dans une base de donn es multidimensionnelle et une communication dynamique et contextuelle utilisant des
88. S Proceedings of International Symposium on Spatial Data Quality Hong Kong 18 20 July 1999 p 23 32 Aalders H J G L The Registration of Quality in a GIS Spatial Data Quality W Shi P Fisher and M F Goodchild Eds Taylor amp Francis p 186 199 2002 Aalders H J G L Morrison J Spatial Data Quality for GIS Geographic Information Research Trans Atlantic Perspectives Eds Taylor amp Francis London Bristol p 463 475 1998 Aamodt A Plaza E Case Based Reasoning Foundational Issues Methodological Variations and System Approaches AI Communications vol 7 n 1 1994 p 39 59 Agumya A Hunter G J Determining fitness for use of geographic information ITC Journal vol 2 n 1 1997a p 109 113 Agumya A Hunter G J Estimating Risk in GIS Supported Decisions Proceedings of URISA Toronto Canada July 1997 p Agumya A Hunter G J Fitness for use Reducing the Impact of Geographic Information Uncertainty Proceedings of URISA Charlotte USA 1998 p 245 254 Agumya A Hunter G J Assessing fitness for use of geographic information What risk are we prepared to accept in our decisions Spatial Accuracy Assessment Land Information Uncertainty in Natural Resources K Lowell and A Jaton Eds Quebec p 35 43 1999a Agumya A Hunter G J A Risk Based Approach to Assessing the Fitness for Use of Spatial Data URISA Journal vol 11 n 1 199
89. UK January 12 1995 Springer p 3 16 Weber R Aha D W Becerra Fernandez I Intelligent lessons learned systems Expert Systems with Applications vol 17 2001 p 17 34 Weber R Aha D W Branting L K Lucas J R Fernandez I B Active Case Based Reasoning for Lessons Delivery Systems Proceedings of AAAI 2000 Workshop on Intelligent Lessons Learned Menlo Park AAAI Press 2000 Willett G La communication mod lis e Une introduction aux concepts aux mod les et aux th ories Ottawa 1992 Windholz T K Strategies for Handling Spatial Uncertainty due to Discretization Ph D Thesis University of Maine Orono 2001 ANNEXE 155 Annexe 1 Table 2 Liste des abr viations utilis es dans la th se 156 Acronyme fran ais Signification ou anglais BI Business Intelligence BNDT Base Nationale de Donn es Topographiques CEN Comit Europ en de Normalisation CGSB COG Canadian General Standard Board Committee on Geomatics CIT S Centre d Information Topographique de Sherbrooke CRG Centre de Recherche en G omatique CTG Center for Technology in Government DBMS DataBase Management System EIS Executive Information System ESRI Environmental Systems Research Institute FGDC Federal Geographic Data Committee GEOIDE GEOIDE Geomatics for Informed Decisions GIS Geographical Information System GPS Global Positioning System HOLAP Hybrid OLAP
90. a Suzie Marie Jo Sonia Eveline Patrick et Martin Et un gros merci aussi a mes deux compagnons de th se SIRSiens Jean Brodeur et Marc Gervais pour les diverses discussions sur mon projet et mille et un autres sujets Un gros merci et une grosse bise Carmen Couture qui s est montr e la secr taire la plus efficace disponible et sympathique des trois universit s dans lesquelles j ai tudi Merci aussi de mani re plus g n rale au personnel administratif du CRG et du d partement pour leur aide pendant ces ann es Le financement tant un point crucial dans une th se je remercie les diff rents organismes ayant contribu s au financement de cette th se ainsi que les personnes ayant r dig les demandes de subvention Merci donc Yvan Robert et Geoffrey au r seau GEOIDE la fondation de l Universit Laval au projet europ en REVIGIS au Minist re de la Recherche Science et Technologie du Qu bec au consulat de France Qu bec et au CRSNG Sans ce support financier je n aurais jamais fini ma th se ni commenc d ailleurs Un merci particulier au Centre d Information Topographique de Sherbrooke et leurs repr sentants Jean Sylvain Fran ois Daniel qui m ont donn la chance de faire un stage qui a t tr s enrichissant Un gros merci Jean Finalement merci tous ceux qui par leur pr sence ont rendu l environnement de la th se agr able A Qu bec les tudiants de l
91. a flexibilit et la richesse du mod le QIMM sont illustr es par des exemples de navigation possibles l int rieur des informations stock es sur la qualit Enfin des exemples de visualisation possible de la qualit bas s sur le mod le QIMM sont pr sent s Finalement le chapitre 5 a pr sent un prototype fonctionnel du syst me MUM Cet outil est bas sur le mod le QIMM pour la gestion des informations sur la qualit permet leur communication sous la forme d indicateur et de visualisation cartographique et leur analyse gr ce des op rateurs d analyse multidimensionnelle permettant d explorer la qualit Des donn es extraites de la Base Nationale de Donn es Topographiques du Canada BNDT et des m tadonn es suivant la norme ISO 19113 ont t utilis es pour l impl mentation du prototype L architecture du syst me est pr sent e travers les diff rentes composantes logicielles ainsi que les processus que suivent les donn es des donn es brutes aux donn es agr g es Par la suite diff rentes fonctions du prototype sont pr sent es et illustr es montrant l utilisation intuitive et rapide pouvant tre faite de ce type d outils 6 2 Discussion Cette th se a pr sent une approche visant g rer communiquer et faciliter l analyse rapide de l information sur la qualit des donn es g ospatiales Cette approche permet de communiquer des usagers experts diff rentes caract ristiqu
92. acy 2000 Amsterdam July 2000 p 313 319 Hunter G J Wachowicz M Bregt A K Understanding Spatial Data Usability Data Science Journal vol 2 2003 p 79 89 TSO 8402 1994 Quality management and quality assurance Vocabulary International Organization for Standardization ISO TSO TC 211 2002 Geographic Information Quality principles19113 TSO TC 211 2003a Geographic Information Metadata19115 TSO TC 211 2003b Geographic Information Quality evaluation procedures19114 Jakobsson A Quality Evaluation of Topographic Datasets Experiences in European National Mapping Agencies Proceedings of International Symposium on Spatial Data Quality Hong Kong 18 20 July 1999 p 154 164 Jakobsson A Vauglin F Status of Data Quality in European National Mapping Agencies CFC vol n 169 170 2001a p 21 26 Jakobsson A Vauglin F Status of Data Quality in European National Mapping Agencies Bulletin de la Commission Francaise de Cartographie CFC vol 169 170 2001b p 21 26 Jarke M Vassiliou Y Data Warehouse Quality A Review of the DWQ Project Proceedings of 2nd Conference on Information Quality Cambridge USA p 299 313 1997 Jeansoulin R Papini O R vision et syst mes d informations g ographiques Le Temps l Espace l Evolutif dans les sciences du traitement de l information Cepadues Eds Toulouse p 293 304 2000 Juran J M Gryna F M J Bingham R S Q
93. adis P Bouzeghoub M Quix C Towards Quality Oriented Data Warehouse Usage and Evolution Information Systems vol 25 n 2 2000 p 89 115 Vauglin F A Practical Study on Precision and Resolution in Vector Geographical Databases Spatial Data Quality W Shi M F Goodchild and P F Fisher Eds Taylor amp Francis London p 127 139 2002 Veregin H Data quality parameters Geographical Information Systems P A Longley M F Goodchild D J Maguire and D W Rhind Eds John Wiley amp Sons Inc p 177 189 1999 Veregin H Hargitai P An evaluation matrix for geographical data quality Elements of spatial data qualityEds p 167 188 1995 154 von Schirnding Y E Health and environment indicators in the context of sustainable development Proceedings of Consensus Conference on Environmental Health Surveillance Agreeing on basic set of indicators and their future use Quebec city Canada October 10 12 2000 Voyer P Tableaux de bord de gestion et indicateurs de performance Presse de l Universit du Qu bec 2000 Wachowicz M Hunter G J Spatial Data Usability Data Science Journal vol 2 2003 p 75 78 Wang R Y Strong D M Beyond Accuracy What Data Quality Means to Data Consumers Journal of Management Information Systems vol 12 n 4 1996 p 5 34 Watson I An Introduction to Case Based Reasoning Proceedings of Progress in Case Based Reasoning Salford
94. affich es par les syst mes comme exactes est forte tant donn leur repr sentation num rique Chrisman 1990 Morrison 1995 Les donn es num riques donnent ainsi aux utilisateurs une fausse impression d exactitude de compl tude et de qualit en raison de leur nature technique et de la grande pr cision des r sultats fournis par les SIG ex une mesure de distance faite avec ArcGIS 8 0 est donn e avec six d cimales et ce quelle que soit l exactitude des donn es Hunter 1999 mentionne que les cartes traditionnelles contenaient g n ralement dans leurs marges certaines informations quantitatives concernant la pr cision de celles ci telles que des estimations des erreurs de positions horizontale et verticale Il remarque toutefois que cette approche cependant suppose une connaissance de la part des utilisateurs permettant de savoir jusqu o les cartes peuvent tre cr dibles Malheureusement dans l ge num rique la plupart de ces informations manquent aux r sultats des SIG les nouveaux http photocartotheque mrnfp gouv qc ca http www softmaptech com utilisateurs de ces informations sont galement souvent inconscients des pi ges potentiels pouvant r sulter de mauvaises utilisations des donn es et des technologies associ es traduction libre Hunter 1999 p 633 Dans la pratique les cas de mauvaise utilisation de l information g ographique sont fr quemment cit s dans la litt ra
95. ak Metadata GIS Europe vol July 1996 p 20 22 Lee Y C Chan H C E Spatial Metadata and its Management Geomatica vol 54 n 4 2000 p 451 462 Leitner M Buttenfield B P Guidelines for the Display of Attribute Certainty Cartography and Geographic Information Science vol 27 n 1 2000 p 3 14 Lemon O Pratt I Logics for geographic information Journal of Geographical Systems vol 1 1999 p 75 90 L tourneau F B dard Y Moulin B Perspectives d utilisation du concept d entrep t de donn es pour les g or pertoires dans internet Geomatica vol 52 n 2 1998 p 145 163 Lilburne L Benwell G The Scale Matcher Determining Scale Compatibility of Environmental Data and Models Proceedings of 4th International Symposium on Spatial Accuracy Assessment in Natural Resources and Environmental Sciences Amsterdam Pays Bas Juillet 2000 p 417 424 Longley P A Goodchild M F Maguire D J Rhind D W ed 1999 Geographical Information Systems John Wiley amp Sons Longley P A Goodchild M F Maguire D J Rhind D W ed 2001 Geographical Information Systems and Science John Wiley amp Sons 454 p Loriette Rougegrez S Raisonnement partir de cas pour les volutions spatiotemporelles de processus Revue internationale de g omatique vol 8 n 1 2 1998 p 207 227 Lowell K Why aren t we making better use of uncertainty information in decision making
96. al Uncertainty Implications for Remote Sensing and GIS Applications C T Hunsaker M F Goodchild M A Friedl and T J Case Eds Springer Verlag p 363 378 2001 Beard K Buttenfield B Detecting and evaluating errors by graphical methods Geographical Information Systems P A Longley M F Goodchild D J Maguire and D W Rhind Eds Wiley p 219 233 1999 Beard K Mackaness W Visual Access to Data Quality in Geographic Information Systems Cartographica vol 30 n 2 3 1993 p 37 45 Beard K Sharma V Multilevel and Graphical Views of Metadata Proceedings of IEEE Advances in Digital Libraries ADL Santa Barbara USA p 256 265 1998 B dard Y A Study of the Nature of Data Using a Communication Based Conceptual Framework of Land Information Systems PhD Thesis University of Maine Orono 1986 B dard Y Uncertainties in Land Information Systems Databases Proceedings of Eighth International Symposium on Computer Assisted Cartography Baltimore Maryland March 29th April 3rd 1987 American Society for Photogrammetry and Remote Sensing and American Congress on Surveying and Mapping p 175 184 B dard Y Towards Collaborative Research Projects in Geomatics Applied to Health Surveillance Proceedings of Tri Council Workshop Networking Program Centre for Research in Geomatics Laval University Quebec City October 2000 B dard Y Devillers R Gervais M Vers une gestion et
97. al Health Surveillance Agreeing on basic set of indicators and their future use Quebec city Canada 130 Chapitre 6 Conclusion 6 1 Sommaire Cette th se a pr sent une approche visant g rer communiquer et faciliter analyse rapide de l information sur la qualit des donn es g ospatiales Le chapitre 1 a introduit les contexte et probl matique abord s par la th se savoir le besoin d outils permettant de communiquer et analyser l information sur la qualit des donn es g ospatiales afin de supporter les utilisateurs dans l valuation de l ad quation des donn es a leur utilisation fitness for use Le chapitre 2 a pr sent une revue de litt rature autour des concepts reli s la th se Nous avons abord dans un premier temps l incertitude existant dans les syst mes d information g ographique et la place de cette incertitude dans les processus de prise de d cision utilisant des SIG Nous avons ensuite pr sent la terminologie reli e la qualit le concept de qualit en tant que tel puis plus sp cifiquement le concept de qualit pour les donn es g ospatiales Nous avons dans un troisi me temps d crit le processus d valuation de la qualit ainsi que diff rents travaux ayant port sur la gestion et la communication des informations sur la qualit Le chapitre 3 a pr sent les concepts d indicateur et de tableaux de bord de qualit pr sentant des informations sur
98. ality and the areas having higher quality Users can also choose the quality parameter they want to visualize e g positional accuracy of objects temporal accuracy e Descriptive data table visualization Indicators related to semantic quality such as attribute accuracy or completeness can be visualized within the data table at different levels of detail In this way a user can have a quick insight on the quality of descriptive data contained in a traditional data table as provided by most GIS software Figure 22 shows the visualization of values for individual data qualities in the first table for one instance and an aggregation of values for data qualities at the attribute level in the second table i e for all instances The visualization techniques used in a SOLAP i e maps tables statistical charts semantic tree allow users to navigate into quality information from one level of detail to another along both Quality Indicators and Analyzed Data dimensions as shown in the next section 4 7 4 The MUM prototype A prototype was developed to test the QIMM model introduced in this paper with a user interface made of a simple dashboard and cartographic visualization The prototype is based on three main technologies integrated into a single cartographic interface 1 a multidimensional database storing quality information at different levels of detail into a MOLAP hypercube implemented using Microsoft s SQL Server Analy
99. ams e g uncertainty management uncertainty quality communication and visualization error buttons Furthermore detailed quality information allows the cartographic visualization of the spatial heterogeneity of quality Finally providing aggregated information to users helps reducing the risks of misuse by reducing the uncertainty related to data quality This meta uncertainty is reduced by both the communication of internal quality information and the communication of risk indicators based on external quality i e the difference between internal quality values and users requirements Acknowledgements This work is part of the MUM project Multidimensional User Manual and is funded in part by the Canadian Network of Centres of Excellence GEOIDE the IST FET program of the European Community through the REV GIS project the Minist re de la Recherche de la Science et de la Technologie du Qu bec the Centre for Research in Geomatics CRG and Universit Laval Special thanks to Dr Jean Brodeur and anonymous reviewers for the critical review of the manuscript and Geomatics Canada CTI S for their support 4 9 References Aalders H J G L and J Morrison 1998 Spatial Data Quality for GIS Geographic Information Research Trans Atlantic Perspectives Taylor amp Francis London Bristol pp 463 475 Agumya A and G J Hunter 1997 Determining fitness for use of geographic information ITC Journal 2 1 109 113 Agumya A and
100. ancis p 140 159 2002 Duckham M McCreadie J An intelligent distributed error aware OOGIS Proceedings of Ist International Symposium on Spatial Data Quality Hong Kong 18 20 July 1999 p 496 506 Duckham M McCreadie J E Error aware GIS Development Spatial Data Quality W Shi P F Fisher and M F Goodchild Eds Taylor amp Francis London p 63 75 2002 Eco U De l impossibilit d tablir une carte de l empire l chelle de 1 1 Pastiches et Postiches U Eco Eds Editions 10 18 p 183 2000 40 Epstein E F Hunter G J Agumya A Liability insurance and the use of geographical information International Journal of Geographical Information Science vol 12 n 3 1998 p 203 214 Faiz S O Mod lisation exploitation et visualisation de l information qualit dans les bases de donn es g ographique Th se de doctorat Universit Paris Sud Paris 1996 Faiz S O Syst mes d Informations G ographiques Information Qualit et Data Mining Tunis Editions C L E 1999 Fisher P Animation and sound for the visualization of uncertain spatial information Visualization in Geographic Information Systems H M Hearnshaw and D J Unwin Eds Wiley p 181 185 1994a Fisher P Visualising the uncertainty of soil maps by animation Cartographica vol 30 1994b p 20 27 Fisher P F Models of uncertainty in spatial data Geographical Information Systems P A Longley M
101. ant merger de l utilisation de donn es de qualit inappropri e Les m tadonn es ont dans leur forme et mode de transmission actuels de nombreuses limitations En effet en plus d tre rarement transmises aux utilisateurs de ne pas tre lues par ces derniers 1 e mode de communication inappropri elles sont g n ralement incompl tes ne d crivant que certains aspects de la qualit sont pr sent es un niveau trop g n ral ne sont pas reli es aux donn es pouvant ainsi cr er des probl mes de mise jour etc De plus leur format souvent textuel n est ni facilement exploitable automatiquement par des syst mes informatiques ni facilement compr hensible par des utilisateurs Toutefois malgr ces limites les m tadonn es sont plus que jamais n cessaires comme donn es sources pour permettre une communication plus compr hensible des informations sur la qualit sous une autre forme tant donn les limites des m tadonn es que l on peut observer les m tadonn es ne devraient pas tre le produit final transmis aux utilisateurs mais un produit interm diaire intimement li aux donn es pouvant tre exploit par des syst mes informatis s qui pourront communiquer plus clairement les informations sur la qualit Pour ce faire les m tadonn es fournies par les producteurs devraient suivre des normes ex ISO 19115 et tre formalis es le plus possible ex viter les descriptions faites sous
102. ata identified or provided by different standard organizations or data producers they can refer to data about data in a more general way However today s systems have not yet achieved an efficient user centric management of geospatial data quality information The goal of this paper is to propose a conceptual framework for the management of geospatial data quality information that aims to go one step ahead of existing solutions In the next section we explain how this research fits into the wider evolution of geospatial data transfer focusing especially on today s practice of making metadata accessible to users for assessing the fitness for use of their datasets In Section 4 5 we present the state of the art concerning what kind of quality information is available today We do so by presenting different standards and classifications of data quality information Section 4 6 presents different hierarchies allowing quality analysis at different levels of detail Based on the literature we propose in Section 4 7 a conceptual framework for geospatial quality information management We describe multidimensional data structures as well as Spatial On Line Analytical Processing SOLAP and discuss their relevance for geospatial quality information management A framework for a SOLAP model managing data quality information is presented We then illustrate our approach with different scenarios of user navigation within the quality information
103. bilit croissante de sources de donn es les jeux de donn es sont plus que jamais h t rog nes et complexes interpr ter L information d crivant la qualit des donn es est disponible mais demeure souvent elle m me h t rog ne s mantiquement et spatiallement inaccessible herm tique et finit en pratique par tre n glig e par la plupart des utilisateurs 8 Dans l attente d une r ponse de la revue au moment du d p t de la th se 106 Une personne doit en fait pouvoir d velopper une expertise solide pour comprendre correctement les m tadonn es et valuer l ad quation de jeux de donn es ou d extraits de ces jeux pour des usages sp cifiques dans des endroits pr cis et pour des p riodes variables Une telle t che complexe peut impliquer des milliers de m tadonn es partiellement corr l es En cons quence des experts en qualit des donn es doivent pouvoir s aider d outils allant les aider identifier des probl mes potentiels ainsi que les aider synth tiser les informations n cessaires pour crire leur opinion dans un rapport impliquant leur responsabilit professionnelle Afin de supporter de tels experts dans l valuation de l ad quation l utilisation fitness for use cet article pr sente une approche visant mieux g rer et communiquer l information sur la qualit des donn es gr ce un ensemble de concepts reli aux bases de donn es d cisionnelles et aux techniques de
104. ble in their use This sometimes leads to faulty decisions based on these data possibly having significant social political or economical consequences several examples being discussed in the literature Beard 1989 Monmonier 1994 Curry 1998 Agumya and Hunter 2002 Gervais 2004 In order to reduce the risks of misuse geospatial data producers spend a lot of resources on documenting their datasets to inform the users about the datasets specifications and quality Amongst these documents metadata i e data about data provide information on several aspects of the datasets such as data producer identification spatial reference systems lineage definition of features or attributes and data quality to name a few FGDC 2000 ISO TC 211 2003 However metadata are defined in the literature as producer oriented offering only limited benefits to the users who want to assess the fitness of the data for their use Frank 1998 Harvey 1998 In fact experience shows that metadata do not reach their information goal for non expert users and are also difficult to understand by many expert users Timpf et al 1996 Frank 1998 Harvey 1998 Understanding and reaching conclusions that could be used in Court for example about the quality of geospatial data rapidly becomes an unmanageable task when one wants to take into consideration the various heterogeneities spatial temporal thematic acquisition and other found in a dataset Consequently metadata
105. cace et plus intuitive que les m tadonn es traditionnelles Il offre entre autres une visualisation spatiale de la qualit permettant de mieux caract riser l h t rog n it de la qualit Cette prise en compte de l h t rog n it spatiale devrait gagner en importance dans les ann es venir En effet les donn es manipul es par des utilisateurs tendent 1 r sulter de plus en plus de la fusion de donn es provenant de diff rentes sources h t rog nes et 2 les processus de mise jour risquent de plus en plus de passer d un fonctionnement o on mettait jour l ensemble des objets d un feuillet cartographique des mises jour par occurrence et par classe d objets ayant chang es sur le territoire Ces deux changements dans le processus de production vont r sulter en des jeux de donn es de qualit tr s h t rog ne Le prototype d velopp a re u un accueil tr s favorable l o il a t pr sent et nous porte croire que l approche propos e constitue bel et bien une solution non seulement novatrice mais galement une solution qui poss de un fort potentiel d applicabilit 6 4 Perspectives de recherche L approche pr sent e dans cette th se pour la gestion et la communication de l information sur la qualit ouvre de nouvelles perspectives pour l laboration de logiciels de cartographie plus sensibles aux probl mes de qualit Toutefois certains aspects m riteraient d
106. ce by green yellow or red respectively As other GIS functions could use quality information stored in the multidimensional database measures have to be as formalized as possible avoiding free text for instance in order to be manipulated more easily by the computer Quantitative measures are more suitable for data manipulation e g aggregation than qualitative ones Some measures stored in the multidimensional database can be computed using other measures 4 7 3 Navigation within the model and quality visualization Geospatial data users can navigate within the QIMM along both the Analyzed Data and the Quality Indicators dimensions moving from a level of detail to another cf Figure 20 94 RO Dataset 1 Object or Attribute Primitive AS Et ens Pen 3rd 2nd st Global 3rd 2nd 4st Global 3rd 2nd 4st Global ator level level level level level level level level level Figure 20 Examples of user navigation into the quality information along both Quality dimensions For instance Figure 20 case A a user can look at the Global quality indicator for the whole Dataset position 1 aggregated view of the overall quality for all the objects of the dataset Then the user can visualize more details along the Analyzed Data dimension using the OLAP drill down operator looking at the overall quality for a given layer e g position 2 cadastral parcel layer then for the overa
107. charg de faire le lien entre les deux agents Le message produit par l un des agents i e producteur de donn es dans un langage i e m tadonn es techniques est traduit dans le langage de l autre agent i e utilisateur des donn es Comme tout processus de communication la distorsion du message est minimis e mais souvent in vitable Ce dernier cas est l approche examin e dans cet article traduisant des m tadonn es stock es en g n ral dans des fichiers texte externes aux donn es en des indicateurs plus facilement interpr tables int gr s dans l interface du SIG L approche pr sent e va galement plus loin en effectuant cette traduction de mani re contextuelle en offrant aux usagers un acc s hi rarchique aux indicateurs et en l avertissant potentiellement de risques de mauvaises utilisations 3 4 Tableaux de bord et indicateurs pour supporter la prise de d cision 3 4 1 Tableaux de bord L analogie avec les tableaux de bord automobiles peut illustrer la fa on de repr senter une r alit complexe en utilisant un mod le simplifi Le tableau de bord d une voiture permet au conducteur d obtenir en temps r el des informations limit es mais souvent suffisantes concernant le syst me plus complexe qu est son v hicule M me si le tableau de bord donne une vision incompl te et souvent impr cise de la r alit cela permet au conducteur de prendre des d cisions rapides telles que diminuer sa vit
108. classes d objet repr sent es la date de la derni re mise jour etc L tourneau et al 1998 Guptill 1999 Ce contexte g n ral a pour cons quence qu il est pr sent relativement ais pour un internaute de t l charger sur son poste de travail des donn es g ospatiales repr sentant des ph nom nes d int r t pour un territoire donn Cette r volution num rique a cr un changement de paradigme REV GIS 2001 Auparavant un jeu de donn es tait g n ralement produit pour une application donn e et manipul par des utilisateurs travaillant souvent dans la m me organisation qui a produite ces donn es Cependant plus r cemment on assiste la cr ation de nombreux jeux de donn es issus de l int gration de donn es h t rog nes rendus accessibles divers utilisateurs qui peuvent alors les exploiter pour des applications tr s diff rentes et non anticip es De plus tandis que l utilisation de donn es g ographiques tait surtout r serv e des experts qui les manipulaient l aide de logiciels complexes et co teux l information g ographique est pr sent de plus en plus accessible au grand public puisqu elle peut tre visualis e l aide d outils simples d utilisation et peu on reux voire gratuits Goodchild 1995 Agumya et Hunter 1997 Curry 1998 Elshaw Thrall et Thrall 1999 Cette d mocratisation de l information g ographique et des outils de consulta
109. conference Denver Colorado USA 2000 Hunter G J Managing uncertainty in GIS Geographical Information Systems P A Longley M F Goodchild D J Maguire and D W Rhind Eds John Wiley amp Sons Inc p 633 641 1999 41 Hunter G J Spatial Data Quality Revisited Proceedings of Geolnfo 2001 Rio de Janeiro Brazil 4 5th October 2001 p 1 7 Hunter G J Lowell K 5th International Symposium on Spatial Accuracy Assessment in Natural Resources and Environmental Sciences Melbourne Australia 2002 Hunter G J Masters E What s Wrong with Data Quality Information Proceedings of GIScience 2000 Savannah USA p 201 203 Hunter G J Reinke K J Adapting Spatial Databases to Reduce Information Misuse Through Illogical Operations Proceedings of 4th International Symposium on Spatial Accuracy Assessment in Natural Resources and Environmental Sciences Accuracy 2000 Amsterdam July 2000 p 313 319 ISO 8402 1994 Quality management and quality assurance Vocabulary International Organization for Standardization ISO ISO TC 211 2002 Geographic Information Quality principles19113 ISO TC 211 2003 Geographic Information Quality evaluation procedures19114 Juran J M Gryna F M J Bingham R S Quality Control Handbook New York McGraw Hill 1974 Kahn B K Strong D M Product and Service Performance Model for Information Quality An Update Proceedings of Conference on Infor
110. ctive access to a wide variety of possible views of information that has been transformed from raw data to reflect the real dimensionality of the enterprise as understood by the user OLAP tools support both 1 the management of multidimensional data and 2 the fast retrieval of these data by their users Their adaptation to the spatial domain named SOLAP tools by B dard 1997 can be found in a small number of papers and books see for example Miller and Han 2001 or Rivest et al 2001 and is emerging today as a powerful complement to GIS B dard et al 2003 This is such a SOLAP system that is being used in this project SOLAP tools are good candidates to manage geospatial data quality information because 87 of the heterogeneity inherent to geospatial data which implies that quality information has to be analyzed and managed at different levels of detail of the need to provide contextual aggregated information which is more meaningful to data users Thus based on detailed data SOLAP systems use different ways to aggregate different characteristics themes regions epochs etc SOLAP tools offer different techniques of data visualization such as matrices pie charts histograms etc as well as maps SOLAP tools are known to be very fast and easy to use They require no knowledge of query languages SOLAP delivers rapid keyboardless navigation through spatial data and spatial operators at different levels of ag
111. d le cognitif Un des aspects importants pour un processus de communication 20 est que les metteurs et r cepteurs pouvant tre des individus ou des machines doivent partager des connaissances communes B dard 1986 Martinet et Marti 2001 Brodeur et al 2003 Plus cette connaissance commune est grande plus petite sera la distorsion du message entre la source et la cible Schramm 1971 En pratique cette communication n est jamais parfaite tant donn les diff rences existant entre metteur et r cepteur Dans ce sens Martinet et Marti encouragent l utilisation d un langage proche de celui du r cepteur afin de faciliter la transmission des messages dans une entreprise 2 2 Qualit des donn es Cette th se porte sur la qualit des donn es g ospatiales et plus sp cifiquement sur la gestion et la communication des informations sur la qualit des donn es Toutefois l utilisation du terme qualit dans la litt rature et le langage courant pr sente beaucoup de variations et est souvent fait de mani re incorrecte Cette section vise clarifier et d finir les diff rents concepts reli s la qualit Nous pr sentons dans un premier temps certains termes gravitant autour du concept de qualit Nous pr sentons ensuite le concept de qualit de mani re globale puis de fa on plus sp cifique le concept de qualit pour des donn es g ospatiales 2 2 1 Terminologie de l incertitude et de l ignorance
112. d feature instance they often differ at detailed levels Indeed some of them do not address the issue of semantic quality e g quality of attributes or semantic values others do not to into account the values of geometric primitives Regarding the implementation of these hierarchies some of the approaches are only theoretical while other were tested through prototypes developed using relational databases 4 7 Multidimensional geospatial data quality management Juran et al 1974 were the first to define quality as fitness for use This definition issued from the quality engineering and management field is now widely recognized in several fields including the geospatial information community Chrisman 1983 Veregin 1999 ISO 9000 defines quality as the totality of characteristics of an entity that bear on its ability to satisfy stated and implied needs We think that quality is not only the totality of characteristics of an entity but rather results from similarity measurements between product specifications and users needs In order to highlight this aspect we define quality as the 86 closeness of the agreement between data characteristics and explicit or implicit needs of a user for a given application Quality requires taking users needs into consideration For this reason data quality information should not be restricted to the quality information section of metadata but should include further informat
113. d on the QIMM model has been presented to test the model and highlight the benefits of such an approach to allow diverse ways to communicate quality information This work provides a theoretical framework to manage and communicate to users the heterogeneous quality information at different levels of detail If it is rather frequent to find papers mentioning that quality is multidimensional this work is the first attempt to structure quality information using a multidimensional approach and SOLAP tools The QIMM provides answers to a main issue of the spatial data quality field the need to manage various quality information at different levels of detail The model was implemented using a commercial multidimensional database an OLAP software and a commercial GIS Such a tool can support users in assessing if the quality of geospatial data is good enough for their needs In situations where quality information is very heterogeneous and the overall quality assessment too complex for non expert users such a tool can help geomatics engineers to 101 support non expert users to assess if the quality is sufficient according to their requirements The QIMM implementation is not restricted to multidimensional databases it is also useful for spatial data quality management in general using traditional relational databases The quality information being structured at different levels of detail it can be exploited by different Quality aware GIS progr
114. dchild D J Maguire et D W Rhind Eds John Wiley amp Sons Inc 1999 p 191 205 Frank A U Metamodels for Data Quality Description Data Quality in Geographic Information From Error to Uncertainty M F Goodchild et R Jeansoulin Eds Editions Herm s 1998 p 192 Gan E Shi W Error Metadata Management System Spatial Data Quality W Shi P F Fisher et M F Goodchild Eds Taylor Francis London and New York 2002 p 336 Gervais M Pertinence d un manuel d instructions au sein d une strat gie de gestion du risque juridique d coulant de la fourniture de donn es g ographiques num riques Th se de doctorat Universit Laval Qu bec 2004 Goodchild M F Sharing Imperfect Data Sharing Geographic Information H J Onsrud et G Rushton Eds Rutgers University Press New Brunswick NJ p 413 425 1995 Goodchild M F Kemp K K NCGIA Core Curriculum in GIS National Center for Geographic Information and Analysis University of California Santa Barbara CA 1990 Harvey F Quality Needs More Than Standards Data Quality in Geographic Information From Error to Uncertainty M F Goodchild et R Jeansoulin Eds Editions Herm s 1998 p 192 Hunter G J Managing uncertainty in GIS Geographical Information Systems P A Longley M F Goodchild D J Maguire et D W Rhind Eds John Wiley amp Sons Inc 1999 p 633 641 Hunter G J Spatial Data Quali
115. des m tadonn es aux attributs attributs et instances Les niveaux de m tadonn es de l ISO 19114 sont data series dataset feature type feature instance attribute type et attribute instance 33 Des hi rarchies peuvent galement tre retrouv es dans les organismes produisant des donn es g ospatiales Par exemple les m tadonn es de la Base Nationale de Donn es Topographique du Canada BNDT sont communiqu es dans un fichier texte fourni avec le jeu de donn es num rique Les m tadonn es de ce fichier sont r parties en cinq sections Territoire ex num ro du feuillet nom du jeu de donn es province zone de projection Jeu de donn es ex date a laquelle le jeu de donn es a t rendu disponible dans la BNDT Int gration ex pourcentage d int gration valid entre des feuillets cartographiques adjacents Polygone M tadonn es communes l ensemble des objets situ s dans une certaine zone d finie par des coordonn es g ographiques ex type de m thode d acquisition Chaque jeu de donn es peut inclure un plusieurs polygones de m tadonn es Th me M tadonn es reli es un th me en particulier ex nom du th me disponibilit r solution Certaines m tadonn es de la BNDT sont galement reli es aux primitives g om triques ex exactitude spatiale Ces m tadonn es ne sont pas inclues dans le fichier texte mais directement stock es comme des attrib
116. dicator hieracty Drill down along the Quality Indicator dimension 2 clicks 1 second alal Navigation within the indicator hierarchy 10 x Drilling operators ME G 2 Figure 29 Navigation along the Quality Indicator dimension using two successive drill down operations Indicator mapping Indicator mapping allows users to get a fast insight on the spatial heterogeneity of a quality indicator If metadata often document the average quality e g spatial accuracy for an entire map sheet at a more detailed level quality can vary widely on a spatial basis Let s take for instance a dataset covering a large area e g country that is the result of the integration of several datasets of various qualities that cover smaller adjacent areas e g states Without having such representation the user could only get through metadata a unique quality value 124 and then underestimate or overestimate quality for specific areas With our tool users can explore quality through the indicators displayed in the dashboard However when drilling down on the quality of each source he could loose the global picture and quality analysis would then be more complicated Indeed it is difficult for users to get such a view from the indicators displayed into the dashboard To get such an information users would have to get quality indicators values successively for each feature instance
117. du profil d fini par l utilisateur L indicateur global pr sente une vue g n rale de la concordance entre la qualit interne des donn es et les besoins exprim s par les utilisateurs Utilisant une symbologie de type feu de circulation 67 une lumi re verte signifie qu il peut manipuler les donn es sans risque apparent Des lumi res jaunes ou rouges l encouragent explorer les indicateurs le composant La visualisation cartographique des indicateurs les valeurs de qualit tant associ es chaque entit g om trique cf Figure 14 L utilisateur doit identifier l indicateur de qualit qu il d sire repr senter et chaque objet de la carte prend alors la valeur de qualit qui leur est associ e carte th matique de la qualit utilisant les couleurs vert jaune rouge ig MUM File MUM Help p Map Quality Risk Tolerance S amp a QUALITY DASHBOARD Global quality indicator oT PTS i ae Completeness Logical Consist Thematic Accur Positional Accu Up to date Explore gt A Ta pag Sex gt General Quality v Map No tisk lt lo x k ded E EE Map Quality P Poor 1 Average FA Good Figure 14 Interface cartographique du MUM avec tableau de bord et indicateurs gauche et repr sentation cartographique de la qualit droite La symbologie vert jaune rouge est repr
118. e Quality Indicator dimension Quality indicators provide users with a way to get a quick insight at quality information and hence contribute to the prevention of potential risks cf Chapter 3 Each indicator is based on one or several quality characteristics cf Section 4 5 and is implemented as a member of the dimension In order to avoid information overload all quality indicators cannot be communicated to data users at the same time For this reason they are organized into a hierarchy allowing users to visualize them at different levels of detail Quality information is aggregated into the dimension hierarchy from the most detailed levels to the more general ones Members of this dimension i e quality indicators can either provide information regarding the spatial e g spatial accuracy temporal e g temporal accuracy or thematic e g attribute accuracy aspects of the dataset For instance members can be horizontal positional accuracy completeness date of acquisition or accessibility see Figure 18 for examples 90 Global 1stLevel f2nd Level 3rd Level Completeness Sea sior Omission Conceptual consistency Logical consistency Domain consistency Format consistency Topological consistency ISO Indicators Absolute or external accuracy Positional accuracy Relative or internal accuracy Gridded data position accuracy Accuracy of time measurement Temporal accuracy consistency Temporal validity Qual
119. e Smithson s pare l ignorance en deux types soit l erreur et l inapplicabilit irrelevance Le concept d incertitude est dans cette classification un type particulier d incompl tude tant lui m me un type d erreur cf Figure 4 Le terme incertitude est souvent employ dans la litt rature comme quivalent au concept d erreur de Smithson regroupant galement l inexactitude Ignorance EE Erreur Inad quation Error irrelevance Non sens Tabou Ind cidabilit Untopicalify Taboo Undecidability Distortion eerie ee Distortion incompleteness Confusion Inexactitude Incertitude Absence Confusion inaccuracy Uncertainty Absence Vaque Probabilit Ambiguit Vagueness Probability Ambiguity Flou Non specificit Fuzziness Nonspecificity Figure 4 Taxonomie de l ignorance traduit de Smithson 1989 les termes originaux sont mis entre parenth se en italique L ignorance fait l objet de r flexions depuis l antiquit Le premier grand philosophe Grec Socrate puis son disciple Platon disait je ne sais qu une chose c est que je ne sais rien Le fait d tre conscient de son ignorance tait pour lui en soi un signe de sagesse et un niveau plus lev d intelligence Il distinguait le fait d ignorer quelque chose du fait d ignorer mais en n tant pas conscient de notre ignorance voire de penser tord que l on sait nommant le premier
120. e divers travaux issus de la litt rature pertinents l laboration de la r flexion pr sent e dans cette th se Le chapitre 3 pr sente l approche par indicateurs et tableau de bord comme outil de communication de l information sur la qualit Le chapitre 4 traite de la gestion diff rents niveaux de d tails de l information d crivant la qualit des donn es Par la suite le chapitre 5 pr sente un prototype d velopp dans le cadre de ce projet visant implanter et tester les approches d crites dans les chapitres 3 et 4 Finalement le chapitre 6 conclut la th se discute des r sultats identifie les limites de la recherche et ouvre sur de nouvelles perspectives de recherche 1 6 R f rences Agumya A Hunter G J Determining fitness for use of geographic information ITC Journal vol 2 n 1 1997 p 109 113 Beard K Use error the neglected error component Proceedings of AUTO CARTO 9 Baltimore Maryland Mars 1989 p 808 817 Blackmore M High or Low Resolution Conflicts of Accuracy Cost Quality and Application in Computer Mapping Computers amp Geosciences vol 11 n 2 1985 p 345 348 Chrisman N R The error component in spatial data Geographic Information Systems Principles and Applications D J Maguire M F Goodchild et D W Rhind Eds Wiley London p 165 174 1990 Curry M R Digital Places Living with Geographic Information Technologies London amp New York Rout
121. e floue pourrait tre explor e afin de mieux nuancer les limites floues s parant des donn es acceptables de donn es inacceptables La qualit r sulte de la comparaison entre les diff rentes caract ristiques des donn es et les besoins des utilisateurs Les besoins sont exprim s travers la s lection contextuelle des indicateurs et la proposition de diff rentes m thodes d agr gation des m tadonn es suivant le niveau de risque accept par l utilisateur Toutefois le processus de d finition des besoins pourrait tre beaucoup plus approfondi Les approches d velopp es dans le domaine du User Modeling en intelligence artificielle pourraient entre autres tre explor es Fisher 2001 Kobsa 2001 L int gration d une approche ontologique pour la formalisation des besoins et des caract ristiques des jeux de donn es telle que d velopp e dans le projet REVIGIS pourrait galement tre explor e L approche pr sent e dans cette th se agr ge des m tadonn es pour en d duire des indicateurs c d approche bottom up Les donn es sur la qualit pourraient l inverse et de fa on compl mentaire tre document es un niveau plus g n ral par des experts puis tre propag es des niveaux de d tails plus fins c d approche top down Cette approche est bri vement pr sent e dans le chapitre 5 mais n a pas t impl ment e dans le prototype MUM Cette approche pourrait per
122. e la derni re d cennie entre autres en raison de l accroissement de la diffusion des donn es entre organisations Goodchild 1995 Chrisman 1999 Veregin 1999 Le concept d ad quation l utilisation fitness for use introduit en 1982 par la norme am ricaine NCDCDS et par Chrisman 1983 dans la communaut de l information g ographique est aussi maintenant largement adopt par cette communaut comme 26 d finissant le concept de qualit Veregin 1999 Cependant l utilisation du concept de qualit dans les travaux scientifiques est souvent contradictoire le concept tant souvent d fini dans un premier temps par fitness for use puis employ par la suite en ne consid rant que le seul aspect de pr cision spatiale Le comit de normalisation en g omatique ISO TC 211 reprend pour les donn es g ographiques la m me d finition g n rale de la qualit donn e par PISO 9000 B dard et Valli re 1995 pr cisent cette d finition en y ajoutant le contexte d utilisation d finissant la qualit comme tant l ensemble des caract ristiques qui la rendent la donn e r f rence spatiale apte satisfaire les besoins d finis par un utilisateur dans le cadre d une application pr cise La dualit de point de vue entre producteurs et utilisateurs de donn es vis vis du concept de qualit appara t galement dans le domaine spatial Frank 1998 Tastan et Altan 1999 Bien que la qualit
123. e repr sentation l chelle 1 1 de la r alit Bien qu une carte cette chelle serait relativement exacte elle n aurait que peu d utilit tant donn que l un des objectifs initial des cartes et de communiquer une repr sentation simplifi e c d un mod le de la r alit Le processus d abstraction est donc une premi re source de diff rence entre des donn es produites selon un certain processus d abstraction et des donn es d sir es par l utilisateur pour une application donn e B dard 1987 Une seconde source de diff rence est caus e par des erreurs qui peuvent affecter les donn es tout au long de leur processus de production Les sources d erreur des donn es g ospatiales sont souvent classifi es en deux 16 types les erreurs d acquisition et les erreurs de traitement Beard 1989 ces deux classes tant ensuite souvent divis es en sous classes L introduction et la propagation d erreurs dans les donn es sont par exemple reli es aux proc dures de collecte des donn es ex pr cision des instruments erreurs de calibrage erreurs de manipulation ou a leur transformation en des donn es utilisables ex num risation vectorisation g n ralisation interpolation conversion de formats 2 1 2 Incertitude et prise de d cision Les donn es r f rence spatiale sont de plus en plus utilis es comme support la prise de d cision dans un nombre croissant de domaines d
124. ecture of this prototype the quality indicators that make the multidimensional data structure and how experts can navigate into quality information 5 6 1 Prototype architecture The prototype was developed using four commercial off the shelf software driven by a unique user interface developed in Visual Basic fast and easy for prototyping which integrates the different mapping and database technologies cf Figure 25 These four main technologies are Microsoft SQL Server Analysis Services this is the OLAP server that provides multidimensional database management functionalities with the MDX language Microsoft Access this popular relational database management system is used to store user profiles and multidimensional indicators name and characteristics Proclarity this OLAP client software provides query and navigation functions e g drill down and roll up operators that allow users to explore the quality data stored into SQL Server Intergraph Geomedia Professional this Geographical Information System GIS software provides map viewing functions such as Zoom In Zoom Out Pan Fit all and other tools allowing the creation of quality maps 118 Application Metadata OLAP cube aggregated data Single User Interface Visual Basic Proclarity amp GeoMedia Application Data Quality expert or Indicators definitions expert user User profile Figure 25 MUM prototype general
125. eledge 1998 Elshaw Thrall S Thrall G I Desktop GIS software Geographical Information Systems P A Longley M F Goodchild D J Maguire et D W Rhind Eds John Wiley amp Sons New York p 331 345 1999 Epstein E F Hunter G J Agumya A Liability insurance and the use of geographical information International Journal of Geographical Information Science vol 12 n 3 1998 p 203 214 12 Gervais M Pertinence d un manuel d instructions au sein d une strat gie de gestion du risque juridique d coulant de la fourniture de donn es g ographiques num riques Th se de doctorat D partement des Sciences G omatiques Universit Laval Qu bec 2004 Goodchild M F Sharing Imperfect Data Sharing Geographic Information H J Onsrud et G Rushton Eds Rutgers University Press New Brunswick NJ p 413 425 1995 Guptill S C Metadata and data catalogues Geographical Information Systems P A Longley M F Goodchild D J Maguire et D W Rhind Eds John Wiley amp Sons Inc p 677 692 1999 Hunter G J Managing uncertainty in GIS Geographical Information Systems P A Longley M F Goodchild D J Maguire et D W Rhind Eds John Wiley amp Sons Inc p 633 641 1999 Hunter G J Spatial Data Quality Revisited Proceedings of Geolnfo 2001 Rio de Janeiro Br sil 4 5 octobre 2001 p 1 7 L tourneau F B dard Y Moulin B Perspectives d utilisation du concept d entrep t de donn
126. els of detail for different features depending on the needs We also believe based on Gervais work 2004 that legal obligations may force data producers and GIS officers to have such detailed information at hand In fact this already exists in legally bounded professional activities such as cadastral surveying property assessment road building and other activities where the quality of information is analyzed on a case by case basis Accordingly this section provides a brief overview of the literature in terms of geospatial metadata levels of detail looking at metadata standards academic research and practical illustrations from the Canadian National Topographic Database NTDB metadata Some authors suggested hierarchies aiming at managing geospatial quality information at different levels of detail B dard and Valli re 1995 Faiz 1996 1999 Qiu and Hunter 1999 2002 ISO 19115 standard 2003 provides a framework for encoding metadata for the purpose of search and retrieval metadata exchange and presentation This standard proposes a hierarchy that can be used to store metadata at different levels of detail This hierarchy may assist in filtering or targeting users queries to the requested level of detail The ISO hierarchy goes further than those of Qiu and Hunter s by allowing the association of metadata to attributes attribute type and instance ISO TC 211 2003 metadata levels are Data series A series or collection o
127. ent repr senter diff rents types d information tant quantitatifs que qualitatifs Il est pr f rable de fournir des indicateurs flous ie de pr cision limit e Fernandez 2000 tels qu un intervalle de valeurs ou une chelle qualitative car des valeurs trop pr cises encourageraient l utilisateur se concentrer sur la valeur et non sur sa signification dans une perspective globale Diverses repr sentations peuvent tre utilis es pour visualiser la valeur d un indicateur telles que des nombres symboles ic nes pictogrammes tables graphiques textes sons images etc Il est galement possible d utiliser des fen tres pop up alarmes visuelles ou sonores etc qui sont souvent des fa ons efficaces de capter l attention des utilisateurs afin qu ils se concentrent sur l essentiel 58 3 5 Tableaux de bord et indicateurs pour la prise de d cision g ospatiale 3 5 1 Tableaux de bord et syst me MUM Les tableaux de bord de gestion se rattachent au domaine du support a la prise de d cision et de mani re plus sp cifique du Business Intelligence Certains travaux ont t faits pour adapter des outils du Business Intelligence dans le domaine de la g omatique tels que pour le Data Mining Spatial le SOLAP Spatial On Line Analytical Processing et les entrep ts de donn es g ospatiales Miller et Han 2001 Rivest et al 2001 Plusieurs logiciels d velopp s pour le domaine du Business Intelligence
128. eospatial Metadata Workbookversion 2 103 Frank A 1998 Metamodels for Data Quality Description Data Quality in Geographic Information From Error to Uncertainty M F Goodchild and R Jeansoulin editors Editions Hermes pp 192 Gervais M 2004 La pertinence d un manuel d instruction au sein d une strat gie de gestion de risque juridique d coulant de la fourniture de donn es g ographiques num riques Ph D thesis Universit Laval Qu bec Gervais M R Devillers Y B dard and R Jeansoulin 2001 GI Quality and decision making toward a contextual user manual Proceedings of Geolnformation Fusion and Revision Workshop April 9 12 Quebec city Canada Goodchild M F 1995 Sharing Imperfect Data Sharing Geographic Information H J Onsrud and G Rushton editors Rutgers University Press New Brunswick NJ pp 413 425 Guptill S C and J L Morrison 1995 Elements of spatial data quality Elsevier Science New York 202 p Harvey F 1998 Quality Needs More Than Standards Data Quality in Geographic Information From Error to Uncertainty M F Goodchild and R Jeansoulin editors Editions Hermes pp 192 Hunter G J 2001 Spatial Data Quality Revisited Proceedings of Geolnfo 2001 4 Sth October Rio de Janeiro Brazil pp 1 7 Hunter G J and K J Reinke 2000 Adapting Spatial Databases to Reduce Information Misuse Through Illogical Operations Proceedings of 4th International Symp
129. es de la qualit sous la forme d indicateurs qui sont affich s dans un tableau de bord ou repr sent s sur une base cartographique L usager peut s lectionner les indicateurs dont il a besoin parmi un ensemble d indicateurs disponibles choisir un type de repr sentation et d finir un niveau de risque qu il est pr t prendre Le syst me lui offre diff rents op rateurs lui permettant de naviguer dans ces informations diff rents niveaux de d tails Une repr sentation cartographique des 132 indicateurs est galement propos e et permet de mieux appr hender l h t rog n it spatiale de la qualit L objectif principal de la th se tait de proposer une nouvelle approche permettant de g rer des donn es d crivant la qualit des donn es qu un usager manipule et de les diffuser sous une forme plus compr hensible a des usagers experts ou des experts en qualit de donn es g ospatiales Cet objectif a donc t atteint Les deux sous objectifs de la th se ont t atteints et les travaux ayant permis de les atteindre sont pr sent s dans les chapitre 3 puis 4 et 5 respectivement Notre hypoth se de d part tait il est possible de fournir aux utilisateurs experts ou aux experts en qualit des indicateurs renseignant sur les diff rentes caract ristiques de la qualit Ces indicateurs de qualit peuvent tre communiqu s de mani re contextuelle et a diff rents niveaux de d tails et
130. es situ s au centre des processus de prise de d cision en supportant les intuitions des d cideurs L objectif d un indicateur est de mesurer une situation et d initier une r action du d cideur la r action pouvant tre de ne rien faire Le syst me doit fournir un ensemble d indicateurs que les usagers peuvent adapter a leurs contextes si besoin ou des indicateurs pouvant tre partag s a l int rieur d une m me communaut d utilisateurs Il devrait aussi permettre aux d cideurs de cr er leurs propres indicateurs et r gles pour les calculer La valeur d un indicateur peut tre bas e sur une donn e unique ou r sulter d un calcul impliquant plusieurs donn es Ces donn es doivent tre techniquement accessibles Elles peuvent tre d j disponibles dans une base de donn es accessible ou provenir d autres sources telles que des opinions d experts ou de coll gues Comme les donn es sont valides pour une certaine dur e dans le temps life time leur actualit doit tre prise en consid ration Les caract ristiques des indicateurs peuvent tre d crites sur une feuille d indicateurs que les utilisateurs peuvent consulter et modifier si n cessaire Cette feuille peut fournir par exemple de l information sur la d finition de l indicateur ses repr sentations possibles sur les consid rations reli es son utilisation et interpr tation ses m canismes de validation etc Les indicateurs peuv
131. es sont utilis es accroissent significativement les risques de mauvaises utilisations de ces donn es Epstein et al 1998 Ainsi Goodchild 1995 dit que les SIG sont leurs propres ennemis en invitant les gens trouver de nouvelles utilisations des donn es cela les invite aussi tre irresponsables dans leur utilisation traduction libre Des cas de mauvaises utilisations sont fr quemment cit s dans les revues scientifiques les m dias et les cas de jurisprudence Blackmore 1985 Beard 1989 Goodchild et Kemp 1990 Monmonier 1994 Curry 1998 Gervais 2004 Beard 1989 identifie les mauvaises utilisations de donn es g ospatiales comme tant des erreurs d utilisation use error les ajoutant aux deux types d erreur fr quemment mentionn s les erreurs d acquisition et les erreurs de traitement source errors et process errors Cette probl matique favorise l mergence de travaux visant offrir des SIG pouvant prendre en compte la qualit des donn es manipul es quality aware ou error aware GIS Buttenfield 1993 Duckham et McCreadie 1999 47 Faiz 1999 Hunter et Reinke 2000 Duckham et McCreadie 2002 Gan et Shi 2002 Qiu et Hunter 2002 Reinke et Hunter 2002 Le probl me est approch de diff rentes mani res souvent compl mentaires les unes des autres Hunter et Reinke 2000 proposent de fournir des avertissements aux utilisateurs de SIG lorsque ceux ci effectuent des op rations 1llog
132. esse ajouter de l huile ou s arr ter prendre de l essence 56 Un tableau de bord de gestion est d fini par Voyer comme une fa on de s lectionner d agencer et de repr senter des indicateurs essentiels et pertinents de fa on sommaire et cibl e fournissant la fois une vision globale et la possibilit de forer dans les niveaux de d tail Voyer 2000 p 39 Dans le domaine des syst mes de support la prise de d cision les tableaux de bord de d cision executive dashboard sont aussi nomm s scorecard balanced scorecard scoreboard steering panel ou control panel Les tableaux de bord se concentrent surtout sur la qualit de l information et non sur sa quantit Ils repr sentent les indicateurs de fa on compr hensible suggestive et attractive afin de faciliter leur visualisation Ils pr sentent un aper u repr sentatif de la situation permettant ensuite d acc der aux donn es plus d taill es au besoin Le tableau de bord doit tre contextuel le d cideur pouvant s lectionner ses propres indicateurs avec la repr sentation qu il pr f re afin de produire son tableau de bord personnalis De nombreuses organisations utilisent des tableaux de bord Par exemple le gouvernement canadien encourage l utilisation d indicateurs dans son administration Les grandes compagnies comme les banques et les compagnies d assurances utilisent des indicateurs Les grands organismes internationaux
133. et ainsi am liorer la qualit interne des donn es produites Qiu et Hunter 1999 et 2002 pr sentent eux aussi un mod le permettant la gestion de m tadonn es sur la qualit diff rents niveaux de d tails Se basant sur la base de donn es topographique australienne au 250K ils identifient quatre niveaux de d tails data set data layer feature class et feature Dans ce mod le chaque objet de niveau d taill h rite des attributs de ses parents h ritage en Orient Objet Les auteurs pr sentent un prototype impl mentant leurs concepts en couplant la base de donn es MS Access et le SIG ArcView permettant ainsi le stockage l acc s la mise jour et la visualisation des informations sur la qualit B dard et Valli re 1995 proposent une m thode permettant d agr ger six caract ristiques d crivant la qualit de donn es attribut g om trie et existence en instances d objets classes et jeux de donn es La norme 19114 de l ISO TC 211 2003 propose un cadre g n ral pour encoder les m tadonn es dans un but de recherche d change et de pr sentation des m tadonn es Ils proposent une hi rarchie pouvant tre utilis e pour stocker les m tadonn es diff rents niveaux de d tails Cette hi rarchie peut aider filtrer ou pr ciser des requ tes des utilisateurs pour un niveau de d tail d sir La hi rarchie ISO va plus loin que celles de Faiz ou Qiu et Hunter en permettant d associer
134. evels of a dimension hierarchy are either aggregations of the primitive values or raw data if information was only available at more general levels e g average quality of lakes without detailed information about the quality of individual lakes Different aggregation operators available in multidimensional database systems such as minimum average or maximum values can be used depending on user preferences Other more complex operators can also be implemented and made available to users e g categorizing above under quadratic mean square to support a more global analysis of quality information The members of the Analyzed Data dimension are grouped in the following levels e Primitive this level can be either geometric geometric primitives such as points or lines or semantic semantic value For instance several geometric primitives can compose an object instance such as a cadastral parcel composed of several lines each line being defined by at least two points As these points can be acquired at different dates or using different technologies the primitives of a same object instance can have different quality levels e g quality related to a point located by GPS or to the value commercial of the attribute Type describing a building e Object instance this level provides all the quality information geometric and semantic related to a single instance of object recorded in the dataset e g Beaver Lake
135. exp rience et le r f rentiel de valeurs du d cideur 4 selon ses motivations 5 en fonction de la mesure des risques et 6 selon les moyens conf r s et disponibles Bas sur des observations pratiques de diff rents types de d cideurs Klein 1999 affirme que l intuition et les simulations mentales sont centrales dans la prise de d cision bas es respectivement sur l exp rience et l imagination Il explique que l intuition d pend de l usage de l exp rience pour reconna tre des patrons cl s indiquant la dynamique de la situation Klein 1999 p 31 traduction libre Le mod le RPD de Klein Recognition Primed Decision offre un cadre th orique pour les processus de prise de d cision Ce mod le souligne l importance des indices pertinents qui aident les d cideurs reconna tre une situation vitant une surcharge possible d information Fernandez 2000 diff rencie la d cision du calcul D un c t le calcul permet le choix d une bonne solution rationnelle et est automatisable De l autre la d cision est bas e sur 52 des informations incertaines impr cises et insuffisantes mettant en jeu le contexte les acteurs et la situation Cette incertitude peut apparaitre a diff rents niveaux Le concept d incertitude ainsi que d autres termes li s au domaine de la qualit est pr sent entre autres plus pr cis ment dans un article de Fisher 1999 Quand une personne fait
136. f spatial data which share similar characteristics of theme source date resolution and methodology E g A collection of raster map data captured from a common series of paper maps Dataset Consistent spatial data product instance that can be generated or made available by a geospatial data distributor 85 Feature type Spatial constructs known as features are groups of spatial primitives 0 1 and 2 dimensional geometric objects that have a common identity E g All bridges within a dataset Feature instance Spatial constructs features that have a direct correspondence with a real world object E g The Golden Gate bridge Attribute type Digital parameters that describe a common aspect of grounded spatial primitives 0 1 and 2 dimensional geometric objects E g Overhead clearance associated with a bridge Attribute instance Digital parameters that describe an aspect of the feature instance E g The overhead clearance associated with a specific bridge across a road Hierarchies can also be identified within metadata provided by data producers For instance the Canadian National Topographic Database NTDB metadata has four explicit levels of detail dataset metadata polygon theme and geometric primitive the latest being directly stored in the data file as attributes Therefore several hierarchies were proposed in the literature If most of them agree on the general levels e g dataset feature type an
137. face a de l incertitude lors d un processus de prise de d cision et est consciente du type d incertitude et de son importance il peut choisir entre 1 ne rien faire 2 essayer de r duire cette incertitude ou 3 prendre la d cision et accepter les cons quences possibles absorbant ainsi cette incertitude B dard 1987 Epstein et al 1998 sugg rent de r duire l incertitude en 1 obtenant plus d information et ou 2 am liorant la qualit de l information disponible L incertitude r siduelle alors absorb e est alors la source du risque reli l utilisation de cette information B dard 1987 Epstein et al 1998 Le niveau de risque acceptable d pend du d cideur de l application ou du contexte institutionnel Les d cisions sont donc toujours bas es sur des informations incertaines et incompl tes Les d cideurs ont alors le choix entre prendre la d cision en acceptant l incertitude r siduelle ou collecter de nouvelles informations pour diminuer cette incertitude Ceux ci utilisent des indices ou indicateurs afin de caract riser une situation diminuer l incertitude et donc orienter leur d cision 3 3 3 Communication de l information sur la qualit des donn es g ospatiales Les producteurs de donn es fournissent de plus en plus souvent des m tadonn es documentant diff rents aspects des jeux de donn es afin de renseigner les utilisateurs sur les caract ristiques des donn es qu
138. feux de circulation des compteurs de vitesse des smiley etc Ces indicateurs g n ralement binaires ou ternaires permettent de repr senter un indicateur passant un message du type go no go ou mauvais moyen bon Les utilisateurs doivent avoir acc s des descriptions des indicateurs propos s Un exemple de fiche descriptive d indicateurs est pr sent sur la Figure 13 Cette fiche permet la description de diff rents aspects de l indicateur tels que D finition signification de l indicateur M thode utilis e pour calculer la valeur de l indicateur Mode de repr sentation ex valeur simple feux de circulation smiley Importance de l indicateur pour l utilisateur 65 ioj x Indicator Completeness Description Definition Importance level Level of completeness of the data including both omission Average v data absent from the dataset and comission excess data present in the dataset Measure value calculation formula Reference to Average of indicators of the 4th level composing it omission and commission Remarks Data type a Representation shape Hebe Indicator interpretation and utilization management concerns warnings This indicator is important when counting objects ex how many building are in a certain area a Figure 13 Exemple de fiche descriptive d un indicateur de qualit 3 5 3 Prototype du syst me MUM Un prototype du syst me MUM Manuel
139. g facts each fact containing measures resulting from the intersection of all dimensions at a given level in their hierarchy see for instance Berson and Smith 1997 Multidimensional database approaches appeared in the early eighties Rafanelli 2003 and numerous books and papers have been published on 115 this vast topic especially after it became popular in the mid nineties thanks to Codd 1993 who clearly explained the superiority of multidimensional databases over relational databases when the users need to interactively analyse large volumes of data They now represent a very important aspect of decision support database techniques which were considered in the field of GIS only recently see for instance Miller and Han 2001 B dard et al 2003 Multidimensional databases are very well suited to facilitate quality analysis in data rich GIS applications since they are built especially to query data at different levels of granularity avoiding information overload while allowing targeted drilling to provide fast results from complex queries on large volumes of data do not interrupt users train of thought and to allow an intuitive navigation into summarised or detailed interrelated information using different operators providing interaction with the system In the chapter 4 we presented a model named QIMM allowing the management of quality information within a multidimensional database model Quality information stored into the Q
140. gional analysis a synthesis Annals of the Association of American Geographers vol 54 1964 p 2 11 Bertin J S miologie graphique les diagrammes les r saux les cartes Paris Mouton Gauthier Villars Bordas 1973 Box G E P Science and statistics Journal of the American Statistical Association vol 71 1976 p 791 799 Brodeur J B dard Y Edwards G Moulin B Revisiting the Concept of Geospatial Data Interoperability within the Scope of Human Communication Processes Transactions in GIS vol 7 n 2 2003 p 243 265 Burrough P A Development of intelligent geographical information systems International Journal of Geographical Information Systems vol 6 n 1 1992 p 1 11 39 Buttenfield B Beard K M Graphical and Geographical components of Data Quality Visualization in Geographic Information Systems H M Hearnshaw et D J Unwin Eds Wiley p 150 157 1994 Buttenfield B P Representing Data Quality Cartographica vol 30 n 2 3 1993 p 1 7 Buttenfield B P Beard K Visualizing the quality of spatial information Proceedings of AUTO CARTO 10 1991 p 423 427 Charron J D veloppement d un processus de s lection des meilleures Sources de donn es cartographiques pour leur int gration a une base de donn es a r f rence spatiale M moire Universit Laval Qu bec 1995 Chrisman N R The Role of Quality information in the Long Term Functioning of a Geographical
141. gregation B dard et al 2003 Marchand et al 2003 It appears natural to implement our data quality approach into existing decision support technologies such as SOLAP because of the spatial heterogeneity inherent to geospatial data and of the increased facility to display and explore quality information cf maps with tables statistical charts and semantic trees that can be drilled down or up with a single click of the mouse OLAP structures are opposed to the traditional OLTP On Line Transactional Processing structures The OLTP systems are classical databases implemented to manage transactions such as bank transactions and are oriented towards data processing tasks entering storing updating integrity checking securing and simple querying of data usually at the level of detail they were collected In contrast OLAP systems are oriented towards supporting organizational decision making by providing aggregated data for both present and historical data Berson and Smith 1997 OLAP tools rely on multidimensional data models also called data cubes or hypercubes which are based on several fundamental concepts such as dimensions members measures and facts Dimensions represent the different themes or thematic axes from which a user can analyze the data thus differing from the typical X Y Z and T axes commonly used in GIS Dimensions include members organized into hierarchies Each dimension can have different levels of detail
142. his paper proposes a conceptual framework named the Quality Information Management Model QIMM relying on quality dimensions and measures This allows a user to easily and rapidly navigate into the quality information using a SOLAP Spatial On Line Analytical Processing client tied to its GIS application The potential of the QIMM potential is illustrated by different examples and the presentation of a prototype Finally we present ways to communicate data quality information to users 4 3 Introduction The context in which geospatial data is used has changed significantly during the past decade Users have now easier access to geospatial data and GIS applications especially through the web As the use of GIS applications was formerly almost restricted to geospatial experts it is 76 now frequent that users with a limited expertise in the geospatial domain use geospatial data Although this is a positive evolution in general one problem has emerged today s typical geospatial data users have less knowledge in the geographical information domain Agumya and Hunter 1997 Aalders and Morrison 1998 Curry 1998 Consequently their knowledge about the risks related to the use of geospatial data is limited Goodchild 1995 Agumya and Hunter 1997 Curry 1998 Elshaw Thrall and Thrall 1999 In that sense Goodchild 1995 argues that GIS is its own worst enemy by inviting people to find new uses for data it also invites them to be irresponsi
143. ier in the 100 paper Using them users can get different quality information e g spatial accuracy logical consistency temporal accuracy for an area of interest and identify areas having higher quality than others This allows users to get better information on the spatial heterogeneity of quality information 4 8 Conclusion and perspectives This paper provided an innovative approach to manage geospatial data quality information based on a multidimensional data management approach We first highlighted the need to structure quality information in order to provide meaningful and contextual information to geospatial data users The concepts of Passive Dynamic and Proactive Multidimensional User Manuals MUM were introduced We presented different works published by standardization and academic bodies classifying data quality into several categories Several works that aimed at recording data quality at different levels of detail were afterwards discussed Based on the literature we presented a conceptual framework named QIMM allowing the management of quality information at different levels of detail and using a multidimensional database approach QIMM dimensions i e quality indicators and data and measures were defined and illustrated Examples of user navigation into quality information were provided to illustrate this approach Different kinds of quality information visualization were presented and discussed Finally a prototype base
144. iff rentes tapes que suivent les informations sur la qualit de l valuation de la qualit interne menant la production de m tadonn es leur gestion puis leur communication Nous avons ainsi montr que les informations fournies par les producteurs de donn es c d m tadonn es sont dans leur forme actuelle d une aide tr s limit e mais qu elles peuvent servir de base des m thodes plus efficaces de communication des informations sur la qualit Nous avons montr que pour cela ces informations devraient tre stock es diff rents niveaux de d tails afin de pr server leur richesse et qu elles doivent par la suite tre communiqu es aux usagers sous la forme de repr sentations intuitives et permettant aux usagers d interagir avec le syst me Finalement nous avons pr sent dans la section 2 4 un aper u de m thodes allant tre utilis es dans cette th se soit les tableaux de bord et les indicateurs pour la communication de l information sur la qualit et les bases de donn es multidimensionnelles et les outils SOLAP pour la gestion de ces informations 38 2 6 R f rences Aalders H J G L The Registration of Quality in a GIS Spatial Data Quality W Shi P Fisher et M F Goodchild Eds Taylor amp Francis p 186 199 2002 Agumya A Hunter G J Determining fitness for use of geographic information ITC Journal vol 2 n 1 1997 p 109 113 Beard K Use error the neglec
145. ignant des concepts et du vocabulaire reli aux donn es g ospatiales Ceci augmenterait la connaissance des utilisateurs accroissant leur expertise et donc les connaissances communes entre producteurs et utilisateurs Toutefois cela signifie faire devenir experts des utilisateurs non experts 3 Approche orient e producteurs L inverse serait d accroitre le cadre de r f rence des producteurs e g essayer de vulgariser le vocabulaire technique des m tadonn es accroissant ainsi les connaissances communes Certaines normes recommandent une telle approche en encourageant l utilisation de vocabulaire non technique et les descriptions en 55 texte libre afin de rendre plus accessible la compr hension des m tadonn es Toutefois cela repr sente un travail additionnel de la part des producteurs de donn es et demeure souvent insatisfaisant en regard de la compr hension des utilisateurs Ce probl me est semblable des probl mes de communication classiques entre deux individus ne parlant pas la langue de l autre ex un chinois et un fran ais Les cas 2 et 3 signifient qu une des deux personnes apprend le langage de l autre Toutefois comme cela requi re des ressources consid rables temps et souvent argent il est fr quent de faire appel une troisi me personne connaissant les deux langages pour traduire le message 4 Action externe Ce cas en linguistique correspond au r le du traducteur qui est
146. imit Permet d valuer la reconnaissance officielle et la port e l gale d une donn e et si elles rencontrent les besoins standards de facto respect de normes reconnues reconnaissance l gale ou administrative par un organisme officiel garantie l gale par un fournisseur etc Accessibilit Permet d valuer la facilit avec laquelle l usager peut obtenir la donn e analys e co t d lai format confidentialit respect des normes reconnues droits d auteur etc Documentation et communication de la qualit Diff rentes tapes doivent tre effectu es avant de pouvoir utiliser des informations sur la qualit des donn es au sein d un processus de prise de d cision Cette section pr sente succinctement ces tapes soit 1 l valuation de la qualit des donn es 2 la gestion des informations d crivant la qualit des donn es puis 3 la communication de ces informations aux utilisateurs des donn es 29 2 3 1 Evaluation et documentation de la qualit interne Afin d valuer la qualit interne de jeux de donn es les producteurs de donn es doivent comparer les donn es produites aux donn es qui auraient d tre produites c d donn es produites sans erreurs cf Figure 7 Ces donn es id ales sont souvent nomm es terrain nominal ou univers du discours le terrain nominal tant d fini par David et Fasquel 1997 comme une image de l univers une da
147. impf S Raubal M Kuhn W Experiences with Metadata Proceedings of Symposium on Spatial Data Handling SDH 96 Advances in GIS Research II Delft The Netherlands 12 16 ao t 1996 IGU p 12B 31 12B 43 Voyer P Tableaux de bord de gestion et indicateurs de performance Presse de l Universit du Qu bec 2000 Chapitre 4 Gestion de l information sur la qualit des donn es Multidimensional management of geospatial data quality information for its dynamic use within Geographical Information Systems R Devillers Y B dard et R Jeansoulin Photogrammetric Engineering and Remote Sensing sous presse publication pr vue f vrier 2005 4 1 R sum de l article Les m tadonn es actuellement distribu es devraient permettre aux usagers d valuer la qualit fitness for use des donn es g ospatiales r duisant ainsi les risques de mauvaise utilisation des donn es Toutefois les m tadonn es pr sentent des limitations et demeurent largement inutilis es Il existe toujours un besoin de fournir aux utilisateurs des informations sur la qualit de mani re plus compr hensible Cette recherche a pour objectif de communiquer de fa on dynamique l information sur la qualit de fa on rapide et intuitive afin de r duire la m ta incertitude qu ont les utilisateurs concernant la qualit des donn es 75 g ospatiales et ainsi r duire les risques de mauvaise utilisation des donn es Une telle soluti
148. ion already available in other sections of metadata standards e g data coverage or spatial reference systems or information which is not at all available in today s metadata e g accessibility believability 4 7 1 Multidimensional Databases OLAP and SOLAP In the database field multidimensional databases such those used in On Line Analytical Processing OLAP are well suited for managing information at different levels of detail Notice that the term multidimensional is used in this paper according to its definition in the database field and is not restricted to spatial and temporal dimensions x y z and t Multidimensional databases are a component of data warehouses designed to support data analyses at strategic and tactical levels of organizations They are opposed to the traditional transactional databases that focus on organization transactions In the context of data warehouse implementation multidimensional databases do not replace transactional databases but are complementary by using them as data sources OLAP systems are tools enabling users to explore navigate within organizational data structured into a multidimensional database OLAP introduced by Codd 1993 is extensively documented in the database and Business Intelligence fields CompInfo 2003 defines OLAP tools as a category of software technology that enables analysts managers and executives to gain insight into data through fast consistent intera
149. iques Cette approche utilisant une base de r gles s adresse aux probl mes r sultant de la manipulation de donn es avec les fonctions des SIG Cette approche est de notre point de vue n cessaire mais n apporte qu une solution partielle au probl me En effet beaucoup d utilisateurs emploient les SIG des fins de visualisation sans utiliser d op rateurs d analyse Lardon et al 2001 Roche 2001 L utilisateur du SIG peut ainsi effectuer des analyses de fa on cognitive comme identifier visuellement le chemin suivre entre deux points de la carte localiser la borne fontaine la plus proche d un b timent ou encore compter le nombre de b timents bordant une certaine rivi re Dans ces cas des messages d avertissement communiqu s automatiquement ne pourraient pas pr venir les mauvaises utilisations D autre part la base de r gles n cessaire serait difficilement exhaustive coh rente et adapt e aux diff rents profils des utilisateurs certaines r gles pouvant par exemple tre contextuelles l expertise ou au domaine d application des utilisateurs Cette approche ne peut donc pas prendre en compte tous les types de mauvaises utilisations Diff rentes solutions peuvent alors tre explor es pour r duire les risques de mauvaises utilisations des donn es g ospatiales Par exemple Krek et Frank 1999 recommandent la cr ation de jeux de donn es cr s sp cifiquement pour certains types d utilisation ex
150. is prototype was meant as a proof of the applicability of the proposed concepts concepts which are considered the important results of this research As such the prototype only includes a subset of the possible functions that such a system could provide A validation of the approach was done through demonstrations of the prototype to different types of people from various domains GIS scientists including specialists in data quality issues consultants in GIS data producers governmental agencies typical GIS users etc 125 Such presentations of the project were performed since the early stages of the project in order to get an early feedback from potential users and then adapt the project in consequence The different users expressed an interest in this approach and found it much more efficient than current metadata to increase users knowledge about data quality and then help to assess the fitness of data for certain use Different aspects of this research can be further explored in future research works such as improving the model of user s needs profile and formalise integrate expert opinions into the QIMM model Finally it is worth mentioning that once quality information is stored in such a structured database with different levels of detail quality information then becomes easily accessible and can be used to enhance many other aspects of a GIS application This represents a step towards the creation of quality aware GIS
151. ith a GIS tool to provide results adapted to the data manipulated for the area of interest i e this is a research perspective Both points would help reducing the risk of misuse and then reduce the occurrence of adverse consequences During the past decade several research projects have focused on ways to better communicate quality uncertainty error information through for instance visualisation techniques Buttenfield and Beard 1991 Beard and Mackaness 1993 Buttenfield 1993 McGranaghan 1993 Buttenfield and Beard 1994 Fisher 1994 Beard 1997 Beard and Buttenfield 1999 Leitner and Buttenfield 2000 Drecki 2002 or the communication of visual or audio warnings to users Fisher 1994 Hunter and Reinke 2000 Reinke and Hunter 2002 However none of these techniques is yet implemented into commercial GIS although a few can easily be implemented within a GIS application Furthermore none of these techniques allows users to navigate intuitively into various categories of quality information from one quality characteristic to another and from one level of detail to another Finally these approaches are not supported by an analytical data structure typical of modern decision support technologies such as Dashboards On Line Analytical Processing OLAP datamarts and data mining which are capable of managing producing analysing and communicating information at different levels of detail 112 5 5 Quality indicators and Quality Info
152. ity Classification correctness Thematic accuracy Hon quantitative attribute correctness Quantitative attribute correctness Data producer reputation cale Spatial extent Other Quality Indicators Fo Temporal extent Timeliness Legal constraints Figure 18 Example of an indicator hierarchy Each indicator is a member of the Quality Indicator Dimension Figure 17 presents four levels of detail as an example but the number of levels of detail can be different according to the user s preferences The indicator hierarchy does not have to be balanced For instance an indicator located on the second level of detail may not be composed of more detailed indicators on the third and fourth levels Figure 18 provides an example of an indicator hierarchy mainly based on ISO TC 211 19113 and 19115 standards Users can define their own indicator hierarchy by selecting pre defined indicators within a database or defining new ones The global indicator is the most general quality indicator It is 91 an aggregation of all first level indicators and provides an insight on the overall data quality On the other side the more detailed level is raw quality information obtained for instance from metadata The Analyzed Data dimension The Analyzed Data dimension follows the structure of geospatial data see an example on Figure 19 In this model quality information is associated with detailed values e g primitive values Other l
153. l Accuracy Assessment Land Information Uncertainty in Natural Resources K Lowell and A Jaton Eds Quebec p 3 10 1999 Navratil G How Laws affect Data Quality Proceedings of Third International Symposium on Spatial Data Quality Bruck an der Leitha Austria Geolnfo Series p 37 47 2004 Newell A Unified theories of cognition Cambridge Harvard University Press 1990 Obermeyer N J Measuring the benefits and costs of GIS Geographical Information Systems P A Longley M F Goodchild D J Maguire and D W Rhind Eds John Wiley amp Sons Inc p 601 610 1999 Office qu b cois de la langue fran aise 2004 www olf gouv qc ca Onsrud H J Liability in the use of GIS and geographical datasets Geographical Information Systems P A Longley M F Goodchild D J Maguire and D W Rhind Eds John Wiley amp Sons Inc p 643 652 1999 Pang A Visualizing Uncertainty in Geo spatial Data Proceedings of Workshop on the Intersections between Geospatial Information and Information Technology for the National Academies committee of the Computer Science and Telecommunications Board Arlington USA p 1 14 2001 Paradis J Beard K Visualization of Spatial Data Quality for the Decision Maker A Data Quality Filter URISA Journal vol 6 n 2 1994 p 25 34 Peterson L R Peterson M J Short Term Retention of Individual Verbal Items Journal of Experimental Psychology vol 58 n 3 1959
154. la forme de texte libre afin d en faciliter le traitement en fonction d une pr sentation finale par exemple sous la forme de cube Elles devraient d crire les donn es diff rents niveaux de d tails afin de permettre une communication plus pr cise et donc plus riche des informations sur la qualit La technologie SOLAP ouvre de nouvelles possibilit s pour la gestion et l exploration des donn es de qualit Les bases de donn es multidimensionnelles sont en effet adapt es la gestion d informations sur la qualit celles ci pouvant tre document es diff rents niveaux de d tails Les op rateurs de type SOLAP ex drill down spatial roll up th matique permettent de naviguer intuitivement dans l information sur la qualit tout en vitant une surcharge d information De plus les performances offertes par les outils de type SOLAP rencontrent des crit res cognitifs en terme de temps de r ponse des diff rents op rateurs 135 Les indicateurs peuvent tre avantageusement adapt s au domaine de la g omatique comme outils de support a la prise de d cision Ces outils peuvent tre int gr s dans des logiciels de cartographe existants e g SIG SOLAP peuvent tre adapt s en fonction des besoins et apportent une solution int ressante pour communiquer de larges volumes de m tadonn es sans surcharger l utilisateur d information Le MUM communique l information sur la qualit de mani re plus effi
155. la qualit des donn es aux utilisateurs du syst me Les indicateurs permettent d appr hender l information sur la qualit des donn es de mani re contextuelle par le biais d une s lection des indicateurs dans une base de donn es d indicateurs pr d finis Les indicateurs organis s hi rarchiquement sont affich s dans un tableau de bord int gr l interface du SIG la mani re des SOLAP vitant ainsi de communiquer un volume trop important d information aux utilisateurs Les principales caract ristiques que devrait poss der le syst me utilisant les tableaux de bord sont identifi es Les indicateurs sont pr sent s comme un type d avertissement fait aux utilisateurs et une classification de ces avertissements est propos e identifiant deux types d indicateurs soit les indicateurs de statut et de risque 131 Le chapitre 4 a pr sent un mod le multidimensionnel permettant la gestion des donn es sur la qualit diff rents niveaux de d tails Le probl me de la granularit de l information sur la qualit ainsi que de la diversit des caract ristiques possibles pouvant d crire la qualit sont tout d abord abord s et les principaux travaux existants portant sur ces aspects sont pr sent s Les bases de donn es multidimensionnelles et les approches SOLAP sont par la suite introduites puis le mod le QIMM permettant une gestion multidimensionnelle de l information sur la qualit est pr sent L
156. la valeur la couleur l orientation la forme et la texture Ces variables ont ensuite t tendues par diff rents auteurs ajoutant par exemple la saturation des couleurs et la clart focus Morrison 1974 Mac Eachren 1992 McGranaghan 1993 Chacune de ces variables peut tre utilis e lorsque l on repr sente des informations g ospatiales et beaucoup de m thodes visualisant la qualit se basent sur ces variables ex changements de couleur ou de texture des objets en fonction de leur S Federal Geographic Data Committee http www fgdc gov 16 Comit Europ en de Normalisation http www cenorm be 35 qualit On retrouve galement beaucoup d autres m thodes telles que la repr sentation floue des objets la visualisation de surfaces 3D repr sentant la variabilit spatiale de la qualit l implantation de filtres ne s lectionnant que les objets ayant un certain niveau de qualit etc Paradis et Beard 1994 Beard et Buttenfield 1999 Certains travaux exploitent galement la diffusion d information sonores ou d animations Fisher 1994b D autres travaux compl mentaires visent exploiter les informations sur la qualit des donn es dans les logiciels actuels ex SIG afin entre autres de limiter les risques de mauvaise utilisation de la part des usagers Ces m thodes n cessitent des structures de donn es permettant de g rer les informations sur la qualit cf section pr c dente Reinke
157. le Miller 1956 that limits information volume to nine chunks for human short term memory The value of each quality indicator varies according to quality e g an indicator using the street light representation can have the values green yellow red or white SOLAP navigation along the Analysed Data dimension SOLAP fast drill down and roll up capabilities are key elements of the prototype They allow users to navigate from one level of detail to another along the Analysed Data dimension For instance this allows users to get quality indicator values for the whole dataset then look at the quality for a certain theme e g only roads and move again to get the quality of a single feature instance Figure 28 illustrates this example of navigation The prototype interface includes cartographic and SOLAP tools in the upper part indicator dashboard including different indicators on the left side and the cartographic interface on the right side These operators fully exploit the advantages of multidimensional databases being intuitive and very fast 122 Dataset ee See x x o a E Dril down along the Analysed Data dimension dh e ec a SGSN gjeja se F2 sit asser r a a e cree Object instance _ 4 RES ne FT aie Tol Data lc ele Dataset mer 1 e ge 2 a eis Object Attribute 2 Primitive Figure 28 Navigation along the
158. les ci repr sentant 97 de l conomie canadienne Ce d veloppement est entre autres mis profit pour la vente de produits et services gr ce au commerce lectronique dont l expansion est elle aussi de type exponentiel Cette volution affecte de la m me mani re le domaine de l information g ographique Ainsi de nombreux sites Web proposent des donn es g ospatiales pouvant tre t l charg es ou command es gratuitement ou non en acc s public ou restreint ex Noter que les r f rences bibliographiques de chaque chapitre se retrouvent la fin de ces chapitres http www zakon org robert internet timeline hnttp e com ic gc ca GeoBase GIS Data Depot Alexandria Digital Library Discovery Portal Photocartoth que qu b coise La diversit des donn es g ospatiales disponibles et leur h t rog n it ex pr cision date de derni re mise jour couverture spatiale formats classes d objets repr sent es co ts a suscit l apparition d outils de catalogage interrogeables sur Internet ex Discovery Portal IDG G omatique Alexandria Digital Library Ces outils nomm s g or pertoires Proulx et B dard 1995 Proulx et al 1997 ou catalogues de donn es g ographiques permettent aux utilisateurs de s lectionner des jeux de donn es qui les int ressent en fonction de diff rents crit res tels que l tendue spatiale ou temporelle repr sent e par les donn es les
159. les de m tadonn es actuelles montrant les limites d une repr sentation trop g n rale des m tadonn es telles que l exactitude spatiale est variable de 100m 1000m ou encore 1 5m urbain 250m rural Ces exemples illustrent le fait que l h t rog n it de la qualit des donn es g ospatiales n est pas suffisamment document e dans les m tadonn es actuelles ne permettant pas par exemple de conna tre la qualit d un sous ensemble du jeu de donn es d un objet en particulier etc De plus Hunter mentionne que la documentation 32 de la qualit a un niveau trop agr g ne permet pas d avoir une connaissance de la variation spatiale de la qualit bien que cette information serait utile aux utilisateurs Plusieurs auteurs se sont int ress s a la mani re de g rer cette granularit de m tadonn es proposant diff rents mod les Fa z 1996 et 1999 pr sente une m thode permettant de g rer et de communiquer l information sur la qualit diff rents niveaux de d tails bas s sur une structure de donn es relationnelle avec les SIG GEO et ArcInfo Il utilise cing niveaux de d tails base de donn es couche de donn es objet complexe objet simple et les coordonn es Son approche a principalement pour objectif de fournir des informations sur la qualit aux producteurs de donn es ex IGN France pour leur permettre d identifier les erreurs de leurs produits
160. ll quality of a single object instance e g position 3 parcel 147 and finally to the overall quality of parcel 147 geometric data primitive e g position 4 one of the corners of the parcel Another navigation scenario Figure 20 Case B explores the quality information along the Quality Indicator dimension A user can then start position 1 at the Global indicator for the whole dataset then drill down to the 1 first level indicator e g position 2 spatial quality visualizing in this case the average quality related to the spatial characteristics of all the objects The user can then drill down to the 2 level indicator e g position 3 spatial accuracy still at the dataset level and finally to the 3 level indicator e g position 4 horizontal spatial accuracy being in this case a metadata recommended by ISO and provided into metadata by data providers Case C Figure 20 provides an example of a more complex navigation using successive drill down and roll up operations along both dimensions Such navigation allows a user to follow his line of thought when exploring quality information provided by a fast and easy user interface such as a SOLAP interface Figure 21 provides an example of navigation within quality information displayed in a tabular view using drill down operations along the two quality dimensions The first drill down is 95 performed on the Quality Indicator dimension allowing the user to move fro
161. lly suffer from a large number of inter related informations a complex organisational structure a high level of heterogeneity in their application a lack of explicit links between metadata and data an hermetic language a highly complex content for both expert and non expert users a general lack of detail in their application and so on Hence we can observe that currently GIS users aren t able to get quality information that is easily accessible understandable and adapted to their context and needs In order to support geospatial data users in the assessment of the fitness for use of their data there is a need for improved methods and tools facilitating quality information management and communication Such methods and tools would allow users to increase their knowledge about data quality and assess in which way data fit for their use Several authors recently mentioned the need for such methods and tools For instance Lowell 2004 expresses the need for a computer based intelligent engine that could analyse information about uncertainty He argues that Humans will not be able to absorb and assimilate all of the information presented in an uncertainty based database and will not have the capacity to analyse all of it efficiently This will require the creation of new analytical and visualisation tools capable of providing humans with a logical summary of the uncertainty information present in the system Because of the complexity
162. ls et tre int gr s dans un syst me plus large permettant de supporter les experts dans l valuation de l ad quation des donn es une utilisation La sous hypoth se est que ce syst me pourrait tre bas sur une combinaison de bases de donn es multidimensionnelles d outils cartographiques et d approche du domaine du Business Intelligence Afin de d montrer cette hypoth se l objectif principal de la th se est de proposer une nouvelle approche pour g rer des donn es d crivant la qualit des donn es qu un usager manipule et les diffuser sous une forme plus compr hensible a des usagers experts ou des experts en qualit de donn es g ospatiales Plus pr cis ment les objectifs sp cifiques sont e Voir la faisabilit d utiliser des indicateurs des tableaux de bord et la technologie SOLAP pour communiquer des informations sur la qualit et identifier les caract ristiques que devrait avoir un outil regroupant ces diff rentes approches e Concevoir un mod le permettant une gestion diff rents niveaux de d tails des informations relatives la qualit des donn es r f rence spatiale puis d velopper comme preuve de concept un prototype permettant 1 d informer l usager de mani re contextuelle sur les diff rents aspects de la qualit des donn es g ospatiales qu il manipule et 2 repr senter la variabilit spatiale de la qualit des donn es 1 4 M thodologie Ce p
163. m one level of detail to a more detailed level on this dimension The second one i e drill down on Roads is performed on the Analyzed Data dimension allowing the user to move from the Layer member down to the Object member Lx Accura ompleteness Logical Consistency Attribute Accura a Good Average Good Good Completeness Logical Consistency Attribute Accura Figure 21 Examples of user navigation in a tabular view using the drill down operator on the two QIMM dimensions Based on the QIMM data structure users can access different displays of quality information facilitating their analysis For instance indicator values can be displayed in a dashboard on a map or directly in the descriptive data table cf Figure 22 These are examples of possible quality visualization techniques but a wide range of other techniques can benefit from the quality information stored in the QIMM 96 e Dashboard visualization Quality indicator values can be displayed in a dashboard cf chapter 3 such as dashboards used by many decision support systems Indicators can have different representations e g number street light speed meter smiley depending on the type of data to be represented and the user s preference Figure 22 presents a dashboard including five quality indicators selected by the user because they are relevant in his context Each indicator value is displayed using the representation selected by the
164. mation Quality Cambridge MA Massachusetts Institute of Technology 1998 p 102 115 Leitner M Buttenfield B P Guidelines for the Display of Attribute Certainty Cartography and Geographic Information Science vol 27 n 1 2000 p 3 14 Longley P A Goodchild M F Maguire D J Rhind D W ed 1999 Geographical Information Systems John Wiley amp Sons Longley P A Goodchild M F Maguire D J Rhind D W ed 2001 Geographical Information Systems and Science John Wiley amp Sons 454 p Lowell K Why aren t we making better use of uncertainty information in decision making Proceedings of 6th International Symposium on Spatial Accuracy Assessment in Natural Resources and Environmental Sciences Portland Maine USA 2004 Lowell K Jaton A 3rd International on Spatial Accuracy Assessment Land Information Uncertainty in Natural Resources Quebec Canada Ann Arbor Press 1999 455 p Mac Eachren A M Visualizing uncertain information Cartographic Perspectives vol 13 1992 p 10 19 Manche Y Analyse spatiale et mise en place de syst mes d information pour l valuation de la vuln rabilit des territoires de montagne face aux risques naturels Th se de doctorat Universit Joseph Fourier Grenoble 2000 Martinet B Marti Y M L intelligence conomique ditions d Organisation 2001 McGranaghan M A cartographic View of Spatial Data Quality Cartographica vol 30 n 2 3 1993
165. mension dans la base de donn es multidimensionnelle cf chapitre 5 Les indicateurs d taill s sont bas s sur une ou plusieurs m tadonn es et ceux de plus hauts niveaux sont des agr gations des indicateurs les composant Pour le prototype seuls des indicateurs de risque ont t cr s la qualit tant communiqu e sous une forme qualitative utilisant diff rentes repr sentations telles que des feux de circulation vert orange rouge smiley etc Le prototype offre diff rentes fonctionnalit s telles que La s lection par l usager d indicateurs pr d finis stock s hi rarchiquement dans une base de donn es MS Access Les indicateurs s lectionn s sont alors affich s dans le tableau de bord La d finition d un profil minimal de l utilisateur incluant entre autres sa tol rance face au risque et les indicateurs qu il a s lectionn s La visualisation de fiches descriptives pour chacun des indicateurs pr sentant leur d finition type de repr sentation mode de calcul etc cf Figure 13 La visualisation des indicateurs dans un tableau de bord pouvant inclure jusqu 9 indicateurs plus un indicateur global cf Figure 14 Ces indicateurs ont t s lectionn s par l utilisateur parmi une liste hi rarchique d indicateurs pr d finis L indicateur global repr sente une agr gation des valeurs des indicateurs s lectionn s la m thode d agr gation ex maximum moyenne d pendant
166. mettre entre autres de rem dier aux cas o il y a peu de m tadonn es disponibles 137 Il serait int ressant d effectuer une validation plus pouss e de l approche afin de mieux qualifier le b n fice qu offre une telle approche en comparaison aux approches actuellement disponibles ex diffusion simple de m tadonn es Une telle validation pour tre pertinente aurait n cessit d tre faite en grandeur r elle c d dans un contexte r el d utilisation i e un ou plusieurs projets avec un nombre significatif d utilisateurs et pour diff rentes applications int grant diff rents jeux de donn es Cela permettrait par exemple de comparer l utilisation des donn es faite avec et sans le syst me Une telle approche aurait cependant n cessit des temps de d veloppement et donc financiers d passant largement le cadre de cette th se mais pourrait tre effectu e dans le cadre de d veloppements futurs un m moire de MSc d butant en janvier 2005 devrait porter sur cet aspect avec des donn es du minist re des Transports du Qu bec Les m thodes outils d velopp s dans cette th se visent des utilisateurs experts ou des experts en qualit Il existe cependant un besoin r el pour rendre ce type d approche accessible des utilisateurs non experts Toutefois l ensemble des fonctionnalit s offertes pour les experts peuvent ne pas convenir des non experts Des travaux futurs pourraient valuer
167. model We finally present our prototype based on the quality information model developed to test the concepts and highlight the impact of such a model on quality information communication 78 4 4 Issues about Geospatial data transfer and quality In the past geospatial data was typically produced and used within the same organization Knowledge about data production processes and characteristics including quality was more implicit i e organizational memory than explicit e g metadata With the introduction of digital data the increase of data transfer changed this perspective The way organizations or people communicate information related to geospatial data evolved in such a way that the transferred information became more accessible or meaningful to a larger group of geospatial data users cf Figure 16 Information richness for assessing data quality User Manual passive dynamic or roactive Metadata linked Time Figure 16 Evolution of the usefulness of the information communicated to data users for assessing geospatial data quality Several stages can be identified No quality information Data is distributed without any associated metadata describing it This situation is still very frequent and it is not rare to see users specifically asking for the metadata not to be sent even when they do exist 79 Basic quality information Data producers provide some information when distributing their geospa
168. mp Francis London pp 230 250 Rivest S Y B dard and P Marchand 2001 Towards Better Support for Spatial Decision Making Defining the Characteristics of Spatial On Line Analytical Processing SOLAP Geomatica 55 4 539 555 Timpf S M Raubal and W Kuhn 1996 Experiences with Metadata Proceedings of Symposium on Spatial Data Handling SDH 96 Advances in GIS Research II August 12 16 1996 Delft The Netherlands pp 12B 31 12B 43 Unwin D 1995 Geographical information systems and the problem of error and uncertainty Progress in Human Geography 19 548 549 Veregin H 1999 Data quality parameters Geographical Information Systems P A Longley M F Goodchild D J Maguire and D W Rhind editors John Wiley amp Sons Inc pp 177 189 Wang R Y and D M Strong 1996 Beyond Accuracy What Data Quality Means to Data Consumers Journal of Management Information Systems 12 4 5 34 105 Chapitre 5 Prototype MUM Quality information system to support experts in their assessment of the fitness for use of geospatial data R Devillers Y B dard R Jeansoulin B Moulin Soumis le 07 09 2004 au journal International Journal of Geographical Information Science IJGIS 5 1 R sum de l article Les utilisateurs de donn es g ospatiales sont de plus en plus confront s au probl me complexe de l valuation de l ad quation de donn es un usage d fini tant donn la disponi
169. n The Psychological Review vol 63 1956 p 81 97 Miller H J Han J Geographic Data mining and Knowledge Discovery Taylor amp Francis 2001 Mintzberg H The structuring of organisations Englewood Cliffs Prentice Hall 1979 Monmonier M A Case Study in the Misuse of GIS Siting a Low Level Radioactive Waste Disposal Facility in New York Sate Proceedings of Conference on Law and Information Policy for Spatial Databases Tempe USA 1994 p 293 303 Plan Canada Sustainable community indicators program vol 39 n 5 1999 Qiu J Hunter G J A GIS with the Capacity for Managing Data Quality Information Spatial Data Quality W Shi M F Goodchild et P F Fisher Eds Taylor amp Francis London 2002 p 230 250 Reinke K J Hunter G J A Theory for Communicating Uncertainty in Spatial Databases Spatial Data Quality W Shi P F Fisher et M F Goodchild Eds Taylor amp Francis London 2002 p 77 101 Rivest S B dard Y Marchand P Towards Better Support for Spatial Decision Making Defining the Characteristics of Spatial On Line Analytical Processing SOLAP Geomatica vol 55 n 4 2001 p 539 555 Roche S Les enjeux sociaux des syst mes d information g ographique le cas de la France et du Qu bec Editions L Harmattan 2001 73 Shannon C E A Mathematical Theory of Communication The Bell System Technical Journal vol 27 1948 p 379 423 T
170. n order to highlight the diversity and similarities of quality classifications in order to present the limitations of metadata and to justify the QIMM model described in Section 4 7 Data quality issues have been extensively explored in the geographic information domain for about 20 years However there are several definitions of the meaning of quality Two trends can be identified in the literature One restricts quality to datasets internal characteristics i e intrinsic properties resulting from data production methods e g data acquisition technologies data model and storage This trend is often identified as internal quality The other trend follows the fitness for use definition Juran et al 1974 Chrisman 1983 Veregin 1999 quality being defined as the level of fitness between data characteristics and users needs This trend is often identified as external quality As opposed to the former trend the latter sees quality as a concept that is relative to the users and usages neither an independent nor an absolute concept The assessment of external quality requires information describing the internal quality the concept of external quality being larger than the internal one Several classifications of geospatial data quality information have been proposed and can be viewed from two different perspectives producer and user The producer point of view generally focuses on internal quality while the user point of view looks at
171. n the Long Term Functioning of a Geographical Information System Proceedings of International Symposium on Automated Cartography Auto Carto 6 Ottawa Canada pp 303 321 Codd E F 1993 Providing OLAP On line Analytical Processing to User Analysts An IT Mandate E F Codd and Associates Compinfo 2003 http www compinfo center com entsys olap htm Curry M R 1998 Digital places Living with Geographic Information Technologies Routeledge London amp New York 191 p Devillers R M Gervais Y B dard and R Jeansoulin 2002 Spatial Data Quality From Metadata to Quality Indicators and Contextual End user Manual Proceedings of OEEPE ISPRS Joint Workshop on Spatial Data Quality March 20 21 2002 Istanbul Duckham M and J E McCreadie 2002 Error aware GIS Development Spatial Data Quality W Shi P F Fisher and M F Goodchild editors Taylor amp Francis London pp 63 75 Elshaw Thrall S and G I Thrall 1999 Desktop GIS software Geographical Information Systems P A Longley M F Goodchild D J Maguire and D W Rhind editors John Wiley amp Sons New York pp 331 345 Faiz S O 1996 Mod lisation exploitation et visualisation de l information qualit dans les bases de donn es g ographique Ph D thesis Universit Paris Sud Faiz S O 1999 Syst mes d Informations G ographiques Information Qualit et Data Mining Tunis 362 p FGDC 2000 Content Standard for Digital G
172. ncepts and Processes J A DeVito Eds Prentice Hall New Jersey p 12 21 1971 Shannon C E A Mathematical Theory of Communication The Bell System Technical Journal vol 27 1948 p 379 423 Simon H A A Behavioral Model of Rational Choice Quarterly Journal of Economics vol n 69 1955 p 99 118 Sinton D F The inherent structure of information as a constraint in analysis Harvard papers on Geographic Information Systems G Dutton Ed Addison Wesley Reading USA 1978 Smithson M Ignorance and Uncertainty Emerging Paradigms New York Springer Verlag 1989 Tastan H Altan M O Spatial Data Quality Proceedings of Third Turkish German Joint Geodetic Days Istanbul June 1 4 p 15 30 Taylor J R An introduction to error analysis the study of uncertainties in physical measurements Oxford University Science Books 1982 Unwin D Geographical information systems and the problem of error and uncertainty Progress in Human Geography vol 19 1995 p 549 558 Veregin H Data quality parameters Geographical Information Systems P A Longley M F Goodchild D J Maguire and D W Rhind Eds John Wiley amp Sons Inc p 177 189 1999 43 Wang R Y Strong D M Beyond Accuracy What Data Quality Means to Data Consumers Journal of Management Information Systems vol 12 n 4 1996 p 5 34 Willett G La communication mod lis e Une introduction aux concepts aux m
173. nis Editions C L E 362 p Fisher G User Modeling in Human Computer Interaction User Modeling and User Adapted Interaction vol 11 2001 p 65 86 Frank A U Grum E Vasseur B How to select the Best Dataset for a Task International Journal of Geographical Information Science Soumis Grum E Vasseur B How to select the best dataset for a task Proceedings of 3rd International Symposium on Spatial Data Quality ISSDQ 04 Bruck an der Leitha Autriche 15 17 avril 2004 p 197 206 Kobsa A Generic User Modeling Systems User Modeling and User Adapted Interaction vol 11 2001 p 49 63 139 Qiu J and G J Hunter 1999 Managing Data Quality Information Proceedings of International Symposium on Spatial Data Quality 18 20 juillet 1999 Hong Kong p 384 395 Qiu J and G J Hunter 2002 A GIS with the Capacity for Managing Data Quality Information Spatial Data Quality W Shi M F Goodchild and P F Fisher editors Taylor amp Francis London UK p 230 250 Unwin D Geographical information systems and the problem of error and uncertainty Progress in Human Geography vol 19 1995 p 549 558 140 Bibliographie g n rale Cette section contient l ensemble des r f rences consult es ayant contribu la pr sente th se Les r f rences cit es dans les chapitres de la th se sont identifi es par un ast risque Aalders H J G L The registration of Quality in a GI
174. nn es g ospatiales sont vari s et de nouvelles applications mergent fr quemment Longley et al 1999 Si l utilisation de donn es g ospatiales tait il y a quelques ann es un domaine r serv aux usagers experts utilisant des syst mes complexes et on reux la r alit a chang de mani re significative Hunter 1999 Les logiciels SIG et les donn es g ospatiales sont d sormais accessibles de faibles co ts voire gratuitement sur Internet et sont de plus en plus faciles d utilisation Goodchild 1995 Agumya et Hunter 1997 Curry 1998 Elshaw Thrall et Thrall 1999 Les donn es g ospatiales ne sont plus uniquement manipul es au niveau op rationnel dans les organisations mais galement aux niveaux strat gique et tactique Longley et al 1999 Elles sont maintenant de plus en plus utilis es pour supporter les processus de prise de d cision Hunter 1999 allant de la s lection d itin raires pour planifier ses vacances la gestion d un r seau routier par des agences gouvernementales Avec le d veloppement de services bas s sur la localisation LBS et des technologies sans fils il sera probablement habituel pour tout le monde dans un proche futur de prendre des d cisions bas es sur des donn es g ospatiales visualis es sur des t l phones portables syst mes nomades ex Palm Pilot syst mes de navigation dans les voitures etc Ces changements dans le contexte dans lequel les donn es g ospatial
175. nne que le d fi dans un monde riche en information n est pas seulement de rendre l information disponible aux personnes en toute place et sous toutes les formes mais de r duire la surcharge d information en rendant l information pertinente pour la t che effectu e et en fonction du bagage de connaissances pr sum des utilisateurs traduction libre Ainsi afin de fournir uniquement des informations pertinentes aux usagers au niveau de d tail dont ils ont besoin il existe un besoin pour diff rentes vues agr g es de ces 49 informations de qualit contextuelles aux profils des utilisateurs et a la tache qu ils effectuent Ce besoin n est pas exclusif aux donn es g ospatiales Par exemple les gestionnaires d entreprises ont galement besoin d une vue agr g e des informations d crivant leur compagnie Les gestionnaires de grandes chaines de magasins ne sont en g n ral pas int ress s par des listes de toutes les ventes faites dans leurs magasins mais par des agr gations des ventes par type de produits intervalle de temps r gion etc Dans ces domaines les d cideurs utilisent maintenant des outils du domaine du Business Intelligence les aidant dans leurs taches Parmi ces outils les tableaux de bord ex cutifs fournissent des informations agr g es nomm es indicateurs sur diff rents aspects des organisations L objectif de cet article est de pr senter une approche bas e sur des indica
176. nnel est pr sent afin d illustrer cette approche permettant de communiquer l information sur la qualit des donn es diff rents niveaux de d tails iii Avant Propos Apr s avoir lu de nombreux avant propos lors de ma revue de litt rature c est pr sent mon tour d en r diger un Il semble que tout le monde s accorde sur le fait que faire une th se est exigeant tant pour soi que pour ses proches je confirme Beaucoup de personnes soulignent aussi qu une th se est constitu e de deux composantes contradictoires l une tant la solitude que l on vit dans l avanc e de ce projet personnel et l autre tant le nombre immense de personnes qui ont contribu directement ou indirectement la r flexion ou au contexte de la th se en g n ral Ce sont ces personnes que je voudrais remercier dans cet avant propos vu leur nombre je ne vais pas toutes les citer mais mon c ur y est Je voudrais tout d abord remercier les deux personnes qui m ont permis de me rendre jusque l mes parents Claude et Fran oise Gr ce leurs coups de pieds dans les fesses lorsque je ne voulais pas travailler c est une image n appelez pas la DPJ svp et leur support financier ils m ont permis de me rendre jusque l Je remercie galement chaleureusement ma conjointe Alix qui m a apport un grand support surtout dans les derniers mois de r daction pendant lesquels notre famille s est agrandie avec l
177. nsees 109 Figure 25 MUM prototype general architectures sisi nent 118 Figure 26 Indicators selection tool left with the empty dashboard template and indicators description and graphical representation form right ccceesseceseceeeeeeeeeeeeeeneeees 119 Figure 27 User mind stream using the MUM system ccceccceseceseceeseeeseeeeseeeteeeseeennees 120 Figure 28 Navigation along the Analysed Data dimension using two successive drill JOWNOPETATIONS sc c cssassssnsesetssuredansaddanannaeas ads dageaarsanietiataunsshdsansdeastatoataasaesanissansapaasaands 122 Figure 29 Navigation along the Quality Indicator dimension using two successive drill CONV TSOP Ta OMS 3 gc ct MURS AN Te nd ne 123 Chapitre 1 Introduction 1 1 Contexte de la recherche Les trente derni res ann es ont vu des changements majeurs dans le domaine des technologies de l information Le r seau Internet permet pr sent une diffusion rapide et plus facile de donn es entre organisations ou individus La croissance du r seau Internet est quasi exponentielle Alors qu on r pertoriait environ 100 000 sites Web en 1996 il y en avait pr s de 10 millions en 2000 et on enregistre pr s de 50 millions de sites au d but de l ann e 2004 On observe galement une croissance similaire du nombre d internautes de serveurs ainsi que pour la largeur de la bande passante Au Canada en 2004 76 des entreprises sont connect es Internet cel
178. nt alors en ligne de compte l utilisateur devant faire un compromis entre le co t des donn es et leur qualit Charron 1995 Holmwood 2000 Plusieurs auteurs d composent le concept de qualit en sous classes Veregin 1999 d finit trois composantes pour la qualit des donn es g ospatiales la position le temps et le th me classification inspir e des travaux de Berry 1964 et Sinton 1978 Il associe ces 28 axes la pr cision et la r solution pr cision spatiale temporelle et th matique etc B dard et Valli re 1995 proposent six caract ristiques permettant de d finir la qualit d un jeu de donn es spatial 2 3 D finition Permet d valuer si la nature exacte d une donn e et de l objet qu elle d crit c a d le quoi correspond aux besoins d finitions s mantique spatiale et temporelle Couverture Permet d valuer si le territoire et la p riode pour lesquels la donn e existe c a d le o et le quand correspondent aux besoins G n alogie Permet de conna tre d o provient une donn e ses objectifs d acquisition les m thodes utilis es pour l obtenir c d le comment et le pourquoi et de voir si cela correspond aux besoins Pr cision Permet d valuer ce que vaut une donn e et si elle est acceptable pour le besoin exprim pr cision s mantique temporelle et spatiale de l objet et ses attributs L git
179. nt de jeux de donn es gouvernementaux et municipaux allant de F chelle 1 1000 31 250 000 2 PS nn dt a E E na 16 Figure 3 Strat gie de gestion de l incertitude dans les SIG traduit de Hunter 1999 19 Figure 4 Taxonomie de l ignorance traduit de Smithson 1989 les termes originaux sont mis entr parenth se en dtahque cists stout a E cane yea nee ee 22 Figure 5 Taxonomie de l incertitude traduit de Fisher 1999 24 Figure 6 Concepts de qualit interne et externe fitness for use des donn es traduit de Morrisson 1995 sra nt ET Sob ell Da Me ean T alu 21 Figure 7 Concepts de qualit interne et son valuation 30 Figure 8 Cadre conceptuel pour la d finition de la qualit ISO TC 211 2002 31 Figure 9 Mod le de communication aux usagers de l incertitude dans les bases de donn es g ospatiales traduit de Reinke et Hunter 2002 36 Figure 10 Les m tadonn es dans le processus de communication utilisateurs producteurs nent ne eee A er E 54 Figure 11 Fonctionnement simplifi du syst me MUM 62 Figure 12 Exemple de message d op ration illogique 63 Figure 13 Exemple de fiche descriptive d un indicateur de qualit eee eeceeeeeteeneeeee 65 Figure 14 Interface cartographique du MUM avec tableau de bord et indicateurs gauche et repr sentation cartographique de la qualit
180. nt des informations brutes ou agr g es sur la qualit des donn es g ospatiales Les indicateurs doivent tre pr sent s sur un tableau de bord faisant partie de l interface du SIG et peuvent tre rendus visibles ou non selon le d sir des utilisateurs 59 Fournir des indicateurs en temps r el tant donn que les utilisateurs peuvent vouloir ajouter ou retirer des donn es dans leurs SIG modifier leurs profils personnels ex tol rance face au risque etc les valeurs des indicateurs doivent tre recalcul es chaque modification du contexte de l utilisateur Fournir des indicateurs en fonction de l tendue spatiale visualis e la qualit peut tre tr s h t rog ne dans l espace et dans le temps Par exemple un secteur d une carte a pu tre mis jour r cemment avec une grande pr cision et exactitude tandis qu un autre secteur de la m me carte pr sente des donn es anciennes et impr cises Les valeurs des indicateurs doivent donc tre calcul es partir des qualit s des objets situ s dans la zone visualis e par l utilisateur et non pas uniquement repr senter la qualit moyenne de l ensemble des donn es du jeu de donn es L utilisateur doit galement pouvoir obtenir la qualit moyenne d une zone qu il d finit de fa on ad hoc soit en lui permettant de tracer lui m me cette zone ex cr ation d un polygone soit en lui offrant une liste de zones pr d finies ex villes qua
181. ocated in the city X or at less than 500 meters from point Y or queries on semantics e g what is the overall quality of buildings of commercial type or 17 This figure was not in the original version of the paper but was added afterwards during the thesis redaction 93 agricultural parcels of corn type In order to benefit from the SOLAP performance and ease of use such groups should be predefined These levels of the Analyzed Data dimension can include one or several members Members depend on the datasets manipulated by the users e g members Road and River can become members of the level Layer when a user adds these data in his GIS environment Some intersections between the quality dimensions may be forbidden because of their illogical nature such as completeness of a single point e g fire hydrant or positional accuracy of the attribute building value 4 7 2 2 QIMM measures Measures are the piece of information describing quality indicators Measures should describe both internal spatial or temporal accuracy completeness logical consistency etc and external quality characteristics difference in updateness between a user s expectation and used data difference in believability etc They can be metadata values or the result of the comparison between metadata values and user s needs e g under equal or above the needs represented for instan
182. od les et aux th ories Editions du Renouveau P dagogique Ottawa 1992 Windholz T K Strategies for Handling Spatial Uncertainty due to Discretization Th se de doctorat University of Maine Orono 2001 44 Chapitre 3 Indicateurs de qualit Indicateurs de qualit pour r duire les risques de mauvaise utilisation des donn es g ospatiales R Devillers Y B dard et M Gervais Revue Internationale de G omatique 2004 vol 14 n 1 p 35 57 3 1 R sum de l article Les utilisateurs de donn es g ospatiales doivent tre conscients de la qualit des donn es qu ils manipulent afin de r duire les risques de mauvaises utilisations L information d crivant la qualit est vari e et peut tre repr sent e diff rents niveaux de d tails Les utilisateurs peuvent donc acc der de grands volumes d information sur la qualit et se retrouver perdus dans cette abondance d information Cet article propose l utilisation d indicateurs de qualit pour am liorer la compr hension des informations relatives la qualit des donn es g ospatiales Les concepts de tableau de bord et d indicateur sont pr sent s et adapt s au domaine g ospatial pour tre int gr s dans des SIG Un aper u d un prototype nomm Manuel l Usager Multidimensionnel MUM communiquant des indicateurs de qualit dans une interface de type SIG est pr sent 46 3 2 Introduction Les domaines utilisant des do
183. odeur J Mass F Standardization in Geomatics in Canada and in ISO TC 211 Geomatica vol 55 n 1 2001 p 91 106 Brown J Heuvelink G B M Refsgaard J C Assessing and recording uncertainties about environmental data Proceedings of Third International Symposium on Spatial Data Quality ISSDQ 04 Bruck an der Leitha Austria GeoInfo Series p 249 259 2004 143 Burrough P A Development of intelligent geographical information systems International Journal of Geographical Information Systems vol 6 n 1 1992 p 1 11 Buttenfield B Spatial Uncertainty in Ecology Mapping Ecological Uncertainty Implications for Remote Sensing and GIS Applications C T Hunsaker M F Goodchild M A Friedl and T J Case Eds Springer Verlag p 115 132 2001 Buttenfield B Beard K M Graphical and Geographical components of Data Quality Visualization in Geographic Information Systems H M Hearnshaw and D J Unwin Eds Wiley p 150 157 1994 Buttenfield B P Representing Data Quality Cartographica vol 30 n 2 3 1993 p 1 To Buttenfield B P Beard K Visualizing the quality of spatial information Proceedings of AUTO CARTO 10 p 423 427 1991 Caron P Y tude du potentiel de OLAP pour supporter l analyse spatio temporelle M moire Universit Laval Qu bec 1998 CEN TC 287 1994 1995 WG 2 Data description Quality Working paper N 15 August 1994 PTOS Draft
184. of this task we think that it is currently impossible to design a system providing a clear output regarding the fit or un fit of the data for a certain use We argue that the only possibility available today and certainly in the near future is to provide users the required information regarding data quality and characteristics in order to help them making an informed decision on the right data to use for a certain application in a given area Furthermore according to Gervais 2004 a non expert user facing a complex assessment of fitness for use should request the opinion of an expert user or of an expert in geospatial data quality who will engage his professional liability into such an assessment and reduce the risk of misuse cf Figure 24 Consequently the objective of this chapter is to present a Quality Information System called MUM Multidimensional User 109 Manual that aims to manage and communicate context sensitive quality information to expert users and data quality experts Fit my use Quality expert or Non expert ex ert user user P Advices Quality information system Figure 24 Quality Information System objective We first discuss data quality management and communication Then we explain our approach that uses quality indicators based on quality information stored in a multidimensional data structure named Quality Information Management Model We also discuss top down and bottom up approaches to p
185. ogram Report Vol 39 5 RAFANELLI M 2003 Multidimensional Databases Problems and Solutions Idea Group Publishing REINKE K J and HUNTER G J 2002 A Theory for Communicating Uncertainty in Spatial Databases In Spatial Data Quality edited by W Shi P F Fisher and M F Goodchild London Taylor amp Francis pp 77 101 129 RIVEST S BEDARD Y and MARCHAND P 2001 Towards Better Support for Spatial Decision Making Defining the Characteristics of Spatial On Line Analytical Processing SOLAP Geomatica 55 539 555 TIMPF S RAUBAL M and KUHN W 1996 Experiences with Metadata In Proceedings of Symposium on Spatial Data Handling SDH 96 Advances in GIS Research II Delft The Netherlands pp 12B 31 12B 43 Unwin D 1995 Geographical information systems and the problem of error and uncertainty Progress in Human Geography 19 549 558 VASSEUR B DEVILLERS R and JEANSOULIN R 2003 Ontological approach of the fitness of geospatial datasets In Proceedings of 6 Agile Conference on Geographic Information Science Lyon France pp 497 504 VEREGIN H 1999 Data quality parameters In Geographical Information Systems edited by P A Longley M F Goodchild D J Maguire and D W Rhind John Wiley amp Sons Inc pp 177 189 VON SCHIRNDING Y E 2000 Health and environment indicators in the context of sustainable development In Proceedings of Consensus Conference on Environment
186. ographic Information Systems H M Hearnshaw and D J Unwin Eds Wiley p 141 149 1994a Goodchild M F Chih Chang L Leung Y Visualizing fuzzy maps Visualization in Geographical Information Systemss H M Hearnshaw and D Unwin Eds Wiley Chichester p 158 167 1994b Goodchild M F Kemp K K 1990 NCGIA Core Curriculum in GIS National Center for Geographic Information and Analysis University of California Santa Barbara CA Gottsegen J Montello D Goodchild M F A Comprehensive Model of Uncertainty in Spatial Data Proceedings of Spatial Accuracy Assessment Land Information Uncertainty in Natural Resources Qu bec Canada Ann Arbor Press p 175 182 1998 Gruber T R A Translation Approach to Portable Ontology Specifications Knowledge Acquisition vol 5 n 2 1993 p 199 220 Grum E Vasseur B How to select the best dataset for a task Proceedings of 3rd International Symposium on Spatial Data Quality ISSDQ 04 Bruck an der Leitha Austria April 15 17th GeoInfo Series p 197 206 2004 147 Guptill S Building a Geospatial Data Framework Finding the Best Available Data Data Quality in Geographic Information From Error to Uncertainty M F Goodchild and R Jeansoulin Eds Editions Hermes p 192 1998 Guptill S C Temporal information Elements of spatial data quality S C Guptill and J L Morrison Eds p 153 166 1995 Guptill S C Metadata and da
187. on n cessite un mod le de donn es capable de supporter des informations h t rog nes sur la qualit diff rents niveaux d analyse A l aide d une approche bas e sur des bases de donn es multidimensionnelles cet article propose un cadre conceptuel nomm QIMM Quality Information Management Model reposant sur des dimensions et des mesures de la qualit Ce mod le permet un utilisateur de naviguer facilement et rapidement dans l information d crivant la qualit gr ce un client SOLAP Spatial On Line Analytical Processing associ une application SIG Le potentiel du QIMM est illustr par des exemples et un prototype Par la suite des mani res de communiquer la qualit des donn es aux utilisateurs sont explor es 4 2 Abstract Today metadata should help users to assess the quality fitness for use of geospatial data in order to reduce the risks of data misuse However metadata present limitations and remain largely unused There still exists a need to provide information to users about data quality in a more meaningful way This research aims to dynamically communicate quality information to the users in a rapid and intuitive way in order to reduce user meta uncertainty related to geospatial data quality and then reduce the risks of data misuses Such a solution requires a data model able to support heterogeneous data quality information at different levels of analysis Using a multidimensional database approach t
188. on pouvant engendrer un risque est effectu e sur des donn es dans le SIG ex requ tes zoom mise a jour cf Figure 12 Hunter et Reinke donnent plusieurs exemples d op rations illogiques pouvant tre traduites en algorithmes tels que IF command name calculate map distance AND map_units null OR distance units null OR projection type null THEN generate map distance warning De telles r gles pourraient limiter les risques les plus courants de manipulation en mettant des avertissements ou en d sactivant certaines fonctions du SIG pouvant induire un risque Une connaissance des donn es provenant par exemple des m tadonn es ex exactitude des donn es ou directement de la structure des donn es ex pr cision num rique des donn es est n cessaire Les r gles doivent tre d finies par des experts puis stock es dans une base de r gles pouvant tre interrog e par le syst me lors de chaque op ration effectu e dans le SIG Message d avertissement E x Attention Yous effectuez une mesure de distance entre deux objets du th me b timent Notez que les b timents sont localis s avec une incertitude d environ 20 m tres chacun La pr cision de votre mesure est donc prendre avec pr caution c Figure 12 Exemple de message d op ration illogique Avertissements d tat 64 Indicateurs de statut un indicateur de statut fournit une information brute d crivan
189. ons de donn es g ospatiales peuvent appara tre diff rents niveaux lors de l utilisation d un SIG Par exemple un utilisateur peut faire une mauvaise utilisation d une fonction d un SIG ex interpoler des donn es nominales de points ou afficher au 1 10 000 une carte cr e l chelle 1 1 000 000 Un utilisateur peut galement obtenir un mauvais r sultat de fonctions dans un SIG lorsque les donn es contiennent des erreurs ex mesures de distances tr s pr cises bas es sur des donn es largement inexactes ou encore calculer un nombre d objets alors que la compl tude du jeu de donn es est m diocre Il est galement n cessaire de prendre en consid ration que beaucoup d utilisateurs font appel aux SIG pour visualiser les donn es sans forc ment utiliser de fonctions d analyse Donc les outils visant r duire les risques de mauvaises utilisations de donn es g ospatiales 63 doivent se concentrer a la fois sur les erreurs issues de la manipulation des op rateurs d un SIG ex op rateurs topologiques et m triques et sur la mauvaise interpr tation de donn es affich es par le SIG Nous pouvons ainsi identifier deux types d avertissements pouvant r duire les risques de mauvaises utilisations Avertissements de manipulation Messages d op rations illogiques Hunter et Reinke 2000 des avertissements sonores ou visuels peuvent tre communiqu s aux utilisateurs lorsqu une manipulati
190. operations in order to avoid some data misuse This stage requires a database of illegal operations as described by Hunter and Reinke 2000 Based on this knowledge and the metadata the system could also avoid the use of certain functions in some contexts or display a message to warn the user about the possible consequences of the action e g restrict data visualization to certain scales based on the data acquisition scale associate uncertainty to calculations results e g distance measurement The present paper focuses on Stage 4 presented above which describes how to link metadata and their associated data to allow the User Manual or any other Quality aware GIS 81 functions to work properly This work provides the basis on which Stage 5 relies For the scope of this paper quality information is defined as any information allowing to assess the quality of a dataset fitness for use Hence quality information includes metadata provided with datasets but may also include other relevant information or even expert opinions about given data 4 5 Geospatial Data Quality Characteristics The definition of a data model allowing the management of geospatial data quality information requires knowing what quality information is available and can be integrated into such model This section provides an overview of the literature related to data quality classifications looking at both metadata standards and academic research i
191. opulate the quality database We then present our prototype system MUM which supports several techniques to manage and communicate quality information to the expert user or the data quality expert The use of Spatial On Line Analytical Processing SOLAP functions as well as the general architecture of the prototype are described including its different functions and how it is used to support users during the quality assessment process Finally we discuss our results and conclude and the chapter with the proposal of future research directions 5 4 Geospatial data quality management and communication For about 30 years two different meanings have been associated with the term quality in the literature the first one restricting quality to the absence of errors in the data i e internal quality and the second one looking at how data fit the user s needs i e external quality Juran et al 1974 Morrison 1995 Aalders and Morrison 1998 Aalders 2002 Dassonville et al 2002 This second definition usually identified as the concept of fitness for use Juran et al 1974 Chrisman 1983 Veregin 1999 is the one that reached an official agreement by standardisation bodies e g ISO and international organisations e g IEEE More precisely for the latter case we define quality as the closeness of the agreement between data 110 characteristics and the explicit and or implicit needs of a user for a given application in a given
192. osium on Spatial Accuracy Assessment in Natural Resources and Environmental Sciences Accuracy 2000 July 2000 Amsterdam pp 313 319 IGN 1997 Bulletin d information de l IGN Qualit d une base de donn es g ographique concepts et terminologie N 67 ISO TC 211 2003 Geographic Information Metadata19115 Juran J M F M J Gryna and R S Bingham 1974 Quality Control Handbook McGraw Hill New York Marchand P A Brisebois Y B dard and G Edwards 2003 Implementation and evaluation of a hypercube based method for spatio temporal exploration and analysis Journal of the International Society of Photogrammetry and Remote Sensing theme issue Advanced techniques for analysis of geo spatial data accepted for publication Miller H J and J Han 2001 Geographic Data mining and Knowledge Discovery Taylor amp Francis 338 p Monmonier M 1994 A Case Study in the Misuse of GIS Siting a Low Level Radioactive Waste Disposal Facility in New York State Proceedings of Conference on Law and Information Policy for Spatial Databases Tempe AZ USA pp 293 303 Qiu J and GJ Hunter 1999 Managing Data Quality Information Proceedings of International Symposium on Spatial Data Quality 18 20 July 1999 Hong Kong pp 384 395 104 Qiu J and GJ Hunter 2002 A GIS with the Capacity for Managing Data Quality Information Spatial Data Quality W Shi M F Goodchild and P F Fisher editors Taylor a
193. que le risque existant l intersection des op rations faites avec le SIG et des donn es de qualit variables Agumya et Hunter 1997 d finissent un processus devant aider d terminer l ad quation de jeux de donn es un usage sp cifique soit 1 mod lisation 2 propagation 3 communication 4 ad quation l utilisation fitness for use et 5 r duction de l incertitude 2 1 3 SIG un processus de communication En tant qu outils les syst mes d information g ographiques ont pour principaux objectifs de g rer des informations a r f rence spatiale de les traiter puis de les communiquer a l aide par exemple de listes tableaux ou cartes th matiques De mani re plus g n rale B dard 1987 d crit les syst mes d information g ographiques SIG comme tant des processus de communication complexes entre les producteurs et les utilisateurs de donn es La communication forme elle seule un vaste de domaine de recherche duquel la pr sente recherche s inspire beaucoup de mod les de communication ayant t d velopp s Willett 1992 Le terme communication peut tre d fini comme reproduire en un point un message mis en un autre point de mani re exacte ou approximative traduction libre Shannon 1948 Afin de prendre une d cision un individu doit recevoir des signaux du monde r el observations interpr ter ces signaux puis proc der une abstraction afin de se cr er un mo
194. rancis pp 463 475 AGUMYA A and HUNTER G J 1997 Determining fitness for use of geographic information ITC Journal 2 109 113 AGUMYA A and HUNTER G J 1999a Assessing fitness for use of geographic information What risk are we prepared to accept in our decisions In Spatial Accuracy Assessment Land Information Uncertainty in Natural Ressources edited by K Lowell and A Jaton Quebec pp 35 43 AGUMYA A and HUNTER G J 1999b A Risk Based Approach to Assessing the Fitness for Use of Spatial Data URISA Journal 11 33 44 BADDELEY A 1997 Human Memory Theory and Practice U K Psychology Press BEARD K 1989 Use error the neglected error component In Proceedings of AUTO CARTO 9 Baltimore Maryland pp 808 817 BEARD K 1997 Representations of Data Quality In Geographic Information Research Bridging the Atlantic edited by M Craglia and H Couclelis Taylor and Francis pp 280 294 BEARD K and BUTTENFIELD B 1999 Detecting and evaluating errors by graphical methods In Geographical Information Systems edited by P A Longley M F Goodchild D J Maguire and D W Rhind Wiley pp 219 233 BEARD K and MACKANESS W 1993 Visual Access to Data Quality in Geographic Information Systems Cartographica 30 37 45 BEDARD Y 1987 Uncertainties in Land Information Systems Databases In Proceedings of Eighth International Symposium on Computer Assisted Cartography Baltimo
195. rce X X X X Spatial Positional Accuracy X X X X X Attribute Accuracy X X Semantic Accuracy X X X X Completeness X X X X X Logical Consistency X X X X X Temporal Information Accuracy X X X T CEN TC 287 1994 1995 gt Guptill and Morrison 1995 IGN 1997 ISO TC 211 2003 FGDC 2000 Table 1 shows that standards and data producers 1 mainly focus on internal quality e g accuracy completeness consistency aspects and 2 agree in general on similar characteristics Standards are now generally converging to the ISO international standard that may serve as reference for the identification of quality characteristics On the other hand different authors argue that quality assessment defined as fitness for use may require information that is not yet included in geospatial metadata standards They suggest to consider quality characteristics in the wider approach of external quality i e quality in the context of use in addition to internal quality For instance Aalders and Morrison 1998 add to the ISO criteria information related to data usage being previous use 83 of a dataset by other users for various applications i e organization that has used the dataset type of usage and its perceived fitness possible constraints or limitations during the use B dard and Valli re 1995 bring other characteristics such as legitimacy legal or de facto and accessibility costs delays easiness to obtain of the data
196. rces et cibles Afin de faciliter la communication entre les agents Martinet et Marti pr conisent l utilisation d un langage le plus proche possible de la cible Les SIG communiquent donc toujours les informations avec un certain biais mais l emploi d un langage graphique proche des connaissances des utilisateurs des donn es peut limiter ce biais 3 3 2 Prise de d cision et incertitude Les utilisateurs de SIG manipulent les donn es g ospatiales afin d obtenir des informations pouvant tre utilis es dans un processus de prise de d cision plus large ex prendre le chemin le plus court pour se rendre quelque part trouver la parcelle cadastrale id ale pour construire un b timent Mintzberg 1979 d finit la d cision comme le signal d une intention explicite d agir traduction libre La d cision ne se limite pas l action Fernandez 2000 identifie quatre tapes dans un processus de prise de d cision soit 1 la formalisation du d sir lorsque l agent prend conscience de la situation 2 l instruction lorsque l agent collecte les informations analyse des situations pr c dentes et des solutions potentielles 3 le choix lorsque l agent identifie l action effectuer et value ses limites et enfin 4 l action Il formule galement plusieurs conditions pour prendre une bonne d cision Les d cisions sont prises 1 afin d atteindre un objectif 2 selon la situation per ue 3 selon l
197. re Maryland pp 175 184 BEDARD Y GOSSELIN P RIVEST S PROULX M J NADEAU M LEBEL G and GAGNON M F 2003 Integrating GIS Components with Knowledge Discovery Technology for Environmental Health Decision Support International Journal of Medical Informatics 70 79 94 BERSON A and SMITH S J 1997 Data Warehousing Data Mining and OLAP Data Warehousing Data Management McGraw Hill BUTTENFIELD B and BEARD K M 1994 Graphical and Geographical components of Data Quality In Visualization in Geographic Information Systems edited by H M Hearnshaw and D J Unwin Wiley pp 150 157 BUTTENFIELD B P 1993 Representing Data Quality Cartographica 30 1 7 BUTTENFIELD B P and BEARD K 1991 Visualizing the quality of spatial information In Proceedings of AUTO CARTO 10 pp 423 427 CHRISMAN N R 1983 The Role of Quality information in the Long Term Functioning of a Geographical Information System In Proceedings of International Symposium on Automated Cartography Auto Carto 6 Ottawa Canada pp 303 321 127 Copp E F 1993 Providing OLAP On line Analytical Processing to User Analysts An IT MandateReport E F Codd and Associates DASSONVILLE L VAUGLIN F JAKOBSSON A and LUZET C 2002 Quality Management Data Quality and Users Metadata for Geographical Information In Spatial Data Quality edited by W Shi P F Fisher and M F Goodchild Taylor amp Francis pp
198. re vision se place g n ralement du point de vue des producteurs de donn es comparativement la seconde qui se place du point de vue des utilisateurs Un produit est donc jug de qualit pour les producteurs s il est conforme des sp cifications d finies tandis qu un produit est de qualit pour les utilisateurs s il rencontre ou d passe leurs attentes Kahn et Strong 1998 Juran et al 1974 sont les premiers d finir la qualit par le concept d ad quation l utilisation fitness for use largement utilis en g omatique et adopt par les organismes internationaux comme d finissant la qualit ex ISO IEEE Le comit international de normalisation ISO International Standard Organization d finit la qualit comme tant l ad quation aux exigences satisfaction des besoins de l utilisateur et la qualit d un produit comme la totalit des caract ristiques d un produit ou service qui influent sur sa capacit satisfaire les besoins explicites ou implicites du client ISO 8402 1994 La qualit tant l ad quation l utilisation un jeu de donn es ne 25 peut donc pas se voir attribuer une valeur unique de qualit celle ci pouvant varier d un utilisateur un autre ou galement pour un m me utilisateur d une application a une autre Un jeu de donn es ne peut donc pas avoir une qualit absolue tant donn qu il est impossible de satisfaire les besoins de tous les
199. rm tique etc Aussi elle finit en pratique par tre n glig e par la plupart des utilisateurs En fait une personne doit pouvoir d velopper une expertise solide pour comprendre correctement les m tadonn es et valuer l ad quation de jeux de donn es ou d extraits de ces jeux des usages sp cifiques Une telle t che complexe peut impliquer des milliers de m tadonn es partiellement corr l es En cons quence des experts en qualit des donn es doivent pouvoir s appuyer sur des outils pour identifier des probl mes potentiels ainsi que pour synth tiser les informations n cessaires pour formuler leur opinion dans un rapport impliquant leur responsabilit professionnelle Afin de supporter de tels experts dans l valuation de l ad quation l utilisation fitness for use cette th se pr sente une approche visant mieux g rer et communiquer l information sur la qualit des donn es gr ce un ensemble de concepts reli aux bases de donn es d cisionnelles et aux techniques de visualisation Cette approche repose techniquement sur une combinaison des fonctions d un SIG avec des technologies d intelligence d cisionnelle principalement le On Line Analytical Processing OLAP afin d adapter l approche de tableau de bord ex cutif pour fournir des indicateurs interactifs et contextuels d crivant la qualit des donn es g ospatiales Un prototype nomm MUM Manuel l Usager Multidimensio
200. rmation Management Model QIMM 5 5 1 Quality indicators Since quality information can be described using different characteristics e g accuracy completeness consistency up to datedness and since we are moving towards feature level metadata the volume of quality information increasingly becomes a problem when we try to efficiently communicate this information In many domains people have to cope with the problem of meaningfully communicating large volumes of information in order to support decision making processes They often use indicators that can be displayed into so called dashboards also named balanced scorecards or executive dashboards to communicate relevant information to decision makers Kaplan and Norton 1992 Fernandez 2000 von Schirnding 2000 Goglin 2001 Based on traditional indicator based methods we adapted this approach for the geographic information context cf chapter 3 Indicators can be defined as a way of seeing the big picture by looking at a small piece of it Plan Canada 1999 Fernandez 2000 defines indicators as information or a group of information helping the decision maker to appreciate a situation They indicate what is going on globally allowing or not to go into the details Let us take for instance a family doctor who wants to diagnose his patient s illness The doctor knows that the human body is a complex system and that he cannot observe and measure all of
201. roads layer of the selected area i e of all roads of this area Top Down this approach consists in collecting more global quality information such as an expert s opinion about the average spatial precision of planned roads in his county and in propagating this general level information when it is relevant at detailed levels e g each planned road of this county inheriting from his experts opinion For instance it is typical to see land surveyors having very good knowledge of a territory and of the quality of the different datasets describing it e g cadastral and topographic data Using their experience happens to frequently be the most reliable way to tell that a dataset is relevant or not for various applications in this area They can also provide insights on the spatial heterogeneity of the quality of certain datasets identifying higher and lower quality regions in the area covered by the data They can also do it with respect to the period of measurements and other informal criteria New research has recently been undertaken by our research team to define how such implicit expert knowledge can be formalised and integrated into a quality management system If both approaches are complementary they both have advantages and drawbacks Indeed in the first approach metadata can be easier to collect but finding the most efficient methods to aggregate quality information to analyse and synthesise hundreds of metadata that vary o
202. rojet de recherche a t men en compl mentarit avec celui de Marc Gervais tudiant au doctorat en Sciences G omatiques l Universit Laval ayant termin en 2004 Marc Gervais a explor diff rentes consid rations l gales reli es aux donn es num riques g ospatiales ex responsabilit civile droits d auteur servant en partie de motivation au pr sent projet En pratique les deux projets ont t men s de front un an d intervalle les r sultats de Marc Gervais ayant t int gr au fur et mesure pour orienter la pr sente th se Ce projet ainsi que celui de Marc Gervais ont t fait en partie au sein du projet europ en REVIGIS projet IST 1999 14189 portant sur l utilisation de m thodes de l intelligence artificielle pour la r vision d information g ographique incertaine Ce projet 10 Le SOLAP Spatial On Line Analytical Processing est une extension spatiale des outils OLAP utilis s dans le domaine du Business Intelligence Cette association permet d obtenir des outils de support la prise de d cision rapides permettant l utilisateur de naviguer dans les donn es diff rents niveaux de d tail et sous diff rentes formes ex carte tableaux histogrammes Ces outils sont pr sent s en d tail dans la section 4 7 1 l http www cmi univ mrs fr REVIGIS Full regroupait des partenaires universitaires provenant de six pays ainsi qu un partenaire industriel SOMEI Marseille
203. rtiers Cela implique une mise jour des indicateurs lorsque l utilisateur navigue dans sa vue ex Zoom in Zoom out Pan Permettre aux utilisateurs de s lectionner les indicateurs pertinents dans leur contexte ou d finir leurs propres indicateurs diff rents utilisateurs ont des profils objectifs et int r ts diff rents Un ensemble d indicateurs pr d finis doit tre mis la disposition des utilisateurs Toutefois les utilisateurs doivent tre capables de voir comment sont calcul s ces indicateurs de modifier ces proc dures et si possible de permettre la cr ation de nouveaux indicateurs Permettre aux utilisateurs de visualiser les indicateurs diff rents niveaux de d tails les indicateurs doivent tre organis s de mani re hi rarchique indicateurs et sous indicateurs afin d viter aux utilisateurs une surcharge d information On conserve ainsi un nombre d indicateurs conforme a la loi de Miller 7 2 indicateurs tout en permettant aux utilisateurs d approfondir l exploration des informations de qualit de mani re intuitive Permettre aux utilisateurs de mettre des poids sur les diff rents indicateurs en fonction de leur importance dans le contexte d utilisation des donn es certains indicateurs peuvent avoir plus d importance que d autres Par exemple la compl tude des donn es peut tre beaucoup plus importante que la pr cision temporelle pour certaines applications Ces 60
204. s du SIG propagation d erreur lors de mises jour Il y a plus de 10 ans d j Burrough 1992 parlait de d velopper des SIG intelligents allant mettre profit les m tadonn es disponibles pour guider les utilisateurs dans l utilisation de donn es entach es d incertitude Unwin 1995 am ne le concept de error sentive GIS qui d signe un SIG offrant des fonctionnalit s de base pour la gestion des erreurs Duckham et McCreadie 1999 et 2002 proposent le terme error aware GIS offrant des extensions l error sentive GIS pour des applications particuli res et en utilisant des m thodes avanc es provenant de I intelligence artificielle ou des bases de donn es 2 4 Outils d intelligence d cisionnelle Certains outils provenant du domaine de l intelligence d cisionnelle ont t explor s puis exploit s afin de permettre la gestion et la communication des informations sur la qualit vis e par cette th se Pour les aspects de communication des informations sur la qualit les tableaux de bord de gestion et l utilisation d indicateurs ont t explor s Cette exploration et sa revue de litt rature sont pr sent es dans la section 3 4 Pour les aspects concernant la gestion des informations sur la qualit une exploration des bases de donn es multidimensionnelles et des outils SOLAP a t faite Ces outils permettent typiquement de g rer des informations diff rents niveaux de d
205. s et les besoins des utilisateurs De Bruin et al 2001 Toutefois Agumya et Hunter 1997 affirment que la d finition de l ad quation l utilisation d un jeu de donn es g ospatiales dans des applications contextuelles reste le fardeau de l usager et que la soci t est pour l instant mal pr par e pour cette t che Ils mentionnent galement que cette situation est aggrav e par l absence de mod les et d outils pouvant aider les usagers dans cette t che Agumya et Hunter 1997 Les auteurs proposent une approche originale pour le domaine d terminant le niveau acceptable d incertitude en analysant les risques potentiels pouvant tre associ s a une prise de d cision bas e sur ces donn es Le risque est ici d fini par la probabilit qu un v nement adverse soit la cons quence d une d cision multipli par le co t de cet v nement Pour une meilleure compr hension du concept de risque cette d finition peut tre compl t e par celle utilis e dans le domaine des risques naturels Manche 2000 le risque tant l intersection entre al as ex avalanches crues glissement de terrain et vuln rabilit ex zones d habitation routes Ainsi des avalanches se produisant dans une zone non fr quent e par l homme ne constituent pas un risque Cette d finition du risque dans un contexte environnemental peut facilement tre adapt e aux risques de mauvaise utilisation de l information g ographi
206. s g ospatiales Afin de prendre une d cision les personnes per oivent des signaux du monde r el les interpr tent et proc dent une abstraction afin de g n rer un mod le cognitif servant cette prise de d cision Les signaux per us peuvent provenir soit d une observation directe de la r alit soit d une autre personne ou machine mandat e pour communiquer une information Dans le cas des utilisateurs de logiciels SIG les signaux per us proviennent presque toujours d un observateur autre que l utilisateur cr ant ainsi un processus de communication entre l observateur de la r alit ex g om tre forestier g ologue et l utilisateur du logiciel SIG De nos jours il est m me de plus en plus fr quent pour un utilisateur de logiciel SIG d utiliser des donn es multisources Une caract ristique importante des processus de communication est le besoin de connaissances communes identifi en anglais par le concept de commonness entre producteurs de signaux et r cepteurs pouvant tre des individus ou des machines Shannon 1948 B dard 1987 Martinet et Marti 2001 L ensemble des connaissances d un agent est identifi comme tant son cadre de r f rence Plus les connaissances communes sont importantes entre le producteur et l utilisateur d une information plus les 51 risques de distorsion du message sont faibles En pratique cette communication est toujours imparfaite cause des diff rences entre sou
207. se this paper presents an approach aiming at better managing and communicating data quality information through a set of advanced database decision support and visualisation concepts This approach technically 107 relies on merging GIS capabilities with Business Intelligence technology mostly On Line Analytical Processing or OLAP to adapt the executive dashboard approach and provide interactive context sensitive spatial data quality indicators A prototype named MUM Multidimensional User Manual is presented to illustrate the approach 5 3 Introduction The last decade has witnessed a major trend towards the democratisation of geospatial data These data are now used in various application domains and by a variety of users composed of people from experts with highly sophisticated systems to mass users with web and mobile mapping technologies Although being a positive evolution such democratisation also facilitates the use of data for non intended purposes as well as the overlaying of heterogeneous data collected at different times by different organisations using various acquisition technologies standards and specifications Such context increases the risks of geospatial data misuse In this sense Goodchild 1995 argues that GIS is its own worst enemy by inviting people to find new uses for data it also invites them to be irresponsible in their use Number of such cases already occurred sometimes leading to significant social
208. sis services 2 cartographic functionalities using GeoMedia Professional GIS from Intergraph and 3 OLAP tools enabling a user to navigate into quality information along the two dimensions of the QIMM model both in tabular and cartographic views using Proclarity s OLAP software The resulting SOLAP prototype was tested with data from the Canadian National Topographic Database NTDB This prototype supports different functionalities such as 98 Managing quality information into a multidimensional database structure using a subset of the QIMM model from the data level to the object instance level The QIMM measures are mostly based on quality elements and sub elements described in the ISO 19113 standard The QIMM dimensions i e data and indicator were implemented under SQL Server Loading and viewing geospatial data e g zoom in zoom out pan fit all Spatial objects are linked to the quality information stored in the QIMM using a foreign key Visualizing quality information using indicators displayed in a dashboard and on a cartographic display Indicators are selected by users within an indicator dataset stored in an Access relational database OLAP functions e g drill down and roll up allowing users to navigate into quality information along both Analyzed Data and Quality Indicators dimensions Quality information obtained from metadata is transformed into risk levels based on user defined
209. sium on Spatial Accuracy Assessment in Natural Resources and Environmental Sciences Amsterdam Pays Bas Juillet 2000 p 109 116 144 Codd E F 1993 Providing OLAP On line Analytical Processing to User Analysts An IT Mandate E F Codd and Associates CTG 2000 Insider s Guide to Using Information in Government The devil is in the data Center for Technology in Government Curry M R Digital places Living with Geographic Information Technologies London amp New York Routeledge 1998 Dassonville L Quality Management data quality and users metadata for geographical information Proceedings of International Symposium on Spatial Data Quality Hong Kong 18 20 July 1999 p 133 143 Dassonville L Vauglin F Jakobsson A Luzet C Quality Management Data Quality and Users Metadata for Geographical Information Spatial Data Quality W Shi P Fisher and M F Goodchild Eds Taylor amp Francis p 202 215 2002 David B Fasquel P 1997 Bulletin d information de l IGN Qualit d une base de donn es g ographique concepts et terminologie N 67 IGN France Davis T J Keller P Modelling and Visualizing Multiple Spatial Uncertainties Computer and Geosciences vol 23 n 4 1997 p 397 408 De Bruin S Bregt A Van de Ven M Assessing fitness for use the expected value of spatial data sets International Journal of Geographical Information Science vol 15 n 5 2001 p 457
210. sssresseserssressrssressessrssresseesresresseesees 65 3 6 Conclusion et D FSD C NES LR ES RS Ne tete 69 Die Bibliographies seei SSSR REA SSN ae Pa tea hart alco E 70 Chapitre 4 Gestion de l information sur la qualit des donn es 74 4 1 R sum d l article size cas csacvasty satescevsivasadavededeciguestsle Adeadevavig vada sete ai a i i 74 A2 PDS ACE ye Sa int nat Na ia anes ences RE AS rt 75 4 3 AOC HOME RER Ge eu a Gehan ta iui kee at ae te ee ne 75 4 4 Issues about Geospatial data transfer and quality 78 4 5 Geospatial Data Quality Characteristics ccccsccesseceseceeeceeseeeseeceaeeeteeeeeeenseees 81 4 6 Geospatial Data Quality Information Hierarchy 83 4 7 Multidimensional geospatial data quality management 85 4 7 1 Multidimensional Databases OLAP and SOLAP uu eeeeeccetceeeeereeeeees 86 4 7 2 Quality Information Management Model QIMM sssssssssesessssesssssessseesee 88 4 7 3 Navigation within the model and quality visualization 93 4 7 4 The MUM prototyp SES ne ne ne nent fan 97 43 Conclusion and perspectives demandes 100 AO RefGIONCES sr nant tenter transe fan stsataaghentsaahansetaasaatis 101 Chapitres Prototype MM en ne Rental tnt ni 105 5 1 R sum de Varticle serren ee RS SA noue 105 52 Abstiact etes e Te A E a na aes 106 23 Introdu fiohis sentant sev tao es Ne Ml nette 107 5 4 Geospatial data quality management and communication c eestor 109
211. stem appears not only theoretically interesting but realistically unavoidable in order to build a usable and credible system With this in mind context sensitive quality information can be provided to the user at the right level of abstraction in order to help him identify quality aspects which are relevant for the task at hand To analyse the fitness for use of geospatial data for a given area we designed the MUM System such that quality indicators are displayed into a dashboard that is embedded within a cartographic interface acting as a decision support tool specific to data quality Each quality indicator can be based on a single raw data or may be computed using several raw data This data is obtained for instance from metadata provided with the datasets but can also be provided by other sources of information describing data quality such as an organisation s internal consensus about lower spatial precision for a given area or lower degree of completeness for a certain period within a dataset In the chapter 3 we identified two types of warnings that can be communicated to users manipulation warnings and status warnings Manipulation warnings can warn users when a risk may occur from an incorrect data manipulation as for example a risky combination of data and operator such as measuring the distance between a house and a parcel boundary when the latter is provided by an unofficial and imprecise source Such issue was for ins
212. t tre informatives quant la qualit des donn es fournies Beaucoup de producteurs de donn es fournissent des informations aux utilisateurs par le biais des m tadonn es c d donn es sur les donn es celles ci incluant parfois certaines informations sur la qualit Toutefois Gervais identifie plusieurs limitations concernant les m tadonn es qui les rendent insuffisantes pour r pondre aux obligations l gales des producteurs dont en particulier leur technicit pour des utilisateurs non experts Gervais d montre dans ses travaux l importance d avoir recours l opinion d un utilisateur expert ou un expert en qualit qui engagerait sa responsabilit pour valuer l ad quation de jeux de donn es une utilisation d finie valuer le fitness for use Ces experts auraient alors besoin d outils leur pr sentant les diff rents aspects de la qualit pour les aider dans cette t che Il existe donc un besoin pour des outils permettant de structurer et de communiquer l information sur la qualit des utilisateurs experts ou des experts en qualit 1 3 Hypoth se et objectifs de la recherche L hypoth se principale de la th se est qu il est possible de fournir aux utilisateurs experts ou aux experts en qualit des indicateurs renseignant sur les diff rentes caract ristiques de la qualit Ces indicateurs de qualit peuvent tre communiqu s de mani re contextuelle et diff rents niveaux de d tai
213. t une ou plusieurs caract ristiques internes des donn es Par exemple si la pr cision spatiale est de 13 m tres la valeur de l indicateur pr cision spatiale pourrait tre par exemple 13 m tres ou un intervalle tel que 10 20 m tres Indicateurs de risque les indicateurs de risque fournissent une information relative provenant de la comparaison entre des caract ristiques des donn es donn es brutes et les besoins des utilisateurs la divergence tant exprim e en terme de niveau de risque Ceux ci repr sentent des informations sur la qualit des donn es la qualit tant d finie comme l ad quation l usage fitness for use Par exemple si la pr cision spatiale des donn es est de 13 m tres et l usager d sire des donn es avec une pr cision de 1 m tre la valeur de l indicateur pr cision spatiale pourrait tre affich e avec une lumi re rouge avertissant l utilisateur de l importance de la diff rence L utilisateur aurait alors une id e du risque reli l utilisation des donn es pour ce crit re de qualit Le calcul de ce type d indicateur implique une qualification de donn es quantitatives passer de 13 m tres une lumi re rouge dans cet exemple Cette qualification de l information est complexe et peut tre faite de diff rentes fa ons Diff rents modes de repr sentation peuvent tre utilis s pour les indicateurs de risque tels que des
214. t en g omatique en g n ral Le projet a donn lieu a diff rentes pr sentations et discussions lors des rencontres du projet REVIGIS pendant les quatre ann es de la th se et s est galement partiellement inscrit dans les projets GEOIDE SOC 1 et DEC 2 au d but de la th se Sur le plan de l utilit de l approche les concepts ainsi que le syst me d velopp ont t pr sent s a diff rents types d utilisateurs incluant des experts et non experts en g omatique des th maticiens des repr sentants d agences gouvernementales ex Sant Canada D fense Canada G omatique Canada Minist re des Ressources Naturelles du Qu bec d industries ex Kheops Technologies Hydro Qu bec SOMEI Soci t des eaux de Marseille Swiftsure Spatial Systems etc Un stage de deux mois a t effectu en 2002 au sein du Centre d Information Topographique de Sherbrooke sous la direction du Dr Jean Brodeur afin de mieux appr hender les consid rations reli es la production de donn es et de m tadonn es num riques ainsi qu l utilisation faite des m tadonn es par leurs clients Ces discussions ont permis de souligner que le probl me de communication de la qualit est une pr occupation croissante commune aux diff rents domaines utilisant des donn es g ospatiales et que la solution propos e dans cette th se est d int r t pour diff rents types d utilisateurs Finalement la derni re tape a consist
215. t m me difficiles comprendre pour des experts en g omatique Gervais 2004 Hunter et Masters 2000 mentionnent m me que les informations fournies par les producteurs sur la qualit sont de plus en plus per ues par les utilisateurs comme tant uniquement un moyen pour les producteurs de se couvrir en cas de litiges possibles tant donn les limitations des m tadonn es dans leur format actuel certaines recherches ont explor des fa ons de visualiser l information sur la qualit De nombreux travaux portant sur la visualisation de l information sur la qualit ont t effectu s notamment dans le cadre de l initiative de recherche n 7 du NCGIA Visualizing the Quality of Spatial Information dirig e par K Beard et B Buttenfield entre 1991 et 1993 Buttenfield et Beard 1991 Beard et Mackaness 1993 Buttenfield 1993 McGranaghan 1993 Buttenfield et Beard 1994 Fisher 1994a Goodchild et al 1994 Faiz 1996 Beard 1997 Beard et Buttenfield 1999 Leitner et Buttenfield 2000 Windholz 2001 Drecki 2002 Ces travaux proposent diverses m thodes permettant de repr senter les diff rents crit res de qualit ex exactitude spatiale compl tude coh rence logique pour diff rentes primitives g om triques ex points lignes polygones Dans le domaine de la repr sentation graphique l ouvrage de r f rence de Bertin 1973 sur la s miologie graphique identifie six variables visuelles la taille
216. ta catalogues Geographical Information Systems P A Longley M F Goodchild D J Maguire and D W Rhind Eds John Wiley amp Sons Inc p 677 692 1999 Guptill S C Morrison J L Elements of spatial data quality New York Elsevier Science 1995 Harvey F Quality Needs More Than Standards Data Quality in Geographic Information From Error to Uncertainty M F Goodchild and R Jeansoulin Eds Editions Hermes p 192 1998 Hennings V Boess J User oriented Concepts to Assess the Accuracy of Nationwide Land Quality Maps Proceedings of 4th International Symposium on Spatial Accuracy Assessment in Natural Resources and Environmental Sciences Amsterdam Pays Bas p 301 304 2000 Heuvelink G B M Lemmens M J P M 4th International Symposium on Spatial Accuracy Assessment in Natural Resources and Environmental Sciences Amsterdam The Nederland 2000 Holmwood T S Data Quality Defining an achievable standard Proceedings of GITA Annual conference 2000 Holt A Benwell G L Using Spatial Similarity for Exploratory Spatial Data Analysis Some Directions Proceedings of GeoComputation 97 and SIRC 97 Otago New Zealand 26 29 August 1997 p 15 24 Holt A Benwell G L Applying case based reasoning techniques in GIS International Journal of Geographical Information Science vol 13 n 1 1999 p 9 25 Hoxmeier J A Typology of database quality factors Software Quality
217. tails comme requis par les informations d crivant la qualit des donn es Cette exploration et sa revue 37 de litt rature sont pr sent es dans la section 4 7 au sein de l article portant sur la gestion des informations sur la qualit 2 5 Synth se En r sum bas sur ces revues de litt rature nous avons constat dans la section 2 1 que l information g ographique n est jamais conforme la r alit car 1 elle n est qu un mod le de cette r alit et 2 elle est toujours entach e d erreurs formant l incertitude de mani re g n rale Les utilisateurs doivent alors pouvoir comprendre l incertitude reli e aux donn es pour int grer cette connaissance dans leur processus de prise de d cision plus global Nous avons vu que ces informations doivent tre communiqu es aux usagers dans un langage le plus proche possible du leur pour que le processus de communication soit efficace Dans la section 2 2 nous avons introduit les concepts de qualit et les autres concepts connexes Nous avons distingu les concepts de qualit interne et de qualit externe La connaissance de l incertitude permet aux usagers d valuer la qualit externe des donn es utilis es L valuation de cette qualit permet de r duire les risques de mauvaise utilisation des donn es et ainsi r duire les risques de cons quences n fastes pouvant d couler de cette mauvaise utilisation Dans la section 2 3 nous avons d crit d
218. tance discussed by Beard 1989 or Hunter and Reinke 2000 Status warnings provide information regarding the status of internal data quality Risk warnings result from the comparison between internal data quality information and the user s tolerance threshold e g a data positional accuracy of 1 meter compared to a user threshold of 10 meters will result in an indicator that says that this aspect of quality is correct They are expressed for instance on a qualitative ordinal scale such as exceed the needs reach the needs or below the needs which can be displayed using a green yellow red symbology The qualification of such 114 quantitative quality data is a complex issue recently explored for geospatial data quality see for instance Grum and Vasseur 2004 Frank et al Submitted 5 5 2 Quality Information Management Model QIMM A central motivation in this research is to avoid an information overload to users which can be caused by the various quality characteristics when described at different levels of detail According to the well known psychological research from Miller 1956 the short term memory or working memory of humans can only deal with five to nine chunks of information at once Hence it would be of limited use to communicate a large quantity of information simultaneously to a user In addition other psychological studies showed that the duration that information stays in short term memory STM
219. te donn e travers le filtre d fini par les sp cifications de produit Toutefois comme le terrain nominal n est pas un jeu de donn es avec une existence physique r elle il est remplac par un jeu de donn es de r f rence aussi nomm donn es de contr le plus exact que le jeu de donn es produit David et Fasquel 1997 Jeu de donn es Voudrait id al produire B Abstraction Qualit Monde r el m interne ae Sp cifications th orique er s K Producteur de donn es proda N anant Qualit interne mesur e Jeu de donn es produit Ll Figure 7 Concepts de qualit interne et son valuation L valuation de la qualit interne consiste alors dans l identification des objets repr sentant les m mes ph nom nes dans les deux jeux de donn es c d processus d appariement pour ensuite les comparer pour un ensemble de crit res reli s par exemple aux composantes 30 31 spatiales s mantiques et temporelles La Figure 8 pr sente la dualit entre producteurs et utilisateurs de donn es L univers du discours Universe of discourse tant d fini par PISO comme une vue du monde r el ou hypoth tique incluant tous les l ments d int r t traduction libre ISO TC 211 2002 pore y ae RS PSS Sina 2 drone D ns Universe of el discourse A i Universe of l X
220. ted error component Proceedings of AUTO CARTO 9 Baltimore Maryland March 1989 p 808 817 Beard K Representations of Data Quality Geographic Information Research Bridging the Atlantic M Craglia et H Couclelis Eds Taylor and Francis p 280 294 1997 Beard K Buttenfield B Detecting and evaluating errors by graphical methods Geographical Information Systems P A Longley M F Goodchild D J Maguire et D W Rhind Eds Wiley p 219 233 1999 Beard K Mackaness W Visual Access to Data Quality in Geographic Information Systems Cartographica vol 30 n 2 3 1993 p 37 45 B dard Y A Study of the Nature of Data Using a Communication Based Conceptual Framework of Land Information Systems Th se de doctorat University of Maine Orono USA 1986 B dard Y Uncertainties in Land Information Systems Databases Proceedings of Eighth International Symposium on Computer Assisted Cartography Baltimore Maryland USA 29 Mars 3 Avril 1987 American Society for Photogrammetry and Remote Sensing and American Congress on Surveying and Mapping p 175 184 B dard Y Valli re D 1995 Qualit des donn es r f rence spatiale dans un contexte gouvernemental Rapport de recherche sur la mise en place d une m thode d valuation de la qualit des donn es a r f rence spatiale pr par pour le Plan g omatique du Gouvernement du Qu bec Universit Laval Qu bec Canada Berry B Approaches to re
221. teurs permettant de communiquer l information relative la qualit des donn es g ospatiales aux utilisateurs Etant donn que les probl mes de qualit deviennent rapidement complexes ex diversit des param tres d crivant la qualit granularit des informations sur la qualit h t rog n it spatiale les utilisateurs cibl s dans cet article sont des experts ayant une bonne connaissance de la g omatique En effet dans le contexte actuel m me les experts en g omatique ont beaucoup de difficult 4 se prononcer sur la qualit des donn es pour une application pr cise dans un secteur pr cis Les donn es utilis es r sultent souvent de l int gration de diff rentes sources pouvant avoir t collect es suivant diff rentes normes diff rentes poques avec des technologies diverses Ainsi les donn es manipul es dans les SIG sont souvent tr s h t rog nes et l ad quation de ces donn es une application sp cifique demeure complexe Bien que l application pr sent e vise des usagers experts en g omatique l approche globale est en partie applicable des utilisateurs non experts Cette approche fournit des informations pertinentes aux utilisateurs relativement la qualit des donn es qu ils manipulent afin de r duire les risques de mauvaises utilisations de ces donn es L utilisation de logiciels SIG dans des processus de prise de d cision sera abord e dans la section 3 3 De mani re plus sp
222. tial datasets such as dataset reference systems spatial accuracy or production date However this information not compliant to any standard is different from one organization to another describing different characteristics of the datasets at various levels of richness Normalized metadata Local national or international organizations such as ISO TC 211 OpenGIS FGDC CGSB COG or CEN TC 287 propose geospatial metadata standards in order to homogenize the information shared between the organizations However different standards can be used from one organization to another Often stored in separate text files these metadata are rarely explicitly associated with their related data limiting their usefulness for GIS functions e g associating uncertainty to distance measurements based on positional accuracy metadata Furthermore these standards are more producer oriented than user oriented they are more a formalization of production procedures and tests that are understandable by data acquisition specialists but they don t provide meaningful information for a general audience useful for decision making processes Metadata linked with data Metadata provided with datasets are still regularly stored in a text file separate from their data file without any explicit link between the data and the text file However some research works done both in academia and industry are now being performed to strengthen the link between metadata and the
223. tiales Epstein et al 1998 Ces erreurs peuvent conduire des d cisions prises dans un climat d incertitude L incertitude peut tre situ e diff rents niveaux les diff rents types d incertitude tant souvent pr sents dans un m me jeu de donn es Fisher 1999 mentionne les probl mes de d finition 1 des classes d objet observ es et 2 des objets individuels composant cette 17 classe Taylor 1982 identifiant ce probl me comme le probl me de d finition B dard 1986 classifie l incertitude en quatre cat gories o Conceptuelle 1 ordre r f re au flou lors de l identification d une r alit observ e o Descriptive 2 ordre r f re au manque de pr cision quant aux valeurs des attributs d une r alit observ e g me o De localisation ordre r f re au manque de pr cision dans la localisation dans l espace et le temps d une r alit observ e o M ta incertitude 4 ordre r f re au niveau auquel les incertitudes pr c dentes sont connues Lorsqu un utilisateur fait face des incertitudes lors d une prise de d cision et qu il est conscient du type d incertitude et de son ampleur il est alors en mesure de choisir entre 1 ne rien faire 2 essayer de diminuer le niveau d incertitude ou 3 prendre la d cision en acceptant les cons quences possibles absorbant ainsi cette incertitude B dard 1986 Hunter 1999 Epstein et al
224. tion dynamique des informations sur la qualit Cette th se fait partie d un projet plus large nomm MUM dans lequel s inscrivent la th se du Dr Marc Gervais 2004 et le m moire de M Johan L vesque d but 01 2005 Elle n offre donc pas toutes les solutions aux probl mes trait s par MUM Ainsi quoique au d but ce projet visait aussi les utilisateurs non experts il a volu pour s int resser suite aux r sultats de la th se de M Gervais sp cifiquement aux utilisateurs experts Certains outils pourraient probablement tre mis la disposition des deux types d utilisateurs mais nous pensons que le manque de connaissance en information g ographique des utilisateurs non experts ne permet pas de communiquer le m me type d information D autres recherches seront n cessaires afin d identifier les moyens les plus appropri s de leur communiquer l information sur la qualit D autres l ments de discussion sont propos s dans la section perspectives de recherche 6 3 Conclusions Cette th se permet de tirer diff rentes conclusions Il nous appara t possible de mettre au point des outils efficaces et intuitifs permettant des utilisateurs experts ou des experts en qualit d analyser la qualit de donn es g ospatiales Ce type de syst me permet ces utilisateurs d accro tre leur connaissance 134 de la qualit et d tre ainsi m me de mieux appr hender des risques potentiels pouv
225. tion et de traitement http www geobase ca http data geocomm com http www alexandria ucsb edu 7 http geodiscover cgdi ca a atteint un point tel que titre d exemple il est maintenant possible d acheter peu de frais dans de nombreuses pharmacies et tabagies du Qu bec des jeux de donn es g ospatiales et leur outil de visualisation afin de planifier ses loisirs Outils Softmap pour la chasse et p che quad randonn e etc L accroissement des applications g omatiques sur les technologies nomades et les t l phones mobiles devrait encore accro tre le ph nom ne de d mocratisation de l information g ographique Il est donc pr sent fr quent que des usagers n ayant pas d expertise dans le domaine de l information g ographique aient acc s ce type d information pour des objectifs professionnels ou priv s souvent des fins diff rentes de celles envisag es par le producteur 1 2 Probl matique 1 2 1 D mocratisation des donn es g ospatiales et prise de d cision tant donn l augmentation des utilisateurs non experts dans le domaine de l information g ographique pouvant manipuler ce type de donn es ainsi que l h t rog n it des sources de donn es et donc de leur qualit l utilisation de donn es g ospatiales dans des processus de prise de d cision n est pas toujours faite de mani re avertie La probabilit que les usagers consid rent les informations
226. tre explor s ou approfondis afin d am liorer cette approche L int gration des m tadonn es et des donn es pourrait tre automatis e pour permettre une analyse rapide de nouveaux jeux de donn es dans la base de donn es multidimensionnelle L utilisation d un format tel que XML pourrait alors tre explor e ex tel qu utilis dans le logiciel ArcGIS De plus des correspondances entre diff rentes normes de m tadonn es c d crosswalks comme celles support es par M Cat de la 136 compagnie Int lec de Montr al pourraient tre implant es pour permettre l int gration automatique de m tadonn es structur es selon ces diff rentes normes Les correspondances entre les normes doivent alors tre rigoureusement tablies afin d viter des confusions entre m tadonn es identiques portant des noms diff rents dans diff rentes normes ainsi que le cas inverse Le calcul des indicateurs de risque r sultant de la comparaison entre les donn es d crivant la qualit c d m tadonn es et les besoins des utilisateurs est un probl me complexe faisant l objet en g omatique de r centes tudes Grum et Vasseur 2004 Frank et al Soumis Les m triques utilis es dans cette th se sont empiriques comme le sont les autres m thodes cit es dans la litt rature mais pourraient tre raffin es pour tre sp cifi es de fa on mieux tenir compte du contexte des utilisateurs Une approche par logiqu
227. tre int gr s dans un syst me plus large permettant de supporter les experts dans l valuation de l ad quation des donn es une utilisation Nous pensons donc que l hypoth se de d part a t v rifi e Une validation de notre approche a t effectu e en pr sentant les concepts et le prototype divers intervenants experts en g omatique ou non scientifiques industriels repr sentants du gouvernement etc Ces pr sentations ont t faites diff rents stades du projet de l id e initiale jusqu au prototype final Des utilisateurs ont t amen s utiliser le prototype ce qui a aid am liorer l interface identifier de nouveaux besoins et constater l int r t de cette approche Ces d monstrations ont ainsi permis de mieux orienter la recherche en fonction des besoins de la communaut Cette validation a permis de constater que les intervenants ont trouv l approche int ressante et beaucoup plus utile que les m tadonn es actuellement fournies Un repr sentant d une organisation produisant des donn es g ospatiales a galement trouv un int r t dans cette approche comme un outil pouvant faciliter la planification de la production de leurs donn es ex identification visuelle rapide de la qualit des donn es permettant une planification des mises jour en donnant priorit aux zones de moins bonne qualit Il aurait t int ressant d tendre cette validation en int grant diff
228. ttant ainsi de b n ficier des op rateurs de navigation fournis par les syst mes de type SOLAP ainsi que des courts temps de r ponse de ces syst mes La quatri me tape a consist en un prototypage informatique permettant de valider les concepts d velopp s dans les deux tapes pr c dentes Bas sur les r sultats de l analyse et de la conception une partie de l impl mentation du prototype i e chargement des donn es et programmation a t effectu e dans le cadre d un stage de 3 mois d un tudiant au baccalaur at de 4 ann e en Sciences G omatiques Mathieu Lachapelle dirig par Yvan B dard et encadr par Rodolphe Devillers Le prototype a t d velopp en Visual Basic combinant diff rentes technologies SIG Intergraph GeoMedia base de donn es relationnelle Microsoft Access base de donn es multidimensionnelles Microsoft SQL Serveur et un client OLAP Proclarity Le feuillet cartographique 021e05 de la Base Nationale de Donn es Topographiques du Canada BNDT chelle 1 50 000 a t utilis pour le prototype Ce jeu de donn es a t s lectionn pour deux raisons principales 1 c est un produit qui poss de des m tadonn es mieux document es que la moyenne et allant jusqu une description des primitives g om triques et 2 le Centre d Information Topographique de Sherbrooke CIT S organisme produisant ces donn es tait partenaire du projet europ en REVIGIS dans leq
229. ture scientifique les m dias et les cas de jurisprudence Blackmore 1985 Beard 1989 Monmonier 1994 Curry 1998 Epstein et al 1998 Hunter 2001 Gervais 2004 Les cons quences de mauvaises manipulations sont la plupart du temps minimes Curry cite comme exemple la mauvaise interpr tation faite des cartes utilisant une projection conforme Il est fr quent que des personnes connaissant peu la cartographie d duisent en voyant ces cartes que par exemple la superficie de Afrique et du Groenland sont peu pr s identiques Toutefois de nombreux cas ont eu des cons quences plus graves et ont caus des pertes de vies humaines ou des d g ts mat riels majeurs ces cas ayant souvent fini devant des tribunaux Gervais 2004 tant donn que les donn es g ospatiales sont de plus en plus utilis es dans les processus de prise de d cision et dans des domaines de plus en plus vari s les cas de mauvaise utilisation et donc d accidents et de litiges ont de fortes chances d augmenter Epstein et al 1998 Hunter 1999 pense m me que cette tendance pourrait aller jusqu la remise en cause de l utilisation des syst mes d information g ographique Afin de r duire ces risques de mauvaise utilisation les utilisateurs non experts devraient pouvoir mieux valuer l ad quation de ces donn es leur utilisation fitness for use Toutefois il est difficile voire impossible pour ces utilisateurs non experts d
230. ty Revisited Proceedings of GeoInfo 2001 Symposium Rio de Janeiro Br sil 4 5 octobre 2001 72 Hunter G J Reinke K J Adapting Spatial Databases to Reduce Information Misuse Through Illogical Operations Proceedings of 4th International Symposium on Spatial Accuracy Assessment in Natural Resources and Environmental Sciences Accuracy 2000 Amsterdam juillet 2000 p 313 319 ISO TC 211 Geographic Information Quality principles 19113 2003 Kaplan R Norton D The balanced scorecard Measures that Drive Performance Harvard Business Review vol 70 n 1 1992 p 71 79 Klein G Sources of Power How people make decisions Cambridge Massachusetts MIT Press 1999 Krek A Frank A U Optimization of Quality of Geoinformation Products Proceedings of Proceedings of 11th Annual Colloquium of the Spatial Information Research Centre SIRC 99 Dunedin New Zealand 13 15 d cembre 1999 Department of Information Science University of Otago p 151 159 Lardon S Maurel P Piveteau V ed 2001 Repr sentations spatiales et d veloppement territorial Editions Herm s Longley P A Goodchild M F Maguire D J Rhind D W ed 1999 Geographical Information Systems John Wiley amp Sons Martinet B Marti Y M L intelligence conomique ditions d Organisation 2001 Miller G A The Magical Number Seven plus or minus two Some limits on our capacity for processing informatio
231. type feu de circulation vert jaune rouge pourra avoir une valeur jaune repr sentant l ensemble des donn es visualis es dans l interface L utilisateur pourra passer en mode de repr sentation cartographique de la qualit et ainsi avoir une meilleure id e des qualit s individuelles des objets ex pr cision spatiale chaque objet affich tant repr sent en vert jaune ou rouge d pendamment de sa qualit Cette repr sentation permet entre autres d identifier rapidement l h t rog n it spatiale de la qualit Activer des alarmes automatiquement lorsque certaines conditions sont atteintes des signaux sonores ou visuels peuvent tre mis pour capter l attention des utilisateurs certains moments critiques comme lorsqu un indicateur d passe la tol rance d finie par l utilisateur La Figure 11 pr sente un sch ma g n ral de la cr ation des indicateurs qui seraient affich s dans le tableau de bord du syst me MUM 1 Une interface permet de collecter les 61 informations caract risant l utilisateur contexte style de gestion etc et conserve ces informations 2 Une base de donn es d indicateurs pr d finis permet a l utilisateur de s lectionner et ventuellement de modifier des indicateurs existants L utilisateur peut aussi d finir et stocker de nouveaux indicateurs Cette tape permet aux utilisateurs de personnaliser leurs indicateurs et leur tableau de bord 3 Les m tadonn es
232. u rant des informations compl mentaires sur les jeux de donn es ou de travailler avec ces donn es en absorbant ainsi l incertitude r siduelle Remerciements Ce travail est financ par le Minist re de la Recherche de la Science et de la Technologie du Qu bec dans le cadre de la collaboration avec le projet europ en REVIGIS le Centre de Recherche en G omatique CRG et l Universit Laval Nous remercions galement le Centre d Information Topographique de Sherbrooke CIT S de G omatique Canada pour leur support ainsi que des valuateurs anonymes pour leurs commentaires 3 7 Bibliographie Agumya A Hunter G J Determining fitness for use of geographic information ITC Journal vol 2 n 1 1997 p 109 113 Beard K Use error the neglected error component Proceedings of AUTO CARTO 9 Baltimore Maryland mars 1989 p 808 817 B dard Y Uncertainties in Land Information Systems Databases Proceedings of Eighth International Symposium on Computer Assisted Cartography Baltimore Maryland 29 mars 3 avril 1987 American Society for Photogrammetry and Remote Sensing et American Congress on Surveying and Mapping p 175 184 Blackmore M High or Low Resolution Conflicts of Accuracy Cost Quality and Application in Computer Mapping Computers amp Geosciences vol 11 n 2 1985 p 345 348 Buttenfield B P Representing Data Quality Cartographica vol 30 n 2 3 1993 p
233. ualit des donn es telle que document e Une telle approche peut tre int gr e dans des outils SIG ou dans d autres outils de visualisation cartographique ex SOLAP soit comme un outil de gestion de la qualit part enti re soit comme une composante de l outil de visualisation parmi d autres pouvant tre activ e au besoin par l usager Les m tadonn es d finies par les organismes de normalisation et actuellement fournies par les producteurs de donn es sont n cessaires pour permettre la cr ation des indicateurs mais pr sentent des limites dans leur format actuel En effet de nombreuses m tadonn es utilisent des textes libres pour d crire les donn es ce type de format tant difficilement manipulable automatiquement De plus les m tadonn es offrent la plupart du temps des descriptions au niveau du jeu de donn es uniquement Pour tirer le maximum de b n fices du syst me MUM les donn es devraient d crire les objets un niveau de d tail plus fin afin de mieux souligner l h t rog n it spatiale temporelle ou descriptive de la qualit Beaucoup de jeux de donn es n ont pas de m tadonn es ou ont des m tadonn es sommaires Toutefois pas d information est en soi une information utile l utilisateur des 70 donn es lui indiquant que les donn es sont peu document es et que leur utilisation peut donc tre d licate L utilisateur peut alors d cider de r duire son incertitude en acq
234. uality Control Handbook New York McGraw Hill 1974 Kahn B K Strong D M Product and Service Performance Model for Information Quality An Update Proceedings of Conference on Information Quality Cambridge MA Massachusetts Institute of Technology Kainz W Logical consistency Elements of spatial data quality S C Guptill and J L Morrison Eds p 109 137 1995 149 Kaplan R Norton D The balanced scorecard Measures that Drive Performance Harvard Business Review vol 70 n 1 1992 p 71 79 Keller S F On the Use of Case Based Reasoning in Generalization Proceedings of Spatial Data Handling 6 Edinburgh Scotland UK 5th 9th September 1994 p 1118 1132 Klein G Sources of Power How people make decisions Cambridge Massachusetts MIT Press 1999 Kobsa A Generic User Modeling Systems User Modeling and User Adapted Interaction vol 11 2001 p 49 63 Krek A Frank A U Optimization of Quality of Geoinformation Products Proceedings of Proceedings of 11th Annual Colloquium of the Spatial Information Research Centre SIRC 99 Dunedin New Zealand 13 15 December 1999 Dept of Information Science University of Otago p 151 159 Lanter D A Three part Approach to Geographic Data Quality Assurance Data Quality in Geographic Information From Error to Uncertainty M F Goodchild and R Jeansoulin Eds Editions Hermes p 192 1998 Larsen P L Learning to Spe
235. uel s ins rait partiellement ce projet Le CIT S a de plus fourni gratuitement leurs donn es Ce feuillet repr sente le centre de la ville de Sherbrooke Qu bec et a la particularit d inclure des zones urbaines et plus rurales pouvant avoir des qualit s diff rentes Le fait que plusieurs municipalit s r cemment fusionn es soient pr sentes sur le feuillet a galement un int r t au regard de l h t rog n it de la qualit des donn es Un sous ensemble g ographique et th matique du feuillet a t fait pour les fins d exp rimentation Parmi plus de 110 classes d objets disponibles les classes d objets repr sentant les routes roadl li_roal les cours d eau watercl waterbd et les b timents buildid buildip builtud ont t utilis es Une validation de l approche et du prototype a t faite diff rents stades du projet tant sur le plan scientifique que sur le plan de l utilit de l approche pour diff rents types d utilisateurs Sur le plan scientifique l approche d velopp e dans ce projet a fait l objet de 13 communications scientifiques dans des revues conf rences nationales et internationales http www cits mmcan ge ca 5 http scar cits rncan gc ca bndt bndt htm 10 etc pr sentant diff rents aspects du projet a diff rents stades de r flexion Cela a permis de discuter et de valider le contenu scientifique avec des experts en qualit en bases de donn es e
236. user The dashboard is displayed into the GIS interface and can be visible or not These indicators represent quantitative or qualitative values resulting from the comparison of the data characteristics and the user s needs A User can visualize indicators at different levels of details and can navigate in the indicator hierarchy using OLAP operators e g drill down and roll up Cd m o Pa m a 00 3 eem 2 a Primary i i i Layer r 1 7 H Object or Attribute 1 Primitive F Primary E AA E Secondary i 3rd level level Figure 22 Possible visualizations of Quality information using the QIMM Quality information can be for instance displayed in a dashboard left on a cartographic base top in attribute tables on the individual value level top right or on the attribute level bottom right e Cartographic visualization indicator values can be displayed on a cartographic base using different representations e g colour shape texture SOLAP operators can allow 97 the navigation between the levels of detail in a cartographic view e g moving from the visualization of a quality indicator for a single road to the visualization of the quality of each road segment of this road This visualization mode is particularly interesting to get an idea of the spatial heterogeneity of quality information users being able to rapidly identify the areas of a map having lower qu
237. uts dans le fichier de donn es Ainsi les m tadonn es de la BNDT poss dent quatre niveaux de d tails jeu de donn es les sections territoire et int gration sont aussi associ es au niveau du jeu de donn es polygone de m tadonn es th me et primitives g om triques Les informations d crivant la qualit incluses dans les m tadonn es de la base de donn es topographique Australienne 250K sont aussi document es quatre niveaux de d tails dataset data layer feature class et individual feature level Hunter 2001 2 3 3 Communication et utilisation de l information sur la qualit L information sur la qualit a pour objectif de permettre aux utilisateurs de d terminer dans quelle mesure les donn es r pondent leurs besoins concept de fitness for use Chrisman 34 1990 Agumya et Hunter 1997 Pour cela diff rentes mani res de communiquer l information sur la qualit sont utilis es ou propos es dans la litt rature Le moyen le plus utilis actuellement pour communiquer l information sur la qualit est la diffusion de m tadonn es incluant certaines informations sur la qualit Les organismes de normalisation sugg rent l inclusion d informations d crivant la qualit des jeux de donn es ex ISO 19113 et ISO 19115 FGDC CEN Toutefois l utilit de ces m tadonn es reste tr s limit e tant donn entre autres la complexit de leur repr sentation celles ci tan
238. valuer l ad quation des donn es cette valuation impliquant de nombreuses caract ristiques document es diff rents niveaux de d tails et g n ralement communiqu es dans un langage herm tique pour des non experts D o la n cessit de faire appel un expert 1 2 2 Probl matique juridique En compl ment des probl mes potentiels de mauvaises utilisations r sultant de la d mocratisation des donn es il existe une probl matique juridique significative qui suscite un int r t croissant Gervais 2004 Gervais a fait une analyse juridique pouss e de diff rents aspects reli s aux bases de donn es num riques et l information g ographique dans plusieurs pays ex Canada France Belgique Etats Unis ainsi qu travers l analyse de 225 causes juridiques Il a ainsi identifi dans tous les pays tudi s un haut niveau d incertitude concernant plusieurs aspects juridiques tels que la propri t intellectuelle les contrats de ventes de donn es et de services la responsabilit civile des producteurs d information g ographique D coulant de ce constat Gervais identifie un ensemble de t ches que les producteurs de donn es devraient r aliser pour se conformer la l gislation Parmi ces t ches les producteurs de donn es g ospatiales doivent fournir aux utilisateurs des informations correctes compl tes et compr hensibles concernant les jeux de donn es qu ils fournissent Ces informations doiven
239. ver space and time can be a tricky issue On the other hand formalising expert opinions is not simple either and the propagation of quality information to lower levels of details has to be done with caution because high level information can be an implicit aggregation of heterogeneous low level data Nevertheless it seems reasonable to believe that with today s knowledge none of these approaches can completely fill the database both could be used in most quality information systems and the capacity of acquiring relevant data will be a key element when deciding which approach to choose In addition in the context of risk analysis for the use of data one must keep in mind that no information is information and divergent information is also information 117 5 6 Applying the concepts developing the Multidimensional User Manual MUM prototype Based on the quality indicator approach and the QIMM structure we developed a prototype software to support experts assessing the fitness of certain data for an intended use The prototype implements as a proof of concept different operators which have been described in the chapter 3 such as displaying quality information using indicators calculating indicators values according to the spatial extent visualised by the user allowing users to select indicators relevant to their application providing indicators at different levels of details etc In the next sections we describe the archit
240. which extends the concepts of Unwin s 1995 error sensitive GIS and of Duckham and McCreadie 2002 error aware GIS We refer to a quality aware GIS as a GIS with the added capabilities to manage update explore assess and communicate quality information The term quality encompassing more than error by also addressing issues related to GIS users contexts and usages e g user profile and needs assessment This is then a step further towards better GIS Acknowledgement This research is part of the MUM project Multidimensional User Manual and has benefited from financial support from the Canadian Network of Centres of Excellence GEOIDE the IST FET program of the European Community through the REV GIS project the Minist re de la Recherche de la Science et de la Technologie du Qu bec the Canada NSERC Industrial Chair in Geospatial Databases for Decision Support the Centre for Research in Geomatics CRG and Universit Laval Thanks are due to Mathieu Lachapelle who contributed to the prototype development 5 8 References AALDERS H J G L 2002 The Registration of Quality in a GIS In Spatial Data Quality edited by W Shi P Fisher and M F Goodchild Taylor amp Francis pp 186 199 126 AALDERS H J G L and MORRISON J 1998 Spatial Data Quality for GIS In Geographic Information Research Trans Atlantic Perspectives edited by M Craglia and H Onsrud London Bristol Taylor amp F
241. y indicators can be selected by users according to their 119 needs Based on the ISO 19113 standard a set of quality indicators was defined and stored hierarchically into a relational database Then users can select the indicators they want to display in their analysis dashboard by simply applying a drag and drop operation from the indicator list to the dashboard creation tool cf Figure 26 Each indicator definition is stored within this database including a description of what it represents the way it is computed some warnings related to its interpretation its importance as defined by the user expressed in term of weight etc The user can eventually adapt some items further One may select among different graphical representations to illustrate each indicator e g street light smiley speed meter NE zax Quality Dashboard Creation O puuru i Indicator Internal Quality Profile name Rodo phe_mum To create your dashboard select the Description You can check indicators you wert information on Than click the indicators you want in the left window and description bution drag them into one of the 9 squares in the right window Definition Importance level o Sims a Qualy Quality related to the intrinsic properties of the dataset Average E iri ihi a i a Measure value calculation formula Reference to Average of indicators of the 3rd level composing it Remarks Data type
242. yj Scott D Hearnshaw H M ed 1993 Human Factors in Geographical Information Systems Belhaven Press 266 p Meng L Scroll the space and drill down the information Proceedings of 20th International Cartographic Conference Beijing China 6 10 ao t 2001 p 2436 2443 Mihaila G A Rashid L Vidal M E Querying Quality of Data Metadata Proceedings of Third IEEE META DATA Conference Maryland USA avril 1999 Miller G A The Magical Number Seven plus or minus two Some limits on our capacity for processing information The Psychological Review vol 63 1956 p 81 97 Miller H J Han J Geographic Data Mining and Knowledge Discovery Taylor amp Francis 2001 Mintzberg H The structuring of organisations Prentice Hall 1979 Monmonier M A Case Study in the Misuse of GIS Siting a Low Level Radioactive Waste Disposal Facility in New York State Proceedings of Conference on Law and Information Policy for Spatial Databases Tempe AZ USA p 293 303 1994 Morrison J L A theoretical framework for cartographic generalisation with the emphasis on the process of symbolisation International Yearbook of Cartography vol 14 p 115 127 1974 Morrison J L Spatial data quality Elements of spatial data quality S C Guptill and J L Morrison Eds Elsevier Science inc New York 1995 151 Mowrer H T Accuracy Re assurance Selling Uncertainty Assessment to the Uncertain Spatia
243. yst me MUM telles que des outils permettant de mettre jour les m tadonn es lorsque des changements sont effectu s sur les donn es des techniques de propagation d incertitude permettant d valuer l incertitude r sultante lors de certaines manipulations etc Il serait galement int ressant d explorer les fa ons dont l information sur la qualit pourrait tre exploit e de fa on plus syst matique par les fonctions des SIG afin de prendre en compte automatiquement la qualit lors des op rations faites avec un SIG ex mesure de distance calcul de nombre d entit s pr sentes dans une zone Comme mentionn pr c demment l approche pr sent e dans cette th se pour la gestion et la communication de l information sur la qualit ouvre de nouvelles perspectives de recherche tant th oriques qu applicatives Elle aura constitu nous le souhaitons une contribution d int r t pour la communaut int ress e la qualit des donn es g ospatiales 6 5 R f rences Burrough P A Development of intelligent geographical information systems International Journal of Geographical Information Systems vol 6 n 1 1992 p 1 11 Duckham M McCreadie J E Error aware GIS Development Spatial Data Quality W Shi P F Fisher and M F Goodchild Eds Taylor amp Francis London UK p 63 75 2002 Faiz S O 1999 Systemes d Informations G ographiques Information Qualit et Data Mining Tu
Download Pdf Manuals
Related Search
Related Contents
Chapter 3: PeerMark™ Turnitin Instructor User Manual Using Additional Headphones roches carrières cave sol patrimoine MOUNTCORDER Procesamiento de Papaya a Pequeña Escala, Elaboración Copyright © All rights reserved.
Failed to retrieve file