Home
Maîtriser la Société de l`Information
Contents
1.
2. Nancy 1 Y Toussaint A Simon H Cherfi 2000 Apport de la fouille de donn es textuelles pour l analyse de l information Actes des Journ e Francophones d Ing nierie des Connaissances 1C 2000 Toulouse p 335 344 A Ultsch 1999 Data Mining and Knowledge Discovery with Emergent Self organizing Feature Map for Multivariate Time Series in E Oja S Kaski eds Kohonen Maps Amsterdam ELSEVIER p 33 45 J M Zytkow et M Quafafou eds 1998 Principles of Data Mining and Knowledge Discovery Proceedings of the Second European Symposium PKDD 98 Nantes Berlin Springer Lecture Notes in Artificial Intelligence 1510 ANNEXE 1V La r partition g o strat gique de Internet Map of the Root Servers Carte de la r partition des serveurs racines travers le monde 80 90 du traffique IP transite par ces serveur dont Te sur qe sontt situ s au Etats Unis Root nameservers Status check map city NSI Herndon YA US USC ISI Marina del Rey CA US PSinet Herndon YA US U of Maryland College Park MD US NASA Mt View CA US Internet Software C Palo Alto CA US DISA Vienna YA US ARL Aberdeen MD US NORDUnet Stockholm SE NSI TBD Herndon VA US RIPE London UK ICANN Marina del Rey CA US Source http www icann org correspondence roberts testimony 14feb01 htm WIDE Tokyo JP
3. rendues plus difficiles d acc s et plus co teuses Les entreprises en phases avec des r alit s court terme ont de la peine prendre en compte ce type de risque la notion d incertitude les poussent faire le minimum pour assurer leur p rennit de leur activit professionnelle Les donn es actuelles d montrent que malgr un fragilisation de fonctionnement due l utilisation des SI et un turn over important elles pr f rent continuer naviguer vue Il est vraisemblable que l arriv e d une responsabilisation p nale des dirigeants insouciants remettra au go t du jour la culture de la pr vention du risque 27 ANNEXE I Glossaire des Termes Internet Adresse IP Adresse Internet Protocol Adresse unique permettant d identifier un ordinateur sur l Internet Applet Une applet est un petit programme crit en Java qui s ins re dans les pages HTML Ce programme est ensuite interpr t et ex cut par le navigateur Archie Syst me qui permet de localiser un nom de fichier dans les sites FTP anonymes Les serveurs Archie r pertorient des millions de fichiers qui se trouvent dans quelques milliers de sites FTP anonymes dans le monde ARP Address Resolution Protocol Protocole de R solution d Adresse Messages et proc dures utilis par tout protocole de communication pour retrouver partir des adresses locales les adresses r seau Dans TCP IP le protocole pour convertir les adresses IP r s
4. RECHERCHER ja JobWebmaster Zone g ographique A www jobwebmaster 1 Bloc ncitf rent A crans perse lt IDOCTYPE HTML PUBLIC W3C DTD HTML 4 0 Transitional EN gt 2 lt HTML gt EE lt HEAD gt lt TITLE gt JobWebmaster L Espace Job High Tech lt TITLE gt INEM lt META HTTP EQUIV Content Type CONTENT text html charset IS Forum Emploi a Limoge lt META NAME Description LANG fr CONTENT Trouvez l emploi des ener lt META NAME Keywords LANG fr CONTENT emploi offre job den SM nee 020 chef de projets client serveur chef de projets designer 3d d velopper Toute l actualit des Jo nt technique formateur ing nieur commercial m dia planner r dacteur lt META NAME Author LANG fr CNENETRSON ER EEE AA lt META NAME Identifier URL CONTENT http www jobwebmaster t iol 7 4 Remarque concernant l identification des d tenteurs d un site Internet Quelles est la probl matique au niveau l gale Le principal probl me que l on rencontre se situe au niveau de la n cessit de l entraide judiciaire et du manque de contr le de la cr dibilit des informations fournie par les ADE ayants droits conomiques de plus la possibilit de s parer les diff rentes informations en relation avec les d tenteurs de sites au niveau g ographique humain et des prestataires de services Par exemple r cemment un cas d escroquerie avait pour contexte un nom de
5. dara les tags ace Mis jour depuis inpr que rl dens le nom de donne dore l url Les rumeurs comme cela souvent t soulign dans ce m moire les fausses informations sont pr sentes en masse sur le Web Un des vecteurs la mode est l email il sert de support tous types de fausses nouvelles avec plus ou moins de succ s Profitant et 1a de la cr dulit des internaute pour une part et de l utilisation de la connaissance du comportement humain pour l autre C est ce dernier point qui va tre aborder dans l exemple ci dessous BONJOUR amp TOUS UN DE MES CORRESPONDANTS A ETE INFECTE PAR UN VIRUS QUI CIRCULE SUR LE MSN Messenger LE NOM DU VIRUS EST jdbgmgr exe LICONE EST UN PETIT OURSON IL EST TRANSMIS AUTOMATIQUEMENT PAR MESSENGER AINSI QUE PAR LE CARNET D ADRESSES LE VIRUS N EST PAS DETECTE PAR Mc4FEE OU NORTON ET RESTE EN SOMMEIL PENDANT 14 JOURS AVANT DE S ATTAQUER AU DISQUE DUR IL PEUT DETRUIRE TOUT LE SYSTEME JE VIENS DE LE TROUVER SUR MON DISQUE DUR AGISSEZ DONC TRES VITE POUR l ELIMINER COMME SUIT 1 Aller DEMARRER faire RECHERCHER 2 dans la f netre FICHIERS DOSSIERS taper le nom du virus jdbgmgr e xe 3 Assurez vous de faire la recherche sur votre disque dur C 4 Appuyer sur RECHERCHER MAINTENANT 5 Si vous trouvez le virus LICONE EST UN PETIT OURSON son nom jdbgmgr exe 6 Appuyer sur le bouton droi de la souris pour l eliminer aller la CORBEILLE vous pouvez
6. l histamine est une amine biog ne qui est tout particuli rement tudi e dans le corpus par sa toxicit dans les aliments Lors de la phase d interpr tation il est indispensable de disposer d un outil de visualisation et navigation PERSPECTIVES La nouvelle conomie et avec elle la gestion croissante de connaissances dans la vie des organisations sont des facteurs d finissant un nouvel horizon pour la veille et l intelligence conomique mais aussi pour la bibliom trie qui les est associ e Dans ce nouveau contexte la demande de fouille de donn es textuelles de la part de la veille et de l intelligence conomique ne peut que s accro tre Si cette demande se d veloppe elle devra en exercer un effet d orientation sur la recherche dans le domaine de la fouille de donn es textuelles et sur la mise au point de syst mes viables Ceci pose le probl me de savoir quel est l tat de l offre du c t de la fouille de donn es textuelles Notre pr sentation a voulu montrer succinctement ce que repr sente un syst me de fouille de donn es textuelles section 2 la diversit de disciplines et m thodes que la fouille de donn es textuelles mobilise section 3 et puis l tat actuel de la fouille de donn es textuelles sur le plan de l ing nierie linguistique section 4 et de l ing nierie de la connaissance section 5 et 6 Pour l analyse des perspectives de la fouille de donn es textuelles il est n cessaire de tenir en com
7. 7 L analyse et la cr dibilit de l information inclus tra abilit et identification La libert et la facilit de publication de documents lectroniques sur le Web sont significatives de la difficult repr sent e par l identification de la source des informations auxquelles on peut acc der C est pour cette raison qu en plus des d marches logiques de contr le date de l information date de mise jour notori t et cr dibilit de la source possibilit de contacter son metteur qualit de l url il faudra entamer des d marches techniques li es l identification de la provenance de l information g ographique technique r seaux source et tra abilit d un email ou d un site web a l tude de la structure de l information code html d une page Web d un email html l identification de l ayant droit conomique d tenteur d un site Web ou encore pour d terminer le prestataire de service qui h berge le nom de domaine ainsi que le contenu d un site Web Ces d marches font appel une compl mentarit des connaissances abord es pr c demment aspect multicouches de l information notion d adressage IP url code html m ta tag 14 7 1 Cr dibilit de information pr sentation de deux cas cole a Le cas Emulex cette soci t active dans le domaine de la fibre optique a t victime en ao t 2000 de la propagation d une s rie de fausses informat
8. Le but tant d aider les personnes obtenir de la connaissance partir de grandes quantit s de textes semi structur s Comme le montre Text Mining Workshop IJCAI 99 la fouille de donn es textuelles est un terme recouvrant des activit s tr s diverses Selon Toussaint Simon et Cherfi 2000 une premi re diff rence entre les m thodes vient des donn es qui sont fournies l algorithme de fouille et de la qualit de ces donn es selon la capacit des algorithmes prendre en compte des donn es de qualit inf rieure Le second aspect de diff renciation porte sur l algorithme de fouille sur le type de donn es qui sont fournies l utilisateur final qui dans tous les cas doit tre un expert Nous avons vu ci dessus dans la section 1 que le texte mining se distingue du data mining par les moyens techniques qu il le faut employer pour traiter les donn es textuelles Ces donn es sont des textes et aussi des donn es non structur es ou semi structur es De l donc deux t ches traiter automatiquement le langage naturel dans sa forme crite manipuler des donn es non structur es ou semi structur es Lesquelles demandent des outils sp cialement adapt s Au sujet du probl me de la manipulation de donn es semi structur e DSS Al Hulou Napoli et Nauer 2000 analysent comment le langage de description de documents XML avec les outils qui lui sont associ s et l essor qu il conna t peut servir comme un formali
9. Etats Unis ensemble de protocoles qui rendent possible l change d information entre une grande vari t d ordinateurs Il repose sur la transmission par Paquet T l charger Effectuer le t l chargement d une copie des donn es choisies par l internaute d un ordinateur un autre en utilisant g n ralement le protocole FTP Telnet Application qui supporte les sessions de connexion a distance en mode terminal a travers un r seau TCP IP URL Uniform Resource Locator Syntaxe utilis e par www pour sp cifier la localisation physique d un fichier ou d une ressource sur l Internet C est en quelque sorte le descripteur du chemin d acc s une ressource du Web Usenet Unix User Network R seau des ordinateurs transf rant entre eux les fichiers de News Usenet n est pas l Internet m me si aujourd hui les deux r seaux sont fortement imbriqu s VERONICA Application qui permet de proc der des recherches par mot cl dans les menus des serveurs de type Gopher V rification Saisie des donn es relatives la s curit d un r seau Les programmes de v rification servent enregistrer les v nements identifier les attaques du r seau et s assurer que le dispositif de s curit du r seau fonctionne efficacement Visioconf rence La visioconf rence est une technologie qui permet depuis un micro ordinateur d changer avec un interlocuteur distant et de le voir en temps r el dans une fen tre virtuelle l cr
10. Redes ntipviwww reuna clWvicforol Iwww reuna cl vi foro ETNO European Public Telecommunications Network Operators http www etno be Association ETSI European Telecommunications Standards Institute http www etsi fr http www etsi org Eurolnternet European Internet Business Association http www eurointernet org EuroISPA European Internet Services Provider Associations http www euroispa org FCC US Federal Communications Commission http www fcc gov TT Mm ne nain Tan Tasset Mamie fnnt annnnintnd with anientar nandai gTLD MoU Generic Top Level Domain Memorandum of Understanding http www gtld mou org IAB Internet Architecture Board http www iab org iab IAHC International Ad Hoc Committee http www iahc org IANA Internet Assigned Numbers Authority http www iana org ICANN Internet Corporation for Assigned Names and Numbers http www icann org ICC International Chamber of Commerce http www iccwbo org IETF Internet Engineering Task Force http www ietf org IESG Internet Engineering Steering Group http www ietf org iesg html INTA International Trademark Association http www inta org IOPS ORG Group of commercial Internet Service Providers http www iops org iPOC gTLD MoU Interim Policy Oversight Committee http www gtld mou org ISA Interactive Services Association http www isa net ISO International Organization for Standardization http www iso ch ISOC Internet Society http www isoc org ISP Intern
11. d imiter la charte graphique du site cible et ensuite d obtenir l adresse IP de son propre domaine 272 190 116 226 voir page 7 l aspect multicouche de l information l inclure la suite de l arobase avec le chemin jusqu au document d sir Anews php y2JEHUDv Ces deux cas illustrent aussi tr s bien le concept de rapport de force asym trique Pour chacun d entre eux une seule personne a uvr et r ussi compromettre la vie d une entreprise cot e en bourse pour le premier et a d stabiliser une cha ne d information telle que CNN La diff rence 15 entre les moyens engag s et la puissances des entreprises attaqu es est la repr sentation de ce rapport asym trique 7 2 Cr dibilit de l information les d marches de validation logiques date de l information quand est ce que l information a t publi e est ce que la date de publication correspond aux autres dates pr sentes dans le site quand disponible Information quantitative Date de mise jour est ce que le site fait l uvre d une politique de mise jour de V information est ce que celle ci semble homog ne sur l ensemble du site Information quantitative Notori t et cr dibilit de la source est ce que le site est connu de quelle notori t b n ficie t il quels sont les r sultats que j obtiens quand je le soumets des MR ce type de contr le est possible a
12. d informations Combinaison mat rielle et logicielle assurant la prestation de services sp cifiques d autres ordinateurs Un seul serveur peut exploiter diff rents logiciels offrant ainsi autant de services diff rents aux clients du r seau Le client consommateur peut tre un usager un ordinateur ou un autre logiciel Serveur Web Syst me informatique ex cutant le logiciel qui permet d accepter des requ tes utilisant le protocole d application HTTP et servant cr er des sites Web ou h berger des pages d accueil personnalis es Shareware Partagiciel Logiciel utilisable volont selon les conditions nonc es en change d une somme d argent vers e l auteur Il peut souvent tre utilis gratuitement pendant une p riode d valuation SGML Standard Generalized Markup Language Norme la plus r pandue de marquage de documents HTML en est un sous ensemble sp cifique pour le marquage de documents hypertextes SLIP Serial Line Internet Protocol Protocole qui permet d avoir acc s aux fonctions du protocole IP partir d un modem et d une ligne t l phonique conventionnelle Le protocole PPP offre un quivalant plus complet SMTP Simple Mail Transfer Protocol Protocole utilis pour changer les messages entre les diff rents syst mes de messagerie qu on retrouve sur les ordinateurs dans l Internet TCP IP Transmission Control Protocol over Internet Protocol N dans le milieu de la recherche militaire aux
13. de ces donn es elle emp che de les comprendre sans le recours d une cl de chiffrement permettant d afficher en clair Cl publique Cl utilis e dans un syst me de chiffrement dans lequel la cl de chiffrement est diff rente de la cl de d chiffrement Ce syst me repose sur le caract re secret d une cl dite priv e m me en connaissant la cl publique c est dire diffus e publiquement Un mod le de chiffrement double cl est celui de POP Pretty Good Privacy Client serveur Mode de fonctionnement d un programme informatique qui r partit la charge de travail d une application entre deux logiciels le client et le serveur Le client assume les changes avec l utilisateur la pr paration des requ tes l affichage des r sultats etc Le logiciel serveur assume la gestion des bases de donn es et effectue les traitements les recherches et traite tout type de requ tes que lui adresse le logiciel client Commutation par paquet Mode de transmission des informations sur l Internet les donn es transmettre sont d coup es en plusieurs paquets et chaque paquet est envoy de mani re ind pendante Ce mode est distinguer de la commutation de circuit qui est utilis e pour le t l phone Compression Traitement des donn es num riques qui r duit leur volume D s lors que des informations sont num ris es converties en s ries de bits elles peuvent tre compress es afin d occuper moins de place Les
14. des zones et p rim tres de recherches 6 7 Principes de bases pour tablir une recherche 6 8 Utilisation des fonctionnalit s avanc es des moteurs de recherches les principaux Op rateurs Bool ens L analyse et la cr dibilit de l information inclus tra abilit et identification 7 1 Cr dibilit de l information pr sentation de deux cas cole 7 2 Cr dibilit de l information les d marches de validation logiques 7 3 Cr dibilit de l information les d marches de validation techniques 7 4 Remarque concernant l identification des d tenteur d un site Internet Analyse de l environnement et de la survenance de l information par l interpr tation des signaux faibles 8 1 Mod le d analyse de l environnement de l information 8 2 Deuxi me axe d analyse du fait 8 3 Utilit et compr hension du mod le d analyse des signaux faibles 8 4 La m thode PUZZLE d analyse des signaux faibles 8 5 Traitement de l information Principes de l intelligence collaborative 8 6 Exemples d utilisation des m thodes trait s dans le chapitre 8 Strat gies visant la ma trise des Flux informationnels 9 1 La veille strat gique principes de base et possibilit s d utilisation KO WW o I J A MN e A N D mm O 14 15 16 16 18 19 19 19 20 20 23 23 24 24 9 2 Philosophie pour la mise en place d une structure de veille 9 3 Etapes du
15. diff rents outils de recherches de l information Les annuaires leur particularit est de regrouper th matiquement des sites Web dans des r pertoires addoc Dans la majorit des cas le catalogage et l indexages des sites ce fait pas des personnes au contraire de l indexation des sites fait par des programmes automatiques pour les MR par mots cl s Les avantages de ce type d outil sont une bonne pertinence des r sultats obtenus ainsi qu une meilleure ma trise de l environnement de recherche ont acc de un nombre de r sultat limit s mais tr s cibl s Les inconv nients de la recherche par navigation sont des champs limit s par le contenu des r pertoires auxquels on acc de ce qui n cessite de savoir tr s pr cis ment ce que l on cherche par exemple http dmoz org Les m tas moteurs leur particularit est d effectuer les dites recherches au travers d autres MR les requ tes sont bas es sur des mots cl s une requ te sera transmise plusieurs moteurs de recherches en m me temps L avantage de ce type de recherche est de couvrir un champs tr s large et de pouvoir utiliser un nombre important d outils lors de la m me requ te L inconv nient de ces m tas moteurs se situe au niveau des r sultats des requ tes il y non seulement une redondance d information mais en plus la pertinence des r sultats obtenus laisse d sirer On les utilisera pour des recherches g n ralistes par exempl
16. gestion du risque au niveau du traitement des flux financiers blanchiment d argent 1 On pourrait aborder le courant tacite de la soci t comme un comportement ou une connaissance qui ne provient pas directement d un apprentissage mais d une relation entre des connaissances acquises et l exercice de celles ci ce qui g n rerait le d veloppement d un nouveau savoir qui n est inscrit nulle part qui n est pas pr sent sur un quelconque support mode de croyances sociales 2 Terme dont la paternit revient Chritian Harbulot Directeur de l Ecole de Guerre Economique www ege eslsca fr 2 Soci t de l information une nouvelle donne pour les entreprises connect es La premi re cons quence de l utilisation des ordinateurs et de l Internet est la n cessit d une d mat rialisation de l information amen e par la num risation des changes La typologie m me du r seau mondial a apport des changements majeurs dans la d finition du p rim tre de l entreprise Les fronti res g ographiques classiques ont laiss la place des territoires virtuels dont la d limitation plus floue peut d s lors se repr senter en termes de segments de march s et de secteurs d activit L interconnexion croissante de la sph re professionnelle et la vitesse de propagation des NTIC ont g n r de nouveaux risques pour les entreprises utilisant des SI Les d veloppements actuels de la soc
17. http www dnso org constituency registrars registrars html e coll ge Intellectual property du DNSO http ipc songbird com Registre du ch e SWITCH http www nic ch woe wow Registre de com org net e InterNic http www internic net Liste officielle des administrateurs des 240 ccTLD codes ISO de fr e JANA Root zone http www iana org cctld cctld whois htm Autres Analyses http www icannwatch org http www civilsocietyinternetforum org http www cpsr org dns index html http www cdt org dns icann elections Source http www gouvernance internet com ft liens html ANNEXE III TEXT MINING ET INTELLIGENCE ECONOMIQUE AUJOURD HUI ET DEMAIN Xavier Polanco Unit de Recherche et Innovation Institut de l Information Scientifique et Technique Centre National de la Recherche Scientifique polanco inist fr La Fouille de Donn es Textuelles FDT c est dire le Text Mining TM est ici pr sent e par rapport l Intelligence Economique IE L intelligence cycle Pinkerton 1994 implique la conversion de l information primaire en anglais raw information en information utile l entreprise Dans la mesure o cette information primaire se trouve sous la forme de documents de donn es textuelles et qu il s agit de la transformer en connaissance la FDT apparait pour la competitive intelligence ou intelligence conomique comme le moye
18. il 8 3 Utilit et compr hension du mod le d analyse des signaux faibles Dans un contexte de surabondance de l information l enjeu est de pouvoir distinguer parmi le bruit masse d information l information qui sera utile l entreprise Il s agit donc de d tecter les faibles occurrences c est dire les signaux faibles L id e de signaux faibles peut tre d finie partir de la notion de signaux d alerte encore d nomm e signaux pr coces qui d signe le plus souvent des signaux de faible intensit I Ansoff Au niveau de l analyse on peut consid rer les signaux faibles comme des brides d informations qui analys es s par ment ne signifient pas concr tement un v nement venir mais plut t l indice d une situation potentiellement possible C est l utilisation de faisceaux d indices h t rog nes qui permettra de d finir la probabilit du degr de r alisation de l v nement venir Cette approche logique d anticipation peut tre formalis e et optimis e par le biais de l intelligence collaborative Grosseur du signal E v nement r alis E v nement amorc T Marge de man uvre Temps 0 Notre d lai pour agir source Humbert Lesca A l instant T l v nement E est totalement r alis Le signal S qui lui correspond est un signal fort donc facilement perceptible A ce moment l le d lai pour r agir l v nement est nul il n
19. le principe de veille sur un certain nombre de sites et de portail d informations On peut aussi faire une recherche des interlocuteurs potentiels dans les r gions ou le Web ne recense pas encore les sources d information presse locale rumeurs Les contres sites par rapport au nom et au domaine d activit de son entreprise il serait judicieux de faire une tude de risque afin de savoir quel est le danger d une exploitation mauvais escient d un nom de domaine en relation avec son activit professionnelle Il est en effet moins co teux de louer une s rie de noms de domaine en moyenne CHF 18 an que de devoir intervenir par l interm diaire d un avocat Pour palier ce risque il faudra non seulement pr ter attention aux diff rentes extension pays ou autres domaines g n riques tels que les biz ou info mais aussi aux contre sites potentiellement utilisables www jeboycottedanone com syz com www bcgefraude ch La marque la marque peut tre susceptible d tre attaqu e par le biais des m ta tags ou au niveau du positionsquatting pour ce qui est du cybersquatting ou utilisation indue d un nom de domaine dans un but sp culatif l OMPI a mis en place une proc dure d arbitrage Le positionsquatting est le fait de payer pour apparaitre dans les premiers r sultats lors d une recherche sur une marque dont on ne d tient pas les droits Des recherches sur plus de 60 des entreprises du CAC 40 am nent v
20. messagerie instantan es IRC ICQ Messenger Chat les syst mes de messages BBS Bulletin Board System ou encore la connection une autre machine TELNET 1 Root servers vois annexe R partition g o strat gique de l Internet 2 Journal du Net http solutions journaldunet com 0210 021024_rootserver shtml 5 L aspect multicouche de l information L aspect multicouche de l information les paquets IP Une des probl matiques au niveau d Internet et du Web concerne les possibilit s multiples de fraudes au niveau de la diffusion de fausses informations d usurpation d identit ou de la publication de faux sites Web Une des facilit s de mise en uvre de ce type de fraude est la m connaissance de certains aspects techniques par les utilisateurs De mani re g n rale l adage je crois ce que je vois fonctionnait tr s bien dans notre soci t classique mais malheureusement avec l av nement du Net les choses ont chang L exemple ci dessous a pour but de d montrer la diff rence entre le contenu auquel on acc de et l information qui est r ellement transport e dans les paquets IP Bo te de r ception Microsoft Outlook i Eichier Edition Affichage PGP Favoris Qutils Actions 2 A Nouveau amp D3 X Ge R pondre M R pondre tous Transf rer f Envoyer recevoir B Rechercher kg Organiser ica MB No user Bee amp S comptes gt Alm ER g
21. nes Mise en circulation de l information au sein du groupe validation des informations par sa confrontation aux diff rentes connaissances pr sentes au sein du groupe Cr ation de rapports d tonnements 4 Sch matisation D velopper les l ments selon la relation qu il est possible de d finir entre les diff rentes informations pr sentes Analyse des signaux faibles Sch matiser les diff rentes relations identifi es par un graphique D velopper des hypoth ses selon des sc narios exploratoires identiques ceux que l on utilise pour d finir sa strat gie de recherche D tection des indices d tonnement Cr ation de savoirs 21 8 5 Traitement de l information Principes de l intelligence collaborative Profils cognitifs heuristiques et analytiques il est important de tenir compte des profils psychologiques pr sents dans la cha ne de traitement de l information Si l on ne place pas les personnes au bon endroit que cela soit au niveau de la mise en place d une structure de veille ou lors d un travail d analyse de groupe Un profil cognitif inductif sera plus m me de travailler avec des informations incompl tes et donc aura plus de chance de trouver des indices lors d une approche de d tection des signaux faibles Le profil cognitif analytique ne se contente pas d information tronqu e il lui faut des donn es pr cises on le placera donc en aval de cha ne de traite
22. ponse et ventuellement en co t si le transfert en provenance du serveur original se traduit par des d penses r seaux particuli res dans le cas o la page n est pas dans le cache le serveur Proxy transmet la requ te vers le serveur h bergeant l URL demand puis transmet le r sultat de la requ te de l URL au demandeur Bien videmment le cache ne garde les documents qu un temps d termin contr l par un algorithme en fonction de leur date d entr e taille et historique d acc s La notion de serveur Proxy est comparer la notion de passerelle Proxy PPP Point to Point Protocol Protocole qui permet d avoir acc s aux fonctions du protocole IP partir d un modem et d une ligne t l phonique conventionnelle Le protocole Slip offre un service quivalent Protocole Ensemble de r gles qui d finissent les modalit s de fonctionnement d une communication entre deux ordinateurs Ou encore m thode formelle de disposition des messages et des r gles que doivent respecter obligatoirement deux ordinateurs ou plus pour changer de tels messages Protocole ISO Protocole dont les normes sont reconnues par l ISO International Standard Organisation organisation qui s occupe des standards au niveau international Real Audio C est une technique qui permet la transmission et le rendu de plages sonores sur Internet en temps r el RESEAU LOCAL LAN Local Area Network Syst me de communication mettant en relation pe
23. s d une adresse Internet commun ment appel e adresse de courrier lectronique L Office de la langue fran aise du Qu bec recommande l usage du terme messagerie En France on pr conise aujourd hui l usage de M l Certains utilisent le terme plus heureux de courriel On peut aussi entendre le terme BAL boite aux lettres La messagerie lectronique fut l un des tous premiers services du r seau Internet mis en place partir de 1971 Comme la plupart des services d velopp s sur Internet la messagerie lectronique utilise un m canisme client serveur Pour pouvoir envoyer un message l utilisateur doit disposer d une boite aux lettres lectronique souvent li e un compte sur une machine comprenant g n ralement son nom et celui de la machine sur laquelle il est enregistr L adresse a la forme nom machine cette boite aux lettres lui est r serv e Le protocole utilis sur Internet est SMTP Ethernet Norme d quipement utilis e dans les r seaux locaux Ce type de r seau peut supporter le protocole TCP IP utilis par l Internet un d bit nominal de 10 Mbps tr s r pandu dans le monde de la micro informatique Forums de discussion news group Espaces de rencontre et de dialogue sur le Web Ils sont class s par th mes et par pays donc par langue Les sujets de conversation sont tr s vari s de l aquariophilie au cin ma d art et d essai en passant par la bande dessin e et la psychanalyse Le principe de ces
24. un seuil d termin sont s lectionn s comme candidats pour l indexation de documents L indexation des documents peut se faire avec les termes que l on obtient soit par une extraction fond e sur de patrons syntaxiques soit partir d un r f rentiel terminologique tel qu un thesaurus et de m ta r gles de variation Toussaint Simon et Cherfi 2000 utilisent cette derni re m thode Feldman et ses coll gues 1998b utilisent la premi re approche Les exp riences prouvent que l approche linguistique assure une meilleure performance des algorithmes de fouille Dans l article Text Mining at the Term Level Feldman et ses coll gues 1998b montrent l int r t de travailler au niveau du terme et non du mot Ainsi ils d signent leur syst me comme un term based text mining system La capacit manipuler de donn es semi structur es l exploitation d une indexation automatique fond e sur une analyse morphologique et syntaxique des textes sont des conditions pr alables et n cessaires mais pas suffisantes Pour que la fouille proprement parler se r alise il faut encore l application d algorithmes capables de construire une structure classificatoire taxonomie et d effectuer l extraction de r gles d association Passons donc ce que l on peut consid rer comme le c ur du processus de la fouille de donn es textuelles 5 Structure de classification La n cessit d une taxonomie est une question cruciale pour
25. y a aucune marge de man uvre possible A l instant T l v nement l tat E est juste amorc Le signal qui lui correspond est un signal faible difficilement perceptible L effort 4 r aliser pour d tecter ce signal est donc plus important En revanche la marge de man uvre mesur e par l cart entre T et T est alors suffisante pour faire face la survenance de l v nement 8 4 La m thode PUZZLE d analyse des signaux faibles M thode Puzzle le processus RS 71 Exerople de Parie Cas HEM Fron DT 1 Cat gorisation des informations 7 R r RER 15 IBM d veloppe le conseil mgg n 1 mondial dami 2 Num rotation des informations honth a sot T aa iemigt PR P 4 IBM s orieate vers les services 3 D finition des relations entre les 1 i s somme un Directear g s ral des services informations selon les liens de IDA veut proposer 9 solutions adapt es au client 7 un 22 IRAT f d re ses activit s de services Causalit DA rater de ee ar IB Global Services Confirmation 2 IBM met l coute de chient ca priorit 7 Contradiction 9 N 17 1BM privil gie ta connaissance du marche Hypoth se s IDM d oit ses clients LIM se partagerait en plusieurs soci t s Fr quence 11 IRM et DEC s allient dans bs gesen des r seaux Les programmes tels que 2 analyser www i2 co uk Watson ou Mind Map www mindmap com permettent aussi a diff rents niveaux de travailler sur une a
26. 33d pop3 gt 1189 FIN ACK Seq 14807338 1189 gt pop3 Ack Seg 558733058 pop3 gt 1189 ack seq 148073 gning off 465 win 16560 Len 0 win 32200 Len 0 1189 gt pop3 ack seq 558733013 Response OK QPOP version 7 a Request USER hacking pops gt 1189 LACK E 1480733712 non OK d required pops gt 1185 LACK Seq 1480733748 Standard query PTR 255 123 168 1 Source MONOLITE C182 168 123 3 168 Destination cl1 nexlink net C80 86 193 80 Transmission control Protocol src Port 1189 1189 Dst Port pop3 110 Seq 558733013 S Post office Protocol Request USER Request arg ha Si l on effectue une capture des paquets d information qui transitent sur le r seau sniffing du protocole TCP IP on r alise alors que l information que l on pensait prot g e circule de mani re lisible au sein des paquets IP hddr cll nexlink net 80 86 N 0x00 cking 5 1 L aspect multicouche de l information Le Web et quelques protocoles associ s En ce qui concerne le Web la fraude ou la tromperie se fait g n ralement au niveau du langage html ne demandant pas un haut niveau de connaissances techniques de la part du fraudeur pour leur r alisation Mais pour les m me raisons que celles cit es pr c demment elles ont toutes les chances d aboutir avec des utilisateurs non duqu s L
27. 6 Extraction de regles d association Les r gles d association ont t pr sent es en 1993 par R Agrawal T Imielinski et A Swani dans leur article Mining Association Rules between Sets of Items in Large Databases La signification intuitive d une r gle d association X gt Y o X et Y sont des ensembles d items est qu une transaction contenant X est susceptible de contenir galement Y Agrawal et al 1996 L application type est l analyse des donn es du panier de supermarch o des r gles comme celle ci par exemple 34 de tous les clients qui ach tent de poissons galement ach tent du vin blanc peuvent tre trouv es Les r gles d association s av rent par ailleurs tre tout fait utiles dans des applications conomiques Les r gles d association peuvent tre calcul es soit par l algorithme d Agrawal comme c est le cas dans Feldman 1998b soit partir des treillis de Galois comme le propose Simon 2000 et le font Toussaint Simon Cherfi 2000 Ce second approche est tout r cent et il est encore au niveau de la recherche au sein de l quipe Orpailleur du LORIA Nancy http www loria fr Les r gles d association extraient des patrons partir des donn es du type jus de raisin gt chromatographie celle ci montre que dans le corpus analys les documents s int ressant au jus de raisin le font syst matiquement en rapport avec la chromatographie histamine gt amine biog ne
28. 65 Ou encore The non trivial process of identifying valid novel potentially useful and ultimately understable patterns in data Fayyad et al 1999 Historiquement le data mining est la base du text mining au sens o celui ci est l extension du m me but et du m me processus vers des donn es textuelles La distinction est donc fond e son origine principalement sur la nature des donn es auxquelles s adressent l une et l autre d une part des donn es num riques et factuelles et d autre part des donn es textuelles Un autre l ment de distinction est l tat de structuration des donn es En g n ral le data mining travaille sur des donn es structur es et stock es dans des bases de donn es relationnelles En revanche le text mining travaille sur des donn es textuelles non structur es Feldman et al 1998a et 1998b Landau et al 1998 Le text mining se distingue du data mining galement par les moyens techniques sp cifiques qu il le faut employer pour traiter les donn es textuelles et non structur es Une d finition g n rale du text mining est la suivante l extraction d information partir des formes ou patrons non manifestes au sens de hidden patterns dans des grands corpus de textes Autrement dit l objectif est le traitement de grandes quantit s d information qui sont disponibles sous une forme textuelle et non structur e Feldman et al 1998a Landau et al 1998 L intelligence cono
29. B 6 1 Les principales sources d information Sources blanches bas e essentiellement sur des sources ouvertes et libres d acc s cette cat gorie connue un grand essor avec le d veloppement de l Internet On peut trouver un grand nombre d information sur les soci t s les individus le savoir acad mique et le contenu des m dias lectronique Le nombre de source et l absence de contr le de celle ci implicite une utilisation prudente des r sultats des recherches effectu es Sources professionnelles c est une sous cat gorie des sources ouvertes elles ne sont accessibles que contre paiement l information ou la quantit cependant au contraire des sources libres d acc s elles font dans la majorit des cas l objet d un contr le au niveau de la qualit et de la cr dibilit de l information stock e ou trait e Le principal probl me des sources professionnelles c est qu elles ne r f rencent que les publications officielles C est pour cette raison qu il est n cessaire de s int resser l ensemble des sources potentiellement disponibles Sources grises C est le cot non formalis et non explicite de l information Cela pourrait tre ce que l on va recueillir lors d un s minaire ou d une conversation Ou cela peut aussi tre repr sent par des sources d information inaccessibles aux diff rents types de moteurs de recherches ou encore par des soci t s de con
30. L acc s au document et la d finition de son emplacement se fait gr ce un URL Uniform Ressource Locator Le nom du document est pr c d par son chemin d acc s le point de d part de celui ci tant repr sent par un nom de domaine ex www switch ch ou le num ro IP d un domaine ex 192 247 93 18 en ce qui concerne un document online Le plus souvent un URL sera de la forme http nom_de_domaine nom_de_document 5 2 L aspect multicouche de l information l adresse IP L adresse IP sous sa forme chiffr e ou le nom de domaine Internet domain names system DNS qui servent a identifier un site Internet peuvent tre utilis s indiff remment pour acc der au site en question on les consid re comme des adresses C est la raison pour laquelle le terme adresse Internet URL est largement utilis pour d signer ces deux notions 4 SOC GVA Home Microsoft Internet Explorer A S ISOC GYA Home Microsoft Internet Explorer A titre d exemple l adresse IP 132 203 250 87 peut se lire ainsi l ordinateur 87 situ sur le 250e r seau du r seau 203 qui lui se trouve dans le r seau global 132 ou par exemple l ordinateur qui se trouve rue de la Gare 10 87 4 Gen ve 250 une ville qui se trouve en Suisse 203 un pays qui se situe en Europe 132 Ce type d adressage constitue la base du protocole de communication TCP IP Il permet aussi la localisation de la machine qui h berge le mon de domaine e
31. XXX COM WEBFUSION _ http www webfusion co uk corpinfo shtml n tant que le prestataire de service de CYBERPORTE et n a pas pour client Adresse postale direct MXXXXX amp CO LIMITED Hxxxx Mxxxx Adresse postale 2 mxxxxx des Cxxxxxx Lauris 84360 Host Europe PLC FR Kendal Avenue London W3 0XA GB 18 8 Analyse de l environnement et de la survenance de l information par l interpr tation des signaux faibles La notion de l environnement de l information peut se r f rer la v rification du contexte dans lequel une information est diffus e contexte alarmiste tendu favorable ou d favorable est ce que la teneur de l information a une influence concr te sur une situation actuelle La survenance quant elle fait r f rence au moment ou l information appara t et l influence qu elle a sur les l ments pr sents et venir ainsi que les facteurs de co ncidences informationnelles que l on peut discerner Pour am liorer l efficacit de cette technique on utilisera la m thode PUZZLE d velopp e par le professeur Humbert Lesca de l universit Grenoble elle est bas e sur l analyse des signaux faibles Il s agit de puiser dans diverses sources des l ments d information de type heuristiques des brides d information pour ensuite les regrouper sur un m me niveau d analyse afin d tablir les liens relationnels qui seraient susceptibles d exister entre le
32. al de la Recherche Scientifique 4 L information aujourd hui Internet et le Web cat gorisation et d finition Pour bien comprendre et afin de vulgariser la notion de circulation de l information on va s parer de mani re tr s basique en trois entit s distinctes les principales composantes de la soci t de Vinformation Internet est le contenant de toutes les informations qui circulent sur le r seau mondial sa particularit premi re est ce que l on pourrait d finir comme son mode de langage et d interpr tation le protocole IP respectivement TCP IP change par paquet IP Internet n est pas le Web www World Wide Web mais l information relative au Web circule travers Internet Le principe de fonctionnement de l Internet est un mode d centralis et redondant d changes d information par paquets afin que si l un des segments du r seau venait cesser de fonctionner les segments restants prendraient le relais au niveau de l acheminement des paquets d information Cependant il faut noter que 80 90 des paquets d information qui transitent sur Internet passent par les Etats Unis Les noms de domaine sont la seule ressource qui soit enti rement centralis e Il y a treize serveurs racines r partis dans le monde mais seulement trois qui ne sont pas aux Etats Unis Ces serveurs sont de niveau gal bien que l un d entre eux soit appel serveur primaire car c est sur lui que sont du
33. ammes disponibles ce jour comportent un nombre lev de possibilit s de disfonctionnement ainsi que de s rieux manquements au niveau de la s curit En dehors de l aspect thique de la question cela repr sente un risque de fuite d information d espionnage industriel ou de perte de donn es voir le tableau Impact conomique des attaques subies La complexit m me des programmes utilis s par les entreprises autorise aussi des utilisations d tourn es de ceux ci par des personnes au b n fice d une ducation technique de base Des facteurs ext rieurs telle que la n cessit constante de mises jour du syst me par le biais d Internet avec des donn es qui ne peuvent pas tre contr l es repr sentent des risques de discontinuit s de fonctionnement suppl mentaires ou un risque strat gique pour les tats ou pour les soci t s multinationales Le risque r seau L interconnexion des SI a permis non seulement une augmentation de la vitesse des changes mais aussi du volume de ceux ci La capacit des SI traiter un grand nombre de donn es ainsi que la possibilit de traiter des informations de type h t rog nes de mani re d localis e modifi non seulement le comportement de l entreprise mais aussi le type de donn es qui transitent au travers les r seaux informatiques En effet pour rester concurrentielles et profiter pleinement des capacit s offertes par les SI on a commenc f
34. an Une application de cette technologie est le travail en commun sur des documents Tout dispositif de visioconf rence se compose d une cam ra vid o d un microphone couteur et de cartes d extension pour la vid o et la communication Les changes peuvent se d rouler point point ou en mode multipoints Virus Programme informatique parasite capable d alt rer parfois de fa on irr versible le fonctionnement d autres programmes Les virus sont transmissibles par lecture de disquettes ou CD contamin s et par communication en ligne WAIS Wide Area Information Server Ensemble de logiciels qui permet de cr er et d interroger des bases de donn es index es appel es bases Wais et de rendre ces bases accessibles via l Internet Ce syst me supporte la recherche d information en mode plein texte dans des banques de documents WAN Wide Area Network En fran ais R seau Longue Distance c est dire qui va au del d un site industriel ou commercial dans ce cas on parle de LAN au del d un campus ou d une ville dans ce cas on parle le plus souvent de MAN Les WAN font appel l infrastructure et aux services d un ou plusieurs Op rateur T l com et peuvent s tendre sur plusieurs pays Web En fran ais toile d araign e symbolise le r seau maill de serveurs d informations formant une toile d araign e Ces serveurs vont des pages personnelles aux interface s vers des bases de donn es Par extension on parle de Web pour u
35. ation vers l ext rieur sur nos centres d int r ts Ce probl me sera abord dans la troisi me partie les m thodes de protection lors du traitement d informations sensibles Dans un premier temps on va aborder la recherche sous l angle logique il faut s ouvrir l esprit et non s arr ter la perception technique des outils et tablir une strat gie de recherche nature de V information recherch e le type concern objectif de la recherche type de r sultat souhait temps disposition On va commencer d limiter l environnement de sa recherche que l on cherche exactement une personne un document un format sp cifique un email Est ce que le type d information recherch est ancien ou r cent plut t d ordre acad mique professionnel ou priv est il en relation avec les sources blanches ou grises Quels sont les l ments utiles en relation avec la requ te est ce l on dispose d autres l ments d information indirecte qui permettraient d effectuer une recherche en parall le afin de trouver des relations avec ma recherche principale et d terminer les ressources les plus pertinentes Quel est l ventail des outils dont on peut disposer selon la nature de la requ te quel est l outil le plus appropri un m ta moteur un annuaire un newsgroup une base de donn e professionnelle Combien de temps est ce que je peux consacrer ma recherche est ce que les co ts sont en rapp
36. atteinte la plupart des entit s conomiques et politiques De plus la situation conomique et une certaine difficult de compr hension ou manque de perception de ces nouveaux mod les d changes ont r duit d autant la marge d anticipation et la d finition m me des risques L information elle m me s est d grad e dans sa substance elle ne b n ficie plus l heure actuelle des filtres classiquement repr sent s par la latence due au temps de traitement ou par l aspect litiste de sa diffusion car payant auparavant La gratuit de l change cr le volume par la multiplication des acteurs D s lors le mod le chaotique qui en a r sult ne comportait plus de phase de validation de l information Les groupes de presse ont aussi t pris dans la tourmente en pousant un mod le d conomie de march dont la principale finalit est le rendement Cette contrainte conomique a eu pour cons quence pour les professionnels de la presse de diminuer le temps de traitement de l information alors que dans le m me intervalle il poussait une professionnalisation des sources ainsi qu une r duction de leur nombre Les r percussions des ces changements n ont pas encore influ sur les croyances de soci t qui font que l on consid re encore que ce qui est crit est vrai par les voies classiques ou lectroniques ou que les images sont des l ments repr sentatifs de la r alit Co
37. au partir d un seul point d entr e Le firewall est en g n ral situ entre le r seau interne et le monde ext rieur dans une zone appel e zone d militaris e La premi re fonctionnalit d un garde barri re est de filtrer les paquets qui transitent entre le r seau que l on veut prot ger et les r seaux ext rieurs Ainsi certains paquets peuvent tre interdits de passage en fonction de l adresse de la source ou de la destination du paquet du type de protocole http ftp mail du type d applicatif de l heure et de la destination du paquet acc s interdit en dehors des heures ouvrables par exemple A cette fonction basique de filtrage peuvent tre associ es des fonctions de s curit avanc es Telle la d tection de virus le masquage des adresses IP du r seau prot g ou encore l tablissement de tunnels crypt s associ un proc d d authentification Passerelle Configuration mat rielle ou logicielle assurant la communication entre deux protocoles distincts Par exemple dispositif assurant la communication entre un syst me de courrier lectronique interne et le courrier lectronique Internet La passerelle effectue les traductions n cessaires pour que les donn es soient reconnues par les diff rents syst mes Le terme passerelle qui normalement ne d signe que les quipements effectuant une traduction des protocoles au niveau 7 et au dessous est souvent utilis pour d signer des quipe
38. aussi leffacer en appuyant sur SHIFT DELETE afin qu il ne reste pas dans la corbeille 7 aller la CORBEILLE et l effacer definitivement ou bien vider la corbeille SI VOUS TROUVEZ LE VIRUS SUR VOTRE DISQUE DUR ENVOYEZ CE MESSAGE A TOUS VOS CORRESPONDANTS FIGURANT SUR VOTRE CARNET D ADRESSE CAR JE NE S IS PAS DEPUIS QUAND IL EST PASSE DESOLEE POUR CET INCIDENT ET MERCI D AGIR VITE Ce message est tr s bien construit car si l on suit la d marche d crite ci dessus la lettre on obtiendra en toute logique le r sultat annonc Le seul probl me est que le fichier qui est mis en cause et accus d tre un virus destructeur n est que l un des nombreux fichiers utiles au fonctionnement de l ordinateur Il tait donc normale que les programmes anti virus n y pr tent aucune attention 26 10 Conclusions L information en tant qu entit proprement parl pris dans un espace temps restreint une importance croissante au niveau de sa capacit de nuisance Les nouvelle contraintes engendr es par cet tat de fait ne peuvent plus tres n glig es On a pu constater que la survie d une entreprise peut tre menac e par un nombre important des cas pr sent s dans ce m moire et que leurs mises en uvre ne n cessitent pas l engagement de beaucoup de moyens La d limitation des fronti re du risque s est aussi tendue de mani re consid rable alors que les protections l gales ont en t
39. bits base 64 mais aussi l alphabet la langue la description Mod rateur Personne qui se charge de filtrer les articles diffus s sur les News Groups ou Groupes de nouvelles dites mod r es Mosaic C est la premi re interface graphique ou Navigateur qui a permis l acc s la plupart des applications qu on retrouve dans le r seau Internet www Gopher Telnet FTP News Des versions de Mosaic existent notamment en environnements X Window Macintosh et Windows Son auteur est un des fondateurs de Netscape Moteur de recherche Outil de recherche d information sur l Internet Ce terme est surtout utilis pour la recherche dans le Web Exemple Voila AltaVista Yahoo Multim dia Ensemble de techniques permettant d utiliser des informations de type texte image fixe image anim e et son sur un m me support num rique et interactif Navigateur browser Programme qui sert d interface entre l utilisateur et le r seau Ex Netscape Navigator ou Internet Explorer News Nouvelles Usenet ce sont des Forums de Discussion o chacun d pose des courriers articles par th me Ces courriers sont conserv s quelques jours et donnent lieu des discussions Une hi rarchie dans l organisation des groupes permet d identifier ceux qui existent sur les diff rentes th matiques Newsgroup A traduire par Groupe de nouvelles ou Forum Usenet utilisant g n ralement le r seau l Internet d signe un groupe de discussion s
40. cadre m thodologique d une surveillance lectronique 9 4 Actions d fensives et pr ventives 10 Conlusions I Annexe Glossaire des Termes Internet II ANNEXE II Noms de domaine et glossaire des Acronymes II Annexe TEXT MINING ET INTELLIGENCE ECONOMIQUE AUJOURD HUI ET DEMAIN IV ANNEXE IV La r partition g o strat gique de Internet 25 25 25 27 1 Introduction Objectif du travail Offrir des outils ainsi que les bases d une m thodologie de pr vention et de gestion des risques li s la criminalit conomique et au risque de blanchiment d argent par une perception et une compr hension des enjeux de la soci t de l information que l on pourrait d finir par une mod lisation et une formalisation des courants tacites de la soci t actuelle vers l Internet et les cons quences induites par l utilisation des nouvelles technologies pour ce qui touche la criminalit conomique et celles indirectes li es au blanchiment d argent Une connaissance et une utilisation ad quate des moyens disponibles pour la gestion de son environnement informationnel pourront permettre aux diff rents acteurs d appr hender le risque technologique et humain les m thodes de recherches d information et la consistance m me de celle ci l identification des diff rents interm diaires et propri taires de sites Internet les flux informationnels pr sents dans l environnement de
41. ce type d information ne peut pas tre consid r comme une information de premi re main le contr le des sources est extr mement difficile de plus suivant le cadre l gislatif du pays ou l on d sire exploiter les donn es fournies par ces organismes on peut se trouver confront un risque juridique cadre l gal sur la protection des donn es personnelles lorsque l on voudra utiliser ces donn es Il est recommander pour des cas sensibles de faire appel du conseil sp cialis rapport de renseignement par des professionnels qualifi s ce titre il ne faudra pas n gliger de faire appel aux structures administratives existantes police renseignement ambassades 6 5 Autres outils de recherches et traitement de l information Source et url de r f rence www enpc fr enseignements Le gait projet victor chercher Outils html les outils de surveillance tracking et d alerte cyberalert Ils sont des fonctions de recherche de pr sentation et de distribution de l information Il y a deux options pour faire la surveillance par abonnement gratuit a un site de surveillance ou bien par un logiciel de surveillance les outils Agents intelligents Ils remplissent plus ou moins en profondeur les sept fonctions Rechercher Indexer Filtrer Sauvegarder Pr senter Distribuer Aider la d cision Pour une surveillance optimale sur Internet les outils d aspiration mirroring Ils remplissen
42. cientifique et technologique l avenir de la relation entre la fouille des textes et la veille et l intelligence conomique est en train de se construire AVERTISSEMENT Ce document est exclusivement destin aux participants du colloque Veille technologique Intelligence conomique et Bibliom trie Colloque organis par la section Biblioth conomie du DEC Sciences du Livre de l Universit Catholique de Louvain la Neuve les 23 24 janvier 2001 Seulement apr s l intervention la discussion et les remarques dans le cadre de ce colloque l auteur envisage de le transformer dans un article pour tre publi BIBLIOGRAPHIE R Agrawal H Mannila R Srikant H Toiven A Ikeri Verkamo 1996 Fast Discovery of Association Rules in Fayyad et al 1996 p p 307 328 R Al Hulou A Napoli E Nauer 2000 XML un formalisme de repr sentation interm diaire entre donn e semi structur es et repr sentations par objets in C Dony H A Sahraoui eds Langages et Mod les a Objets Paris HERMES p 75 90 R Baeza Yates B Ribeiro Neto 1999 Modern Information Retrieval ACM Press Addison Wesley Longman S K Card J D MacKinlay B Schneiderman eds 1999 Readings in Information Visualization Using Vision to Think San Francisco Cal Morgan Kaufman Publishers Inc J Cowie W Lehnert 1996 Information Extraction Communications of the ACM vol 30 1 p 80 91 U M Fayyad G Piatetsky Shapiro P Smyth R Uthuru
43. dante de sa propre entreprise mais sous le contr le de celle ci d di e la gestion du risque 9 2 Philosophie pour la mise en place d une structure de veille Pour mettre en place cette structure de veille on va en claquer le principe de fonctionnement au niveau humain sur l intelligence collaborative chapitre 8 5 Ensuite on va essayer de r partir le travail en rapport avec les comp tences des collaborateurs de l entreprise concern e de mani re g n rale la veille n est pas une occupation temps plein Une fois que l on a pris en compte les aspects de personnalit il est indispensable d y marier les comp tences n cessaires la d tection des signaux domaine professionnel On essayera autant que possible d automatiser par secteur la collecte d information le premier tri devant tre fait par les ressources du secteur concern 9 3 Etapes du cadre m thodologique d une surveillance lectronique Construire la liste des mots cl s qui d limitent le p rim tre de surveillance En fonction des th mes de surveillance il est capital de construire une liste de mots cl s en plusieurs langues qui seront la base des premi res recherches manuelles Tester ses mots cl s sur les moteurs de recherche Evaluer le volume d information existant sur le sujet et de d finir plus pr cis ment les expressions bouts de phrase qui donneront les r sultats les plus pr cis Les recherches effectu es en t
44. dialogues est simple et se rapproche de celui des Listes de Diffusion Ils peuvent tre mod r s ou non Lorsqu ils le sont les interventions des abonn s sont valu es et d pos es sur le forum uniquement si elles sont effectivement en rapport avec le th me de celui ci Fournisseur d acc s Internet Soci t qui loue des connexions l Internet et fournit les services associ s n cessaires On trouve galement souvent l appellation ISP Internet Service Provider FTP File Transfer Protocol Ce service de l Internet permet de t l charger des fichiers Il permet aussi de d poser t l verser des fichiers dans un site donn Gopher Syst me distribu d acc s l information con u l Universit du Minnesota en 1991 Tr s simple on l utilise surtout pour diffuser et consulter des documents La pr sentation et la navigation s effectuent l aide de menus Il tend dispara tre au profit du Web GUI Graphical User Interface Interface utilisateur graphique Home Page ou Page d accueil Nom donn au document principal d un site Web Ce document constitue le document racine de l arborescence de la base de donn e du site C est aussi le nom donn au document de pr sentation d un utilisateur En g n ral ce document pr sente le site la soci t ou la personne C est le point de d part de la navigation dans la base de donn es du site H te Host Host computer Host system Ordinateur h bergeant un servic
45. domaine Tha landais un contenu h berg en Californie et l adresse du d tenteur situ e en Espagne Exemple d identification transnationale Propri taire du nom de domaine SXXXXXX XXXXX COM Location du nom de domaine SXXXXXX XXXXX COM Adresse postale 2 Schlund Partner AG 1 Rxxxxx Mxxxxx amp Co Limited C est la soci t d enregistrement Registrar par laquelle M Matisson est pass pour enregistrer le nom de domaine SXXXXXXX Rxxxxx Mxxxxxx amp Co Limited XXXXX COM Mr Rxxxxx Mxxxxxx Kxxxxx Gxxxx Road Adresse postale LE2 2LF Leicester Schlund Partner AG GB ErbprinzenstraBe 4 12 76133 Karlsruhe Germany H bergement du contenu en relation avec SXXXXXX XXXXX COM H bergement du nom de domaine SXXXXXX XXXXX COM par l interm diaire de CYBERPORTE 3 Cyberporte 4 hosteurope com Cyberporte h berge le site ou contenu du nom de domaine SXXXXXX XXXXX COM elle loue l espace h bergement des C est la soci t Registration Service Provider qui mis disposition donn es n cessaire 4 fournir ses prestations de service chez la les serveurs de noms voir ci dessous nserver n cessaires la prise en soci t anglaise WEBFUSION elle m me filiale de la soci t charge du nom de domaine SXXXXXX XXXXX COM sur I Internet HOSTEUROPE celle ci a aussi la gestion des serveurs de nom qui HOSTEUROPE par l interm diaire de l une de ses filiales anglaises h bergent le nom de domaine SXXXXXX XX
46. e www 37 com Les moteurs de recherches par mots cl s ils sont compos s d un ensemble de bases de donn es cr es de mani re automatique par des programmes sp cialis s crawlers ou robots qui parcourent le Web la recherche de nouveaux sites La fr quence de mise jour de l index d pend de la taille de la base de donn es et de la politique du MR Ces MR utilis s tels quels ont les m mes avantages et inconv nients que les m tas moteurs Leur avantage c est les fonctionnalit s avanc es que l on peut exploiter dans les requ tes chaque MR poss de une page sp cifique pour ces fonctionnalit s ainsi que pour les op rateurs type Bool ens de recherches disponibles tels que and or near etc voir liste au point 6 8 qui bien utilis es permettent d obtenir des r sultats tr s pertinents L inconv nient dans leurs fonctions de bases ils ne sont pas tr s performants si l on n utilise pas les op rateurs de recherches d crits sous rubrique d aide du MR par exemple www google com Les moteurs de recherches sp cialis s qu ils se pr sentent sous formes d annuaires ou de recherches par mots cl s ils ne couvrent qu un seul domaine par exemple pour les recherches de soci t s d emails de documents PDF d images etc Ils permettent une meilleure qualit dans les r sultats des requ tes par exemple www societes com pour les entreprises ou encore www phonen
47. e Internet dont un ordinateur client peut importer les donn es et les informations en s y connectant Plusieurs services peuvent r sider sur la m me machine h te un serveur de courrier lectronique et un serveur Web par exemple Inversement plusieurs h tes peuvent se partager l h bergement d un m me service n cessitant d importantes ressources machines Tout ordinateur d un r seau mettant des services la disposition des autres syst mes du r seau Il propose notamment les services de messagerie et un serveur Web Dans Internet il supporte les protocoles TCP IP et poss de une adresse Internet HTML HyperText Markup Language Langage de marquage de documents Ce langage offre une pr sentation de l information qui permet une lecture non lin aire grace la pr sence de liens s mantiques activables dans les documents C est un sous ensemble de SGML HTTP HyperText Transport Protocol Protocole de transmission de documents hyperm dias Il est utilis pour transf rer des documents hypertextes ou des documents hyperm dias entre un serveur et un client W3 Hyperm dia Ce mot est form partir de hypertexte et de multim dia Il caract rise l ensemble des techniques offrant la possibilit de lire ou produire des documents num riques contenant du texte de l image ou du son en passant de l un l autre par des liens hypertextes Dans le W3 il s agit de plus en plus d hyperm dia bien que l on parle souvent d hyp
48. e employ pour l infrastructure ou pour les services comme la diffusion de News Il d signe une ligne haute vitesse ou un ensemble de lignes haute vitesse qui constitue un point de passage important dans un r seau Ce peut tre galement une machine servant de point de concentration C est en fait un n ud de communication BBS Bulletin Board System Messagerie entre micro ordinateurs abonn s permettant la mise en place de forums et de dialogues en direct A une chelle plus grande les BBS sont appel s services en ligne On Line Services Parmi les exemples de services en ligne citons Compuserve America On Line AOL CACHE Dispositif mat riel ventuellement associ un composant logiciel dont l objectif est de stocker localement des ressources afin de diminuer le d lai de mise disposition de ces ressources Il peut s agir de m moire dite m moire cache associ un microprocesseur et dont l objectif est de stocker dans le microprocesseur des donn es afin d viter une perte de temps aller chercher ses donn es sur un support ext rieur m moire ou disque On parle alors d ant m moire Le m canisme de cache peut tre aussi mis en oeuvre sur un serveur pour stocker temporairement des donn es fr quemment utilis es et se trouvant sur un site distant Proxy Server C est aussi un m canisme utilis par certains protocoles comme le DNS ou ARP Chiffrement M thode de protection des donn es Lorsqu on acc
49. e protocole utilis pour l acc s un document r v le la nature de ce dernier Par exemple sur un serveur FTP file transfer protocole les ressources propos es sont destin es au t l chargement Ces protocoles ne nous apportent pas d information concernant le contenu du document mais ils donnent une information sur la nature la forme le format lectronique du document disponible en ligne Voici les principaux protocoles auxquels on peut tre confront sur le WWW ainsi qu l int rieur des pages HTML par l interm diaire des liens hypertextes http Hypertext Transfer Protocol protocole de communication utilis pour les changes de donn es entre les clients et les serveurs www ftp File Transfer Protocol protocole de transfert de fichiers entre deux machines sur Internet gopher Protocole aujourd hui supplant par le http syst me d information distribu l acc s l information est structur selon un r seau de menus multi niveaux telnet Protocole d application d finissant l mulation d un terminal sur Internet mailto Protocole d acc s d un e mail HTML HyperText Markup Language n est pas un langage de programmation Ce n est qu un langage de description de documents il est utilis pour crire les pages standards du Web En d autres termes HTML est un ensemble r duit de balises ou styles ou tags utilis s pour d finir les diff rents composants d un document
50. eau et les adresses physiques ARPANET Advanced Research Project Agency Network R seau Communication par paquets qui constitua la base du r seau Internet Ce r seau a vu le jour en 1969 Authentification V rification de l identit pr tendue d un ordinateur ou de l utilisateur d un r seau informatique ASCII American Standard Code for Information Interchange Code binaire permettant de repr senter les diff rents caract res C est le mode utilis par presque tous les micro ordinateurs pour coder les caract res saisis Autoroutes de l information R seaux de t l communications permettant la diffusion d informations en mode num rique de fa on aussi accessible que le t l phone ou la t l vision c est dire autant partir des habitations que des lieux de travail L autoroute de l information ou les autoroutes implique la convergence de l informatique et des t l communications sur les plans techniques et conomiques et de grandes possibilit s de diffusion d informations vari es en mode texte graphique vid o et son Bande passante Gamme de fr quences qu un instrument peut produire ou qu un canal peut transmettre sans affaiblissement du signal La largeur de bande s exprime en Hertz Plus la Bande Passante d un r seau est lev e plus grande est son aptitude transmettre un flot important d informations Backbone Epine dorsale d un r seau et point de concentration de celui ci Ce terme peut tr
51. ers des sites non officiels qui ne d tiennent aucun droit sur la marque Dans ce cadre on observe de nombreux cas de parasitisme car les entreprises les moins scrupuleuses ont achet des positionnements sur les recherches sur des entreprises concurrentes pour d tourner leur trafic Source Rapha l Richard CVFM Les m tas tags grace aux fonctions avanc es de certains MR tel que www voila fr on peut faire de recherches afin de savoir si sa marque figure dans les m tas tag d un concurrent ou d un contre site r Les en t tes m ta lt base href http Awew site com gt lt meta name author content auteur gt lt meta name description content descriptif gt lt meta name descniption content description de l activit gt lt meta name description content nom de la soci t gt lt meta oame keywords content mot cl s gt lt meta name Copyright content societe gt lt meta name robots conbent index follow gt lt link reve made hrefe mailto webmasterisite com gt lt link i top hrefe http www site com gt 25 exemple des possibilit s de recherches approfondies de www voila fr Je recherche Tous les mots survants Plac s nimporte ov z Aucun des mots suvants 8 dere le texte des liens Dare le domaine eu wawalan i guide voila 10008 Ege eto herds Cortenant des fehiers de hpa Sons Images vid os
52. ertexte Hypertexte Pr sentation de l information permettant une lecture non lin aire gr ce des liens s mantiques activables dans les documents Hytelnet Base de donn es mise jour r guli rement et constitu e principalement de r f rences des sites Telnet et d autres sites Internet IMAP Internet Message Access Protocol Protocole d acc s aux messages Internet permettant l acc s aux messages E mail et BBS se trouvant sur un Serveur de messagerie Le protocole IMAP est un protocole d acc s concurrent au protocole POP Ces deux protocoles sont particuli rement utiles pour la lecture de son courrier partir d un poste nomade connect au serveur par le biais d un 3 r seau public de transmission Contrairement POP IMAP permet de ne transf rer que les ent tes des messages lors de la lecture de la boite aux lettres tandis que POP transf re la totalit du contenu sur le poste local Interface D signe la fronti re travers laquelle deux syst mes communiquent Une interface peut tre un connecteur mat riel reliant deux quipements ou un ensemble de conventions utilis es par deux syst mes logiciels pour communiquer entre eux ISP Internet Service Provider Voir Fournisseur d acc s Internet INTERNET R seau constitu par un ensemble de r seaux t l matiques qui interconnectent la plupart des pays du monde L apport d Internet par rapport d autres r seaux est d tre bas sur un protoc
53. es Premier l ment alors que le monde est occup New York par la chute des tours une quipe de cameramen a r ussi se trouver au bon endroit au mauvais moment Deuxi me l ment le groupe de palestiniens film n a jamais fait l objet de plans recul s les cameramen sont en fait rest s concentr s sur un petit groupe de personnes la situation n tait donc 22 pas repr sentative d un mouvement g n ral Troisi me l ment les images sont arriv es tr s vite sur les cha nes de t l visions et dans la majeur parti des diffusions elles n ont pas t accompagn es d un commentaire explicatif Quatri me l ment il y a un plus de 18 mois un journal isra lien Haaretz proche de l arm e avait fait para tre un article sur la volont de l arm e de se doter d une force d intervention m diatique rapide dont le but tait de mettre en place un outil pour tre plus m me de se battre sur le terrain de l information Cinqui me l ment les images ont t film es par l antenne isra lienne d un r seau de broadcast international Tous ces points permettent de remettre en cause l information re ue et de mieux d tecter les messages induits les Palestiniens se r jouissent de l attentat Les Palestiniens ne sont peut tre pas trangers cet attentat Les Palestiniens sont des terroristes Ce qui fait que par exemple quand le Premier minis
54. et Service Provider ISPA uk Internet Services Providers Association of the UK http www ispa org uk ITAA Information Technology Association of America http www itaa org ITU International Telecommunication Union http www itu int LACTLD Latin American and Caribbean ccTLDs http www lactld org MARQUES Association of European Brand Owners http www martex co uk marques Memorandum of Understanding Motion Picture Association of America http www mpaa org NANC North American Numbering Council NANP North American Numbering Plan Network Information Center US National Science Foundation http www nsf gov Network Solutions Inc http www netsol com NSI Registrar The initial Registry Registrars functions of the NSI has been http www netsol com nalista d tanta terin mnamnre ATOT Danintens nu A ATOT Dani ntune Sep 2000 the name NSI Registry has been changed to VeriSign Global Registry Services VeriSign http www netsol com Global Registry Services NTIA US National Telecommunications and Information Agency http www ntia doc gov OECD Organization for Economic Co operation and Development http www oecd org PAB gTLD MoU Policy Advisory Body http www gtld mou org POC gTLD MoU Policy Oversight Committee http www gtld mou org RFC C A for Comments RIPE R seaux IP R seaux IP Europ ens http www ripe net Shared Registratry System h
55. exte int gral si tous les mots cl s ne sont pas utilis s dans les recherches on risque de passer cot de documents pertinents et qui contiennent d autres mots cl s que ceux de notre liste Attention la construction de la liste des mots cl s et des expressions de recherche style Internet Construire un carnet d adresses des sites ou des pages surveiller En compl tant les recherches sur les moteurs Hi rarchiser les sites surveiller Les sites ne sont pas surveiller avec la m me fr quence S lectionner les outils n cessaires logiciels outils online d l gation de services afin de pouvoir automatiser le maximum de points surveiller pour tre m me de consacrer toute l attention n cessaire aux indices d information Une petite parenth se sur Factiva ce type de base de donn es professionnelles comporte un ensemble de syst mes d alertes et d options de configuration tr s utiles Mais il faut tre conscient que cela ne suffit pas Bien que l information de Factiva soit qualifi e et provienne de plusieurs milliers de sources officielles elle ne permet pas d acc der tout le p rim tre des informations non officielles au sein desquelles on a un fort potentiel de d tection de signaux faibles et autres indices d information De plus les forums de discussions ne sont pas non plus pris en compte 9 4 Actions d fensives et pr ventives La protection de l image exemple On peut e
56. fait un des documents envoy s par la fili re nig rienne Dear friend e mail Analysis From IP address 217 78 77 89 Location Nigeria For a detailed geographic trace Mailer The sender used Microsoft Outlook Express Received Headers DNS reports 2mails1899 co lam Mrs Sese seko widow of Sese seko of Zaire now knowl of Congo DRC am moved tt letter This was in confidence circumstance and situation husband and two of our sons C Democratic Republic of Congo d ivoire where my family and moved to settled in Morroco wl died of cancer disease However due to this situation most of my husband s billions Swiss bank and other countrie money coded for safe purpose state of Dr Mr Laurent Kabila with the Swiss government and other European countries to freeze all my late husband s treasures deposited in some european countries Hence my children and decided laying low in Africa to study the situation till when things gets better Like now that president Kabila is dead and the son taking over Joseph Kabila One of my late husband s chateaux in Southern France was confiscated by the french government and as such had to change my identity so that my investment will not be traced and confiscated e mail Headers INVESTMENT CARETAKER NEEDED ll e mail Internet Headers Received from 2mails1899 com 217 78 77 89 by cl0 nexlink net 8 10 2 8 10 2 with SMTP id g4 ITru
57. g Haute cole de gestion de Neuch tel ILCE Institut de lutte contre la criminalit conomique Etudes postgrades HES Travail de dipl me TITRE Ma triser la Soci t de l Information Veille strat gique d tection de signaux faibles due diligence et recherche d informations en vue de la mise en place de syst mes de pr vention contre les nouveaux risques li s la criminalit conomique et au blanchiment d argent Nom et pr nom de l tudiant Koch St phane Clause de confidentialit _ oui X non Date de remise du travail 15 f vrier 2003 Table des mati res Introduction Soci t de l information une nouvelle donne pour les entreprises connect es Nouvelles technologies de l information et de la communication NTIC quels impacts pour les entreprises L information aujourd hui Internet et le Web cat gorisation et d finition L aspect multicouche de l information 5 1 L aspect multicouche de l information Le Web 5 2 L aspect multicouche de l information l adresse IP 5 3 Exemple de redirection d un site Web dans le but de commettre une fraude La recherche d information sur le WEB 6 1 Les principales sources d information 6 2 Cartographie de Il information disponible sur le Web 6 3 Les types d outils et leurs fonctions 6 4 Les diff rents outils de recherches de information 6 5 Autres outils de recherches et traitement de information 6 6 La d finition
58. ges entre un groupe de personnes qui poss dent une adresse lectronique Une liste peut tre priv e ou publique mod r e i e tre g r e par un mod rateur ou non mod r e Elle est utilis e pour les discussions mais aussi pour la livraison de journaux lectroniques Majordomo est une application quivalente Login Nom de connexion Code d acc s unique qui identifie un utilisateur lorsqu il acc de un ordinateur C est aussi l op ration qui permet cet acc s un ordinateur MAN Metropolitan Area Network R seau m tropolitain dont la taille est situ e entre celle d un r seau local LAN et celle d un r seau longue distance WAN Ce peut tre un r seau l chelle d un campus ou d une ville Mime Multipurpose Internet Mail Extension Standard utilis par la messagerie pour coder des fichiers binaires son images programmes L apport principal de MIME est le support du format 8 bits permettant l envoi direct de tout type de document Plus pr cis ment MIME est d fini dans le RFC 1341 Les extensions MIME ont t faites pour corriger les limitations initiales de la messagerie Internet telles que d finies dans le RFC 822 datant de 1982 En particulier ces extensions ont t faites pour tre ind pendantes de la machine mettant transmettant ou recevant le message Elles permettent de pr ciser les attributs du message ou de certaines de ses parties comme le format et le type de contenu le codage 7 bits 8
59. gurent sur le Web prenez le nom et pr nom et avec un moteur de recherche ou un meta moteur trouver les traces de cette personne Information qualitative possibilit de croiser l information avec d autres sources d information est ce que l on peut trouver trace de l information laquelle on acc de dans d autres sources le message est il homog ne Information quantitative 7 3 Cr dibilit de l information les d marches de validation techniques provenance de l information quel est le nom de domaine du site vis est ce un nom courant provient il d un pays au b n fice d une l gislation permissive quels sont les pr requis pour l enregistrement d un nom de domaine dans le cas d un nom par pays On peut v rifier les diff rentes proc dures l adresse suivante www iana org cctld cctld whois htm Pour les noms de domaines g n riques se rendre sur www iana org gtld gtld htm Pour v rifier l existence d un nom au niveau mondial se rendre sur www uwhois com cgi domains cgi User NoAds source h bergement et tra abilit d un site Web les autorit s de r gulation au niveau de la distribution des adressage r gional des adresse IP sont list es l adresse suivante www iana org ipaddress ip addresses htm de m me que l on pourra s int resser l attribution des classes d adresses IP sur ce lien www iana org assignments ipv4 address space Des produits logic
60. her sources html 6 3 Les types d outils et leurs fonctions Il existe des milliers d outils de recherches dans les exemples qui seront donn s on va se concentrer sur un choix non exhaustif des moteurs et outils de recherches les plus performants dans le contexte de ce travail Il faut n anmoins garder l esprit que le choix du moteur de recherches fait partie de la strat gie de recherche Pour arriver des r sultats probants 1l faut en premier lieu faire des recherches sur les outils de recherches celles ci peuvent s effectu es par l interm diaire des moteurs conventionnels au moyen d une requ te ad quate par exemple moteur de recherches des adresses email email address search engine Mais le meilleur moyen reste l utilisation des annuaires ou portails th matiques qui contiennent d j toute l arborescence des outils de recherches Les principaux annuaire th matiques sur les moteurs de recherches MR http outils abondance com http c asselin free fr french moteurs htm www adbs fr site repertoires sites lardy outils htm www liensutiles org rechspec htm www searchenginewatch com links www searchtools com Les principaux annuaire th matiques concernant le Web invisible http c asselin free fr french webinvisible2 htm www lib berkeley edu TeachingLib Guides Internet InvisibleWeb html www invisible web net 10 6 4 Les
61. herches ils se servent plut t du Web comme d une plate forme d accueil pour r ceptionner les requ tes de leurs clients Ils ont un r seau de sp cialistes de la recherche et ils croisent les r sultats 11 avec des r seaux d experts consultants sp cialis s dans des secteurs d activit s distincts pour cr er une information valeur ajout e Ce type de r seau que l on peut assimiler l intelligence conomique au niveau du traitement de l information permet d acc der une cat gorie d information grise et professionnelle Des soci t s de services comme SVP Conseil sont abonn es une multitude de bases de donn es professionnelles telles que par exemple Factiva Lexis Nexis Dialog etc Elles vendent aussi la possibilit d acc der celles ci par mois ou par zone nationale Le type d information que l on peut obtenir par le biais de ce type de r seau d experts repr sente une haute valeur ajout e par rapport l utilisation simple des sources ouvertes par exemple www svp fr www egideria fr www world check com www insideco net www krollworldwide com On fera une petite parenth se pour les r seaux experts et bases de donn es telles que www world check com et www insideco net ces bases servent surtout des aspects de Due Diligence sur des personnes politiquement expos es entre autres ou sur des soci t s consid r es comme douteuses Il faut tenir compte que
62. i t de l information ont rendu les aspects sociologiques indissociables des aspects technologiques cr ant une interd pendance entre des sp cifications d ordre purement techniques et leurs r percussions sur notre mode de soci t Cela une influence sur notre r action envers les SI et ceux ci sont tributaires de notre comportement dans leur mode de fonctionnement L cart intellectuel qui se cr er de jour en jour au niveau de la compr hension des impacts d un SI dans une entreprise vis vis de son secteur d activit professionnel est d la vitesse de l avanc e technologique et la multiplication des facteurs de risques induits par les nouvelles m thodes de traitement de l information Il en r sulte que les dirigeants d entreprises continuent de penser que les machines connect es en r seau sont encore des outils de travail que l on peut dissocier de la vision strat gique du fonctionnement de l entreprise Sg Penetration testing Digital Risk Management Jurisdiction Treaty Matrix A 0 egal potica ja P os ra k S a te sh 1995 2002 mi2g Limited All nights reserved worldwide Source www mi2g com Le graphique ci dessus d montre on ne peut mieux la palette des risques inh rents l utilisation d un SI La notion de d pendance technologique rev t une importance consid rable dans le pr sent document 3 Nouvelles technologies de l infor
63. i h berge vosplacements ch www offshore com Lien hypertexte avec le site mentionn partie visible de la page web ce niveau le code HTML n est pas affich E Voici la page telle qu elle est en r alit D marche pour afficher le code source de la page offshore htm Dans Internet Explorer s lectionner le menu Affichage ensuite s lectionner dans l arborescence Source offshore htm Bloc notes 10 x Fichier Edition Format lt title gt Banque offshore lt title gt lt meta http equiv Content Type content text htm gt lt meta name cdescription content Banque offshore financial services gt e aa iad al content Banque Bank offshore argent finances gt lt head gt El ment visible sur la page web lt body bgcolor FFFFFF gt pag lt p gt intitul e www offshore htm Bienvenue sur notre page de liens lt a href http A4wwew offshore com lt P gt lt pody gt ee lt html gt El ments invisibles adresse du site Web ou de la page sur lequel on va tre redirig Dans ce cas l adresse de redirection www ofshore com diff re l g rement de l adresse publi e sur le document offshore htm qui tait www offshore com Il sera donc facile de tromper I attention du visiteur 15 Source TF1 http www tfl fr news multimedia 0 2C 2C986128 2C00 htm 6 La recherche d information sur le WE
64. ibilit du au rapport de confiance induit par le fait que l on pensait se trouver sur le site de CNN et donc que l information ne n cessitait pas de contr le suppl mentaire Le type d url utilis permet de rediriger l adresse d origine du site Internet cible sur le site contenant les fausses informations La charte graphique tant reproduite l identique la plupart des gens se sont faire prendre d faut Les professionnels de la presse eux m me n ont pas r ussi d tecter la fraude un nombre consid rable de nouvelles ont t reprise in extenso sur des sites officiels tiers Cr dibilisant des informations d j fausses l origine Donc les personnes qui ont acc d aux sites web qui avaient repris l information leur compte n avaient que des signaux tr s faibles de remise en cause de l information Exemple de l url utilis e dans le cas CNN http cnn com 443 212 190 116 226 news php y2JEHUDv Dans ce cas plusieurs journaux ainsi que l universit de Notre Dame ont t dans l obligation de publier des d mentis CN com worio the Web inncom Olsen Twins Set to Attend University of Notre Dame Jan vary 20 2002 Paisi aT AM PST Ii haa bear comkmad inai Nas Kate md Asley Olsan two of te fichections in Asrerics ime osoan To tirti hr EREE beprring ia le 443 permet une redirection depuis n importe quel site Web Il suffit donc
65. iels tels que Visualroute de la maison Visulaware peuvent apporter une aide pr cieuse au non technicien pour la tracabilit d un site et le l identit de l h bergeur 16 Report for www addyourevent com 212 109 69 120 soient paxtnetwot Currerartcune Switzerland at fap 12 There te mastr wnt coc teed biorrak ba ceta rra ire Hre D HTTP pot 3 ore rose On aura ici le nom de la soci t d h bergement ainsi que du fournisseur de service t l coms par lequel on transit Dans ce cas on a trac le chemin depuis l ordinateur sur lequel on se trouve jusqu l endroit ou le site est h berg avec les adresses IP respectives Garr TOPIE 40 DEN Gent Tipu bharain ot Dran genant Dine wrsm nt ps Dine ci twtnetichh biremis ch Ages OS Sends C0 COPIE 2 LS Btoes001 FavErans 00 101 gan gro hiye CELAN ore 68 ipina Fr che eet eummert ou j SSS Se 1 V MOTES Videntification de l ayant droit conomique d tenteur d un site Web pour identifier le d tenteur d un site web on va devoir dans un premier temps se rendre sur www internic org whois html afin de savoir aupr s de quelle soci t le nom de domaine a t lou En effet depuis la lib ration la concurrence de la location des noms de domaines un certain nombre de soci t s d enregistrement Registrars ont vu le jours L url susmentionn e va nous permettre de trouver le Registrar concern ainsi on pourra se rendre
66. ions la concernant Alors que le march boursier du Nasdaq ouvrait peine ses portes l action de la soci t Emulex s effondrait brutalement projetant le cours de l action de 103 45 dollars en l espace de quelques minutes ce qui provoqua une perte estim e au niveau du capital action 200 millions de dollars A l origine de cette baisse notable se trouve un communiqu repris par Bloomberg et Downjones deux des trois plus importants brokers d informations financi res au monde Ce communiqu affirmait le plus s rieusement du monde que les r sultats escompt s ne seraient pas l ordre du jour que Paul Folino patron de la firme d missionnait et m me que les autorit s boursi res avaient lanc une s rie d enqu tes sur les comptes de la soci t Ces information taient totalement erron es cette fraude avait t organis e par un ancien employ de Downjones lequel a nourri les deux services susmentionn s avec des fausses donn es Seul Reuter gr ce des m thode de validations des sources en amont seul la r ception de la validation de l information par une source tiers permet la news d aller plus loin r ussi filtrer ces fausses informations b Le cas CNN exemple abord la page 8 pour ce qui est de la redirection d un site Web vers une copie ill gale de celui ci Cette affaire regroupe les aspects techniques li s la m connaissance des utilisateurs ainsi que les aspects de cr d
67. l8772 for lt stephanefrumeurs org gt Tue 28 May 2002 20 29 56 0200 Message Id lt 200205281829 q4 ITrul8772 cl0 nexlink net gt From IQs ET iG ban lt seko mamfyahoo com gt Reply To seko_mam yahoo com To stephane rumeurs org Date Tue 28 May 2002 21 08 38 0700 Subject INVESTMENT CARETAKER NEEDED Sseseseko 17 code html d une page Web Dans l exemple ci contre l on peut remarquer que CONTENT Intrusion par Kain figure dans les en t te m ta de la page web Ce qui signifie qu il ne sera pas visible lorsque l on visitera la page en question avec son navigateur Certains moteurs de recherches sont capables de faire des requ tes dans la zone des m tas par exemple www voila fr avec les recherches approfondies r OH d ANGG R 350 FOBSEO9 En Gam SR ars sa ea 8 amp Tu es informaticien Tu m int resses ENT NT NT a e N anm pens ae uve Hl PAT RECRUTER ARR i i H 4 Bienvenue sur JobWebmaster dentitiant faertiriant Lundi 27 Mal 2002 p p p JobNebmaster est arriv ly a quelques mois pr sent sur la Tole des stes d empor Parce qu i se veut diff rent et toujours plus proche de vous i propose auxrecrufeurs de diffuser nombreuses de leurs offres d emploi Nous esp rons que tous recruteurs et candidats pourrez vous rencontrer et vous trouver faclement sur ce ste d di l emploi dans Je domaine de informatique et des Nouvelles Technologies
68. la documentation technique et les brevets PRESENTATION Cette pr sentation s adresse aux praticiens de la veille et de l intelligence conomique Son objectif est de montrer ce que la fouille des donn es textuelles repr sente Elle peut galement tre tendue aux praticiens des tudes quantitatives de la science et de la technologie notamment ceux pour qui la science est analys e au travers des publications et la technologie au travers des brevets Les publications scientifiques et les brevets sont des donn es textuelles dont s occupe justement le text mining Plan Data Mining et Text Mining Architecture et syst me Techniques et m thodes Traitement linguistique Structure de classification Extraction de r gles d association SNCB AN Chaque item de ce plan de pr sentation sera d velopp avec le souci de fournir une information synth tique sans chercher d velopper une v ritable argumentation technique L ambition est de fournir l information n cessaire pour se faire une vision de la fouille de donn es textuelles 1 Data Mining et Text Mining Commen ons par la distinction entre data mining et text mining c est dire entre fouille des donn es et fouille de donn es textuelles Le but de la fouille de donn es a t d finie comme the non trivial extraction of implicit previously unknown and potentially useful information from given data Frawley et al 1991 p 1 27 cit in Feldman 1998 p
69. la fouille de textes La taxonomie est construite dans le but de structurer l ensemble de termes hi rarchiquement Une telle structure classificatoire est importante pour la plupart d algorithmes de fouille de textes Le syst me doit donc disposer d un moyen de construction de la taxonomie en question Ainsi par exemple Simon 2000 montre que la th orie des treillis de Galois permet de produire la fois un outil de classification hi rarchique et un outil de construction de r gles d association Toussaint Simon et Cherfi 2000 proposent une m thode de fouille de donn es fond e sur les treilles de Galois et sur l extraction de r gles d association en vue d aider des experts dans leur tache de veille scientifique Rappelons au passage que les treilles de Galois sont connus aussi sous l appellation de conceptual clustering Les treillis de Galois op rent avec les notions d intension et d extension et la relation de subsomption Un treillis de Galois permet la construction des deux types de structures propres a la fouille de donn es textuelles 1 une structure de classification qui regroupe les documents en fonction des termes qui leurs sont associ s et r ciproquement 2 l extraction de r gles d association entre les termes associ s aux documents Quelle qu elle soit la m thode de construction de cette taxonomie il est important de noter que chaque n ud repr sente un concept Dans le cas d une taxonomie fond e sur le treil
70. lis de Galois chaque l ment du treillis est consid r comme un concept formel et le graphe diagramme de Hasse comme une relation de g n ralisation sp cialisation entre les concepts Le treillis est donc per u comme une hi rarchie de concepts Chaque concept est une paire compos e d une extension repr sentant un sous ensemble des instances de l application et d une intention repr sentant les propri t s communes aux instances Godin et al 1995 L aspect pragmatique de la taxonomie Elle permet l utilisateur de d finir les t ches de fouille d une mani re concise Ceci suppose une interface de visualisation graphique et de navigation dans la structure classificatoire taxonomie et les r gles d association obtenues et d observer le type de relation existant entre les termes participant une r gle Un exemple Feldman et al 1998 the user can specify interest only in the relationships of companies in the context of business alliances In order to do so we need two nodes in the term taxonomy marked business alliances and companies The first node contains all terms related to alliance such as joint venture strategic alliance combined initiative etc while the second node is the parent of all company names La construction de cette structure classificatoire permet de mettre en vidence les concepts potentiellement int ressants pour l analyste De plus elle permet l extraction de r gles d association
71. mation et de la communication NTIC quels impacts pour les entreprises Typologie des cing cat gories des risques li s aux NTIC Le tableau ci dessous d montre les relations directes entre l utilisation de syst mes d information et l activit m me de l entreprise 2001 2002 Pertes d clar es Pertes d clar es Vol d information 161M 43 189 M 42 Fraude conomique 102M 27 116 M 25 Intrusion 60 M 16 68 M 15 Sabotage 55 M 14 83 M 18 Total 378 M 100 456 M 100 Impact conomique des attaques subies source CSI FBI 2002 La couche mat rielle mat riel le manque de fiabilit du mat riel et ses diverses possibilit s de disfonctionnements coupure lectrique dommage mat riel malveillance disfonctionnement apportent une contrainte suppl mentaire dans la gestion strat gique de l entreprise Cet aspect du probl me d importance vitale est souvent n glig en raison des surco ts qu il entra ne au niveau de la maintenance et de la mise en place de solution de secours back up mat riel et logiciel s curisation de la continuit de l approvisionnement en lectricit protection des locaux contre le vol et le feu Le risque logiciel Les mod les conomiques actuels poussent les fabricants de logiciels une course la nouveaut ce qui les poussent diffuser des produits inaboutis sur le march La plupart des progr
72. ment de l information en partant de la collecte par rapport au profil inductif Groupe compos de savoirs h t rog nes dans le concept de l intelligence collaborative il est important de b n ficier d une diversit de savoirs De m me qu il est positif d avoir des savoirs atypiques au sein du groupe Dans la phase de mise en circulation de l information la validation des informations par sa confrontation aux diff rentes connaissances pr sentes au sein du groupe L intelligence collaborative est d autant plus efficace quand elle s appuie sur des mod les tels que ceux abord s aux points 8 1 a 8 4 8 6 Exemples d utilisation des m thodes trait s dans le chapitre 8 1 cas analyse de l actualit Le sniper de Washington on avait fortement sugg r l poque des faits octobre 2002 que ce tueur pouvait avoir une relation avec le groupe terroriste d AI Qaida Dans un premier temps lorsque le tireur est apparu on a traiter le premier meurtre comme un fait divers par la suite avec la multiplication des homicides on a parl d un tueur en s rie Le climat de psychose qui a commencer s instaurer et le fait que les autorit s taient impuissantes en face a ce criminel pouss celles ci chercher un bouc missaire C est a ce moment que l analyse de l environnement de l information et de la survenance de l information peut tre exemplifi e Premier l ment Les autorit s on
73. ments sp cifiques d interconnexion comme les Routeurs Pointeur Cha ne de caract res qui permet d indiquer de mani re unique la localisation d une ressource Un URL est un pointeur permettant d acc der une ressource du Web POP Post Office Protocol Protocole d acc s au Bureau de Poste Protocole permettant l acc s aux messages E mail et BBS se trouvant sur un serveur de messagerie Le protocole POP est un protocole d acc s concurrent au protocole IMAP Ces deux protocoles sont particuli rement utiles pour la lecture de son courrier partir d un poste nomade connect au serveur par le biais d un r seau public de transmission POP est plus ancien que IMAP et poss de de moins riches fonctionnalit s Contrairement POP IMAP permet de ne transf rer que les ent tes des messages lors de la lecture de la boite aux lettres tandis que POP transf re la totalit du contenu sur le poste local Postmaster C est la personne qui sur un serveur de messagerie est responsable du bon fonctionnement du service Il est le destinataire de tous les messages d information de ce serveur Il existe en g n ral un compte Postmaster sur tous les bons serveurs de messagerie Proxy Nom donn un programme une fonctionnalit ou un serveur qui agit en tant qu interm diaire dans un change d information en effectuant un contr le le plus souvent li la s curit Voir les deux types de Proxy Proxy Gateway Type de dispositif pa
74. mique est sens e assurer aux acteurs conomiques une information exploitable et utile dans la mesure o cette information est textuelle notes lettres rapports techniques articles scientifiques brevets etc l int r t que le text mining peut repr senter pour l intelligence conomique vis vis du simple data mining est alors vident 2 Architecture et syst me Consid rons maintenant les principaux outils composants d un syst me de fouille de textes en g n ral Ici on se limite l esquisse d une architecture g n rale et abstraite L important est de savoir que chacun de ces outils est indispensable pour mener bien une op ration de fouille de donn es textuelles Un outil d acc s et collecte des donn es Un outil d ing nierie du document Un outil d ing nierie du langage crit Un outil de fouille ou mining tool Un outil de visualisation De AS La th orie les m thodes et les techniques appliqu es l occasion de la conception et du d veloppement de chacun de ces cing outils leur donnant ainsi une r alit technologique particuli re ce sont des l ments tenir en compte On voit donc que les syst mes de fouille de donn es textuelles sont des syst mes complexes r unissant des comp tences diverses L outil d acc s et de collecte des donn es textuelles doit tre capable d op rer aussi bien partir du Web sur de documents HTML que sur des bases de donn es soit bibliographiques soit tex
75. mme on l a vu r cemment dans l affaire Borer ou dans l actualit des attentats du 11 septembre l image est un l ment qui a gard sa capacit d influence mais perdu sa cr dibilit De m me qu il est facile de cr de l information et des l ments de preuve 1 Processus d aide la d cision o les utilisateurs cherchent des mod les d interpr tation dans les donn es Un DataMining permet d analyser les donn es d un datawarehouse afin d extraire des informations originales et des corr lations pertinentes d un grand volume de donn es brutes On parle m me de D couverte de Connaissances dans les Donn es 2 Le text mining se distingue du data mining galement par les moyens techniques sp cifiques qu il le faut employer pour traiter les donn es textuelles et non structur es Une d finition g n rale du text mining est la suivante l extraction d information partir des formes ou patrons non manifestes au sens de hidden patterns dans des grands corpus de textes Autrement dit l objectif est le traitement de grandes quantit s d information qui sont disponibles sous une forme textuelle et non structur e Feldman et al 1998a Landau et al 1998 Le point N 2 est tir du document suivant ce document figure dans les annexe TEXT MINING ET INTELLIGENCE ECONOMIQUE AUJOURD HUI ET DEMAIN Xavier Polanco Unit de Recherche et Innovation Institut de l Information Scientifique et Technique Centre Nation
76. n serveur de documents HTML Webmaster Nom attribu une personne qui s occupe d un Serveur Web www World Wide Web Syst me distribu d acc s l information qui s appuie sur les principes de l hypertexte et qui supporte les documents multim dias Pour en savoir plus vous pouvez consulter le site du Consortium W3 http www W3C org Etant donn que le sigle WWW en anglais perd ses connotations culturelles en fran ais l Office de la langue fran aise recommande l utilisation de W3 pour des raisons phon tiques Certains auteurs pr f rent l appeler la Toile ZIP Fichiers obtenus apr s compression par le logiciel PKzip extension ZIP ANNEXE II Noms de domaine et glossaire des Acronymes et institutions repr sentatives de I Internet Extension classiques TLDs Top Level Domains com Usage a caract re conomique et commercial Entreprises et soci t s org Usage r serv aux organisations caract re non commercial et aux associations but non lucratif net Usage r serv aux organisations offrant des services Internet ou de t l phonie une tr s grande chelle edu Usage caract re ducatif Ecoles priv es et publiques lyc es et universit s int R serv un usage international mil Usage r serv aux forces militaires US ZOV Usage r serv aux institutions gouvernementales US arpa Propri t de l ARPA Advanced Research Project Agency Nouvelles Extensi
77. n ad quat pour accomplir cette tache essentielle Ce texte pr sente d abord ce que la FDT repr sente aujourd hui pour ensuite conclure avec quelques remarques sur ses perspectives INTRODUCTION L argumentation industrielle ou commerciale en faveur du text mining dans le contexte de V intelligence conomique est souvent bas e sur le fait qu un pourcentage assez important de l information a traiter par les entreprises en vue de la prise de d cisions strat giques est de nature textuelle Le World Wide Web est encore une autre raison en faveur de l int r t pour le text mining En effet avec le Web les donn es non structur es telles que le texte sont devenues le type pr dominant de donn es en ligne Dans ce cadre l information utile ne se trouve pas tre explicite comme dans une base des donn es de type relationnel mais implicite au sens o elle est enfouie dans les textes d o la m taphore de la fouille ou en anglais mining le syst me doit extraire l information qui a t encod e dans le texte par son auteur Souvent la veille technologique et l intelligence conomique sont pr sent es comme des activit s connexes ou bien similaires sinon synonymes Ce fait permet d tendre l apport de la fouille de donn es textuelles au domaine de la veille technologique et scientifique dans la mesure o l information scientifique et technique est de nature textuelle tels que les articles scientifiques
78. ochaines requ tes est ce que ma mani re de pr senter ma requ tes est ad quate ou est ce que je dois changer I orientation de celle ci au vu des r sultats obtenus 7 6 8 Utilisation des fonctionnalit s avanc es des moteurs de recherches les principaux Op rateurs Bool ens ADJ c t de Utilisez ADJ pour retrouver deux mots c te c te dans l ordre AND et Utilisez AND pour retrouver des notices qui contiennent deux termes IN dans Utilisez IN pour rechercher un mot champ particulier dans un champ sp cifique NEAR proximit de Utilisez NEAR pour retrouver les enregistrements qui contiennent les deux termes dans la m me phrase NOT pas de Utilisez NOT pour rechercher des enregistrements qui contiennent l un des termes seulement OR ou Utilisez OR pour rechercher des enregistrements qui contiennent l un l autre ou les deux termes WITH avec Utilisez WITH pour rechercher des enregistrements qui contiennent les deux termes dans le m me champ WILDCARD troncature l int rieur du mot Sert remplacer une lettre ou repr sente l absence d une lettre quand on a un doute sur l pellation Ex m cdonald retrouve la fois mcdonald et macdonald p re retrouve p re et paire Troncature Vous pouvez utiliser le symbole de troncature pour remplacer un caract re ou une cha ne de caract res Ex cat retrouve les mots cat gorie catatonie cats etc
79. ole de communication TCP IP ind pendant du type de machine Mac PC Unix du syst me d exploitation et du support de transport physique utilis De plus Internet fonctionne de mani re d centralis e Son fonctionnement ne d pend ni d administration ni d ordinateur central Un paquet d informations peut aller d un point un autre en empruntant potentiellement plusieurs chemins Intranet Ce terme repr sente l utilisation des protocoles et services Internet dans les r seaux internes des entreprises IP Internet Protocol protocole Internet Le protocole r seau que toute machine sur l Internet utilise pour communiquer avec une autre IRC Internet Relay Chat Service disponible sur l Internet permettant la discussion plusieurs en temps r el avec d autres personnes par change de messages textuels de l anglais to chat bavarder LAN Local Area Network Voir RESEAU LOCAL Lien hypertexte Zone activable d un document hyper textuel permettant d tablir une connexion entre des donn es ayant une relation de compl mentarit entre elles et ce o qu elles se trouvent dans l Internet Les termes pointeur et marqueur indiquent respectivement le lien hypertexte pointeur et la zone activable marqueur Listes de diffusion Appel es aussi listes de distribution Ce sont des listes auxquelles on peut s abonner gratuitement et qui v hiculent des informations par th me Listserv Application qui supporte les chan
80. on TLDs Top Level Domains biz JV Team Neustar com USA info Afilias Skadden Arps USA name The Global Name Registry Ltd UK eu Europe aero SITA Gen ve COOP National Coop Business Association USA museum Swedish Museum amp Getty Museum USA pro RegistryPro Ltd Hayes amp Curran Ireland Glossaire des Acronymes et institutions repr sentatives de I Internet Acronym Explanation More Information Administrative Challenge Panels http www gtld mou org docs tracps htm http www gtld mou org docs dispute html ADR Alternative Dispute Resolution http www gtld mou org docs dispute html AFA Association des Fournisseurs d Acces a Internet French http www afa france com Access Providers Association AFNIC NIC Association Fran aise pour le Nommage Internet en http www nic fr FE FE Atinice Mafia NiC NIC nuipdiwwwafrinicorg Iwww afrinic org AFTLD African ccTLDs a AIRA American Internet American Internet Registrants Association Association bttp www airaorgs Iwww aira org Association des Practiciens en Droits des Marques et des Mod les APTLD Council of the Asia Pacific country code Top Level Domains http www aptld org APNG Asia Pacific Networking Group APNG http www apng org APNIC Asia Pacific Network Information Center http www apnic net ARIN American Registry for Internet Numbers http www arin net ARPA Advanced Re
81. ormaliser transform en un format num rique compr hensible par les machines le savoir tacite la connaissance strat gique de l entreprise Ces donn es qui classiquement taient difficiles d acc s car elles se trouvaient r parties dans diff rents dossiers et dans les cerveaux des dirigeants ont t regroup es et standardis es dans un langage d changes unique TCP IP Le risque humain La complexit des SI a provoqu la n cessit d acc der des comp tences diff rentes de celles en relation avec le secteur correspondant l activit professionnelle des entreprises concern es L valuation m me des connaissances n cessaires la gestion et la maintenance d un SI en est rendue que plus difficile Cette situation et le manque de compr hension de l importance des donn es qui transitent au sein du r seau ont cr dans la plupart des entreprises la croyance que la gestion du SI est uniquement un probl me d ordre technique Le risque humain a t n glig par des dirigeants qui ont donn des pouvoirs exceptionnels aux administrateurs de leurs r seaux Il est d une importance capitale de consid rer que l on d l gue des droits d administration son administrateur r seau et non les pleins pouvoir sur ce que l on peut consid rer comme le savoir strat gique de l entreprise le syst me d information et les donn es de l entreprise Il est tout aussi important d inclu
82. ort avec les r sultats Exemple de deux approches logiques Les sc narios normatifs Les sc nancs exploratoires TS Volont de modifier le cours des choses en vue d aboutir sur un futur que l on a pr d fini D marche pro active on agit pour provoquer les changements souhwifr s Godet Le pr sent peut d boucher sur plusieurs d hypoth ses repr sentant les sttuahone futures Hier Aujourd hui Demain Hier Aujourd hui Demain Il faut ensuite interpr ter le mode de fonctionnement de l outil choisit comprendre sa mani re d effectuer une recherche On va donner du sens sa requ te expression et utiliser un maximum de mots en relation avec ladite requ te de cette mani re le nombre r sultats filtrer sera r duit au minimum d finir les l ments qui vont composer la requ te en partant du g n ral au particulier 13 Ceci va am liorer la pertinence des r sultats et de diminuer au maximum le bruit Il est des fois utile d utiliser plusieurs moteurs en parall le suivant leurs sp cificit s et efficacit s A l obtention des r sultats des recherches il sera n cessaire de faire un travail de s lection et de hi rarchisation de l information ainsi obtenue Par la suite il faudra de nouveau structurer sa requ te title host url et red finir ses besoins en information par rapport au recherches pr c dentes est ce que des l ments utiles peuvent venir se greffer dans les pr
83. ph structure in the web http www almaden ibm com cs k53 www9 final Les 75 a 80 de l information restante celle que les moteurs de recherches n arrivent pas a indexer repr sentent ce que l on appelle le Web invisible Celui ci est principalement compos de bases de donn es universitaires de sites satellites ainsi que de site dynamiques dont le contenu est g n r la demande Pour les recherches d information dans ces deux parties visible et invisible la m thodologie reste la m me seuls les outils varient quelque peu La dur e limit e dans le temps de la pr sence de certaines informations sur le Web peu rendre l exercice fastidieux Pour cette raison il est souvent utile de conserver une copie des informations utiles au moyen d outils appropri s Acrobat Exchange pour fabriquer des documents PDF ou un aspirateur de site pour conserver une copie du site d sir Estimation de la taille du Web mars 2002 13 milliards de documents 7 5 millions de nouvelles pages par jour 50 75 terabytes d information 600 milliards de pages dans l ensemble des sites intranet R partition des Noms de domaine Langues des documents com 54 68 org 4 35 56 6 des pages sont en Anglais net 7 82 gov 1 15 2 4 en fran ais edu 6 69 0 5 en allemand Source Recherche d information et veille sur Internet www enpc fr enseignements Legait projet victor cherc
84. pliqu es en premier lieu les informations qui permettent de faire correspondre les noms de domaine avec les adresses IP Ces serveurs sont la seule vraie ressource centralis e d Internet Afin de d montrer les possibilit s de causes effets de cette r partition des serveurs racine sur le fonctionnement des entreprises on peut prendre comme r f rence l exemple suivant entre le 21 et le 22 octobre 2002 les 13 serveurs racines ont subit une attaque simultan e deny of service attaque par de multiples messages qui engorgent les serveurs Bien que le fonctionnement m me de l Internet nai pas t mis en danger on pu constater une diminution de la capacit traiter le volume des changes habituels ce qui eu pour cons quences de ralentir l activit conomique d un certain nombre de soci t s Les auteurs de cette attaque n ont pas t jusqu ce jour identifi s mais de nombreux sp cialistes pensent qu il faut trouver la cause d une telle action dans l expression actuelle de la politique trang re am ricaine On peut donc constater que ce type de risque continuit dans l acc s l information est d ordre nouveau et d passe compl tement le p rim tre habituel de surveillance de l entreprise Le protocole TCP IP ne peut pas tre consid r comme fiable dans sa version actuelle IPv4 celle ci permet entre autres les usurpations d identit s et d origines g ographique
85. portent une rubrique d aide 12 qui d crit leur mode de fonctionnement On peut effectuer des recherches l int rieur d un site complet ou uniquement dans une page Web Il est possible de ne s int resser qu aux liens visibles sur la page Web ou la l information qu ils contiennent dans la description des liens qui figure dans les balises html On peut effectuer une recherche par rapport au nom de domaine par pays ou par un g n rique tel que com ou par rapport au nom d un site On peut aussi chercher par le type et format de l information d sir e image vid o document world PDF Excel etc Certains MR tel que Google www google com poss dent une fonction cache qui permet d acc der une version enregistr e du document m me s il n est plus disponible sur le serveur d origine Cette fonction est aussi disponible avec the Wayback Machine www archive org qui int gre depuis 1996 plus de 10 milliards de pages d archives Il est aussi possible de chercher au travers des en t tes Meta par les keywords ou les description On peut aussi faire des recherches centr es sur des l ments sp cifiques tels que les carnets d adresses pr sents sur les page de liens des site Web exemple de formulation de requ te url bookmark 6 7 Principes de bases pour tablir une recherche Il faut tre conscient que le fait de rechercher une information donne d j une inform
86. pproche qui regroupe l analyse de l environnement de l information l analyse des signaux faible et la m thode PUZZLE Pour pouvoir fusionner les m thodes susmentionn es on va partir du principe de fonctionnement du data mining On va donc collecter un maximum d informations d environnement h t rog ne tant au niveau de leurs sources que de leurs cat gories que de leur cr dibilit ce titre on annotera les informations selon un facteur de cr dibilit situ entre 1 et 10 par exemple Au final on va essayer de proc der l agr gation et la consolidation des l ments pr sents afin de proc der au traitement m thodologique des donn es Rappel des d marches de bases 1 Collecte Identifier la source notion environnement de l information Analyser la source 2 Observation Cr dibilit m dia auteur Observer le texte Environnement politique sociale Sortir les l ments d int r t Localisation pays Chercher des informations compl mentaires dans les sources blanches ou grises Croisement des sources Num roter les l ments d finitifs selon deux m thodes chiffres pour les l ments du texte alphabet pour les l ments des sources Croisement de l information 3 Qualification et consolidation de l information Principes de l intelligence collaborative Profils cognitifs heuristiques et analytiques Groupe compos de savoirs h t rog
87. pte les sections 2 et 3 autrement dit le fait de son appartenance un r seau multidisciplinaire et dans lequel elle devra voluer suivant une fertilisation crois e Tenir compte galement de ce que nous avons voqu dans les sections 4 5 et 6 reconnaissant les deux derni res comme le noyau propre ou strictement sp cifique de la fouille de donn es textuelles L volution de la fouille de donn es textuelles est ainsi li e un ensemble de disciplines informatiques dont le souci principal est de savoir comment traiter l aide des ordinateurs les contenus de l information et leur conversion en connaissances Admettons de les grouper sous le label commun de technologies de l intelligence Ces domaines de recherche seraient les suivants Extraction d information Cowie et Lehnert 1996 Traitement automatique du langage naturel Visualisation de l information Card et al 1999 Recherche d information mais dans sa nouvelle de version de modern information retrieval Baeza Yates et Ribeiro Neto 1999 e Gestion de connaissances O Leary 1998 Ce cluster de recherches constitue le voisinage de la fouille des donn es textuelles laquelle appartient en propre au cluster noyau form par Fouille de donn es Data Mining Fouille de donn es de la Toile Web Mining ou Internet Data Mining Fouille de donn es textuelles Text Mining Extraction de connaissances Knowledge Discovery in Databases Dans ce r seau s
88. re dans le cahier des charges de l administrateur r seau l obligation formelle de documenter tous changements effectu s sur le SI ainsi que les diff rents v nements inh rents son fonctionnement De plus il est recommand d avoir une liste de sp cialistes pouvant intervenir la demande au cas ou la personne en charge du SI de l entreprise n tait subitement plus en mesure de le faire I devrait tre acquis que les personnes exer ant de telles charges administrateurs r seaux et suppl ants doivent faire l objet d une enqu te approfondie avant d avoir acc s au SI de l entreprise Le risque informationnel La soci t de l information a boulevers les rapports de forces classiquement pr sents dans notre soci t du fort au faible par l mergence d un rapport de force asym trique du faible au fort A l heure actuelle la capacit de nuisance ne se d fini plus en terme de puissance d action et de mise en uvre mais plut t en termes de m thodologies et de compr hension des flux informationnels La vitesse croissante des changes au sein des mod les conomiques en vigueurs entre autres et la facilit cr er publier et faire circuler l information de m me que l aspect de standardisation de la mise en r seau de donn es h t rog nes et la mont e en puissance des outils de traitement de l information data mining et texte mining permettent aujourd hui de porter
89. re feu Firewall install entre deux r seaux et qui prot ge les ordinateurs d un r seau interne contre les acc s des utilisateurs ext rieurs C est en g n ral un programme install sur une Passerelle et qui bloque le passage direct des Paquets entre le client et le serveur et n autorise le passage que de certains paquets On parle aussi de relais applicatif de machine bastion dans un sous r seau d militaris La plupart des Navigateurs peuvent tre configur s pour utiliser les services d une passerelle Proxy c est d ailleurs dans certains r seaux s curis s la seule fa on pour acc der des documents se trouvant l ext rieur du r seau local condition encore qu il existe aussi une passerelle avec l Internet Les navigateurs peuvent tre configur s en fonction de la m thode d acc s protocole FTP Gopher Wais News et HTTP Proxy Server Programme qui fournit un Cache pour des l ments pr sents sur d autres serveurs qui sont soit pr sum s trop lents soit loign s ou co teux d acc s Ce terme est utilis tout particuli rement dans le cadre du www Un serveur qui re oit une requ te demandant un URL l ext rieur v rifie s il n a pas tr s r cemment r pondu une requ te identique dans le cas o la page a t stock e dans son cache il lui suffit alors d extraire la page correspondante du cache pour la transmettre au client qui lui en a fait la demande Cela se traduit par un gain en temps de r
90. rmanente par des c bles plusieurs quipements informatiques micro ordinateurs stations de travail imprimantes et autres p riph riques 4 grande vitesse sur une courte distance souvent un tage ou un immeuble au plus un ensemble de b timents situ s sur un domaine priv Il se d finit par son syst me de c blage sa vitesse sa m thode d acc s et son logiciel de gestion Les deux principales familles de r seaux locaux sont Ethernet et l anneau jeton Token Ring RFC Request for Comments Les RFC sont les documents servant la d finition de standards dans l Internet Il en existe aujourd hui plus de 2000 RNIS R seau Num rique Int gration de Services R seau informatique et t l phonique Num ris qui offre des d bits par canal de 64 Kbps Il n cessite un abonnement particulier Routeur Dispositif qui dirige vers un chemin ou un autre les paquets d informations qui voyagent entre les r seaux Il re oit et retransmet des paquets de donn es entre diff rents segments d un m me r seau ou de r seaux diff rents Service en ligne Service permettant d acc der par abonnement et partir d un ordinateur une information ou de r aliser une transaction distance Un service en ligne peut tre accessible pour le particulier par l interm diaire de sa ligne t l phonique Ces services offrent le plus souvent une passerelle vers l Internet Serveur Ordinateur reli au r seau et apparaissant comme fournisseur
91. s e dans des conf rences ou des lieux publics ou ce type de syst me est g n ralement configur sans restriction d acc s pop_monitoring Ethereal File Edit Capture Display Tools Help No Time Source Destination Protocol Info 1 0 000000 MONOLITE 192 168 123 255 BROWSER Domain work group Announcement ASTEROIDE NT workstation Domain Enum 2 0 334901 MONOLITE c11 nexlink net TCP 1189 gt pop3 SYN Seq 558733012 Ack 0 win 16384 Len 0 3 0 394378 c11 nexlink net MONOLITE TCP pop3 gt 1189 SYN ACK Seq 1480733624 Ack 558733013 win 1400 Len 0 4 0 394630 MONOLITE c11 nexlink net TCP 1189 gt pop3 ACK Seq 558733013 Ack 1480733625 win 16800 Len 0 5 0 467321 c11 nexlink Response OK QPOP version 7 at c11 nexlink net starting lt 29738 1041939432 c11 nexlink 1 6 0 47 ONO link USER hacking 7 534220 C11 nexlink Q ACK Seq 1480733712 Ack 558733027 win 32200 Len 0 8 0 538166 c11 nexlink net MONOLITE NE svord required for hacking 9 0 540425 MONOLITE c11 nexlink i 10 0 615007 c11 nexlink net MONOLITE R 480733748 Ack 558733045 win 32200 Len 0 11 0 853479 MONOLITE ca 168 192 in addr arpa 12 0 983347 192 168 0 1 DNS Standard query respo uch name 700401 c11 nexlink net Response 0K hacking ible messages CO hidden in O octets 823855 Moer Request STAT Response 0K O Request QUIT Response OK Pop server at cA 1189 gt pop3 FIN ACK Seq 5587
92. s pour les adresses email ou les sites Web par exemple Il faut prendre en compte que pour changer cette situation une version am lior e du protocole IP Ipv6 va tre prochainement impl ment e L organisme de standardisation du protocole IP est l IETF Le Web g re les changes conventionnels d informations auxquels nous sommes habitu s acc der par le biais d un navigateur Browser La particularit du Web est sa fonction hypertexte qui offre la possibilit de lier un document un mot ou un l ment un autre quel que soit son emplacement g ographique Ses principaux modes de transports de l information sont le protocole http et le langage de description de document html ces l ments et les risques encourus au niveau de l information sont trait s sp cifiquement dans la partie aspect multicouche de l information gt Les principales failles de s curit s pr sentes au niveau du Web sont dues un manque de suivi des standards en place par les concepteurs de logiciels ainsi qu la n cessit et le manque de fiabilit des mises jour des SI et programmes associ s Il en r sulte qu il est possible d ex cuter des scripts malveillants par le biais des navigateurs Web Int gr s dans l environnement direct du Web on peut noter une s rie de protocoles l email SMTP POP IMAP le t l chargement de fichiers FTP les groupes de news USENET les forums de discussions et
93. s diff rents l ments pr s lectionn s de causalit ou de contradiction par exemple 8 1 Mod le d analyse de l environnement de l information Quel est le fait Identifier la source notion d environnement de l information Cr dibilit m dia auteur Environnement politique sociale Localisation pays Les 5Questions en relation avec la source qui quand quoi quel moment pourquoi Les 5Questions en relation avec le fait Qui Pourquoi Contexte Impact Incidence 8 2 Deuxi me axe d analyse du fait Les sources ind pendance vis vis du journal ou d autres acteurs impliqu s Couleur politique Pr cision Les faits distinguer les faits des opinions des suppositions des commentaires des hypoth ses des supputations Les contradictions recoupement correspondance entre les infos D tection des indices de contradiction entre les diff rents vecteurs de l information en question Le d bat qui donne t on la parole qui est concern qui manque l appel Les mots quelle est la dialectique comment sont employ s les mots charge motionnelle double sens Le titre refl te t il vraiment le contenu de l article ou les faits annonc s induit il une interpr tation erron e du contenu 19 Les chiffres sont ils pr cis les sources sont elles fiables le contexte dans lequel ils sont utilis s correspond t
94. s entreprises le risque l image l usurpation de d identit la tra abilit g ographique des informations Publics vis s et consid rations d ordre g n rales Ce document s adresse plus particuli rement aux petites et moyennes entreprises Pour les structures plus importantes 1l pourra servir de base de r flexion l laboration de la strat gie de gestion de l information et du risque dans les d partements addoc management compliance communication Les aspects d ordre techniques abord s dans ce document sont consid r s comme les bases indispensables la compr hension et la gestion des probl mes abord s Les diff rents termes techniques ainsi que les acronymes figurants dans ce m moire sont document s dans les annexes mentionn es dans la table des mati res a soci t de l information ne peut tre abord e sans une connaissance de ses principales composantes cet effet ce document traitera de trois volets essentiels la compr hension des r percussions de l utilisation des NTIC Nouvelles technologie de l information et de la communication Le premier volet parlera plus sp cifiquement des aspects li s aux syst mes d information SI et leur interconnexion Le deuxi me volet sera consacr la consistance m me de l information num ris e son analyse sa cr dibilit et aux diverses possibilit s de recherches et d identification et d interpr tation des donn es pr
95. samy eds 1996 Advances in Knowledge Discovery and Data Mining Menlo Park Cal AAAI Press The MIT Press U M Fayyad G Piatetsky Shapiro P Smyth 1999 Data Mining and Knowledge Discovery in Databases Introduction to the Special Issue Communications of the ACM vol 39 1 R Feldman Y Aumann A Zilberstein Y Ben Yuda 1998a Trend Graphs Visualizing the Evolution of Concept Relationships in Large Document Collections in Zytkow et Quafafou 1998 p 38 46 R Feldman M Fresko Y K Kinar Y Lindell O Liphstar M Rajman Y Scheler O Zamir 1998b Text Mining at the Term Level in Zytkow et Quafafou 1998 p 65 73 R Godin G Mineau R Missaoui 1995 M thodes de classification conceptuelle bas es sur les treillis de Galois Revue d intelligence artificielle vol 9 2 p 105 137 D Landau R Feldman Y Aumann M Fresko Y Lindell O Lipshtat O Zamir 1998 TextViz An Integrated Visual Environment for Text Mining in Zytkow et Quafafou 1998 p 56 64 D E O Leary 1998 Knowledge Management Systems Converting and Connection JEEE Intelligent Systems vol 1 3 p 30 33 R L Pinkerton 1994 Competitive Intelligence Revisited A History and Assessment of Its Use in Marketing Competitive Intelligence Review vol 5 4 p 23 31 A Simon 2000 Outils classificatoires par objets pour l extraction de connaissances dans des bases de donn es Th se de doctorat de l Universit Henri Poincar
96. search EEE Agency See also DARPA ee Bno Berkeley Internet Name Domain Internet Name Domain htips www isc org bindhiml Iwww isc org bind html CABASE Camara Argentina de Internet el Comercio Electr nico los http www cabase org ar Contenidos y Servicios On Line care Canadian Association of Internet Providers Association of Internet Providers nupsiwww caipca Iwww caip ca Center for Democracy and Technology http www cdt org CENTR Council of European National Top level domain Registries http www centr org CIGREF Club Informatique des Grandes Entreprises Frangaises http www cigref fr CIX Commercial Internet Exchange http www cix org Mae for National Research Initiatives http www cnri reston va us corr Council of Council of Registrars http www corenic org CORE MoU Council of Registrars Memorandum of Understanding http www gtld mou org docs core mou htm DARPA Defense Advanced Research Defense Advanced Research Projects Agency Agency http www darpa mil DNS Domain Name System DOC US Department of Commerce http www doc gov oe Commission European Community e eu int ecra European Communities Trade Mark Association Communities Trade Mark Association updiwwwectaore Iwww ecta org eCOMLAC Federacion Latinoamericana y del Caribe para Internet y el http www ecom lac org Comercio Electronico JENRED Foro Latinoamericano Foro Latinoamericano de Redes
97. seil qui en plus de proc der la recherche font pass les r sultats par un r seau d experts ou de consultants qui valorisent l information en fonction de leurs propres connaissances Sources noires Ce type d information est dans la majorit des cas obtenue de mani re ill gale ou d acc s ferm Dans cette cat gorie on range l information collect e de mani re indue telle que l achat de renseignements consternant une entreprise espionnage conomique 6 2 Cartographie de l information disponible sur le Web Les moteurs de recherches conventionnels ne trouvent que 20 25 du contenu pr sent sur le Web Le graphique ci dessous montre que l information n est pas r partie ou accessible de mani re homog ne le Noyau repr sente les sites Web et bases de donn es interconnect es par des liens hypertextes Certains sites sont connect s ce Noyau depuis l ext rieur IN d autres sites sont connect s du Noyau vers l ext rieur OUT Des sites sont connect s aux l ments ext rieurs sans tre en liaison avec le Noyau Tubes Et finalement certains sites ne sont pas du tout connect s d autres Tubes Tendui 44 Million nedes IN OUT Noyau 56 Million nades m 44 Million nades _ 44 Million nades Tu bes Q Satellites O O lt O Disconnected components Source IBM Graph structure in the web 16 IBM Gra
98. sentes au sein des sources disponibles sur le Net Pour terminer ce document traitera de la maitrise des flux informationnels et la mise en place d une structure pr ventive de gestion et de surveillance de l infosph re L anticipation des risques a l information les m thodes d fensives et mesures d urgences pour lutter contre des frappes informationnelles Cette notion d anticipation est d cisive dans les domaines li s la pr vention de la criminalit conomique et du risque de blanchiment d argent Avec l mergence de la soci t num rique il est devenu vital d avoir la capacit de surveiller un environnement de plus en plus complexe ainsi que de d velopper des m thodologies de recherche d identification et de traitement de l information plus performante Pour arriver ce r sultat il est donc n cessaire de conna tre les diff rents outils et sources d information disponibles sur le Web Ces connaissances pourront ainsi permettre d identifier entre autres les ayants droits conomiques de sites Web de trouver de l information sur les personnages politiquement expos s et de d tecter de mani re anticipative les risques inh rents une situation donn e La notion d intelligence conomique dans le traitement de l information ainsi collect e pourra permettre de produire un support d aide la d cision pour la prise en compte des probl mes de criminalit conomique et de la
99. sme de repr sentation interm diaire entre DSS et repr sentation de connaissances par objet RCO Comme il a t dit plus haut l intention finale de la fouille de donn es textuelles est l extraction de connaissances d o le besoin galement d un syst me de repr sentation de connaissances et de raisonnement tre capable de faire des inf rences 4 Traitement linguistique La capacit traiter automatiquement le langage crit appara t comme une tape importante de la fouille de donn es textuelles La plupart des syst mes ont relay au second plan les donn es issues de l indexation manuelle et exploitent les r sultats d une indexation automatique L approche d ing nierie linguistique est la suivante En entr e des donn es textuelles que l on doit soumettre un traitement permettant l extraction automatique d l ments linguistique plus complexes que des simples mots L tiquetage des textes ou tagging l assignation automatique de cat gories morpho syntaxiques telles que le nom le verbe l adjectif etc aux mots du document et la lemmatisation sont les tapes de ce traitement Ensuite vient la phase de l extraction de termes partir des textes tiquet s laquelle est suivie d une phase de filtrage Ce filtrage est g n ralement statistique et il consiste en calculer un score aux termes Les termes sont s lectionn s en fonction de leur score Seulement les termes ayant un score sup rieur
100. stimer le pr judice l image caus par le d tournement de sa page d accueil appel defacement ou d facement entre le moment T ou l infraction a t commise et le moment T1 qui correspond au retour la normalit 24 L espace temps compris entre T et Tl multipli par le nombre de visiteurs qui habituellement fr quente le site dans cette tranche horaire donne le potentiel de pr judice En effet si l on a mille visiteurs dans la tranche horaire en question cela signifie qu un millier de personnes auraient t en mesure de faire une capture de la page Web d tourn e et de l envoyer au travers de forum de discussions au concurrents ou aux repr sentants de la presse Il faut aussi imaginer que la dimension de l entreprise sur le Web correspond la taille de son cran de ce fait si l on tag la page en question c est comme si on arrivait taguer tout le b timent dans la r alit Pour pouvoir r pondre a ce risque on mettre en place une solution de veille automatique sur L information de son propre site Web de la sorte que si elle venait a changer le responsable en serait alert dans les plus brefs d lais une solution produit performante est WebSite Watcher www aignes com Les personnages politiquement expos s en prenant en compte les n cessit s de s curit s abord es au chapitre 9 1 ainsi que les aspects techniques du chapitre 9 4 on va utiliser
101. sur le site de celui ci et utilis l outil Whois pr vu cet effet pour identifier le d tenteur de nom de domaine faisant l objet de notre recherche On peut donc constater qu il n y a pas de relation entre les diff rents Whois qui pourtant enregistrent le m me type d extensions biz com org info etc voir annexe pour acc der toutes les extensions Le fait que l on a identifi le d tenteur du site ne signifie pas que l on a les informations sur l h bergeur du contenu du site celui ce sera trouv au moyen de Visualroute tel que d montr dans l exemple figurant au paragraphe pr c dent source et tra abilit d un email email traker pro de la maison Visulaware Dans cet exemple l exp ditrice affirme tre la veuve de Mobutu et le nom affich la r ception de l email est bien Mme De Mrs Mariam Mobutu Seseseko seko_mam yahoo com Mariane Mobutu mais d s que l on trace l origine de cet email teph i EE i OTT 5 ae ne nc ai Tracker Pro by visu et que l on en affiche le code source on se rend compte que le i File Edit Vi Hel oe De Boge bie Objet INVESTMENT CARETAKER NE e A grrr manera PAYS de provenance de l email est le Nig ria et que l exp ditrice utilise en fait une adresse email avec un nom de domaine yahoo com ce qui peut tre un l ment de d cr dibilisation Ce qui pour cet exemple est av r cet email est en
102. t amp Messages Lors de configuration de l acc s au compte email dans un programme Bo te de r ception OG Bale de s ention 7 z nt ms Outlook pour cet exemple Les Si Abono CS donn es confidentielles tel que le S n T TT general Saveur c mot de passe sont masqu es par Borer Gorse mamas soreness rou coerente serea UNG s rie d toile afin d en pr server vera poo Panonymat Pour la plupart des S IRN maeva Bee Guerre SO utilisateurs cela signifie que ces IE 19 A Kal Serveur de messagerie pour courier entrant Nom du compte hacking donn es ne seront pas lues par un tiers Mot de passe I M moriser le mot de passe T Connexion fant l authentification par mot de passe s curis Actu Moteurs ven 03 01 2003 10 20 P003 de la part d EURODECISION AIS ven 03 01 2003 10 10 ler Felix ven 03 01 2003 09 41 Serveur de megfag F Mo erie pour courrier sortant rveur requiert une authentification 00e DDDD 7 AR ro PEL FT WPL ABD A A PA A A ISOC GVA General ERA CEER Haldenwe Ander aaa A Fes ISOC chapter delegates 38 Nom du compte hacking Mot de passe n Pour capturer ces informations il est n cessaire d acc der au r seau de l entreprise mais dans le cas d un syst me sans fils types Wireless lan 802 11 cette op ration sera ai
103. t g n ralement le contenu du site Internet Normalement des classes d adresses sont attribu es par pays mais il est extr mement difficile de localiser g ographiquement de mani re pr cise une adresse IP ce sujet sera abord dans le chapitre sur la recherche d information 5 3 Exemple de redirection d un site Web dans le but de commettre une fraude CNN a r cemment t victime de ce type de fraude Les fausses pages g n r es ressemblaient s y se m prendre celle du site de CNN Le logo les liens vers les rubriques et les derniers articles tout y tait Y compris l adresse de la fausse page qui commen ait par http www cnn com suivi d une arobase et d une adresse IP Le n ophyte n y voyait que du feu Et beaucoup ont cru aux fausses infos Pour illustrer cet exemple je vais publier le document offshore htm sur le Net et le lier ensuite avec la page d un site Web www vosplacements ch Voici la page telle qu elle apparaitrait dans un navigateur nom de domaine du propri taire du site www vosplacements ch Pm da LS T Banque Offshore Microsoft Internet Explorer Fichier Edition Affichage Favoris Outils Pr c dente gt rechercher Favoris Adresse ED ttp fiw vosplace nts ch shore htm Bienvenue sur notre e de liens Stee pas Emplacement du fichier sur le serveur Cliquer sur le lien suivant pour acc der au services qu
104. t les fonctions de sauvegarde recopie d indexation et de filtrage pour certain d entre eux Ils dupliquent tout ou partie d un site en recopiant les pages les r pertoires et l arborescence du site sur le poste informatique local les outils de gestion intelligente Information mining Ils r alisent les fonctions Rechercher Indexer Filtrer Sauvegarder Pr senter Distribuer Aider a la d cision Ils sont centr s sur la gestion intelligente de l information m me s ils int grent de plus en plus des fonctions de recherche sur le web les outils de d analyse et de repr sentation de l information Ils ont les fonctions Indexer Filtrer Sauvegarder Pr senter aide a la lecture d un ensemble de documents sur le web sous forme de repr sentation graphique qui fournissent une meilleure compr hension rapide de grand volume d information voir aussi http c asselin free fr french carto htm NdL Pour acc der la liste des diff rentes cat gories d outils de recherches et traitement de l information disponibles veuillez consulter l url de r f rence source Certains de ces outils peuvent ne plus tres accessibles en raison de consid rations d ordre conomiques 6 6 La d finition des zones et p rim tres de recherches Le mode d emploi des fonctionnalit s qui figurent ci dessous figure g n ralement sous la rubrique recherches avanc es des MR il faut aussi noter que les MR com
105. t subitement demand l autorisation Donald Rumsfeld d employer des moyens militaires pour combattre cet ennemi l origine de la psychose de la population de tout un tat il s agissait d employer des dr nes ainsi que des satellites Deuxi me l ment les t l visions ont commenc a diffuser des reportages sur les effets psychologiques du terrorisme documentaire sur les victimes d attentats en Isra l etc Troisi me l ment La conseiller du pr sident pour la politique de s curit int rieure a affirm qu elle envisageait d interroger les prisonniers de Guantanamo afin de v rifier s il existait un lien entre le sniper et les terroristes On peut tout fait d terminer la volont de cr ation d un lien implicite entre un v nement d actualit et l utilisation de la psychose terroriste du moment par l analyse de ces l ments de dissonances dans le contexte informationnel 2 cas les images montrant des palestiniens en liesses apr s les attentats du 11 septembre Cet exemple peut permettre d tudier les aspects de co ncidence informationnelle ainsi que de survenance de l v nement Si on analyse le contexte dans lequel ces images sont apparues sur les cha nes de t l visions on constate que dans un premier temps elles avaient leur place dans la cha ne contexte d information Mais au niveau de la co ncidence et de la survenance on avait les premiers signaux faibl
106. techniques de compression impliquent un codage par algorithmes math matiques La d compression est ensuite effectu e gr ce aux formules inverses Ces techniques ont tant progress que l on peut pr sent compresser des donn es et les restituer sans perte de qualit dans un rapport de 1 20 Cookies Fichier de type texte txt qui s inscrit sur le disque dur l aide de certaines pages Web dans le but d tre r utilis plus tard par d autres pages Web Cryptage M thode qui assure la confidentialit et la s curit de l information v hicul e sur l Internet Les donn es sont brouill es et donc illisibles puis d brouill es l aide de la m me m thode Certains navigateurs Web comme Netscape Poss dent de telles fonctions Cybercaf Caf dans lequel on peut se connecter l Internet Les premiers caf s de ce type sont apparus en 1992 San Francisco Cyberspace Terme de William Gibson romancier d signant les mondes virtuels constitu s par les r seaux informatiques D bit Mesure la quantit d informations que peut transmettre un canal de transmission pendant un temps donn G n ralement en bits par seconde pour les transmissions num riques DNS Domain Name System Base de donn es distribu e permettant de faire la correspondance entre nom de machine logique et l adresse IP E mail Electronic Mail Application qui permet un utilisateur d changer des messages avec d autres utilisateurs dot
107. tivit s utiles l entreprise pour assurer son bon fonctionnement Les informations de convivialit s permettent de vivre ensemble et en relation avec les autres et d influer sur leurs comportements On peut consid rer par exemple qu une campagne de d sinformation agit selon le m me principe qu un virus informatique une information erron e qui s appuie sur les ressources d un syst me organis dans le but de le d stabiliser 9 1 La veille strat gique principes de base et possibilit s d utilisation On va inclure dans la gestion de son p rim tre informationnel la palette des risques et vuln rabilit s en relation avec l activit professionnelle de l entreprise Pour une banque par exemple on va inclure le nom des personnages politiquement expos s dans le p rim tre de surveillance ce titre il 25 faut pr ter attention au fait qu inclure un risque dans le p rim tre informationnel de son entreprise ne signifie par forc ment traiter ce risque depuis son entreprise Consid rant que chaque recherche d information est une information Il faudrait pour le secteur bancaire passer par des sortes de proxy humain et donc ne pas traiter la recherche d information directement au sein de l entreprise mais passer par une entreprise tierce b n ficiant de toutes les garanties de confidentialit afin de r duire le risque au minimum On peut tr s bien imaginer cr er une structure ind pen
108. tre isra lien a ordonn aux chars de p n trer dans les territoires occup s le taux de protestations est rest tr s faible Ces diff rentes m thodes d analyse chapitre 8 sont les seules parades cet aspect moderne de gestion de l information Pour un cas tels que ceux du type CNN chapitre 7 1 cela peut permettre de fournir les l ments n cessaires une d tection appropri e des informations erron es 9 Strat gies visant la ma trise des Flux informationnels Le d veloppement de structures ou cellules de veille strat gique est int gr dans la strat gie de management de l information Les divers l ments pr sent s au chapitre 3 dans le paragraphe Le risque informationnel sont repr sentatifs de la n cessit de d limitation du p rim tre informationnel de l entreprise Le principal instrument de travail est l information et la t che est de g rer le flux de cette information selon des principes de r ception interpr tation diss mination action De plus en plus le management de l information en entreprise devient une n cessit car il faut g rer Le flux des informations produites par l entreprise pour elle m me Le flux des informations pr lev es sur l ext rieur et utilis e par l entreprise Le flux des informations produites par l entreprise destination de l ext rieur Ces diff rents flux se d partagent en deux cat gories Les informations d ac
109. ttp www gtld mou org press core 1 htm reee Transmission Transmission Control Protocol nternet Protocol Protocol Internet Protocol Top Level Domain URL Uniform Resource Locator USPTO United States Patent and Trademark Office http www uspto gov WIPO World Intellectual Property Organization http www wipo int WTO World Trade Organization http www wto org WWTLD World wide Alliance of Top Level Domains http www wwtld org Pour en savoir plus voici une liste de liens qui peuvent tre utiles ICANN et la gouvernance de l Internet e ICANN Internet Corporation for Assigned Names and Numbers http www icann org e JANA Internet Assigned Numbers Authority http www iana org e DNSO Domain Name Supporting Organization http www dnso org e ASO Address Supporting Organization http www aso icann org e PSO Protocol Supporting Organization http www pso icann org e GAC Governmental Advisory Committee http www noie gov au projects international DNS gac index htm Organismes coordonnant l adressage et le routage e RIPE Reseaux IP Europ ens http www ripe net e APNIC Asie Pacific NIC http www apnic net e ARIN American Registry for Internet Numbers http www arin net Organismes de standardisation e IETF Internet Engineering Task Force http www ietf org e W3C World Wide Web http w
110. tuelles au sens du texte plein ou full text L outil d ing nierie du document sert la gestion et le traitement des documents qui sont sous la forme de donn es h t rog nes et sans structure fixe dites donn es semi structur es DSS afin de leur appliquer un formalisme du type SGML ou XML et r aliser ainsi l tiquetage de leurs attributs par exemple la date le titre les auteurs la source le corps du texte et l ensemble de termes caract risant le document L outil d ing nierie linguistique est destin au traitement du langage crit pour l extraction de termes et l indexation automatique des documents mais aussi pour la gestion de ressources terminologiques telles que thesaurus vocabulaires d indexation bases de termes etc L outil de fouille de textes r alise la fonction g n rale de l acquisition de connaissances a partir des donn es textuelles qui ont t collect es format es et index es pr alablement Et enfin l outil de visualisation doit fournir l utilisateur les moyens hypertexte et graphiques pour explorer et analyser les r sultats Les propri t s interactives et it ratives de cette architecture s av rent tre d une extr me importance dans la fouille de textes comme dans tout autre syst me destin l analyse de l information o l intervention des experts du domaine est n cessaire et les retours en arri re dans le processus sont des d cisions fr quentes D o la n cessit d une architec
111. ture informatique modulaire et flexible du syst me Cette pr sentation va par la suite se concentrer ci dessous sections 4 5 et 6 sur la nature des outils 3 et surtout 4 parce qu ils repr sentent les l ments les plus sp cifiques d un syst me de fouille des donn es textuelles Quant aux produits commerciaux de fouille de donn es ou data mining une remarque g n rale est qu ils ne sont au fond que des outils statistiques Ultsch 1999 The terms Data Mining and Knowledge Discovery are often used in those systems in an inflationary way for statistical tools enhanced with a fancy visualization interface The difference between exploratory statistical analysis and Data Mining lies in the aim which is sought Data Mining aims at Knowledge Discovery Un syst me de data mining ne se r duit pas un simple outil d analyse statistique des donn es L intention finale de la fouille des donn es est donc l extraction de connaissance en anglais knowledge discovery 3 Techniques et m thodes tr s diverses Selon l appel au Text Mining Workshop de l International Joint Conference on Artificial Intelligence IJCAI 99 http ijcai org les techniques utilis es par le text mining sont celles de la fouille des donn es ou data mining de l apprentissage automatique de la recherche d information de la compr hension du langage naturel du raisonnement partir de cas des statistiques et enfin de la gestion de connaissances
112. umbers net pour les num ros de t l phone dans le monde Les moteurs de recherches de cartographie de l information ces MR qui fonctionnent par mots cl s n affichent pas une liste de r sultats lorsque l on fait une requ te mais ils affichent une carte de l information obtenue le sch ma auquel l on va acc der est une repr sentation graphique de la requ te de son r sultat et de l environnement de l information en relation avec la dite requ te Ces outils de nouvelle g n ration apportent une convivialit dans la recherche ainsi qu une repr sentation visuelle qui permet d am liorer son approche de l information d autres outils d interpr tation et de visualisation de l information seront pr sent s dans la partie 6 5 par exemple www kartoo com ou http maps map net qui permet de cartographier un annuaire tel que dmoz org Les outils humains de recherches ces MR sont bas s sur une aide humaine Les questions parviennent une quipe de sp cialistes des outils de recherches qui formulent la demande les requ tes de recherches les plus ad quates Ce genre d initiative permet au non initi de trouver des informations plus facilement et elle permet aussi au sp cialiste d largir sa palette d outils et de comp tences Certains de ces sites sont gratuits par exemple www webhelp fr Les r seaux experts ces r seaux ne se composent pas proprement parl d un moteur de rec
113. ur un sujet particulier Niveau application Niveau ot une application comme le courrier lectronique Web ou Gopher se r alise Ce protocole applicatif se situe au dessus de la couche de transport de l information NNTP Network News Transfer Protocol Protocole utilis par Usenet pour transf rer des fichiers de News d un serveur l autre Nom de domaine Element d une adresse lectronique qui permet de la classer en fonction de la localisation de l activit ou du nom du propri taire du domaine Le top level domain indique la localisation g ographique du serveur lorsqu il se compose de deux lettres fr pour la France uk pour l Angleterre de pour l allemagne etc Les entreprises ou les particuliers peuvent d poser un sous domaine leur nom propre Dans l acception courante on consid re que dans les adresses http www uunet fr et info uunet fr le nom de domaine est uunet fr On line ou Off Iine Se dit d un ordinateur ou d un service lorsqu il est connect o d connect du r seau Op rateur T l com D signe une soci t ou un organisme exploitant un grand r seau de t l communications Exemple AT amp T France T l com Mercury Paquet Petit ensemble de donn es faisant partie du transit d une information travers un protocole de commutation par paquet comme TCP IP Pare feu Firewall Dispositif mat riel et ou logiciel qui contr le l acc s l ensemble des ordinateurs d un r se
114. vec des outils sp cialis s tel que www linkpopularity com Information quantitative possibilit de contacter son metteur est ce que l information laquelle j acc de est sign e ou l gend e est ce que les coordonn es de l auteur figurent sur le site est ce que les informations de contacts sont compos es d email d adresse postale d un num ro t l phone ou de t l copie Quels sont les r sultat lors de recherches d apr s les informations de contact figurant sur le site prenez les nom personnes ou soci t s et avec un moteur de recherche ou un meta moteur essayer de trouver des traces de celles ci Information qualitative structure de Purl selon l exemple de CNN est ce que le nom de domaine est la propri t de l diteur ou est ce que l on a affaire un site qui offre des espaces d expression gratuit est ce que la d nomination des liens correspond bien la structure des url est ce que l extension du nom de domaine est connue et en relation avec l emplacement g ographique suppos de l information ou est ce que l on a affaire un nom exotique par exemple un www nom fr st pour un article en fran ais Information qualitative r f rencement de l information contenue dans le document est ce que toutes les informations en relation avec le document auquel lon acc de sont bien document es les sources cit es et v rifiables lien avec la source est ce que les personnes cit es fi
115. ww w3c org e ITU International Telecom Union http www itu org e ETSI European Telecommunications Standards Institute http www etsi org e JAB Internet Architecture Board http www iab org e ISOC Internet Society http www isoc org Organisme international e WIPO Word Intellectual Property Organization http www wipo org Organismes europ ens e ISPO Information Society Promotion Office European Internet Forum http www ispo cec br eif e EUROPA European Union http www europa eu int Organismes r gionaux e CENTR Council of European National Top level domain Registries http www centr org e AFTLD African Top Level Domains http www aftld org e APTLD Asia Pacific Top Level Domain forum http www aptld org e LACTLD Latin American amp Caribbean Country Code Top Level Organization http www lactld org e NATLD North American Top Level Domain Organization http www natld org Coll ges du DNSO e coll ge ccTLD Registries du DNSO http www wwtld org e coll ge business du DNSO http www bcdnso org e coll ge gTLD Registries du DNSO http www gtldregistries org e coll ge ISP and connectivity Providers du DNSO http www dnso org constituency ispcp ispcp html e coll ge Non commercial domain name holders du DNSO http www ncdnhc org e coll ge Registrars du DNSO
Download Pdf Manuals
Related Search
Related Contents
Manual - Preco SoftBank 103P 取扱説明書 Mercedes-Benz 2008 C300 Sport Automobile User Manual Jasco 15102 User's Manual Copyright © All rights reserved.
Failed to retrieve file