Home
reconnaissance de locuteurs en sciences forensiques
Contents
1. Locutrices Locuteurs Figure VIII 11 R sultat de l valuation individuelle des rapports de vraisemblance moyens en fonction du t l phone et de la ligne utilis s pour les enregistrements de test PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VIII EVALUATION DU SYSTEME 185 8 8 2 3 Discussion des r sultats Dans l valuation globale les r sultats ne sont pas uniformes pour les locuteurs ils montrent que l utilisation de t l phones diff rents pour l enregistrement du mod le et de l indice n a pas d influence notable sur les performances Par contre la m thode semble moins robuste pour les locutrices lorsqu elles utilisent des t l phones diff rents Figure VIII 10 Comme la majorit des m thodes de reconnaissance automatique de locuteur la m thode GMM a principalement t d velopp et test e avec des bases de donn es compos es de voix d hommes il n est d s lors pas tr s surprenant que ses performances soient sup rieures avec les voix d hommes qu avec les voix de femmes Ce constat appara t plusieurs fois dans les r sultats L valuation individuelle met encore une fois en vidence les grandes disparit s de performance du syst me automatique de reconnaissance de locuteurs entre les diff rentes personnes Figure VIII 11 Cette grande variabilit est un d faut connu des m thodes de reconnaissance de lo
2. Locutrice Session Session Session Session Session Session Session Polyphone Polyphone 1 Polyphone 2 Polyphone3 Polyphone4 Polyphone5 Comparaison cellulaire 00 J 0 J 0 J 8 J 26 J 28 J 28 J 0 01 J 0 J 0 J 12 J 16 J 26 J 33 J 0 04 J 0 J 0 J 22 J 29 J 35 J 42 J 0 05 J 0 J 0 J 8 J 11 J 20 J 45 J 0 06 J 0 J 0 J 19 J 25 J 36 J 64 J 0 07 J 0 J 0 J 10 J 18 J 26 J 32 J 0 08 J 0 J 0 J 7 J 15 J 22 J 34 J 0 09 J 0 J 0 J 8 J 22 J 25 J 32 J 0 32 J 0 J 0 J 14 J 28 J 35 J 42 J 0 33 J 0 J 0 J 12 J 17 J 32 J 38 J 0 44 J 0 J 0 J 14 J 28 J 36 J 42 J 0 49 J 0 J 0 J 10 J 15 J 34 J 38 J 0 54 J 63 J 0 J 9 J 18 J 25 J 34 J 0 55 J 32 J 0 J 10 J 21 J 29 J 32 J 0 58 J 22 J 0 J 21 J 27 J 29 J 43 J 0 59 J 0 J 0 J 8 J 15 J 20 J 29 J 0 Locuteur Session Session Session Session Session Session Session Polyphone Polyphone 1 Polyphone2 Polyphone3 Polyphone 4 Polyphone5 Comparaison cellulaire 10 J 0 J 0 J 9 J 15 J 52 J 53 J 0 11 J 0 J 13 J 18 J 27 J 28 J 40 J 0 12 J 0 J 0 J 27 J 33 J 45 J 59 J 0 13 J 0 J 0 J 10 J 14 J 28 J 37 J 0 14 J 0 J 0 J 7 J 16 J 36 J 58 J 0 15 J 0 J 0 J 10 J 18 J 27 J 32 J 0 16 J 0 J 0 J 9 J 18 J 21 J 29 J 0 17 J 0 J 0 J 9 J 14 J 18 J 21 J 0 18 J 0 J 0 J 5 J 12 J 15 J 22 J 0 19 J 0 J 0 J 25 J 25 J 42 J 60 J 0 20 J 0 J 0 J 7 J 13 J 23 J 28 J 0 22 J 0 J 0 J 11 J 32 J 58 J 93 J 0 39 J 0 J 0 J 3 J 6 J 8 J 13 J 0 40 J 0 J 0 J 3 J 13 J 16 J
3. L10 test1 L11 test1 L12 test1 L13 test1 L14 test1 L15 test1 L16 test1 L17 test1 analogique analogique analogique analogique analogique analogique analogique analogique Parole spontan e L10 test1 L11 test1 L12 test1 L13 test1 L14 test1 L15 test1 L16 test1 L17 test1 L10 test2 L11 test2 L12 test2 L13 test2 L14 test2 L15 test2 L16 test2 L17 test2 L10 test3 L11 test3 L12 test3 L13 test3 L14 test3 L15 test3 L16 test3 L17 test3 L10 test4 L11 test4 L12 test4 L13 test4 L14 test4 L15 test4 L16 test4 L17 test4 L10 test5 L11 test5 L12 test5 L13 test5 L14 test5 L15 test5 L16 test5 L17 test5 ANNEXES ANNEXE VI BASE DE DONNEES Polyphone IPSC 245 A VL3 h Enregistrements de test des locuteurs L18 L56 Locuteur 18 Locuteur 19 Locuteur 20 Locuteur 22 Locuteur 39 Locuteur40 Locuteur41 Locuteur 56 Messages anonymes L18 test ad L19 test ad L20 test ad L22 test ad L39 test ad L40 test ad L41 test ad L56 test ad L18 test ad1 L19 test ad1 L20 test ad1 L22 test ad1 L39 test an L40 test an L41 test ad1 L56 test an L18 test ad2 L19 test ad2 L20 test ad2 L22 test ad2 L41 test ad2 L18 test an L19 test ad3 L20 test an L22 test an L41 test an L18 test anl L19 test an L22 test anl L41 test anl L18 test an2 L19 test anl L22 test an2 L41 test an2 L18 test an3 L19 test an2 L41 test an3 L18 test an4 L19 test an3 L18 test an5 T l phone cellulaire L18 test L19 test
4. Locuteur Session Session Session Session Session Session Session Polyphone Polyphone1 Polyphone 2 Polyphone3 Polyphone 4 Polyphone5 Comparaison cellulaire 10 GSM 70 RTPC 44 RTPC 44 RTPC 44 RTPC 44 RTPC 44 RTPC 44 11 GSM 70 RTPC 38 RTPC 38 RTPC 38 DECT 38 RTPC 38 RTPC 38 12 GSM 70 RTPC 28 RTPC 28 RTPC 28 RTPC 28 RTPC 28 RTPC 28 13 GSM 70 DECT 26 DECT 26 DECT 26 DECT 26 DECT 26 DECT 26 14 GSM 70 RTPC 47 DECT 47 DECT 47 DECT 47 DECT 47 RTPC 47 15 GSM 70 DECT 67 DECT 67 DECT 67 DECT 67 DECT 67 DECT 67 16 GSM 70 DECT 63 DECT 63 DECT 63 DECT 63 DECT 63 DECT 63 17 GSM 70 DECT 63 DECT 63 DECT 63 DECT 63 DECT 44 DECT 63 18 GSM 70 RTPC 40 RTPC 40 RTPC 40 RTPC 40 RTPC 40 RTPC 40 19 GSM 70 DECT 37 DECT 37 DECT 37 DECT 37 DECT 37 DECT 37 20 GSM 70 RTPC 16 RTPC 16 RTPC 16 RTPC 16 RTPC 16 RTPC 16 22 GSM 70 RTPC 25 RTPC 25 RTPC 25 RTPC 25 RTPC 25 RTPC 25 39 GSM 70 DECT 96 DECT 96 DECT 96 DECT 96 DECT 96 DECT 96 40 GSM 70 RTPC 09 RTPC 09 RTPC 30 RTPC 30 RTPC 30 RTPC 09 41 GSM 70 RTPC 28 RTPC 30 RTPC 30 RTPC 30 RTPC 30 RTPC 28 56 GSM 70 RTPC 44 RTPC 44 GSM 77 RTPC 21 RTPC 44 RTPC 44 A VL2 b Enregistrements de comparaison Locutrice Session Locutrice Session Locuteur Session Locuteur Session Comparaison Compar
5. 1 62 1 34 1 07 0 79 0 52 0 24 0 24 0 52 0 79 1 07 1 34 1 62 1 89 2 17 2 44 2 72 3 00 3 27 3 55 3 82 4 10 4 37 4 65 4 92 5 20 5 48 5 75 6 03 6 30 6 58 6 85 7 13 7 40 7 68 7 96 8 23 8 51 8 78 Score Figure VII 11 Repr sentation graphique du rapport de vraisemblance de H et H pour la locutrice Y Pour le locuteur Z le rapport de vraisemblance des hypoth ses H et H est estim a 75 0 15 0 002 pour un l ment de preuve E valant 6 Figure VII 12 Cet exemple met aussi en vidence l importance du d nominateur dans le calcul des rapports de vraisemblance Densit 8 50 8 03 7 55 7 08 6 60 6 12 5 65 5 17 4 70 4 22 3 75 3 27 2 80 2 42 2 06 1 69 1 32 0 96 0 59 0 22 0 15 0 51 0 88 1 25 1 62 1 98 2 35 2 72 3 09 3 45 3 82 4 19 4 56 4 92 5 29 5 66 6 03 6 39 6 76 7 13 7 50 7 86 8 23 8 60 8 97 9 33 9 70 10 07 10 44 10 80 Score Figure VII 12 Repr sentation graphique du rapport de vraisemblance de H et H pour le locuteur Z 7 4 Exp riences 7 4 1 Principe Les exp riences r alis es au chapitre VIII servent tester le syst me de reconnaissance automatique de locuteurs dans diff rentes conditions rencontr es en criminalistique Le principe d valuation de la m thode consiste estimer et comparer la distribution des rapports de vraisemblance qui peuvent tre obtenus partir de l l ment
6. A IR sup rieur LR sup rieur Hi de 60j 31j N 28 HIl de 30j 21j N 36 Hi de 1j 10j N 48 Hi de 11j 20j N 48 Hi de 20j 11j N 47 Hi de 10j 1j N 48 H1 de 21 30j N 39 Hi de 31j 60j N 25 H2 N 80000 H2 N 80000 Locutrices Locutrices Probabilite Probabilit N A LR sup rieur LR sup rieur HI de 90j 31j N 29 H de 30j 21j N 45 Hi de 1j 10j N 58 Hi de 11j 20j N 46 H1 de 20j 11j N 58 Hi de 10j 1j N 58 Hi de 21j 30j N 28 Hi de 31j 90j N 30 H2 N 80000 H2 N 80000 Locuteurs Locuteurs Figure VIII 1 R sultat de l valuation globale des rapports de vraisemblance en fonction du temps s parant l enregistrement de test de l enregistrement du mod le PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VIII EVALUATION DU SYSTEME 171 8 5 3 Discussion des r sultats Dans les applications commerciales le test est g n ralement enregistr apres le modele En sciences forensiques par contre la configuration o l enregistrement de l indice est r alis avant l enregistrement du mod le est la r gle La configuration oppos e n est pas impossible mais improbable elle peut exister dans le cas o la personne mise en
7. Apr s un d lai de trois ans au plus tard les moluments pr vus au premier alin a lettre a doivent couvrir P P P P les co ts Art 11 Ordres de surveillance et demandes de renseignements Les ordres de surveillance et les demandes de renseignements doivent tre adress s par crit ou par t l fax au service ou aux fournisseurs de services de t l communication qui sont mandat s pour donner directement les renseignements sur les raccordements de t l communications En cas d urgence les ordres de surveillance peuvent aussi tre communiqu s oralement Toutefois l autorit ordonnant la surveillance ne recevra les communications de la personne surveill e les relev s de service des fournisseurs de services de t l communication ou les r sultats de la surveillance de la correspondance postale d une personne qu apr s avoir confirm son ordre par crit ou par t l copie Les ordres de surveillance doivent express ment mentionner les faits au sens du code p nal ou de tout autre acte l gislatif sur lesquels se fonde l instruction ou l infraction qu il y a lieu de pr venir Les compl ments aux ordres de surveillance ainsi que les modifications et les prorogations de ces derniers doivent galement tre adress s au service par crit ou par t l copie En cas d urgence les demandes de renseignements concernant des raccordements aux services de t l communication peuvent aussi tre adress es oral
8. Auditive Sprechererkennung bei Experten und Naiven IN Festschrift f r H Wrangler ed Weiss R Buske Hamburg pp 171 180 KOVAL S ILYINA O KHITINA M 1998A Practice of Usage of Auditive and Linguistic Features for Forensic Speaker Identification Proceedings of the 8th COST 250 workshop Ankara Speaker identification by man and by machine Directions for forensic applications pp 23 29 KOVAL S KAGANOV A KITHROY M 1998B The Chart of the Standard Expert Actions and Decision Making Principles of Forensic Speaker Identification Proceedings of the 8th COST 250 workshop Ankara Speaker identification by man and by machine Directions for forensic applications pp 62 66 KRASHNER M WOLF J KARNOFSKY K SCHWARTZ R Roucos S GISH H 1984 Investigation of text independent speaker identification techniques under conditions of variable data ICASSP 84 pp 18b 5 1 4 KRAUSE H J 1976 Possibilities of identification by voice and limits Arch Krim vol 157 no 5 amp 6 pp 154 164 KREBSER U G 1993 Frequenz Handbuch der mobilen und festen Funkdienste der Schweiz Poly Verlag Bassersdorf KRETSCHMER E 1922 K rperbau und Charakter Untersuchungen zum Konstitutionsproblem und zur Lehre von den Temperamenten J Springer Berlin KRZYSZKO M JASSEM W FRACKOWIAK RI
9. Issus de la recherche militaire les travaux de SCHMIDT NIELSEN et STERN font appel un systeme de codage inconnu dans les syst mes de communication civils le codage LPC 2 4 Kbits st dont la qualit de transmission est nettement inf rieure ces derniers MOS 2 5 DRT 88 SCHMIDT NIELSEN ET STERN 1985 Ils mettent cependant en evidence que certains locuteurs bien reconnus lorsque le signal est de haute qualit ne sont que faiblement reconnus lorsque le signal est cod ils ne mesurent d ailleurs qu une corr lation de 0 66 entre le taux d identification d chantillons de haute qualit et cod s 4 3 4 Limites de la proc dure de reconnaissance par des profanes L investigation exp rimentale de l aptitude de la personne inexperte dans la t che de reconnaissance de locuteurs montre qu un grand nombre de param tres conditionnent ses performances Ce sont notamment la nature de la t che demand e la taille et l homog n it de l ensemble de r f rence des locuteurs l ge et le sexe des locuteurs et des auditeurs la qualit et la quantit de parole entendue initialement le d lai entre l coute initiale de la voix inconnue et la proc dure d coute et d identification par les victimes ou les t moins le d guisement de la voix durant l coute initiale les diff rents moyens techniques de transmission et d enregistrement utilis s et la pr sence ou l absence d un t moignage visuel concordant
10. Probabilit Probabilit LR sup rieur LR sup rieur Hi RSB 18db N 16 Hi RSB 24dB N 16 Hl RSB 30dB N 16 HL RSB gt 40dB N 16 e H1 RSB Odb N 16 e H1 RSB 6db N 16 H2 RSB 18db N 16000 e H2 RSB 24db N 16000 HI RSB 12db N 16 HI RSB gt 40db N 16 H2 RSB 30db N 16000 H2 RSB gt 40db N 16000 H 2 RSB 0db N 16000 H2 RSB 6db N 16000 H2 RSB 12db N 16000 H2 RSB gt 40db N 16000 Locuteurs Locuteurs Figure VIII 15 R sultat de l valuation globale des rapports de vraisemblance en fonction du bruit de fond pr sent dans les enregistrements de test 8 9 3 Discussion des r sultats L ajout de bruit de fond de mani re artificielle ne permet pas de recr er des conditions parfaitement comparables un enregistrement r alis dans un environnement sonore bruit notamment parce que dans un tel cas le locuteur adapte son locution aux caract ristiques de bruit de l environnement Par contre cette mani re de proc der permet de quantifier de mani re pr cise le rapport signal sur bruit des enregistrements et de produire des tests comparables pour toutes les personnes Le type de bruit ajout la parole a t choisi de mani re obtenir une situation r aliste il a t enregistr lors d un ap ritif dans une salle conten
11. 7 11 Par exemple dans l hypoth se o l indice X ne provient pas de la locutrice Y la vraisemblance d un l ment de preuve valant 6 est estim e 0 22 Figure VII 10 Dans l hypoth se o l indice X ne provient pas du locuteur Z la vraisemblance d un l ment de preuve valant 6 est estim e 0 002 Figure VII 10 Repr sentation graphique de la vraisemblance de E dans la variabilit interlocuteur x Y 2 amp 020 E 0 15 v v A D an eeaeee eE E tamer 10 a en rep ee eS LT SS AE Re ee RR SI HE EBENE Asin eae ng DR le eis wie de gets e a cie 010 RILHSHTSRARRK SRL SRM RRARTRKNHRASHSEZLH Besse eee eS SLES SS E SSSR SG TSS SARK SRE SSGRESSSTESESRESSSSRse see Score Score Locutrice Y Locuteur Z Figure VII 10 Calcul de la vraisemblance de E valant 6 dans le cas o l hypoth se H est v rifi e 7 3 5 3 Rapport de vraisemblance de l l ment de preuve E Le rapport de vraisemblance est obtenu en divisant p IH par p H et est calcul de la mani re suivante LR ial 7 12 91 supra 3 5 5 1 5 Formalisation supra 3 5 5 1 5 Formalisation 158 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Par exemple pour la locutrice Y le rapport de vraisemblance des hypoth ses H et H vaut 1 81 0 40 0 22 pour un l ment de preuve E valant 6 Figure VIL11 Densit
12. 8 7 2 4 Discussion des r sultats La pr sence d un d guisement de la voix dans l indice influence le r sultat de mani re pr pond rante et confirme que le syst me de reconnaissance automatique de locuteurs n est pas robuste ce type de variabilit intralocuteur Tous les types de d guisement choisis par les participants se sont r v l s efficaces En pr sence d un d guisement les chances d obtenir un rapport de vraisemblance sup rieur 1 n atteignent pas 50 alors que l hypoth se H est v rifi e Figure VIII 8 Par contre la pr sence d un d guisement n a que peu d influence sur les rapports de vraisemblance lorsque H est v rifi e contrairement la variation du canal de transmission qui elle a une grande influence sur les rapports de vraisemblance lorsque l hypoth se H est v rifi e Figure VIII 8 Lorsque les locutrices et les locuteurs ont utilis des t l phones diff rents pour l enregistrement des modeles et les enregistrements de test l alt ration des performances est si importante que les rapports de vraisemblance calcul s sont tr s proches ou confondus que l hypoth se H ou H soit v rifi e D un point de vue forensique ce r sultat indique que la m thode n est pas utilisable lorsqu il existe une suspicion de d guisement de la voix dans l indice Le r sultat de l analyse des strat gies de d guisement utilis es par les participants la base de donn es Polyphone IPSC r
13. IEEE Trans ASSP vol 66 no 2 pp 14 26 SOONG F ROSENBERG A RABINER L JUANG B 1985 A vector quantization approach to speaker recognition ICASSP pp 387 390 STEFFEN BATOG M JASSEM W G RUSZKA KOSCIELAK H 1970 Statistical distribution of short term F values as a personal voice characteristics IN Speech analysis and synthesis ed Jassem W Polish Academy of Sciences Warsaw vol 2 pp 196 206 STEINBERG J C 1934 Application of sound measuring instruments to the study of phonetic problems J Acoustic Soc Am vol VI pp 16 24 STEINBERG J C FRENCH N R 1946 The portrayal of visible speech J Acoust Soc Am no 18 pp 4 18 STEVENS K N WILLIAMS C E C ARBONELL J R Woops B 1968 Speaker authentication and identification a comparison of spectrographic and auditory presentations of speech materials J Acoustic Soc Am vol 44 pp 1596 1607 STRATENWERTH G 1983 Schweizerisches Strafrecht Besonderer Teil I Straftaten gegen Individualinteressen 3 d St mpfli Berne STUDDERT KENNEDY M 1974 The perception of speech IN Current trends in linguistics ed Sebeok T A Mouton The Hague STUDDERT KENNEDY M 1976 Speech Perception IN Contemporary Issues in Experimental Phonetics ed Lass N J Academic Press
14. Tableau V 1 Synth se des r sultats de l tude de Tost Tost ET AL 1972B La combinaison de toutes les variables analys es offre un maximum de 972 22 x 3 conditions exp rimentales Le tableau V 1 reprend tous les r sultats disponibles dans TOSI ET AL 1972A TOSI ET AL 1972B mais ceux ci sont lacunaires En effet seuls les r sultats de 46 conditions exp rimentales sont pr sent s Tableau V 1 et il est impossible d identifier clairement ces conditions dans les commentaires qui leur sont joints 5 2 2 2 Evaluation dans des conditions forensiques r elles Si deux chapitres sont consacr s aux r sultats de l valuation principale en laboratoire les r sultats de l valuation dans des conditions forensiques r elles men e par NASH sont curieusement plac s apr s la discussion et les conclusions dans un chapitre intitul Extension of Results From Forensic Models to Real Cases TOSI ET AL 1972B Les deux extraits reproduits ci dessous illustrent de mani re patente que les conclusions reposent sur une m thodologie 94 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE discutable qui conduit des inf rences douteuses voire fausses en tout cas aucune ne repose sur une valuation empirique 5 2 2 2 1 Echantillonnage et r sultats Sur un total de 673 affaires une identification positive a t obtenue dans 88 cas Plus tard la plupart des acc
15. 1974 Talker differences as they appear in correlation matrices of continuous speech spectra J Acoust Soc Am vol 55 pp 833 837 Li K DAMMANN J E CHAPPMAN W D 1966 Experimental studies in speaker verification using an adaptative system J Acoust Soc Am vol 40 pp 966 978 LIGHT L L STANBURY C RUBINS C LINDE S 1973 Memory for modality of presentation Within modality discrimination Journal of Applied Psychology no 1 pp 395 400 LIN W C PILLAY S K 1976 Feature evaluation and selection for an on line adaptative speaker verification system IEEE Conf ASSP pp 734 737 LINDLEY D V 1977 Probability and the Law The Statistician vol 26 no 3 pp 203 220 LIPEIKA A LIPEIKIENE J 1997 Speaker identification methods based on pseudostationary segments of voiced sounds Informatica vol 7 no 4 pp 469 484 LOCARD E 1909 L identification des recidivistes A Maloine 25 27 Rue de l cole de m decine Paris LOCARD E 1932 Le signalement IN Les preuves de l identit Joann s Desvignes et ses fils libraires diteurs 36 42 Passage de l H tel Dieu Lyon pp 201 203 LOCARD F 1959 Les faux en criture et leur expertise Payot Paris 106 Boulevard Saint Germain pp 282 293 LOEVINGER L 1995 Science as evi
16. 244 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE A VL3 f Enregistrements de test des locutrices L32 L59 Locutrice 32 Locutrice 33 Locutrice 44 Locutrice 49 Locutrice 54 Locutrice 55 Locutrice 58 Locutrice 59 Messages anonymes L32 test ad L33 test ad L44 test ad L49 test ad L54 test ad L55 test ad L58 test ad L59 test ad L32 test an L33 test an L44 test an L49 test an L54 test an L55 test an L58 test an L59 test an Telephone cellulaire L32 test L33 test L44 test L49 test L54 test L55 test L58 test L59 test cellulaire cellulaire cellulaire cellulaire cellulaire cellulaire cellulaire cellulaire Tests bruit s L32 test1 0dB L33 test1 0dB L44 test1 0dB L49 test1 0dB L54 test1 0dB L55 test1 0dB L58 test1 0dB L59 test1 0dB L32 test1 3dB L33 test1 3dB L44 test1 3dB L49 test1 3dB L54 test1 3dB L55 test1 3dB L58 test1 3dB L59 test1 3dB L32 test1 6dB L33 test1 6dB L44 test1 6dB L49 test1 6dB L54 test1 6dB L55 test1 6dB L58 test1 6dB L59 test1 6dB L32 test1 9dB L33 test1 9dB L44 test1 9dB L49 test1 9dB L54 test1 9dB L55 test1 9dB L58 test1 9dB L59 test1 9dB L32 test1 12dB L33 test1 12dB L44 test1 12dB L49 test1 12dB L54 test1 12dB L55 test1 12dB L58 test1 12dB L59 test1 12dB L32 test1 18dB L33 test1 18dB L44 test1 1
17. 29 1 selon les conditions d exp rimentation Dans son Extension of Results From Forensic Models to Real Cases TOSI pr cise qu tant donn les circonstances dans lesquelles l investigation d un cas r el est men e un examinateur proprement entra n peut s attendre atteindre un taux d erreur de 1 L tude de TOSI ET AL indique que des examinateurs entra n s de seconde g n ration peuvent produire un taux d erreur acceptable 1 dans leur travail Les tudes HENNESSY ET ROMIG montrent que des examinateurs de seconde g n ration form s par apprentissage travaillant dans des conditions non contr l es et n utilisant aucun autre quipement que le spectrographe n aboutissent pas des taux d identification acceptables 70 et 59 HENNESSY ET ROMIG 1971A HENNESSY ET ROMIG 1971B Un entrainement appropri des examinateurs est la pierre angulaire d une utilisation satisfaisante de la technique d identification par empreintes vocales La formation et l entra nement des examinateurs am nent les recommandations suivantes Id alement l expert en identification d empreintes vocales devrait tre d tenteur d une licence en science physique ou en science de la parole Les laboratoires de sciences forensiques requi rent g n ralement cette exigence Bien qu il ait t d montr que des examinateurs entra n s de seconde g n ration
18. A l issue de la classification en ensemble ferm le plus grand indice de proximit a t mis en vidence 90 reprises pour les locutrices et 91 reprises pour les locuteurs alors que l enregistrement de test provenait de la m me source que le mod le Sur la base de 96 tests ces r sultats repr sentent des taux de fausse identification de 6 3 pour les femmes et 5 2 pour les hommes Tableau VIIL4 Nombre de tests 1 rang FA Locutrices 96 90 6 3 Locuteurs 96 9 5 2 Tableau VIII 4 R sultats de la classification en ensemble ferm dans la base de donn es Polyphone IPSC 8 4 3 Discussion des r sultats Les taux de fausse identification obtenus dans ces deux valuations permettent d valuer les limites th oriques du syst me sur la base d enregistrements t l phoniques contemporains Ils sont a rapprocher des r sultats de FLOCH qui obtient un taux de fausse identification de 4 4 avec une methode ind pendante du texte sur l entier de la base de donn es TIMIT compos e d appels t l phoniques non bruit s de 192 locutrices et 438 locuteurs FLOCH ET AL 1994 FISHER ET AL 1986 Ces r sultats servent a v rifier le fonctionnement du syst me mais ne refl tent en aucun cas les performances de la m thode dans des conditions forensiques Les taux d erreur plus faibles obtenus sur la base de donn es Polyphone Suisse Romande que sur la base de donn e
19. Figure VIII 4 R sultat de l valuation globale des rapports de vraisemblance en fonction de la dur e de l enregistrement de comparaison 8 6 2 3 Discussion des r sultats Il est normal de constater qu une diminution de la quantit de parole dans les enregistrements de comparaison alt re les performances du syst me de reconnaissance automatique de locuteurs Cependant l influence de la quantit de parole qui compose les enregistrements de comparaison est plus importante dans le cas o l enregistrement de tous les mod les provient du m me t l phone que lorsqu ils proviennent de t l phones diff rents L introduction de la variabilit concernant le canal de transmission conduit des performances globales inf rieures pour les locutrices et locuteurs qui ont utilis plusieurs t l phones pour l enregistrement des mod les Dans le m me temps les rapports de vraisemblance obtenus lorsque l hypoth se H est v rifi e diminuent et les rapports de vraisemblance obtenus lorsque l hypoth se H est v rifi e augmentent Figure VIII 4 Dans le domaine forensique ce r sultat indique que les personnes mises en cause dont la voix est mod lis e pour les besoins de l enqu te doivent utiliser des t l phones diff rents pour PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VIII EVALUATION DU SYSTEME 175 l enregistrement des mod les et les enregistrements de comparaison de mani re ne pas diminuer artificielleme
20. La metrique utilisee pour la comparaison repose sur une mesure de la distance euclidienne pour chacun des quatre vecteurs de caract ristiques et sur une sommation de ces distances L valuation des r sultats est consid r e dans une procedure de classification en ensemble ouvert l indice est compar avec l chantillon du locuteur suspect mais aussi avec les chantillons d un ensemble de six dix autres locuteurs La decision est laiss e l appr ciation de l op rateur qui fixe a posteriori et subjectivement selon l ensemble des r sultats sa disposition un premier seuil partir duquel il prend une d cision d identification et un second seuil en deca duquel il prend une d cision d exclusion aucune d cision n est rendue lorsque le r sultat de la comparaison entre l chantillon inconnu et l chantillon du locuteur suspect se trouve entre ces deux seuils HOLLIEN ET JIANG 1998 Malheureusement aucune des nombreuses publications consult es concernant ce systeme ne propose une valuation quantitative de ses performances PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE VI APPROCHE AUTOMATIQUE 139 6 4 5 IDEntification Method IDEM Italie des 1991 Le systeme IDEM est d velopp par la Fondazione Ugo Bordoni FUB a Rome depuis 1991 Ce logiciel semi automatique se pr sente sous forme de modules ind pendants adapt s a la micro informatique La reconnaissance de locuteurs est bas e sur la co
21. Plusieurs techniques de normalisation ont t sugg r es en vue de compenser les variations du canal de transmission notamment les effets induits par l utilisation de lignes t l phoniques diff rentes GLENN ET KLEINER tout comme DODDINGTON normalisent le vecteur des donn es spectrales obtenues en sortie du banc de filtres par la somme des sorties du filtre pour chaque mesure GLENN ET KLEINER 1968 IN ROSENBERG 1976B DODDINGTON 1974 IN ROSENBERG 1976B Cette normalisation a pour effet de stabiliser les mesures par rapport aux variations du niveau du signal Une technique de filtrage inverse connue sous le nom de distance d Itakura a aussi t propos e le spectre a long terme sert alors a la d finition d un filtre inverse du second ordre qui caract rise la distribution spectrale grossi re du signal d entr e TOHKURA 1986 128 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Le spectre moyen a long terme reste toutefois une r duction extr me des caract ristiques spectrales des nonc s d un locuteur et le pouvoir discriminatoire de certaines s quences du spectre court terme utilis en mode d pendant du texte lui chappe FURUI 1997 Le m me constat d insuffisance peut tre tir propos des caract ristiques temporelles long terme MAJEWSKI ET AL 1979 La meilleure alternative consiste utiliser le spectre moyen long terme comme l ment
22. en conformit avec les exigences logiques et l gales de mani re 4 mieux definir le r le du raisonnement inductif et deductif dans les approches auditive spectrographique et automatique pratiquees en sciences forensiques 8 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Les machines qui reconnaissent des mots dans la parole ou des objets dans une image sont investies d une capacit d identification Il est cependant improbable que des algorithmes de reconnaissance de formes puissent disputer la supr matie l tre humain dans la plupart des t ches Par contre dans certains domaines particuliers comme l identification de personnes par l criture manuscrite ou par la voix il est permis de douter des capacit s de la perception humaine LEWIS 1984 Le d veloppement technologique rend possible la d tection de traces et l analyse de caract ristiques que personne n avait pu effectuer auparavant et conduit l closion de nouvelles applications forensiques ROBERTSON ET VIGNAUX 1995 Le progr s r alis dans le domaine de l intelligence artificielle perceptive alli l accroissement des performances de calcul et de stockage des systemes micro informatiques ouvre des perspectives d application de la reconnaissance automatique de locuteurs aux sciences forensiques Should a machine be produced that for a sample of speakers could be shown to perform the speaker
23. limiter le travail et le facteur humain en ne sollicitant le criminaliste que pour des activit s simples PARTIE IV SYNTHESE CHAPITRE IX DISCUSSION GENERALE 205 qui ne n cessitent ni don ni habilit particuli re comme la segmentation des nonc s en phrases Le choix de la m thode comme celui de la base de donn es n cessaire au calcul de la variabilit interlocuteur et la composition des enregistrements de comparaison restent forc ment en partie subjectifs mais l valuation empirique est la pour guider ces choix et les justifier 9 2 2 1 4 Ind pendance par rapport aux langues analys es Bien que l ind pendance des m thodes automatiques par rapport la langue pr sente dans l enregistrement d indice ne soit pour le moment pas tablie l application de ces m thodes n est th oriquement pas limit e une langue ou un groupe de langues si des bases de donn es n cessaires a la modelisation des diff rentes populations potentielles peuvent tre trouv es sur le march ou collect es Notre courte exp rience montre qu en Suisse les enregistrements pr sent s lors de demandes d expertise en reconnaissance de locuteurs proviennent presque exclusivement d coutes t l phoniques r alis es au cours d enqu tes sur le trafic de drogues illicites Les langues parl es dans ces enregistrements d pendent fortement des ethnies qui noyautent le march des drogues illicites langues pour lesquelles il n existe
24. signal tiques de BERTILLON Le timbre de la voix est l un des caract res les plus distinctifs de l individualit Chacun sait que nous reconnaissons nos parents nos amis toutes les personnes avec lesquelles nous sommes en rapport journalier distance d une pi ce une autre rien qu au son de leur voix Malheureusement le phonographe mis part aucun signe n est plus difficile noter On signalera les voix particuli rement graves ou aigu s la voix de fausset la voix f minine chez l homme et la voix masculine chez la femme Les principaux vices organiques d articulation sont le z zaiement le chuintement le b gaiement et le grasseyement La connaissance raisonn e des diff rents accents qui caract risent chacune des provinces de la France serait certes d une grande utilit pour l identification des inconnus qui cachent leur nom si en cette mati re si d licate la th orie pouvait suppl er la pratique La distinction des principaux accents trangers pour peu qu on ait eu l occasion d y familiariser son oreille est certes plus ais e et plus tranch e que celle des accents provinciaux Chaque nationalit transporte dans sa mani re de parler une langue trang re la prononciation les r gles de grammaire et les tournures de phrase usit es en sa propre langue BERTILLON 1893 BERTILLON postule que la voix r pond au principe d individualit mais il souligne la faible capaci
25. 1990 Acoustic parameters in human speaker recognition Language and Speech vol 33 no 3 pp 259 272 VAN LANCKER D KREIMAN J EMMOREY K 1985A Familiar voice recognition patterns and parameters part I recognition of backwards voices Journal of Phonetics vol 13 pp 19 38 VAN LANCKER D KREIMAN J WICKENS T D 1985B Familiar voice recognition patterns and parameters part II recognition of re altered voices Journal of Phonetics vol 13 pp 39 52 VAN LANCKER D CUMMINGS J L K REIMAN J D OBKINS D H 1987 Voice discrimination and recognition are separate abilities Neuropsychologia vol 25 pp 829 834 VAN LANCKER D CUMMINGS J L KREIMAN J DOBKINS D H 1988 Phonagnosia A dissociation between familiar and unfamiliar voices Cortex vol 24 pp 195 209 VAN LANCKER D KREIMAN J CUMMINGS J L 1989 Voice perception deficits Neuroanatomical correlates of phonagnosia Journal of Clinical and Experimental Neuropsychology vol 11 pp 665 674 VAN VUUREN S 1996 Comparison of text independent speaker recognition methods on telephone speech with acoustic mismatch ICSLP Philadelphia PA no October pp 1788 1791 VIAAS Voice Identification and Acoustic Analysis Subcommittee of the International Association for Identification 1992 Voice comparison s
26. En 1986 le FBI a men une tude sur 2000 cas d identification de la voix r partis sur une p riode d une quinzaine d ann e dans le but de d terminer le taux d erreur de la m thode dans des conditions forensiques r elles Dans 1304 cas 65 2 soit aucune d cision soit une d cision associ e un faible degr de confiance a t rendue en majorit cause de la faible qualit des enregistrements plus rarement cause de voix f minines fr quence fondamentale lev e ou en pr sence de certains d guisements 378 18 9 d cisions d limination et 318 15 9 d cisions d identification ont t report es alors que seulement deux 0 1 fausses liminations et une 0 05 seule fausse identification ont t comptabilis es KOENIG 1986A L auteur pr sente aussi la procedure d analyse du FBI qu il compare ensuite celle pr conis e par lIAI il montre que les exigences du FBI sont au moins quivalentes celles de I IAI mais sup rieures au niveau du nombre de mots compar s de la qualit minimale de l enregistrement de question et de la formation des examinateurs KOENIG 1986B GRUBER ET POZA soulignent que l tude de KOENIG a t publi e sous forme de lettre l diteur et n a de ce fait pas t soumise une revue par les pairs GRUBER ET POZA 1995 Sa m thodologie est aussi s v rement critiqu e par SHIPP qui rel ve principalement que la Cornett v United Stat
27. MIT Press Cambridge MA FANT G 1973 Speech sounds and features MIT Press Cambridge MA Fay P MIDDLETON W C 1940 Judgement of Kretschmerian body types from the voice as transmission over a public address system J soc Psychol pp 151 162 FINKELSTEIN M O FAIRLEY W B 1970 A Bayesian Approach to Identification Evidence Harvard Law Review vol 83 no 3 pp 489 517 FISHER W M DODDINGTON G R GOUDIE MARSHALL K M 1986 The DARPA Speech Recognition Research Database Specification and Status Proc DARPA Workshop on Speech Recognition Palo Alto CA p 93 FLOCH J L MONTACIE C CARATY M J 1994 Investigation on speaker characterization on Orph e system technics ICASSP p I 149 FREEH L 1996 Impact of Encryption on Law Enforcement and Public Safety http www fbi gov encrypt htm FRENCH P 1994 An overview of forensic phonetics with particular reference to speaker identification Forensic Linguistics vol 1 no 2 pp 169 181 FURUI S 1981A Cepstral analysis technique for automatic speaker verification IEEE Trans ASSP vol ASSP 29 pp 254 272 FURUI S 1981B Comparison of speaker recognition methods using statistical features and dynamic features IEEE Trans ASSP vol ASSP 29 pp 342 350 FURUI S 1989 Digital speech processing
28. Tableau IV 4 Influence de la modification de la voix La reconnaissance auditive de voix imit es et de voix de jumeaux a t peu abord e En cas d imitation ROSENBERG montre que la performance des auditeurs d pend des qualit s de limitation et que certains auditeurs se laissent beaucoup plus facilement abuser que d autres ROSENBERG 1973 L exp rience de HOMAYOUNPOUR et ses coll gues avec des imitateurs non professionnels confirme ces r sultats HOMAYOUNPOUR ET AL 1993 TATE montre qu un groupe d auditeurs habitant la Floride sans connaissances linguistiques a reconnu respectivement 30 et 37 5 de locuteurs originaires du sud des Etats Unis dans deux groupes de locuteurs imitant PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE IV APPROCHE AUDITIVE 65 l accent du sud des Etats Unis un groupe de locuteurs non entra n s et un groupe d acteurs TATE 1979 IN NOLAN 1983 Ce r sultat peut tre consid r comme lev tant donn la complexit des r gles phonologiques qui gouvernent le syst me sonore complet d un accent particulier 4 3 3 3 3 Influence de la pr sence de voix auditivement proches Tableau IV 5 La pr sence d une paire de jumeaux univitellins dans un ensemble de douze locuteurs a provoque 96 de fausse acceptation de la part des auditeurs dans l experience de ROSENBERG ROSENBERG 1973 D autre part HOMAYOUNPOUR ET CHOLLET montrent que les jumeaux ont des voix plus difficilement
29. Task 2500 Proceedings of ESCA Workshop on automatic speaker recognition identification and verification pp 75 82 BIMBOT F MAGRIN CHAGNOLLEAU I MATHAN L 1995 Second order statistical measures for text independent speaker identification Speech Communication pp 177 192 BIMBOT F MATHAN L 1994 Second order statistical measures for text independent speaker identification Proceedings of ESCA Workshop on automatic speaker recognition identification and verification pp 51 54 BLACK B AYALA F J SAFFRAN BRINKS C 1994 Science and the law in the wake of Daubert A new search for scientific knowledge Texas Law Review vol 72 no 4 pp 715 802 BLACK J W LASHBROOK W B NASH E W OYER H J PEDREY C Tos O I TRUBY H 1974 Reply to Speaker identification by speech spectrograms some further observations J Acoust Soc Am vol 54 pp 535 537 BLOCK E B 1975 Voiceprinting how the law can read the voice of crime D McKay Co New York BoE L J 1998 L identification juridique de la voix le cas francais Historique probl matique et propositions Proceedings of RLA2C Workshop Speaker Recognition and its Commercial and Forensic Applications pp 222 239 BOHME G HECKER G 1970 Gerontologische Untersuchungen ber Stimmunfang und Sprechstimmlage Folia
30. au programme de recherche sur Videntification de locuteurs le prix Nobel de litt rature 1970 Aleksandr Isaevic SOLZENICYN alors professeur de physique a Riazan rend compte de ce programme avec de tr s grands d tails dans son roman Le Premier Cercle crit de 1955 a 1958 confisqu en Union Sovi tique et dit en France o il a recu le Prix du meilleur livre tranger en 1968 5 2 L application forensique 5 2 1 La m thode de KERSTA 5 2 1 1 Bases th oriques m thodologie et r sultats Lorsque KERSTA propose l utilisation du spectrographe sonore dans le domaine forensique Bell Telephone Laboratories l entreprise r pond qu elle est une compagnie de t l phone et refuse le d veloppement de cette application Par contre elle permet 4 KERSTA de prendre une retraite anticip e et d emporter avec lui la technologie du spectrographe sonore ALEXANDERSON 1997 En 1962 KERSTA publie la m thode d identification de locuteurs par comparaison visuelle de spectrogrammes vocaux dans deux articles intitul s Voiceprint Identification publi s dans les revues Nature et Journal of Acoustical Society of America KERSTA 1962A KERSTA 1962B A la fin de l ann e il donne aussi une conf rence appel e Voiceprint Identification Infallibility devant Y Acoustical Society of America Pour nommer les spectrogrammes vocaux KERSTA reprend la d nomination d empreinte vocale ou voiceprint te
31. vol 91 pp 45 73 O SHAUGNESSY D 1986 Speaker recognition IEEE ASSP Magazine vol 3 no 4 pp 4 17 O SHAUGNESSY D 1987 Speaker recognition IN Digital speech processing synthesis and recognition Addison Wesley Publishing Company New York OPENSHAW J P SUN Z P MASON J S 1993 Comparison of composite features under degraded speech in speaker recognition ICASSP vol 2 pp I 371 II 374 ORMEZZANO Y ROCH J B 1991 Analyse vocale imm diate normalis e Bulletin d audiophonologie vol 21 no 4 pp 399 452 ORTEGA GARCIA J GONZALEZ RODRIGUEZ J MARRERO AGUIAR V DIAZ GOMEZ J J GARCIA JIMENEZ R LUCENA MOLINA J SANCHEZ MOLERO J A G 1998 Speaker verification in forensic tasks using AHUMADA speech corpus Proceedings of RLA2C Workshop Speaker Recognition and its Commercial and Forensic Applications pp 141 144 OTTOLENGHL S 1910 Trattato di polizia scientifica Societa Editrice Libraria Via Kramer 4A Milano pp 272 276 PAOLONI A 1999 Communication personnelle 6 mai PAOLONI A FALCONE M BIMBOT F CHOLLET G 1994 Outline a comprehensive assessment methodology for speaker recognition task in forensic application Annual Meeting of The International Association for Forensic Linguistics Cardiff PAPAMICHALIS P E DODDINGTO
32. 09 GSM 70 DECT 01 DECT 00 DECT 00 DECT 00 DECT 00 DECT 00 DECT 00 32 GSM 70 RTPC 32 RTPC 32 RTPC 32 RTPC 2 RTPC 32 RTPC 32 RTPC 32 33 GSM 70 DECT 01 DECT 01 DECT 01 DECT 01 DECT 01 DECT 01 DECT 01 44 GSM 70 RTPC 32 RTPC 32 RTPC 32 RTPC 2 RTPC 32 RTPC 32 RTPC 32 49 GSM 70 RTPC 28 RTPC 16 RTPC 16 RTPC 32 RTPC 21 RTPC 16 GSM 20 54 GSM 70 RTPC 38 RTPC 38 RTPC 38 RTPC 38 RTPC 38 RTPC 38 RTPC 38 55 GSM 70 RTPC 38 RTPC 16 RTPC 16 RTPC 16 RTPC 16 RTPC 16 RTPC 16 58 GSM 70 RTPC 75 RTPC 75 RTPC 75 RTPC 75 RTPC 09 RTPC 75 RTPC 75 59 GSM 70 RTPC 09 RTPC 09 RTPC 09 RTPC 09 RTPC 09 RTPC 09 RTPC 09 Locuteur Test Test 1 Test 2 Test 3 Test 4 Test 5 Message Message cellulaire anonyme 1 anonyme 2 10 GSM 70 RTPC 44 RTPC 44 RTPC 44 RTPC 44 RTPC 44 RTPC 44 RTPC 44 11 GSM 70 RTPC 38 RTPC 38 RTPC 38 DECT 88 RTPC 38 GSM 70 RTPC 38 12 GSM 70 RTPC 28 RTPC 28 RTPC 28 RTPC 28 RTPC 28 RTPC 28 RTPC 28 13 GSM 70 DECT 26 DECT 26 DECT 26 DECT 26 DECT 26 DECT 26 DECT 26 14 GSM 70 RTPC 47 DECT 47 DECT 47 DECT 47 DECT 47 RTPC 47 RTPC 47 15 GSM 70 DECT 67 DECT 67 DE
33. 147 147 147 147 148 149 152 152 152 153 TABLE DES MATIERES VII 7 3 4 Estimation des fonctions de densit de probabilit 155 7 3 5 Calcul du rapport de vraisemblance de l l ment de preuve E 156 7 4 Exp riences 158 74 1 Principe 158 7 4 2 Pr sentation des r sultats 159 7 4 3 Exemple 159 7 5 Conclusion 160 VIII Evaluation du syst me 161 8 1 Introduction 161 8 2 Enregistrement et selection de bases de donnees 161 8 2 1 D termination de la langue parl e 161 8 2 2 Estimation de la variabilit intralocuteur 161 8 2 3 Estimation de la variabilit interlocuteur 164 8 2 4 Constitution d enregistrements de test 166 8 3 Proc dure d valuation du systeme 166 8 4 Limites th oriques du systeme 167 8 4 1 Evaluation sur la base de donn es Polyphone Suisse Romande 167 8 4 2 Evaluation sur la base de donn es Polyphone IPSC 168 8 4 3 Discussion des resultats 168 8 5 Evaluation de l influence du temps s parant l enregistrement de l indice et celui du mod le 169 8 5 1 Proc dure 169 8 5 2 R sultats 170 8 5 3 Discussion des r sultats 171 8 6 Evaluation de l influence de la qualit et de la quantit de donn es 171 8 6 1 Influence du type d locution lors de l enregistrement des mod les 171 8 6 2 Influence de la quantit de parole dans les enregistrements de comparaison 173 8 6 3 Influence du type d locution dans les enregistrements de comparaison 175 8 7 valu
34. 179 EVETT I W 1992 Interpreting of Evidence conf rence pr sent e lors de la 10 Conf rence Triennale d Interpol sur les sciences forensiques Lyon EVETT I W 2000 Communication personnelle 7 mars EVETT I W 1995 Avoiding the transposed conditional Science amp Justice 35 2 pp 127 131 EVETT I W BUCKLETON J S 1996 Statistical analysis of STR data IN Advances in Forensic Haemogenetics eds Carraredo A Brinkmann B Bar W Springer Verlag Heidelberg vol 6 pp 79 86 BIBLIOGRAPHIE 255 FAHRMANN R 1966A Grundprobleme der Sprecherstimmverstellung und Sprechstimmvergleichung 1 Teil Archiv f r Kriminologie vol 137 no 1 pp 25 32 FAHRMANN R 1966B Grundprobleme der Sprecherstimmverstellung und Sprechstimmvergleichung 2 Teil Archiv f r Kriminologie vol 137 no 3 pp 91 102 FALCONE M DE SARIO N 1994 A PC speaker identification system for forensic use IDEM Proceedings of ESCA Workshop on automatic speaker recognition identification and verification pp 169 172 FALCONE M PAOLONI A DE SARIO N 1995 IDEM A software tool to study vowel formants in speaker identification Proceedings of the XIIth International Congress of Phonetic Sciences Stockholm pp 294 297 FANT G 1960 Acoustic theory of speech production
35. 1972 Cette proc dure de s lection consiste extraire le sous ensemble des caract ristiques poss dant le F ratio maximal a partir d un grand nombre de caract ristiques 6 2 2 4 Conclusion Les transformations spectro temporelles consid rent le signal de parole sous forme de fen tres successives et une transformation s op re sur chaque fen tre La dur e et la forme des fen tres sont ajust es pour favoriser les interpr tations recherch es Le d faut de ces m thodes r side dans l intermodulation source conduit qui rend difficile la mesure de la fr quence fondamentale et la mesure des formants caract ristiques de la source et du conduit vocal DRYGAJLO 1999 6 2 3 Approches actuelles Contrairement aux m thodes pr c dentes la pr diction lin aire et l analyse homomorphique sont fond es sur une connaissance des m canismes de production de la parole 6 2 3 1 Pr diction lin aire 6 2 3 1 1 Principe La m thode de pr diction lin aire Linear Predictive Coder LPC aussi appel e modelisation autor gressive est utilis e en premier lieu pour le codage du signal de parole mais elle permet une caract risation de l enveloppe spectrale de ce signal dans le domaine temporel SCHAFER ET RABINER 1975 Elle repose sur une mod lisation param trique temporelle du signal de parole et se fonde sur l observation que chaque nouvel chantillon du signal de parole ne constitue pas une innovation pure ma
36. Am vol 44 pp 1736 1737 Supp F T D OHERTY T HOLLIEN H 1987 Some fundamental considerations regarding voice identification J Acoust Soc Am vol 82 no 2 pp 687 689 BIBLIOGRAPHIE 269 Supp F T HOLLIEN H 1969 Perception of the aging male voice J Speech Hearing Res vol 12 pp 703 710 SHIRT M 1984 An auditory speaker recognition experiment Proceedings of the Institute of Acoustics vol 6 no 1 pp 101 104 SIEGEL D M 1976 Cross examination of a voiceprint expert a blueprint for trial lawyers Crim L Bull vol 12 pp 509 521 SILVERMAN B W 1986 Density estimation for statistics and data analysis Chapman and Hall London SMRKOVSKI L 1976 Study of speaker identification by aural and visual identification of non contemporary speech samples J of the Assoc of Official Analyt Chem vol 59 pp 927 931 SMRKOVSKI L 1997 Communication personnelle 21 janvier SOLZENICYN A I 1968 Le Premier Cercle trad du russe par Henri Gabriel Kybarthi Ex libris Lausanne SOONG F K ROSENBERG A E 1988 On the use of instantaneous and transitional spectral information in speaker recognition IEEE Trans ASSP pp 871 879 SOONG F K ROSENBERG A E JUANG B H 1987 A vector quantization approach to speaker recognition
37. E H Estimation du rapport de probabilit a posteriori Tableau II 2 Sch matisation du processus d inference de l identit adopt pour la reconnaissance de locuteurs en sciences forensiques 50 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 3 6 Evaluation d une m thode de reconnaissance auto matique de locuteurs La difficult d finir l information analys e l information d pendante du locuteur rend la phase d valuation d une m thode de reconnaissance automatique de locuteurs difficile et plus on reuse que sa phase de mise au point en termes de moyens et de travail Trois approches ont t propos es pour l valuation de l efficacit de ces m thodes l tablissement de mod les th oriques la comparaison de mod les th oriques et l valuation empirique CAPPE 1995 3 6 1 tablissement de mod les th oriques L tablissement de mod les th oriques peut permettre de d gager de grandes tendances comme la d monstration que la classification est une t che plus difficile que la discrimination dans le cas d un grand nombre de locuteurs DODDINGTON 1985 La mod lisation compl te du fonctionnement d une m thode reste toutefois d une utilit assez limit e car en g n ral elle ne correspond que de tr s loin au fonctionnement en situation r elle CAPPE 1995 3 6 2 Comparaison de mod les th oriques Il est parfois possible
38. Further experiments in text independant speaker recognition over communications channels ICASSP pp 563 566 HUNTLEY R HOLLIEN H Supp T 1987 Influences of listener characteristics on perceived age estimations J Voice vol 1 pp 49 52 INGEMAN F 1968 Identification of the speaker s sex from voiceless fricatives J Acoustic Soc Am vol 44 pp 1142 1144 INGRAM J C L 1995 Formant trajectories for speaker identification where they work and where they don t Paper to the International Association of Forensic Linguistics Conference Armidale INGRAM J C L PRANDOLINI R ONG S 1996 Formant trajectories as indices of phonetic variation for speaker identification Forensic Linguistics vol 3 no 1 pp 129 145 JANKOWSKI C R QUATIERI T F REYNOLDS D A 1994 Formant AM FM for speaker identification Proc IEEE SP Int Symp Time Freq Time Scale Anal pp 608 611 JASSEM W STEFFEN BATOG M CZAJKA S 1973 Statistical characteristics of short term average F distributions as personal voice features IN Speech analysis and synthesis ed Jassem W Polish Academy of Sciences Warsaw vol 3 pp 209 225 JAYANT N 1992 High quality coding of telephone speech in Advances in speech signal processing eds Furui S Sondhi M Dekker New York USA
39. L00 c s 14 2 L07 c s 09 7 L00 c s 15 0 L07 c s 09 8 L00 c s 15 4 L07 c s 09 9 L00 c s 18 0 L07 c s 10 1 L00 c s 19 5 L07 c s 11 6 L00 c s 24 7 L07 c s 11 7 L07 c s 11 9 L07 c s 12 4 L07 c s 12 5 L07 c s 12 6 L07 c s 12 8 L07 c s 14 4 L07 c s 15 0 L07 c s 15 6 L07 c s 17 2 L07 c s 17 3 L07 c s 17 4 L07 c s 24 8 240 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE A VI 3 b Enregistrements de comparaison des locutrices L32 L59 Locutrice 32 Locutrice 33 Locutrice 44 Locutrice 49 Locutrice 54 Locutrice 55 Locutrice 58 Locutrice 59 Simulation de messages anonymes L32 c ad 11 8 L33 c ad 07 6 L44 c an 11 6 L49 c ad 07 5 L54 c an 09 5 L55 c ad 07 4 L58 c ad 13 1 L59 c ad 10 4 L32 c an 11 7 L33 c an 07 4 L49 c an 10 6 L55 c an 08 3 L58 c an 09 6 L59 c ad 13 5 L59 c an 08 5 Simulation de dialogues L32 c d1 02 6 L33 c d1 01 2 L44 c d1 02 2 L49 c d1 00 9 L54 c d1 01 7 L55 c d1 01 3 L58 c d1 01 6 L59 c d1 01 6 L32 c d1 02 9 L33 c d1 01 5 L44 c d1 03 7 L49 c d1 01 3 L54 c d1 01 8 L55 c d1 01 4 L58 c d1 02 0 L59 c d1 02 0 L32 c d1 03 1 L33 c d1 01 8 L44 c d1 04 4 L49 c d1 01 7 L54 c d1 01 9 L55 c d1 01 6 L58 c d1 02 7 L59 c d1 02 5 L32 c d1 03 2 L33 c d1 01 9 L44 c d1 06 8 L49 c d
40. La difficult de la t che et les checs successifs de ces syst mes lors de leur application dans des conditions forensiques r elles a conduit les industriels se tourner vers des applications moins complexes comme le contr le d acc s et les administrations s engager dans des domaines de recherche plus gratifiants Les checs des ann es 1970 peuvent tre partiellement expliqu s par le manque de robustesse des m thodes utilis es par la qualit technique catastrophique des enregistrements soumis pour analyse et par le d veloppement de modules de d cision focalis s sur des d cisions binaires d acceptation ou de rejet supra 5 4 3 Les standards de l IAI 144 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE La place toujours plus importante de la t l phonie mobile dans les activit s humaines licites ou illicites est certainement une des causes du regain d int r t pour la reconnaissance de locuteurs de la part des acteurs du monde judiciaire Les recherches r centes montrent que les laboratoires utilisent maintenant g n ralement des m thodes d analyse et de classification qui repr sentent l tat de l art dans le domaine de la reconnaissance de locuteurs Par contre le processus d inference de l identit du locuteur est toujours per u en terme de discrimination ou de classification Cette constatation montre encore une fois que l effort principal
41. MELLA O 1992 Pertinence des trois premiers formants des voyelles dans l identification 19 mes JEP pp 549 555 MELLA O 1994 Extraction of formants of oral vowels and critical analysis for speaker characterization Proceedings of ESCA Workshop on automatic speaker recognition identification and verification pp 193 196 MELVIN C NAKASONE H Tos O 1988 More fundamental considerations regarding voice identification J Acoust Soc Am vol 84 no 5 pp 1943 1944 MERKEL F 1902 Atmungsorgane IN Darmsystem hrsg von Bardeleben K Jena Verlag von Gustav Fischer pp 39 40 MERMINOD Y 1992 Expressions et proverbes latins adages juridiques Ides amp Calendes Neuch tel 264 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE MERTZ N J KIMMEL K L 1978 The effect of temporal speech alterations on speaker race and sex identifications Language and Speech vol 21 pp 279 290 MEUWLY D 1999 L ordonnance sur le service de surveillance de la correspondance postale et des t l communications du 1 12 1997 Une loi en retard d une guerre technologique IN Le statut des t l communications en mutation Editions Universitaires Fribourg MEUWLY D DRYGAJLO A 1997 Likelihood ratios for automatic speaker recognition in forensic appli
42. Place de l Od on 75006 Paris pp 468 479 HABERSBRUNNER H SEBALD O HANTSCHE H 1968 Zur Personenfeststellung mittels Stimmen und Sprachanalyse Archiv fiir Kriminologie pp 3 9 HAIR G D REKIETA T W 1972 Automatic speaker verification using phoneme spectra J Acoust Soc Am vol 51 p 131 A HAMMERSLEY R READ J D 1983 Testing witnesses voice recognition Some practical recommendations J Forensic Sci Soc vol 23 pp 203 208 HAMMERSLEY R READ J D 1985 The effect of participation in a conversation on recognition and identification of the speakers voices Law and Human Behaviour vol 9 no 1 pp 71 81 HARTMANN D 1979 The perceptual identity and characteristics of aging in normal male adult speakers Journal of Communication Disorders vol 12 pp 53 61 HARTMANN D DANHAUER J 1976 Perceptual features speech in four perceived age decades J Acoustic Soc Am vol 59 pp 713 715 HATON J P 1994 Problems and solutions for noisy speech recognition Journal de Physique IV vol 4 no mai pp C5 439 C5 448 HAYANO T 1999 Les murs nippons vont avoir des oreilles Asahi Shimbun Tokyo IN Le Courrier International Paris n 451 24 30 juin p 28 HAZEN B 1973 Effects of different phonetic contexts on spectr
43. R Rehberg J Stratenwerth G pp 333 340 GFCP BUREAU DU GROUPE COMMUNICATION PARLEE DE LA SOCIETE FRAN AISE D ACOUSTIQUE 1991 About the ethics of speaker identification XXth Congr s International de Phon tique Aix en Provence vol 1 pp 397 GIANELLI P C IMWINKELRIED E J 1986 Voice identification IN Scientific evidence The Michie Company Law Publishers Charlotteville Virginia pp 309 327 GILES H SCHERER K R TAYLOR D M 1979 Speech markers in social interaction IN Social markers in speech eds Scherer amp Giles Cambridge University Press Cambridge GisH H 1990 Robust discrimination in automatic speaker identification ICASSP pp 289 292 GIsH H KARNOFSKY K KRASHNER M ROUCOS S SCHWARTZ R WOLF J 1985 Investigation of text independent speaker identification over telephone channels ICASSP pp 379 382 GISH H KRASHNER M RUSSEL W WOLF J 1986 Methods and experiments for text independent speaker recognition over telephone channels ICASSP pp 865 868 GISH H SCHMIDT M 1994 Text independent speaker identification IEEE Signal Processing Magazine no October pp 18 32 GOCKE J W OLENIEWSKI W A 1973 Voiceprint identification in the courtroom J Forens Sci pp 232 236 GOPALAN K MAHIL S S 19
44. REMERCIEMENTS Ce travail de th se a t r alis l Institut de Police Scientifique et Criminologie IPSC de la Facult de Droit de l Universit de Lausanne La direction de la th se a t assur e conjointement par le Docteur Andrzej Drygajlo responsable du traitement de la parole au Laboratoire de Traitement des Signaux LTS de l cole Polytechnique F d rale de Lausanne et le Professeur Pierre Margot directeur de l Institut de Police Scientifique et de Criminologie Le jury de th se tait compos de Monsieur le Professeur Andr Kuhn Professeur associ la Facult de Droit de l Universit de Lausanne pr sident du jury de Monsieur le Professeur Pierre Margot Directeur de l Institut de Police Scientifique et de Criminologie rapporteur de Monsieur le Docteur Fr d ric Bimbot charg de recherche au CNRS expert et de Monsieur le Docteur Ton Broeders responsable du Department of Writing and Speech du laboratoire national de sciences forensiques des Pays Bas expert Je tiens exprimer ici ma vive gratitude et mes sinc res remerciements toutes les personnes qui m ont apport leur amiti leur connaissance et leur aide tout au long de ce travail et en particulier A mon directeur de th se Monsieur le Docteur Andrzej Drygajlo pour m avoir accept sous son aile et m avoir fait d couvrir avec patience et gentillesse le monde et quelques uns des secrets du traitement du signal
45. THEVENAZ 1990 En pratique trois m thodes ont t d velopp es pour calculer le cepstre r el du signal et estimer la p riode de la fr quence fondamentale et des fr quences formantiques 122 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 6 2 3 2 2 M thodes La plus classique est fond e sur la transform e de Fourier 4 court terme Le spectre de puissance a court terme du signal est calcul par transform e de Fourier discr te et exprim en valeur logarithmique Le r sultat de cette transformation est ramen dans le domaine temporel par transform e de FOURIER discr te inverse pour trouver les coefficients cepstraux RABINER ET SCHAFER 1978 La deuxieme m thode differe de la pr c dente par le moyen de calculer le spectre de puissance a court terme Il est assur par un banc de filtres avec calcul de la puissance pour chaque canal plut t que par transform e de Fourier discr te Ces deux approches demeurent extr mement proches car la transform e de Fourier a court terme peut tre formul e sous la forme d un banc de filtres uniforme avec d cimation des signaux de sous bandes et la possibilit de grouper les bandes de la transform e de Fourier permet de simuler un banc de filtres largeur de bandes non uniforme RABINER ET JUANG 1993 Le groupement de bandes de la transform e de Fourier court terme ne correspond pas un v ritable banc de filtres mais p
46. cas n cessitant le recours une expertise en reconnaissance de locuteurs en Suisse L id e qu aucune possibilit technique de reconnaissance de locuteurs n existe est v hicul e aux magistrats instructeurs par les policiers Le quota des magistrats qui se satisfont d une telle r ponse et qui ne poursuivent pas leurs investigations ne peut pas tre valu Par contre depuis cinq ans chaque ann e entre 10 et 20 magistrats et quelques avocats ont contact l Institut de Police Scientifique et de Criminologie de l Universit de Lausanne demandant une solution dans le domaine de la reconnaissance de locuteurs ce qui montre la n cessit et l utilit d une r ponse dans ce domaine car les affaires dont il est question concernent g n ralement des coutes t l phoniques li es d importants trafics de drogues illicites R pondre ce besoin n cessite le d veloppement d une infrastructure qui pourrait tre unique pour le pays au vu du volume d affaires identifi es l heure actuelle Sa place devrait sans aucun doute se trouver dans un laboratoire national de sciences forensiques comme il en existe dans tous les pays d Europe Mais en Suisse en l absence d une telle entit il est actuellement difficile de d terminer la place id ale d un laboratoire de reconnaissance de locuteurs et malheureusement le f d ralisme suisse fragmente et cloisonne les services publics Ce ph nom ne de linkage blindness notamme
47. e des enregistrements d apprentissage devient inf rieure 4 une dizaine de secondes MATSUI ET FURUI 1991 MATSUI et FURUI ont r alis des mesures de performance d identification en mode ind pendant du texte La base de donn es comprend 13 locutrices et 23 locuteurs pour chacune et chacun quinze phrases de 4 s ont t collect es en trois occasions sur une p riode de six mois Les mod les ont t calcul s partir de la concat nation de dix phrases alors que les cinq phrases restantes ont t utilis es pour le test partir d enregistrements de test form s de phrases de 4 s dans une base de donn es Les r sultats s chelonnent entre 86 9 et 95 4 d identification correcte selon la taille du dictionnaire et la vitesse d locution des locuteurs Les meilleurs r sultats ont t obtenus pour une locution a vitesse normale avec le plus grand dictionnaire test constitu de 512 vecteurs MATSUI ET FURUI 1992 6 3 2 3 Mod lisation par m langes de fonctions de densit gaussiennes La modelisation par m lange de fonctions de densit gaussiennes Gaussian Mixture Models GMM est une m thode param trique globale Elle consiste 4 supposer que la distribution des caract ristiques d pendantes du locuteur peut tre d crite par une fonction de densit de probabilit gaussienne multidimensionnelle sous la forme d un vecteur de moyennes et d une matrice de covariance Le vecteur de moyennes repr se
48. la vraisemblance de l l ment de preuve E p E IH est d termin e dans la fonction de densit de probabilit de la variabilit intralocuteur la valeur E Elle est calcul e de la mani re suivante EA n K E a 7 10 Par exemple dans l hypoth se o l indice X provient de la locutrice Y la vraisemblance d un l ment de preuve valant 6 est estim e 0 40 Figure VII 9 Dans l hypoth se o l indice X provient du locuteur Z la vraisemblance d un l ment de preuve valant 6 est estim e 0 15 Figure VIL9 Repr sentation graphique de la vraisemblance de E dans la variabilit intralocuteur dans un chantillon de 1000 personnes Densit Densit Locutrice Y Locuteur Z Figure VII 9 Calcul de la vraisemblance de E valant 6 dans le cas o l hypoth se H est v rifi e Cette approche n glige la contribution de ces valeurs plancher l int grale de la densit supra 3 5 5 1 5 Formalisation PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VII DEVELOPPEMENT D UN SYSTEME AUTOMATIQUE 157 7 3 5 2 Vraisemblance de l l ment de preuve E lorsque H est vraie Dans le cas o l hypoth se H est v rifi e la vraisemblance de l l ment de preuve E p E H est d termin e dans la fonction de densit de probabilit de l hypoth se H la valeur E Elle est calcul e de la mani re suivante EE B 9 1 K E b
49. lais les relev s de service demand s et transmettent si possible en temps r el les communications de la personne surveill e Ils suppriment les cryptages Ils mettent disposition les quipements n cessaires l ex cution de la surveillance La surveillance et toutes les informations qui s y rapportent sont soumises au secret postal et au secret des t l communications art 321 CP Section 4 Renseignements sur les raccordements Art 8 T ches du service Pour les motifs suivants le service fournit des renseignements sur les raccordements uniquement aux autorit s suivantes leur demande a pour d terminer les raccordements et les personnes surveiller aux autorit s f d rales et cantonales qui ordonnent ou approuvent la surveillance des t l communications b pour ex cuter des t ches de police l Office f d ral de la police la police f d rale au service de s curit de l administration f d rale et aux commandements des polices cantonales et municipales c pour r gler des affaires relevant du droit p nal administratif aux autorit s f d rales et cantonales comp tentes en la mati re Le service peut charger les fournisseurs de services de t l communication de donner directement aux autorit s les renseignements sur les raccordements de t l communications Le service conserve les demandes de renseignements pendant un an Art 9 Devoirs des fournisseurs de
50. peuvent tre recrut s dans la population g n rale des techniciens avec une exp rience d identification comparable devraient tre pr f r s En l absence de licence des cours de phon tique acoustique de science de la parole de linguistique d audiologie et d lectronique de base sont fortement recommand s avant toute utilisation de la technique d identification par empreintes vocales Un entra nement minutieux dans la pr paration des bandes magn tiques et des spectrogrammes vocaux est essentiel PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE V APPROCHE SPECTROGRAPHIQUE 97 e Un programme d entra nement soigneusement supervis d identification de voix par comparaison de spectrogrammes doit tre men jusqu ce que le stagiaire atteigne un taux d identification de 99 lors d analyses en ensemble ferm f A la suite de la formation le stagiaire doit poursuivre son apprentissage en analysant des cas r els avec un superviseur exp riment Celui ci indiquera le moment o il sentira que l l ve est suffisamment qualifi pour prendre des d cisions de son propre chef 5 2 2 4 Cr ation de l International Association of Voice Identification TAVI La confiance retrouv e gr ce aux r sultats de l tude de TOSI ET AL KERSTA fonde l International Association of Voice Identification IAVI avec comme pr sident NASH jusqu sa retraite puis SMRKOVSKY et TOSI comme
51. position au sujet des l ments mat riels X et Y ainsi que du rapport de vraisemblance qui peut en tre d duit La cour s appuie sur ce rapport de vraisemblance pour diminuer son incertitude et d terminer le rapport de probabilit a posteriori et dela la d cision d innocence ou de culpabilit L l ment de preuve est le travail du t moin de l expert ou du scientifique la d cision finale celui du tribunal Cet auteur soutient que la t che du scientifique est de d terminer ce que l l ment de preuve signifie en cas de culpabilit et ce qu il signifie en cas d innocence LINDLEY 1977 LINDLEY observe aussi l ind pendance de tout ce qui concerne le rapport de probabilit a priori vis vis du th or me de Bayes avant que les l ments de preuve ne soient introduits Cette constatation est non seulement valable en sciences forensiques mais aussi en g n ral LINDLEY 1977 3 5 5 Choix d un processus d inf rence de l identit La d monstration de la conformit logique et l gale de l valuation des rapports de vraisemblance comme m thode quantitative de l inf rence de l identit en sciences forensiques effectu e par KWAN en 1977 sur la base des travaux de KAPLAN ainsi que de F INKELSTEIN ET FAIRLEY a t confirm e 4 de nombreuses reprises KAPLAN 1968 IN KWAN 1977 FINKELSTEIN ET FAIRLEY 1970 KWAN 1977 KAYE 1979 EVETT 1987 ROBERTSON ET VIGNAUX 1995 Pourtant seuls LEWIS BROEDERS a
52. produisent Le ph nom ne acoustique ne s enregistre qu apr s une assimilation deformante constitu e par le raisonnement aussi inconscient et sommaire que l on voudra mais dont l existence est constamment d montrable Distinguer une voix est une op ration physique PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE IV APPROCHE AUDITIVE 61 complexe qui comporte la perception des trois l ments hauteur intensit et timbre leur comparaison avec des l ments identiques d j per us et l affirmation de cette identit On sent combien une telle op ration comporte de difficult s si les conditions ne sont pas absolument favorables s il s agit par exemple de voix chuchot e ou de voix d guis e N anmoins lorsque la personne qu il s agit d identifier est de l intimit du t moin et que celui ci n est pas stupide la r ponse peut tre int ressante LOCARD 1932 4 3 3 Approche exp rimentale 4 3 3 1 M thodologie La performance humaine dans la tache de reconnaissance auditive de locuteurs a t valu e lors de nombreuses exp riences de psychologie exp rimentale Comme la plupart des tudes men es sont originales du point de vue m thodologique les r sultats obtenus sont souvent difficilement comparables Ils permettent n anmoins d valuer la validit des r sultats obtenus lors de proc dures d coute et de reconnaissance par les victimes ou les t moins d une infraction en sci
53. proposent une distorsion spectrale selon l chelle Mel MAKHOUL ET COSELL 1976 IN HERMANSKY 1990 STRUBE 1980 IN HERMANSKY 1990 HERMANSKY a tudi une classe de techniques de transform es spectrales qui modifient le spectre de puissance court terme avant son approximation par le mod le autor gressif Cette m thode appel e pr diction lin aire perceptuelle perceptual linear prediction PLP consiste a proc der successivement un filtrage en bandes critiques du spectre court terme une correction de l intensit et la compression de l amplitude du signal avant de proc der l analyse par pr diction lin aire Figure VI 3 HERMANSKY 1990 ransform e ransform e Analyse Correction Conversion Solution pour de en bande de intensit de Fourier les coefficients De Fourier critique niveau puissance inverse autor gressifs aged as Figure VI 3 Pr diction lin aire perceptuelle HERMANSKY 1990 124 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Plusieurs autres m thodes robustes d extraction des coefficients de pr diction lin aire bas es sur la minimisation de diff rentes fonctions objectives ont t envisag es Cependant les performances des diff rentes solutions propos es d pendent du type de d gradation du signal et aucune m thode aussi universelle que la pr diction lin aire percept
54. qui permet de d crire un ensemble de donn es par un faible nombre de vecteurs formant un dictionnaire codebook associ aux donn es Le dictionnaire de quantification des spectres d un locuteur est calcul de maniere a ce que la distance entre un vecteur issu des donn es et son plus proche voisin dans le dictionnaire soit la plus faible possible en d autres termes que la quantification vectorielle cr e le moins de distorsions sur la parole de ce locuteur MAKHOUL ET AL 1985 La quantification vectorielle est une technique de groupage clustering d autant plus adapt e que la parole pr sente naturellement des points d accumulation autour desquels la densit de vecteurs issus des donn es est importante CAPPE 1995 La quantification vectorielle est g n ralement r alis e par une m thode d optimisation successive de dictionnaires de taille croissante appel e binary spliting K means qui permet de contourner le d licat probleme de l initialisation de l algorithme de recherche it rative des vecteurs du dictionnaire MAKHOUL ET AL 1985 Pour la reconnaissance de locuteurs la mesure de similarit entre deux jeux de mesures consiste a valuer la distorsion moyenne d un des deux ensembles de mesures en utilisant le dictionnaire optimis par quantification vectorielle pour l autre jeu de mesures CAPPE 1995 La caract risation de la distribution des donn es obtenue par la quantification vectorielle est pro
55. r e comme acceptable alors que la validit des inf rences d identit ne l est pas En effet l apparente validit de telles inf rences d identit repose plus sur la valeur souvent lev e de la probabilit a priori dans ce domaine que sur l aptitude de l analyse d gager des rapports de vraisemblance tr s sup rieurs 1 De nombreuses proc dures d identification reposant sur une approche exclusivement comparative souffrent de cette m me invalidit C est notamment le cas pour l identification d critures manuscrites l identification d armes feu l origine d un projectile et l identification de traces d outils par comparaison visuelle de stries et de microstries Malgr cette similitude le degr de validit de chacune de ces approches doit tre consid r comme diff rent En effet en l absence de base de donn es l valuation du d nominateur du rapport de vraisemblance fait largement appel aux capacit s mn moniques et l exp rience de l expert qui peuvent tre tr s diff rentes selon le type de perception sollicit et la personne r alisant le travail Malgr l am lioration constante de la technologie utilis e par les phon ticiens dans leurs analyses forensiques les conclusions qu ils atteignent demeurent du niveau de l opinion et devraient tre utilis es de fa on corroborative FRENCH 1994 Cette r serve affich e par FRENCH ne prend pas en compte le fait que l experti
56. s initiales de se trouver dans chaque tat les probabilit s de transition qui d crivent les passages possibles entre les diff rents tats et les probabilit s de sortie qui repr sentent les distributions conditionnelles des caract ristiques observ es en fonction de l tat du modele Les r gles de transition permises entre les tats d finissent les diff rents types de modeles markoviens et le choix de la topologie du mod le d pend du mode de reconnaissance de locuteurs d pendant ou ind pendant du texte Le mode d pendant du texte fait appel des mod les de topologie gauche droite o les tats correspondent aux mots du texte Figure VI 5 ROSENBERG ET SOONG 1991 Figure V1 5 Mod le de Markov gauche droite 3 tats Pi probabilit d tat initial Le mode ind pendant du texte requiert des mod les ergodiques ou des mod les gauche droite o les tats correspondent des unit s phon tiques connect es Figure VI 6 SAVIC ET GUPTA 1990 134 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Figure VI 6 Mod le de Markov ergodique 3 tats Pi probabilit d tat initial Les aspects s quentiels de la parole pris en compte dans la modelisation par modeles de Markov cach s sont la source des excellentes performances de cette m thode en mode d pendant du texte lorsque le vocabulaire est fixe ou tr s contraint En mode ind penda
57. synthesis and recognition Dekker New York FURL S 1994 An overview of speaker recognition technology Proceedings of ESCA Workshop on automatic speaker recognition identification and verification pp 1 9 FURUI S 1997 Recent advances in speaker recognition IN Audio and Video Based Biometric Person Authentification eds Big n J Chollet G Borgefors G Springer Verlag Berlin pp 237 252 FURUI S ITAKURA F 1973 Talker recognition by statistical features of speech sounds Electronics and Communications in Japan vol 56 A pp 62 71 256 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE FURUI S ITAKURA F S AITO S 1972 Talker recognition by long time averaged speech spectrum Electronics and communications in Japan vol 55 A pp 54 61 GALLUSSER A 1998 L indice mat riel comme moyen de preuve sa valeur et son utilisation par les magistrats these de doctorat Institut de police scientifique et de criminologie Universit de Lausanne GARVIN P LADEFOGED P 1963 Speaker identification and message identification in speech recognition Phonetica vol 9 no 4 pp 193 199 GAUTHIER J 1984 Enregistrement clandestin d une conversation t l phonique et preuve p nale IN Ged chtnisschrift f r Peter Noll hrsg von Hauser
58. t ajournee jusqu la fin de la guerre POTTER 1946 En 1946 les inventeurs du spectrographe sonore pr cisent que si les spectrogrammes vocaux comportent certaines caract ristiques d pendantes du locuteur les ressemblances sont beaucoup plus grandes que les diff rences lorsque deux locuteurs diff rents prononcent un m me nonc ils mentionnent en outre que les recherches concernant l identification de locuteurs ne sont pas termin es KOPP ET GREEN 1946 Seule une br ve publication sugg re l utilisation des spectrogrammes vocaux comme m thode d identification d un point de vue l gal STEINBERG ET FRENCH 1946 Les recherches continuent aux Bell Telephone Laboratories durant seize ans sous la direction de KERSTA mais l absence de toute publication entre 1946 et 1962 laisse penser que le projet tait classifi et financ par l arm e ALEXANDERSON 1997 SMRKOVSKI 1997 Dans le contexte de la guerre froide la connaissance des recherches nord am ricaines conduit les autorit s de l Union Sovi tique lancer un programme de recherche sans pr c dent en 1949 a Mavrino pr s de Moscou dans une prison sp ciale du r gime r serv e aux prisonniers politiques et id ologiques La plupart des d tenus sont des ing nieurs et des techniciens pour lesquels la prison repr sente le premier cercle de disgrace et le camp de d portation le dernier SOLZENICYN 1968 Pour avoir v cu Mavrino et particip
59. t dor navant comme extr mement fiable et ne justifie plus une d cision de refus comme dans les deux cas pr c dents MOENSSENS ET AL 1986 En fait la cour rejette le principe d acceptation g n rale par la communaut scientifique pertinente en expliquant que le d saccord entre experts n est pas rare et que c est au magistrat instructeur de d terminer quel expert est le plus cr dible REYNOLDS ET WEBER 1979 THOMAS 1981 L approche d velopp e dans Trimble a subs quem People v Law 1974 40 Cal App 3d 69 114 Rptr 708 711 5th Dist Trimble v Heldman 1971 291 Minn 442 192 NW2d 432 49 ALR3d 903 PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE V APPROCHE SPECTROGRAPHIQUE 101 ment t adopt e par de nombreuses cours d Etat et par au moins deux cours f d rales dans United States v Phoenix et United States v Raymond CUTLER ET AL 1972 LADEFOGED qui avait formul une v h mente critique de la m thode est convaincu par les r sultats de l tude de TOSI et t moigne en cour dans le cas Raymond Il pr tend que la communaut scientifique est maintenant majoritairement favorable la m thode et en informe le conseiller scientifique du pr sident des Etats Unis Edward David Jr dans une lettre du 24 mai 1971 en ces termes Si on me demandait de t moigner au sujet de la validit du systeme je devrais insister sur le fait que nous ne connaissons pas pour l instant le t
60. tend rendre la m thode ind pendante du texte et vise diminuer l intravariabilit par rapport l intervariabilit l influence du ph nom ne de coarticulation est sous estim e par les auteurs BECKER ET AL 1973 Les m thodes d extraction de caract ristiques int gr es dans le troisi me tage sont bas es sur l analyse du spectre court terme partir de la transform e de Fourier rapide et sur la pr diction lin aire profitant ainsi des travaux de ATAL et de MARKEL ATAL 1971 IN BECKER ET AL 1973 MARKEL 1972 IN BECKER ET AL 1973 La mesure de similarit est r alis e l aide de plusieurs m triques la mesure de rapports de vraisemblance entre les caract ristiques en supposant leur ind pendance la mesure de la distance 78 supra 5 2 2 Tentative de validation de la m thode de KERSTA l tude de TOSI 136 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE euclidienne entre les caract ristiques soit uniform ment pond r es dans un espace multidimensionnel soit pond r es par leur cart type lorsque celui ci est tr s variable d une caract ristique l autre soit pond r es par le discriminant de Fischer afin d augmenter l influence des caract ristiques les plus discriminantes La decision est consid r e sous l angle de la discrimination et le seuil de discrimination est d fini partiellement par la machine et partiel
61. thode d analyse de la dimension fractale de la surface des projectiles d armes feu en vue de l identification de leur source Aucun r sultat probant n a t obtenu par cette m thode qui n a fait l objet d aucune publication Le traitement du signal de parole est par essence different de l analyse de surfaces en trois dimensions mais la soci t Microsurfaces a consid r que l approche fractale tait tout de m me appropri e Leur m thode est bas e sur l hypoth se que les consonnes et les transitions entre phon mes comportent des perturbations ayant une dimension fractale comme l explique un dossier publi dans la Revue de la Police Scientifique et Technique en 1991 Les consonnes poss dent un spectre renfermant des signaux caract ristiques du bruit du frottement de l air contre les parois de la cavit buccale Elles ont une dimension fractale susceptible d tre visualis e en fonction du temps et de la fr quence dans un espace tridimensionnel le fractogramme ANONYME 1991 Cette repr sentation graphique ressemble au spectrogramme vocal mais serait susceptible de r v ler des caract ristiques sp cifiques du locuteur permettant son identification par comparaison Malheureusement les r sultats d cevants obtenus par l analyse fractale ou multifractale ont conduit les chercheurs se tourner vers l analyse du spectre long terme dont les limites concernant le pouvoir discriminatoire
62. tre lev e que par la d monstration de l hypoth se d individualit des spectrogrammes HENNESSY ET ROMIG 1971A HENNESSY ET ROMIG 1971B 5 2 1 4 Rapport du Technical Committee on Speech Communication of the Acoustical Society of America BOLT I Devant l incapacit de KERSTA publier des rapports techniques d taill s et face l abondance des publications motiv es par cette controverse CEDARBAUMS 1969 IN CUTLER ET AL 1972 KAMINE 1969 IN CUTLER ET AL 1972 le Technical Committee on Speech Communication of the Acoustical Society of America charge six chercheurs dans le domaine de la parole BOLT COOPER DAVID DENES PICKETT et STEVENS de consid rer les probl mes suivants 90 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 1 Lorsque deux spectrogrammes vocaux se ressemblent cela signifie t il plut t m me locuteur ou m me mot prononc 2 Les ressemblances non pertinentes sont elles de nature induire un jury en erreur lors de l valuation des t moignages de deux experts oppos s 3 Dans quelle mesure les spectrogrammes sont ils d pendants du locuteur 4 Quelle est la variation temporelle des spectrogrammes 5 Sont ils sensibles au d guisement de la voix ou susceptibles d tre falsifi s Dans leur r ponse connue sous le nom de BOLT I les auteurs mettent jour les lacunes th
63. 13 J 0 J 0 J 10 J 14 J 28 J 37 J 30 J 43 14 J 0 J 0 J 7 J 16 J 36 J 58 J 16 J 36 15 J 0 J 0 J 10 J 18 J 27 J 32 J 30 J 30 16 J 0 J 0 J 9 J 18 J 21 J 29 J 17 J 21 17 J 0 J 0 J 9 J 14 J 18 J 21 J 9 J 37 18 J 0 J 0 J 5 J 12 J 15 J 22 J 41 J 41 19 J 0 J 0 J 25 J 25 J 42 J 60 J 60 J 60 20 J 0 J 0 J 7 J 13 J 23 J 28 J 23 J 86 22 J 0 J 0 J 11 J 32 J 58 J 93 J 58 J 58 39 J 0 J 0 J 3 J 6 J 8 J 13 J 13 J 17 40 J 0 J 0 J 3 J 13 J 16 J 23 J 14 J 22 41 J 0 J 0 J 9 J 14 J 30 J 35 J 31 J 37 56 J 0 J 0 J 14 J 18 J 27 J 33 J 27 J 27 ANNEXES ANNEXE VI BASE DE DONNEES Polyphone IPSC 235 212 h Lh _ 2 A VL2 Type de t l phone utilis RTPC indique l utilisation d un t l phone sur le r seau t l phonique public commute DECT indique l utilisation d un t l phone sans fil sur le r seau t l phonique public commut GSM indique l utilisation d un t l phone cellulaire Le nombre entre parenth ses indique les deux derniers num ros de la ligne t l phonique utilis e L ast risque c t du num ro de la personne signale que la personne a toujours utilis le m me t l phone et la m me ligne t l phonique mise part la session avec le t l phone cellulaire A VI 2 a Enregistrements des mod les Locutrice Session Session Session Session Session Session Session Poly
64. 1974 LADD ET AL 1985 Cette information est donc probablement aussi cod e au m me titre que l information linguistique ce qui limite la transmission d information d pendante du locuteur VAN DOMMELEN 1990 4 4 2 4 Caract ristique suprasegmentale temporelle 4 4 2 4 1 Le rythme Une conversation se compose de parole et de pauses Le temps de parole de chacun des interlocuteurs est d environ un tiers mais il d pend de leur vitesse d locution FURUI 1989 Dans la vitesse d locution la transmission d informations sp cifiques au locuteur est limit e car l organisation temporelle de la parole d coule des dur es sp cifiques de chaque segment et des contraintes impos es par l information linguistique v hicul e dans l nonc La plupart des tudes ont cependant t men es sur ce seul aspect du rythme de la parole Des variations de plus ou moins 10 de la vitesse globale d locution ont une influence significative sur le taux d identification subjectif par des auditeurs BROWN 1981 et des alt rations plus drastiques de plus ou moins un tiers de la vitesse font d croitre les taux de reconnaissance de 10 17 VAN LANCKER ET AL 1985B Ces alt rations ont aussi un effet sur la perception de l tat psychologique du locuteur par les auditeurs BROWN ET AL 1974 Ces r sultats indiquent que la structure temporelle est l un des facteurs qui contribuent la reconnaissance de locute
65. 1978 391 A 2d 364 Md 60 United States v Baller 1975 519 F 2d 463 4th Cir cert denied 423 U S 1019 PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE V APPROCHE SPECTROGRAPHIQUE 103 d acceptation g n rale MCCORMICK 1954 IN GRUBER ET POZA 1995 En effet selon MCCORMICK le principe d acceptation g n rale est une condition propre a la prise en compte juridique de faits scientifiques mais n est pas un crit re de recevabilit de la preuve scientifique Toute conclusion pertinente soutenue par un expert qualifi devrait tre admise a la r serve d autres raisons d exclusion Contre toute attente la cour d appel du Maryland rejette les d cisions des cours inf rieures Consciente des critiques de conservatisme formul es l gard du standard de Frye elle le compare a la proposition de MCCORMICK pour finalement la rejeter et d cider que la controverse au sujet de la validit de la technique sous jacente ne d pend pas des circonstances du cas et ne doit donc pas tre r solue au cas par cas par des profanes En pr cisant le genre et le degr des divergences d opinion de la communaut scientifique pertinente concernant la validit de la m thode et en concluant qu elle ne satisfait pas au standard de Frye la d cision de la cour dans Reed v State marque le renouveau de l application stricte du standard de recevabilit et du rejet de la m thode Certaines cours comme le Second Circuit dans United State
66. 1984 1 3 Le r le des probabilit s dans l identification 1 3 1 D finitions La th orie des probabilit s donne des r gles qui permettent de d duire certaines probabilit s inconnues d autres suppos es connues et qui sont li es aux premi res KOLMOGOROV 1933 IN MATALON 1967 Selon l cole subjectiviste il est possible en principe pour une personne parfaitement coh rente de reconstituer objectivement les probabilit s subjectives qu elle attache chaque v nement videmment dans cette perspective la probabilit est une propri t d un individu et non d un v nement comme c est le cas pour l cole objectiviste ou fr quentiste Selon cette seconde cole il est possible de donner un statut objectif et non quivoque la notion de probabilit lorsqu il s agit d v nements susceptibles de se produire plusieurs fois Elle refuse tout sentiment d incertitude autre que celui qui porte sur l occurrence de tels v nements 6 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE c est dire susceptibles de se r p ter dans des conditions identiques ce qui permet aux nonc s probabilistes d tre v rifi s empiriquement MATALON 1967 Le chercheur comme homme d action ne dispose qu exceptionnellement de la totalit des informations qui lui seraient utiles pour aboutir une conclusion ferme ou prendre la meilleure d
67. 1985 Evidence for the independant function of intonation contour type voice quality and F range in signalizing speaker affect J Acoustic Soc Am vol 78 pp 435 444 LADEFOGED P N 1962 Elements of acoustic phonetics The University of Chicago Press Chicago USA LADEFOGED P V ANDERSLICE R 1967 The voiceprint mystique Working papers in phonetics University of California Los Angeles no 7 November LAMEL L GAUVAIN J L 1998 Speaker verification over the telephone Proceedings of RLA2C Workshop Speaker recognition and its commercial and forensic applications pp 76 79 LANGANEY A 1992 Les races existent elles Sciences et avenir no 540 pp 45 50 LARIVIERE C L 1971 Contributions of fundamental frequency and formant frequencies to speaker identification Phonetica no 31 pp 185 197 LASHBROOK W B 1972 An examination of conditional variations for voice identification trials IN Voice Identification Research U S Department of Justice Law Enforcement Assistance Administration National Institute of Law Enforcement and Criminal Justice pp 119 136 Lass N J BEVERLY A S Nicosia D K SIMPSON L A 1978 An investigation of speaker height and weight identification by means of direct estimations J Phonet vol 6 pp 69 76 Lass N J HUGHES K R BOWYE
68. 1d 11 7 L40 c 1d07 7 L41 c ld 06 0 L56 c 1d 06 3 L18 c ld 08 4 L19 c 1d 05 7 L20 c 1d 06 9 L22 c ld 06 3 L39 c 1d 19 3 L40 c 1d13 4 L41 c ld 06 1 L56 c 1d 07 1 L18 c ld 12 3 L19 c 1d 08 8 L20 c 1d 11 1 L22 c ld 06 4 L40 c 1d23 9 L41 c ld 08 9 L56 c 1d 11 4 L18 c ld 14 7 L19 c ld 09 1 L20 c ld 11 4 L22 c ld 06 9 L41 c ld 09 6 L56 c 1d 13 6 L22 c ld 08 1 Parole spontan e L18 c s 02 3 L19 c s 01 0 L20 c s 04 2 L22 c s 02 0 L39 c s 02 0 L40 c s 05 3 L41 c s 01 5 L56 c s 05 5 L18 c s 02 9 L19 c s 01 5 L20 c s 04 3 L22 c s 02 8 L39 c s 02 4 L40 c s 05 9 L41 c s 01 8 L56 c s 09 8 L18 c s 03 0 L19 c s 02 8 L20 c s 08 1 L22 c s 02 9 L39 c s 02 8 L40 c s 06 0 L41 c s 015 9 L56 c s 10 0 L18 c s 05 0 L19 c s 03 2 L20 c s 08 4 L22 c s 03 0 L39 c s 03 4 L40 c s 07 5 L41 c s 02 0 L56 c s 12 8 L18 c s 06 5 L19 c s 03 7 L20 c s 08 9 L22 c s 03 1 L39 c s 03 8 L40 c s 08 4 L41 c s 02 1 L56 c s 12 9 L18 c s 06 6 L19 c s 03 8 L20 c s 09 4 L22 c s 03 4 L39 c s 04 3 L40 c s 08 6 L41 c s 02 2 L56 c s 13 4 L18 c s 06 7 L19 c s 05 0 L20 c s 11 1 L22 c s 03 5 L39 c s 04 5 L40 c s 09 6 L41 c s 02 4 L56 c s 13 6 L18 c s 09 4 L19 c s 05 5 L20 c s 12 4 L22 c s 03 8 L39 c s 05 0 L40 c s 10 0 L41 c s 03 3 L56 c s 14 6 L18 c s 09 7 L19 c s 06 5 L20 c s 13 1 L22 c s 04 5 L39 c s 05 3 L40 c s 10 8 L41 c s 03 4 L56 c s 14 8 L18 c s 10 8 L19 c s 06 9 L20 c s 13 2 L22 c s 04 8 L39 c s 05 4 L40 c s 12 2 L41 c s 03 5 L56 c s 15 3 L18 c s 11 8 L19 c s 07 5 L20 c s 14 3 L22 c s 04 9 L39 c s 07 3 L40
69. 2 2 2 Analyse du spectre court terme par transform e de Fourier La correspondance num rique de la transform e de Fourier est la transform e de Fourier discr te En principe le concept de la transform e de Fourier discr te ne s applique qu un signal stationnaire de dur e limit e Comme le signal vocal est essentiellement non stationnaire cette notion est remplac e par celle de transform e de Fourier court terme Les propri t s de la transform e de Fourier court terme d pendent beaucoup du choix de la fonction fen tre D une part la longueur de cette fen tre doit tre suffisante pour assurer une bonne r solution et d autre part elle doit tre suffisamment limit e pour suivre fid lement l volution du spectre vocal dans le temps Ces deux exigences sont contradictoires Pour suivre au mieux les transitions de la parole il est n cessaire de prendre des fen tres temporelles avec recouvrement Mais il demeure malgr tout un effet de lissage temporel d la longueur de cette fen tre ainsi qu une distorsion du spectre d pendant du type de fen tre utilis DRYGAJLO 1999 BLACKMAN ET TUKEY proposent l utilisation d une fonction fen tre de type Hamming et une dur e de 25 ms pour l extraction du spectre de puissance court terme BLACKMAN ET TUKEY 1959 IN ATAL 1976 Un int r t particulier a t port au spectre a court terme des voyelles et des nasales explicitement extraites du si
70. 2 L05 c d2 02 3 L06 c d2 02 6 L07 c d2 05 5 L08 c d2 02 8 L09 c d2 02 6 L00 c d2 5 1 L04 c d2 05 9 L05 c d2 04 9 L08 c d2 05 2 L09 c d2 02 7 Lecture d guis e L00 c 1d 07 3 L01 c ld 11 3 LO4 c 1d 04 2 LO5 c 1d 02 7 L06 c 1d 06 4 L07 c 1d 04 9 L08 c 1d 04 2 L09 c 1d 04 6 L00 c Id 10 7 L01 c ld 14 6 L04 c ld 06 4 LO5 c 1d 03 5 LO06 c 1d 11 3 L07 c ld 07 1 L08 c ld 06 6 L09 c 1d 08 5 L00 c Id 11 0 L01 c ld 14 8 LO4 c 1d 07 0 LO5 c 1d 03 7 L06 c 1d 12 0 L07 c 1d 09 1 L08 c 1d 07 2 L09 c 1d 12 5 L00 c ld 11 5 L01 c ld 16 3 LO4 c 1d 10 2 LO5 c 1d 06 0 LO06 c 1d 12 5 L07 c 1d 09 5 L08 c 1d 10 8 L09 c 1d 12 6 L01 c ld 11 9 L04 c ld 10 8 LO5 c 1d 06 3 L07 c ld 13 2 L08 c ld 11 2 LO5 c 1d 06 9 LO5 c 1d 07 0 LO5 c 1d 10 6 Parole spontan e L00 c s 01 5 LO1 c s 07 0 L04 c s 01 0 L05 c s 02 4 L06 c s 02 1 L07 c s 01 5 L08 c s 01 5 L09 c s 07 6 L00 c s 04 3 LO1 c s 08 6 L04 c s 06 9 L05 c s 05 6 L06 c s 02 2 LO7 c s 02 5 L08 c s 07 0 L09 c s 08 8 L00 c s 06 4 LO1 c s 10 2 L04 c s 08 7 L05 c s 07 2 L06 c s 03 1 L07 c s 03 1 L08 c s 07 5 L09 c s 09 1 L00 c s 06 7 LO1 c s 10 3 L04 c s 08 8 L05 c s 07 8 L06 c s 06 6 L07 c s 03 2 L08 c s 08 2 L09 c s 10 1 L00 c s 07 4 LO1 c s 10 9 L04 c s 09 0 L05 c s 08 4 L06 c s 06 9 L07 c s 03 6 L08 c s 08 9 L09 c s 10 8 L00 c s 07 8 LO1 c s 11 5 L04 c s 09 3 L05 c s 08 6 L06 c s 07 0 L07 c s 03 7 L08 c s 10 3 L09 c s 11 2 L00 c s 07 9 LO1 c s 12 5 L04 c s 09 4 L05 c s 10 2 L06 c s 07 4 L07 c s 05 1 L08 c s 10 7 L09 c s 11 3 L00 c s 08 5
71. 3 L54 c s 03 1 L55 c s 04 2 L58 c s 06 1 L59 c s 06 6 L32 c s 04 1 L33 c s 02 7 L44 c s 05 7 L49 c 5 04 5 L54 c 5 04 3 L55 c s 04 9 L58 c s 08 2 L59 c s 07 5 L32 c s 04 2 L33 c s 02 8 L44 c s 05 8 L49 c s 05 2 L54 c s 04 8 L55 c s 05 0 L58 c s 08 5 L59 c s 07 9 L32 c s 04 3 L33 c s 02 9 L44 c s 05 9 L49 c s 06 0 L54 c s 04 9 L55 c s 05 1 L58 c s 08 9 L59 c s 08 1 L32 c s 04 5 L33 c s 03 0 L44 c s 06 0 L49 c s 08 6 L54 c s 05 1 L55 c s 05 2 L58 c s 09 4 L59 c s 08 3 L32 c s 04 6 L33 c s 03 1 L44 c s 07 0 L49 c s 09 0 L54 c s 07 0 L55 c s 05 5 L58 c s 10 2 L59 c s 10 4 L32 c s 04 7 L33 c s 03 2 L44 c s 08 1 L49 c s 09 5 L54 c s 07 4 L55 c s 05 6 L58 c s 10 6 L59 c s 11 8 L32 c s 05 8 L33 c s 03 3 L44 c s 08 3 L49 c s 09 6 L54 c s 08 0 L55 c s 06 5 L58 c s 10 7 L59 c s 11 9 L32 c s 06 2 L33 c s 03 7 L44 c s 08 4 L49 c s 09 8 L54 c s 09 1 L55 c s 07 4 L58 c s 11 3 L59 c s 112 0 L32 c s 06 9 L33 c s 03 9 L44 c s 09 7 L49 c s 10 2 L54 c s 09 2 L55 c s 07 5 L58 c s 11 5 L59 c s 18 7 L32 c s 09 0 L33 c s 05 0 L44 c s 09 8 L49 c s 12 3 L54 c s 10 2 L55 c s 07 9 L58 c s 13 3 L59 c s 19 5 L32 c s 09 9 L33 c s 05 8 L49 c s 12 8 L54 c s 10 8 L55 c s 08 1 L58 c s 13 9 L59 c s 20 6 L32 c s 13 9 L33 c s 05 9 L49 c s 13 4 L54 c s 13 8 L58 c s 14 1 L33 c s 06 2 L49 c s 14 5 L58 c s 15 4 L49 c s 14 9 L58 c s 16 7 L49 c s 15 0 L58 c s 17 5 L49 c s 15 6 L58 c s 17 7 L49 c s 19 1 L58 c s 18 7 L49 c s 19 7 L58 c s 20 2 L49 c s 20 7 L58 c s 20 4 L49 c s 21 0 L58 c s 28 6 L49 c
72. 6dB L06 test1 6dB L07 test1 6dB L08 test1 6dB L09 test1 6dB L00 test1 9dB L01 test1 9dB L04 test1 9dB L05 test1 9dB L06 test1 9dB L07 test1 9dB L08 test1 9dB L09 test1 9dB L00 test1 12dB L01 test1 12dB L04 test1 12dB L05 test1 12dB L06 test1 12dB L07 test1 12dB L08 test1 12dB L09 test1 12dB L00 test1 18dB L01 test1 18dB L04 test1 18dB L05 test1 18dB L06 test1 18dB L07 test1 18dB L08 test1 18dB L09 test1 18dB L00 test1 24dB L01 test1 24dB L04 test1 24dB L05 test1 24dB L06 test1 24dB L07 test1 24dB L08 test1 24dB L09 test1 24dB L00 test1 30dB L01 test1 30dB L04 test1 30dB L05 test1 30dB L06 test1 30dB L07 test1 30dB L08 test1 30dB L09 test1 30dB Test analogique L00 test1 L01 test1 L04 test1 L05 test1 L06 test1 L07 test1 L08 test1 L09 test1 analogique analogique analogique analogique analogique analogique analogique analogique Parole spontan e L00 test1 L01 test1 L04 test1 L05 test1 L06 test1 L07 test1 L08 test1 L09 test1 LO0 test2 L01 test2 L04 test2 L05 test2 L06 test2 L07 test2 L08 test2 L09 test2 LO0 test3 L01 test3 L04 test3 LO5 test3 L06 test3 L07 test3 LO8 test3 L09 test3 L00 test4 L01 test4 L04 test4 L05 test4 L06 test4 L07 test4 L08 test4 L09 test4 L00 test5 L01 test5 L04 test5 L05 test5 L06 test5 L07 test5 L08 test5 L09 test5
73. 8 Influence du locuteur Dans le domaine commercial l utilisation d un systeme de contr le d acces est r guli re et fr quente la langue utilis e est d termin e et le locuteur d sire tre reconnu Il coop re d une part en contr lant son nonc de mani re diminuer la variabilit intralocuteur et d autre part en s exprimant dans la langue demand e Dans le domaine forensique par contre le locuteur n est pas forc ment coop ratif et la langue parl e d pend uniquement des connaissances de chacun des interlocuteurs D autre part l intervalle de temps entre l enregistrement de l chantillon de parole inconnue et l enregistrement de comparaison peut tre long de plusieurs mois plusieurs ann es selon les r sultats de l enqu te et l ch ance de la prescription de l infraction poursuivie HOLLIEN 1995 2 3 8 1 Enregistrement dans le cadre d un abus de t l phone Dans ce premier cas la voix peut tre modifi e de fa on involontaire par les conditions psychologiques particuli res de stress et de peur que peut engendrer le fait de commettre une telle infraction La consommation de substances psychotropes et de tabac ainsi que l tat de sant du locuteur ont aussi une influence sur sa voix HOLLIEN 1990 BRAUN 1994 HOLLIEN ET MARTIN 1996 Le locuteur peut aussi proc der une modification volontaire du fonctionnement de l un des organes participant la production de la parole HOLLI
74. 8 1 1 Proc dure Le t l phone et la ligne t l phonique utilis s pour l enregistrement des mod les sont susceptibles d influencer la qualit de la mod lisation de la voix de la personne suspect e s ils sont diff rents de ceux utilis s pour les enregistrements de comparaison L influence de ce param tre est valu e l aide des mod les Session Polyphone 1 Session Polyphone 5 Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat pour chaque personne de la base de donn es Polyphone IPSC de la comparaison des cinq mod les Session Polyphone 1 Session Polyphone 5 avec les enregistrements de comparaison nomm s Parole spontan e Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat de la comparaison de ces m mes enregistrements de comparaison nomm s Parole spontan e avec les mod les de la voix des 1000 locutrices et des 1000 locuteurs de la base de donn es Polyphone Suisse Romande Les rapports de vraisemblance de ces l ments de preuve sont calcul s de la mani re suivante le num rateur quivaut la densit de probabilit de l l ment de preuve E dans la distribution de la variabilit intralocuteur du locuteur dont provient l enregistrement analys Le d nominateur du rapport de vraisemblance quivaut la densit de probabilit de l l ment de preuve E dans
75. KWAN 1977 Ce point de vue s explique d une part par le fait que dans la plupart des proc dures d identification l identit dont il est question est bas e sur des caract ristiques non statistiques et essentiellement fig es D autre part le processus inductif impliqu dans la comparaison de ces caract ristiques d identit n est en g n ral ni conscient ni consid r de fa on critique Toutefois il forme la base de l observation scientifique d une information comme la probabilit statistique d occurrence d une caract ristique d identit dans une population LEWIS 1984 La probl matique de l identification par la voix en est une parfaite illustration Aucune caract ristique sp cifique distinguant deux voix n a t mise en vidence jusqu pr sent Cet chec indique soit qu effectivement le principe d individualite n est pas fond soit qu il ne s applique pas la voix soit que la limitation des m thodes de d tection mises en uvre jusqu pr sent n a pas permis cette d monstration ROBERTSON ET VIGNAUX 1995 De plus la r p tition d un m me nonc par le m me locuteur varie d un nonc l autre L existence d une variabilit intralocuteur aussi bien qu une variabilit interlocuteur implique que le processus inductif de d termination et de comparaison de l identit de deux voix renferme lui m me une incertitude associ e ce ph nom ne de variation LEWIS
76. L APPORT D UNE APPROCHE AUTOMATIQUE 8 6 3 2 1 Simulation de dialogues lors des enregistrements de comparaison Mod les et enregistrements de comparaison enregistr s avec le m me t l phone Mod les et enregistrements de comparaison enregistr s avec des t l phones diff rents 01 02 05 1 2 gt 10 20 50 LR sup rieur e H1 0 4s N 434 e H2 0 4 s N 60000 HI plus de 4 s N 70 H2 plus de 4 s N 11000 Locuteurs Fr Y os os 2 o o LR sup rieur LR sup rieur e H1 de 0 4s N 258 HI plus de 4s N 54 e H1 0 4s N 354 HI1 plus de 4 s N 54 H2 de 0 4 s N 25000 H2 plus de 4 s N 5000 e H2 0 4s N 61000 H2 plus de 4 s N 8000 Locutrices Locutrices 7 7 2 A Eu Bu ot 02 05 1 2 As 10 20 so LR sup rieur a e H1 0 4s N 294 H2 0 4 s N 49000 HI plus de 4 s N 48 H2 plus de 4 s N 6000 Locuteurs Figure VIII 5 R sultat de l valuation globale des rapports de vraisemblance lorsque les enregistrements de comparaison sont compos s de dialogues simul s 8 6 3 2 2 Lecture d guis e lors des enregistrements de comparaison Mod les et enregistrements de comparaison enregistr s avec le m me t l phone Mod les et enregistrements de comparaison enregistr s avec des t l phones diff rents Pr
77. L20 test L22 test L39 test L40 test L41 test L56 test cellulaire cellulaire cellulaire cellulaire cellulaire cellulaire cellulaire cellulaire Tests bruit s L18 test1 0dB L19 test1 0dB L20 test1 0dB L22 test1 0dB L39 test1 0dB L40 test1 0dB L41 test1 0dB L56 test1 0dB L18 test1 3dB L19 test1 3dB L20 test1 3dB L22 test1 3dB L39 test1 3dB L40 test1 3dB L41 test1 3dB L56 test1 3dB L18 test1 6dB L19 test1 6dB L20 test1 6dB L22 test1 6dB L39 test1 6dB L40 test1 6dB L41 test1 6dB L56 test1 6dB L18 test1 9dB L19 test1 9dB L20 test1 9dB L22 test1 9dB L39 test1 9dB L40 test1 9dB L41 test1 9dB L56 test1 9dB L18 test1 12dB L19 test1 12dB L20 test1 12dB L22 test1 12dB L39 test1 12dB L40 test1 12dB L41 test1 12dB L56 test1 12dB L18 test1 18dB L19 test1 18dB L20 test1 18dB L22 test1 18dB L39 test1 18dB L40 test1 18dB L41 test1 18dB L56 test1 18dB L18 test1 24dB L19 test1 24dB L20 test1 24dB L22 test1 24dB L39 test1 24dB L40 test1 24dB L41 test1 24dB L56 test1 24dB L18 test1 30dB L19 test1 30dB L20 test1 30dB L22 test1 30dB L39 test1 30dB L40 test1 30dB L41 test1 30dB L56 test1 30dB Test analogique L18 test1 L19 test1 L20 test1 L22 test1 L39 test1 L40 test1 L41 test1 L56 test1 analogique analogique analogique analogique
78. LO1 c s 16 4 L04 c s 10 8 L05 c s 11 0 L06 c s 08 9 L07 c s 05 8 L08 c s 11 1 L09 c s 11 9 L00 c s 08 9 LO1 c s 18 0 L04 c s 11 0 L05 c s 11 2 L06 c s 10 1 L07 c s 06 0 L08 c s 12 6 L09 c s 13 9 L00 c s 09 3 LO1 c s 18 7 L04 c s 11 3 L05 c s 11 3 L06 c s 10 5 L07 c s 06 3 L08 c s 12 8 L09 c s 14 5 ANNEXES ANNEXE VI BASE DE DONNEES Polyphone IPSC 239 Locutrice 00 Locutrice 01 Locutrice 04 Locutrice 05 Locutrice 06 Locutrice 07 Locutrice 08 Locutrice 09 L00 c s 10 4 L01 c s 20 1 L04 c s 11 4 L05 c s 11 6 L06 c s 10 7 L07 c s 06 4 L08 c s 13 3 L09 c s 16 4 L00 c s 10 5 L01 c s 23 3 L04 c s 12 1 L05 c s 13 8 L06 c s 11 0 L07 c s 06 8 L08 c s 14 2 L09 c s 17 6 L00 c s 11 5 L01 c s 23 4 L04 c s 12 3 L05 c s 15 6 L06 c s 13 3 L07 c s 07 7 L08 c s 14 7 L09 c s 17 9 L00 c s 11 6 L04 c s 12 4 L05 c s 15 7 L06 c s 13 9 L07 c s 07 8 L08 c s 16 2 L09 c s 18 5 L00 c s 11 7 L04 c s 12 5 L05 c s 18 0 L06 c s 14 5 L07 c s 07 9 L08 c s 17 0 L09 c s 18 6 L00 c s 11 8 L04 c s 12 6 L06 c s 15 9 L07 c s 08 4 L08 c s 17 1 L09 c s 19 3 L00 c s 11 9 L04 c s 13 3 L06 c s 16 3 L07 c s 09 1 L08 c s 17 9 L09 c s 20 1 L00 c s 12 0 L04 c s 14 1 L06 c s 22 4 L07 c s 09 2 L08 c s 18 0 L09 c s 22 5 L00 c s 12 3 L04 c s 15 5 L07 c s 09 3 L08 c s 19 6 L09 c s 28 9 L00 c s 12 6 L07 c s 09 4 L08 c s 19 7 L00 c s 13 9 L07 c s 09 5 L08 c s 22 7
79. La m thode d identification de locuteurs par comparaison visuelle de spectrogrammes demeure l un des moyens de preuve les plus controvers s pr sent s devant la justice des Etats Unis avec le d tecteur de mensonges REYNOLDS ET WEBER 1979 Preuve en est le d bat juridique nourri et ininterrompu depuis le d but des ann es septante dont les rebondissements illustrent a merveille les difficult s et les erreurs d interpr tation des standards de recevabilit des preuves scientifiques dans le syst me juridique nord am ricain Des 1971 TOSI et NASH unissent leurs efforts pour faire admettre cette preuve en justice et t moignent dans de nombreux cas TOSI d posait pour d montrer la validit scientifique et la fiabilit de la m thode ainsi que pour livrer son opinion concernant les comp tences du lieutenant NASH le d crivant comme le meilleur examinateur de la terre Si la cour d cr tait que la technique tait admissible NASH pr sentait sa m thodologie scientifiquement d montr e par l tude de TOSI et concluait souvent par une variation de la phrase suivante Mon opinion est que la voix inconnue et celle de l accus sont la m me et la voix inconnue ne saurait tre celle de personne d autre GRUBER ET POZA 1995 Apres l tude de TOSI la cour Supr me du Minnesota est la premi re cour civile avoir admis ce type de preuve dans l affaire Trimble v Hedman Selon elle la technique appara
80. Le processus de discrimination et d identification de locuteurs 62 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 4 3 3 3 Exp riences 4 3 3 3 1 Ensemble de r f rence des locuteurs et auditeurs Tableau IV 3 BRICKER ET PRUZANSKY montrent que dans un groupe de dix locuteurs familiers des auditeurs le taux d identification a partir de phrases est d environ 98 BRICKER ET PRUZANSKY 1966 Lorsque ce groupe est constitu de locuteurs ayant des voix similaires il diminue 85 et 66 pour des locuteurs non familiers des auditeurs ROSE ET DUNCAN 1995 Lorsque la taille de l ensemble de r f rence augmente de six dix locuteurs non familiers et ayant des voix similaires le taux d identification chute encore de 62 40 WILLIAMS 1964 Les conditions de cette derni re exp rience correspondent bien aux conditions forensiques La mise en cause de personnes est le r sultat du travail des personnes charg es de l enqu te le nombre de personnes mises en cause varie selon les circonstances du cas mais ce tri a priori favorise la pr sence de voix similaires dans le groupe des personnes mises en cause Aucun degr de familiarit entre auditeur et locuteur ne peut tre envisag 4 priori car seule une identification de l auteur par le t moin ou la victime au moment de l acte d lictueux permettrait de l tablir ce qui rendrait caduque la d marche de reco
81. Phoniatrica vol 22 pp 176 184 BOITE R KUNT M 1987 Traitement de la parole Presses polytechniques romandes Lausanne BOLT R H COOPER F S DAVID E E DENES P B PICKETT J M STEVENS K N 1969 Speaker identification by speech spectrograms Science pp 338 343 BOLT R H COOPER F S DAVID E E DENES P B PICKETT J M STEVENS K N 1970 Speaker identification by speech spectrograms A scientists view of its reliability for legal purposes J Acoustic Soc Am vol 47 no 2 pp 597 612 BIBLIOGRAPHIE 251 BOLT R H COOPER F S DAVID E E DENES P B PICKETT J M STEVENS K N 1973 Speaker identification by speech spectrograms some further observations J Acoust Soc Am vol 54 pp 531 534 BOLT R H COOPER F S GREEN D HAMLET S L HOGAN D L Mc KNIGHT J G PIKETT J M TOSI O UNDERWOOD B D 1979 On the theory and practice of voice identification National Academy of Sciences Washington BONAVENTURA M 1935 Ausdruck der Pers nlichkeit in der Sprechstimme und im Phonogramm Arch Ges Psychol vol 94 pp 501 570 BORDERS W 1966 Voiceprint allowed as evidence Ruling called first of this kind The New York Times April 12 Boves L 1998 Commercial applications of speaker verification overview and critica
82. Phrases Haute qualit 1 d adieu kon Discrimination 1979 21 42 ans A v non d guis e chambre sourde experi A1 92 A2 92 B v vieillie gt viraique 2 24 auditeurs experts B1 68 B2 80 D v hypernasale C1 68 C2 81 E locution lente F d guisement libre Dire D2 72 o E1 70 E2 79 F1 61 F2 74 CLIFFORD A 4 locuteurs Une phrase avec voix Haute qualit 108 auditeurs et Identification de la voix 1980 B 6 locuteurs d guis e compar e auditrices d guis e C 8 locuteurs une phrase avec voix 1 16 20 ans A1 42 B1 32 normale prononc e 2 20 40 ans C1 17 a 3 40 80 ans A2 42 B2 28 C2 17 A3 25 B3 17 C3 18 HOLLIEN ET AL 10 locuteurs Phrases de 50 58 Haute qualit 1 10 auditeurs fami Identification 1982 mots tir es du texte liers My Grandfather 2 47 auditeurs non fa A1 98 A2 97 5 A Voix normale miliers A3 79 B Condition de 3 14 auditeurs non fa B1 40 B2 34 stress miliers de langue B3 21 C D guisement trang re C1 27 C2 27 C3 18 HOMAYOUN 12 locuteurs de 24 52 paires de phrases Haute qualit 69 auditeurs non fami Discrimination POUR ET AL 55 ans de 10s liers A 76 faux rejet 11 1993 A Voix normale fausse acceptation 13 B Sentiment de B 34 faux rejet 48 bonheur de col re fausse acceptation 20 ou fatigue
83. Test 1 0dB Test 1 6dB Test 1 12dB Test 1 18dB Test 1 24dB et Test 1 30dB et de l enregistrement de test Test 1 non bruit utilis comme r f rence Ces enregistrements ont t produits par addition a PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VIII EVALUATION DU SYSTEME 189 l enregistrement Test 1 d un bruit de fond enregistr lors d un ap ritif dans une salle contenant une centaine de personnes Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat pour chaque personne de la base de donn es Polyphone IPSC de la comparaison des enregistrements de test Test 1 0dB Test 1 6dB Test 1 12dB Test 1 18dB Test 1 24dB et Test 1 30dB aux mod les Session Polyphone Cellulaire Session Comparaison et Polyphone 1 5 Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat de la comparaison de ces m mes enregistrements de test Test 1 0dB Test 1 6dB Test 1 12dB Test 1 18dB Test 1 24dB et Test 1 30dB avec les mod les de la voix des 1000 locutrices et des 1000 locuteurs de la base de donn es Polyphone Suisse Romande Les rapports de vraisemblance de ces l ments de preuve sont calcul s de la mani re suivante le num rateur quivaut la densit de probabilit de l l ment de preu
84. York City pp 1015 1074 TIERNY J 1991 July 21 Behind Monty Halls Doors Debate and Answer The New York Times TIMOFEEV I N SIMAKOV V 1998 Methodological basis of speaker identification within forensic phonograms investigations in the criminalistic departments of the ministry of internal affairs of Russia Proceedings of the 8th COST 250 workshop Ankara Speaker identification by man and by machine Directions for forensic applications pp 63 68 TIPPET C F EMERSON V J FEREDAY M J LAWTON F LAMPERT S M 1968 The evidential value of the comparison of paint flakes from sources others than vehicules J Forensic Sci Soc vol 8 pp 61 65 TOHKURA Y 1986 A weighted cepstral distance measure for speech recognition ICASSP 86 pp 761 764 Tos O 1967 Evaluation of the voiceprint method Report to the Michigan Dept of the State Police TOSI O 1968 Speaker identification through acoustic spectrography Proc 14th Int Cong on Logopedics and Phoniatrics Paris France Tost O 1981 Voice identification IN Scientific and expert evidence in criminal advocacy ed Imwinkelried E J Practising Law Institute New York City pp 971 1003 Tos O 1990 Historical critical notes on voice identification elimination J Forensic Ident vol 40 no 4 pp 187 191 T
85. a partir d enregistrements recueillis lors d enqu tes de police Les syst mes d acquisition et d dition num rique assist s par ordinateur font actuellement quasiment partie des applications grand public le CD devient un support num rique quasi universel tant pour les donn es audio qu informatiques et le prix de revient du support de type Recordable Compact Disc CD R est largement inf rieur a celui d une cassette audio compact de qualit De plus la p rennit et l int grit de l information sont garanties sur CD R puisque celui ci ne peut plus tre modifi une fois grav Ce passage est d autant plus n cessaire que dans certaines affaires importantes r centes comme l affaire du mafieux russe pr sum Mikhailov les enregistrements t l phoniques constituaient une des pi ces maitresses de l accusation mais leur qualit d plorable n a permis aucune expertise en reconnaissance de locuteurs GUELPA ET SCHAAD 1998 Une deuxi me mesure technique essentielle consisterait 4 s parer les signaux provenant des diff rents interlocuteurs et l enregistrement de chacune des voix sur une piste s par e en cas de dialogue ou de conversation entre plusieurs personnes Cette mesure viterait d une part toute proc dure de s gr gation des locuteurs manuelle ou automatique et faciliterait grandement le travail de retranscription des conversations t l phoniques en permettant une coute ind pendante des interl
86. am ricain est malheureusement toujours incapable de se d terminer de mani re d finitive VI APPROCHE AUTOMATIQUE 6 1 Introduction 6 1 1 D finition La reconnaissance automatique de locuteurs est l tude de la capacit de l outil informatique proc der la reconnaissance de personnes partir d une donn e biom trique variable la voix sur la base de m thodes exploitant la th orie de l information la reconnaissance automatique de formes et l intelligence artificielle perceptive BUNGE 1991 x Cette technologie ouvre potentiellement la voie plusieurs applications commerciales comme le contr le d acc s physique ou de l information ainsi qu aux deux applications forensiques que sont la reconnaissance de locuteurs partir d enregistrements pr sent s comme indices et la surveillance lors d incarc ration 4 domicile DODDINGTON 1985 BOVES 1998 6 1 2 Historique Les premi res m thodes de reconnaissance automatique de locuteurs ont t d velopp es a partir du d but des ann es 1960 PRUZANSKI 1963 PRUZANSKI ET MATTHEWS 1964 LI ET AL 1966 RAMISHVILI 1966 ATAL 1968 LUCK 1969 Dans les ann es 1970 les recherches en vue d applications commerciales manent essentiellement des centres de recherche li s de grands constructeurs informatiques tels que International Business Machines IBM DAS ET MOHN 1971 et Texas Instruments DODDINGTON 1976 ou des
87. analyse du signal de parole la classification et plus en d tail le processus d inf rence de l identit du locuteur Le huiti me chapitre d crit la r alisation de la base de donn es Polyphone IPSC et livre les r sultats de Yevaluation du syst me de reconnaissance automatique d velopp La derni re partie est une discussion g n rale Elle comporte une partie r trospective relative la pr sente recherche et une partie prospective qui traite de l utilisation du syst me d velopp dans un contexte r el et des probl mes non r solus Elle se termine par une conclusion en forme de synth se IT LA VOIX COMME INDICE MATERIEL 2 1 Introduction Dans toute enqu te comprenant des enregistrements de parole l coute de l indice enregistr constitue la t che initiale et la seule lorsque les personnes charg es de l enqu te ne peuvent tablir aucune relation entre la voix inconnue et une personne connue BOLT ET AL 1979 Cet examen pr liminaire implique que le recours 4 une expertise en reconnaissance de locuteurs a lieu le plus souvent lorsqu une ressemblance auditive frappante est constat e entre l enregistrement de parole inconnue et la voix d une personne mise en cause mais que celle ci nie ou lorsque la pr somption de d guisement existe sur la base de l coute pr liminaire NOLAN 1991 BRAUN 1994 BROEDERS 1995 Figure IL 1 Enqu te p nale Enregistrement Qualification de comparaison
88. automatique et le mod le qu elles sont cens es d crire La cons quence de ces insuffisances s observe dans une robustesse toute relative des syst mes automatiques aux d gradations du signal de parole qui peuvent tre particuli rement importantes dans le domaine forensique 9 2 Bilan de la recherche 9 2 1 R flexion sur la d marche L estimation de rapports de vraisemblance comme m thode d inf rence de l identit du locuteur en sciences forensiques remporte l adh sion Cependant une clarification du r le de l expert et de sa d marche pour remplir son r le de mani re satisfaisante nous semble n cessaire bien au del des solutions apport es par les diff rentes m thodes de reconnaissance automatique et phon tique Les incertitudes rencontr es ne sont par essence pas diff rentes de celles rencontr es dans d autres disciplines traitant quotidiennement avec l incertitude comme la m decine Or ce domaine proc de aussi par valuation de rapports de vraisemblance En effet la pratique reconnue du diagnostic diff rentiel revient mettre en concurrence la probabilit d observer les sympt mes X dans l hypoth se de la pr sence d une pathologie Y et la probabilit d observer les m mes sympt mes dans l hypoth se d une pathologie alternative potentielle Les hypoth ses les plus pertinentes sont d gag es lors de la consultation du patient sur la base d observations et d examens et s
89. base de transform es en ondelettes il s agit de l intensit totale des ondelettes de la variation de cette intensit de l autocorr lation des ondelettes successives de la fr quence fondamentale et de la distribution moyenne de l nergie NAKASONE ET MELVIN 1989 Dans le domaine spectral le spectre entre 200 Hz et 2 45 KHz est divis en neuf sous bandes de m me largeur spectrale et le spectre moyen a long terme normalis par soustraction de la moyenne spectrale est extrait sous forme de neuf param tres par transform e de Fourier rapide Comme mesure d intravariabilite la stabilit des caract ristiques spectrales est calcul e l int rieur d une session et entre les deux sessions ce qui permet de distinguer trois groupes de locuteurs ceux dont certaines caract ristiques restent stables durant les deux sessions ceux pour lesquels cette stabilit est limit e une seule session et ceux pour lesquels aucune stabilit ne peut tre mise en vidence NAKASONE ET MELVIN 1989 La proc dure exp rimentale a consist consid rer les 245 49 x 5 chantillons de parole enregistr s lors de la premi re session comme enregistrements inconnus et les comparer aux 245 chantillons de la seconde session consid r s comme enregistrements de comparaison Une analyse pr liminaire consiste calculer la stabilit des caract ristiques spectrales l int rieur de la seconde session et de rendre une non d c
90. c s 13 7 L41 c s 04 0 L56 c s 15 4 L18 c s 13 2 L19 c s 07 8 L20 c s 14 7 L22 c s 05 0 L39 c s 07 6 L40 c s 14 0 L41 c s 04 9 L56 c s 15 5 L18 c s 14 1 L19 c s 08 7 L20 c s 15 4 L22 c s 05 3 L39 c s 07 7 L40 c s 14 1 L41 c s 05 0 L56 c s 16 3 L18 c s 14 4 L19 c s 10 3 L20 c s 16 3 L22 c s 06 2 L39 c s 08 8 L40 c s 14 4 L41 c s 05 6 L56 c s 17 1 L18 c s 14 7 L19 c s 13 0 L20 c s 16 5 L22 c s 06 3 L39 c s 09 1 L40 c s 17 4 L41 c s 06 5 L56 c s 17 8 L18 c s 18 1 L19 c s 13 4 L20 c s 17 4 L22 c s 06 4 L39 c s 09 2 L40 c s 17 6 L41 c s 06 6 L56 c s 18 3 L18 c s 18 4 L20 c s 18 3 L39 c s 09 5 L40 c s 19 4 L41 c s 07 0 L56 c s 20 0 L18 c s 19 0 L20 c s 18 7 L39 c s 09 9 L40 c s 19 5 L41 c s 07 3 L18 c s 19 8 L39 c s 10 2 L40 c s 22 6 L41 c s 08 7 L18 c s 21 4 L39 c s 10 3 L40 c s 27 9 L41 c s 09 0 L18 c s 21 5 L39 c s 11 1 L41 c s 09 8 L18 c s 21 6 L39 c s 11 5 L41 c s 10 2 L18 c s 22 5 L39 c s 11 6 L41 c s 10 4 L18 c s 25 1 L39 c s 11 8 L41 c s 10 7 L18 c s 25 7 L39 c s 12 1 L41 c s 12 4 L18 c s 26 3 L39 c s 12 3 L41 c s 12 7 L39 c s 12 8 L41 c s 13 0 L39 c s 12 9 L41 c s 13 2 L39 c s 13 4 L41 c s 13 6 L39 c s 13 5 L41 c s 13 8 L39 c s 13 9 L41 c s 13 9 ANNEXES ANNEXE VI BASE DE DONNEES Polyphone IPSC 243 Locuteur 18 Locuteur19 Locuteur 20 Locuteur 22 Locuteur39 Locuteur40 Locuteur41 Locuteur 56 Parole spontan e L39 c s 14 0 L41 c s 14 5 L39
91. c s 14 1 L41 c s 15 0 L39 c s 15 3 L41 c s 15 1 L39 c s 16 0 L41 c s 15 3 L39 c s 17 0 L41 c s 16 9 L39 c s 17 9 L41 c s 17 0 L39 c s 18 2 L41 c s 18 6 L39 c s 18 3 L41 c s 18 8 L39 c s 18 6 L41 c s 18 9 L39 c s 19 4 L41 c s 20 8 L39 c s 19 5 L41 c s 21 8 L41 c s 23 8 Enregistrements de test test indique les sessions d enregistrement de test ad indique un message anonyme avec d guisement libre an indique un message anonyme sans d guisement de la voix A VL3 e Enregistrements de test des locutrices L00 L09 Locutrice 00 Locutrice 01 Locutrice 04 Locutrice 05 Locutrice 06 Locutrice 07 Locutrice 08 Locutrice 09 Messages anonymes L00 test ad L01 test ad L04 test ad L05 test ad L06 test ad L07 test ad L08 test ad L09 test ad L00 test an LO1 test an L04 test an L05 test an L06 test an L07 test an L08 test an L09 test an T l phone cellulaire L00 test LO1 test L04 test L05 test L06 test L07 test L08 test L09 test cellulaire cellulaire cellulaire cellulaire cellulaire cellulaire cellulaire cellulaire Tests bruit s L00 test1 0dB L01 test1 0dB L04 test1 0dB L05 test1 0dB L06 test1 0dB L07 test1 0dB L08 test1 0dB L09 test1 0dB L00 test1 3dB L01 test1 3dB L04 test1 3dB L05 test1 3dB L06 test1 3dB L07 test1 3dB L08 test1 3dB L09 test1 3dB L00 test1 6dB L01 test1 6dB L04 test1 6dB L05 test1
92. canal sont identiques pour les deux signaux compar s MAMONNE ET AL 1996 La soustraction de la moyenne cepstrale court terme susceptible de supprimer non seulement l effet du canal de transmission mais aussi de l information d pendante du locuteur ne conduit pas a une diminution des performances mais se r v le une technique de normalisation efficace PAWLEWSKI ET DOWNEY 1996 La technique spectrale relative RASTA tire parti du fait que l volution temporelle de la partie du signal li e aux composantes non linguistiques ne correspond pas l volution temporelle de la partie li e aux composantes linguistiques en supprimant les composantes spectrales dont l volution est plus lente ou plus rapide que celle du tractus vocal Contrairement la soustraction de la moyenne cepstrale long terme qui supprime la composante continue du logarithme du spectre court terme cette technique influence le spectre du signal de parole de mani re plus complexe en accentuant les transitions spectrales HERMANSKY ET MORGAN 1994 La technique RASTA peut tre combin e la m thode de pr diction lin aire perceptuelle PLP pour calculer la fonction de transfert du filtre Dans ce cas les trajectoires temporelles des composantes spectrales sont filtr es pour supprimer les composantes non linguistiques du spectre Ce spectre filtr est ensuite approch par un mod le autor gressif Cette technique peut tre appliqu e direc
93. caract ristique est utilis e en phonologie clinique pour quantifier la sensation subjective de raucit des voix et diagnostiquer les pathologies qui la provoquent La plupart des m thodes permettent la mesure du jitter dans des conditions d enregistrement de haute qualit partir de voyelles isol es et soutenues mais ne sont pas applicables aux conditions rencontr es en sciences forensiques Un algorithme permettant l extraction de cette caract ristique dans des enregistrements de parole spontan e et dans des conditions d grad es a t propos par WAGNER les r sultats obtenus n aboutissent cependant qu une discrimination entre locuteurs sains et pathologiques WAGNER 1995 4 4 2 2 2 Dur es des segments Les dur es des segments peuvent tre trompeuses lorsqu elles sont isol es du contexte d analyse mais elles peuvent contribuer la d termination de l analyste particuli rement lorsque des comportements pathologiques ou inhabituels sont mis en vidence dans les chantillons FRENCH 1994 4 4 2 3 Caract ristiques suprasegmentales fr quentielles 4 4 2 3 1 Mesure de la hauteur de la fr quence fondamentale moyenne La fr quence fondamentale n existe stricto sensu que pour un son vois d origine laryng e elle correspond alors la fr quence de vibration pseudo p riodique des cordes vocales Dans le registre de poitrine ou modal utilis normalement pour la phonation le locuteur utilise une fr
94. cause continue tre cout e ou effectuer des appels anonymes apr s que la police a recueilli un enregistrement de comparaison de sa voix Les r sultats montrent que l influence du temps qui s pare l enregistrement du mod le de celui de l indice existe mais elle ne semble pas pr pond rante pour les dur es tudi es au maximum deux mois pour les locutrices et trois pour les locuteurs Figure VIIL1 De plus pour les locuteurs aucune tendance claire ne peut tre d termin e lorsque la trace est enregistr e avant le mod le Finalement les performances sont l g rement meilleures lorsque le test est enregistr apr s le mod le ce qui repr sente un handicap dans la configuration de la plupart des cas forensiques 8 6 valuation de l influence de la quantit et de la qualit des donn es 8 6 1 Influence du type d locution lors de l enregistrement des mod les 8 6 1 1 Proc dure La qualit du mod le r alis partir de la voix de la personne suspect e est susceptible de varier en fonction du type d locution adopt parole lue ou parole spontan e L influence de ce param tre est valu e l aide des mod les Session Comparaison et Session Polyphone 1 des 32 participants la base de donn es Polyphone IPSC Ces deux sessions ont t enregistr es avec le m me t l phone une demi heure d intervalle Le mod le provenant de la Session Comparaison est compos d une qua
95. ce crit re Bien que la m thode puisse tre test e et qu elle ait t abondamment test e les r sultats obtenus dans des conditions forensiques montrent qu elle n est gu re utilisable dans ces cas l D autre part s il est possible de tester la perception sensorielle humaine dans des conditions d finies le fait que l examinateur connaisse les circonstances de l affaire analyse les cons quences de sa d cision voire subisse l influence de son jugement personnel ou celui de son entourage rend la m thode difficilement falsifiable Le deuxi me crit re exige que la m thode ait fait l objet d un examen attentif et de publications alors que le quatri me exige qu elle soit g n ralement accept e dans la communaut scientifique pertinente La controverse qui a exist et qui se perp tue autour de cette m thode ne lui permet certainement pas de satisfaire ces deux crit res GRUBER ET POZA 1995 Le troisi me crit re mentionne que la m thode doit avoir un taux d erreur connu ou potentiel dans l application Bien que la Cour Supr me des tats Unis mentionne la comparaison visuelle de spectrogrammes comme m thode dont le taux d erreur est connu dans l arr t Daubert la controverse reste vive sur le fait que les taux d erreur lors des exp rimentations sont consid rablement r duits par rapport aux taux d erreur existant dans des conditions forensiques r elles BLACK ET AL 1994 Dans United States v Sm
96. chaque personne de la base de donn es Polyphone IPSC de la comparaison des enregistrements de comparaison nomm s Simulation de dialogues et Lecture d guis e avec six mod les de sa propre voix nomm s Session Polyphone Cellulaire et Session Polyphone 1 Session Polyphone 5 Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat de la comparaison de ces m mes enregistrements de comparaison nomm s Simulation de dialogues et Lecture d guis e avec les mod les de voix Session Polyphone des 1000 locutrices et des 1000 locuteurs de la base de donn es Polyphone Suisse Romande Les rapports de vraisemblance de ces l ments de preuve sont calcul s de la mani re suivante le num rateur quivaut la densit de probabilit de l l ment de preuve dans la distribution de la variabilit intralocuteur du locuteur dont provient l enregistrement de comparaison Le d nominateur du rapport de vraisemblance quivaut la densit de probabilit de l l ment de preuve E dans la distribution interlocuteur de l enregistrement de comparaison 8 6 3 2 R sultats Les personnes qui ont toujours utilis le m me t l phone sont valu es ind pendamment de celles qui ont utilis des t l phones ou des lignes de t l phone diff rents pour l enregistrement des mod les 176 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES
97. coincidence fortuite n est pas nulle corollaire du seuil la conclusion d identification est inad quate et erron e CHAMPOD ET MEUWLY 1998 De plus le seuil est par essence une qualification du niveau acceptable de doute raisonnable adopt par l expert Par contre les juristes interpr tent ce seuil comme une identification de locuteurs au dela du doute raisonnable CHAMPOD ET MEUWLY 1998 Les juristes accepteraient ils que le concept de doute raisonnable chappe leur pr rogative et que le seuil soit impos la cour par le scientifique Dans la doctrine la r ponse est n gative comme l a exprim le Panel on Statistical Assessments as Evidence in Courts PARTIE I APPROCHE THEORIQUE CHAPITRE III MERTHODOLOGIE 39 en ce qui concerne les l ments de preuve la loi peut tablir des seuils diff rents de ceux que les statisticiens consid rent comme suffisants pour conclure Clairement la loi doit pr valoir et le statisticien doit s ajuster sur les standards l gaux Autrement dit c est la fonction d utilit de la cour qui est appropri e et non celle du statisticien FIENBERG 1989 IN CHAMPOD ET MEUWLY 1998 Pour cette raison la v rification de locuteur est inadapt e a l inference de l identit du locuteur en sciences forensiques Suite un sondage parmi les phon ticiens sur l utilisation des chelles de probabilit NOLAN a propos l adoption de la d marche d valua
98. commission sur le commerce les sciences et le transport du S nat des tats Unis le directeur du Federal Bureau of Investigation FBI constate que la diss mination sans contr le de ce type de technologie d encryptage peut tre pr judiciable au travail des autorit s charg es de l application des lois et repr senter terme un risque majeur pour la s curit publique FREEH 1996 Des pays comme la France ont pris des mesures pour limiter l utilisation de ce type d algorithmes par l interm diaire d autorit s de surveillance en Suisse par contre ce type de probleme semble absent du d bat politique et des pr occupations des autorit s charg es de faire respecter les lois III METHODOLOGIE 3 1 Introduction Le d veloppement d une m thode de reconnaissance automatique de locuteurs en vue d une utilisation forensique implique des choix m thodologiques guid s par les exigences l gales en mati re de preuve scientifique une connaissance des diff rentes m thodes de reconnaissance de locuteurs et des moyens de les valuer Il n cessite aussi adoption d un processus d inf rence de l identit du locuteur qui respecte la fois la logique l approche scientifique et le r le de l expert dans le cadre du proces p nal 3 2 R le de l expert ou du scientifique Pour viter les pi ges que les limites de la science mettent sous leurs pas les scientifiques peuvent choisir trois attitudes AIGRIN 19
99. conscience aux experts forensiques que l utilisation de toute m thode est subordonn e une compr hension int grale et complete des principes scientifiques et du jeu d inf rences qui la sous tendent L existence de ce regard critique moteur du progr s scientifique est mettre l actif de la proc dure accusatoire qui favorise le d bat malheureusement parfois jusqu l exc s A l inverse le syst me inquisitoire en vigueur en Suisse occulte tout d bat sur ces sujets pourtant cruciaux ce qui limite fortement la remise en cause des experts et une volution conjointe de leurs m thodes celle du progr s scientifique Dans cette controverse il est peu enthousiasmant de noter la propension des scientifiques se pencher sur de faux probl mes comme de vouloir valuer la capacit des experts au lieu de 112 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE d montrer la validit des hypoth ses et de la technique tout comme de constater l inaptitude du systeme juridique nord am ricain 4 analyser de mani re correcte la validit de cette m thode catalogu e a priori de scientifique Finalement aujourd hui encore malgr de multiples prises de position de scientifiques renomm s un rapport de l Acad mie Nationale des Sciences des Etats Unis et un certain nombre d arr ts de la Cour Supr me dans la ligne de l arr t Daubert le systeme juridique nord
100. correspond la classification de Mahalanobis BRICKER ET AL 1971 BUNGE 1979 Notamment cause de la complexit math matique de l analyse en composantes principales et de la transformation de Karhunen Loeve d autres m triques ont t tudi es comme le classificateur de risque minimal exploitant le th or me de Bayes ou le classificateur d Anderson et Bahadur exploitant diff rentes matrices de covariance BUNGE 1979 CORSI 1982 KRZYSZKO ET AL 1973 KACZMAREK ET KRZYSZKO 1973 CALINSKI ET KACZMAREK 1968 6 3 1 1 2 Application Le calcul de la moyenne du spectre court terme sur l ensemble du signal analys permet d obtenir deux caract ristiques exploitables en mode ind pendant du texte le spectre moyen a long terme ainsi que son cart type Une tude de FURUI ET AL montre que l cart type des donn es spectrales long terme est pratiquement double de celui des donn es spectrales court terme FURUI ET AL 1972 Dans une exp rience men e conjointement aux Etats Unis et en Pologne HOLLIEN ET MAJEWSKI concluent qu une telle approche peut tre envisag e en cas d locution normale voire sous stress mais pas en cas de voix d guis e HOLLIEN ET MAJEWSKI 1977 D autre part GUBRYNOWICZ met en vidence le manque de robustesse de la m thode aux variations du canal de transmission notamment en cas de variation de la bande passante entre les chantillons compar s GUBRYNOWICZ 1973
101. d examiner le cas de mani re ind pendante celui ci conclut que les nonc s s lectionn s par NASH ne lui permettent de trouver aucune ressemblance et qu il lui est impossible d aboutir a une identification POZA 1974 IN GRUBER ET POZA 1995 Malgr ces checs les cours f d rales continuent 4 admettre la comparaison visuelle de spectrogrammes comme m thode d identification de la voix Pour ne plus avoir a se r f rer au standard de Frye le Sixth Circuit d clare dans l affaire United States v Franks qu acceptation g n rale et validit sont presque synonymes Dans United States v Baller le Fourth Circuit utilise le vecteur de la spectrographie pour rejeter le standard de Frye en affirmant qu il est plus appropri United States v Phoenix 1971 No 70 CR 428 S D Ind United States v Raymond 1972 337 F Supp 641 D D C 51 California v Chapter 1973 Cr 65050 Mun Ct Marin Co San Rafael Michigan v Chaisson 1974 Ingham County Cir Ct No 73 24676 FY 5 United States v Franks 1975 511 F 2d 25 33 n 12 6th Cir cert denied 422 U S 1042 5 United States v Baller 1975 519 F 2d 463 465 n 1 4th Cir cert denied 423 U S 1019 102 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE d accepter l introduction d l ments de preuve pertinents et de permettre au tribunal de d cider lui m me de leur valeur apr s
102. d une mesure de surveillance Dans ce second cas l ignorance d tre enregistr dans laquelle se trouve le locuteur n induira vraisemblablement pas les modifications volontaires ou involontaires de la voix d crites supra Par contre la spontan it qui d coule de cette ignorance laisse au locuteur une substantielle facult d adaptation de son discours au contexte son humeur et aux diff rentes relations interpersonnelles qu il entretient avec son interlocuteur NOLAN 1983 BROEDERS 1995 Dans un contexte formel le locuteur tend modifier les variables sociolinguistiques de son discours dans le sens de celles de personnes d un statut sup rieur LABOV 1972 Un autre aspect du contexte est la notion sociologique d tiquetage qui d pend des r les d finis dans l change et de l interpr tation par le locuteur de son statut relatif dans cette interaction cet tiquetage va amener le locuteur rapprocher ou loigner la forme de son discours de celle de son interlocuteur GILES ET AL 1979 Une large vari t d informations peut aussi tre introduite par le locuteur dans le discours dans le but de pr senter une personnalit correspondant l image qu il veut montrer de lui m me ARGYLE 1976 Ces informations sociolinguistiques ne sont pas invariantes mais d pendent de l interpr tation que fait le locuteur des aspects sociaux de l interaction BROWN ET LEVINSON 1979 Le caract re formel des rappo
103. d formations de la cavit nasopharyngale Selon le timbre la voix peut tre plus ou moins claire rugueuse ou stridente selon la mall abilit ou l agilit elle peut tre agile fluide ou tremblante Le type ou la qualit de la voix peut varier selon l ge ou le sexe On parlera de voix infantile s nile de voix masculine ou f minine Les caract res distinguant ces divers types de voix sont trop connus pour tre d crits Le type de voix sp ciale de l eunuque compl te le type eunucho de d j d crit Des variations tr s exceptionnelles se retrouvent seulement dans certains types d ali nation mentale dans lesquels la voix perd son type humain mission de cris plus ou moins aigus de hurlements comme des vaches mugissantes de grognements de miaulements de b lements ou d aboiements L intonation de la voix varie selon le renforcement ou l abaissement de la voix la modulation selon l accentuation des syllabes les pauses le ton different la cadence et la rapidit La voix peut souvent changer de force elle peut passer d un exc s l autre La phrase peut tre plus ou moins modul e afin d tre harmonieuse ou rugueuse uniforme ou non L accentuation des syllabes peut tre normale absente exag r e ce qui quivaut a souligner certains mots dans l criture Les pauses entre un mot et l autre peuvent tre uniformes ou non proportionn es ou pas Le ton peut tre vari il peut tre exalt d prim
104. d velopp Jusqu deux ou trois mois le temps qui s pare l enregistrement de l indice de celui du mod le n a qu une influence moyenne sur la qualit des r sultats le contenu de l enregistrement utilis comme mod le n a pas une importance capitale non plus ce qui montre le caract re ind pendant du texte de la m thode La qualit et la quantit des donn es qui constituent l indice ont par contre une grande influence Quatre secondes de parole sont consid rer comme un minimum pour l obtention d un r sultat acceptable et la pr sence d un d guisement quel qu il soit d t riore les r sultats de mani re pr pond rante Des caract ristiques techniques tr s diff rentes des t l phones et des lignes t l phoniques utilis s pour l enregistrement de l indice et l enregistrement de comparaison peuvent aussi avoir une influence n gative importante sur les r sultats des conditions h t rog nes comme une diff rence de technologie des microphones quipant les t l phones ou la diff rence entre les algorithmes de codage utilis s pour le r seau t l phonique public commut num rique et le r seau cellulaire num rique peuvent engendrer une s rieuse diminution de performance La pr sence de bruit de fond dans l indice a un effet n gatif sur les performances du syst me Cet effet d pend du rapport entre l intensit du bruit de fond et l intensit du signal de parole mais aussi de la nature de ce
105. dans le contexte conomique actuel qui privil gie les synergies avec le monde industriel alors que seule une approche de ce probleme avec un regard nouveau permettrait un saut qualitatif significatif des performances NOLAN mentionne notamment qu une analyse sous l angle phonologique est ostensiblement absente du domaine de la reconnaissance de locuteurs NOLAN 1995 Finalement les applications commerciales d identification de personnes bas es sur l analyse du signal de parole sont aujourd hui concurrenc es par des syst mes exploitant d autres mesures biom triques comme l empreinte digitale ou le r seau vasculaire r tinien dont l intravariabilite est faible ou nulle Les applications pour lesquelles il n existe aucune alternative a la reconnaissance de locuteurs sont rares les applications t l phoniques en font partie BOVES 1998 Dans le domaine forensique l expertise en reconnaissance de locuteurs est souvent consid r e comme une ultima ratio lorsque toutes les autres voies d investigation ont t puis es ou lorsque la voix enregistr e repr sente le seul lien entre l auteur et l infraction Dans les ann es 1970 un effort tout particulier a t consenti au niveau de la recherche fondamentale surtout par les administrations nord am ricaine et allemande avec pour r sultats le d veloppement de syst mes la pointe du progr s gr ce a la collaboration avec des partenaires industriels
106. de 250 locuteurs l analyse des effets de la coarticulation et de la variation du canal de transmission sur la reconnaissance la s lection des caract ristiques pertinentes et des m triques optimales pour la mesure de similarit PAUL ET AL 1975 Apr s son d veloppement le projet a cependant t abandonn pour des raisons de difficult d utilisation par des op rateurs non sp cialistes des sciences de la parole et par manque de r sultat dans des conditions forensiques r elles KUNZEL 1994A POZA 1999 6 4 2 Automatic Recognition Of Speakers AUROS Allemagne 1977 Le projet AUROS financ par le minist re allemand de la Recherche a t d velopp par Ernst BUNGE d abord au laboratoire de recherche de Philips a Hambourg puis au BKA Pour viter les difficult s de la segmentation phon tique acoustique du signal de parole et obtenir un fonctionnement de la m thode en mode ind pendant du texte l analyse du signal de parole repose sur l extraction de caract ristiques spectrales long terme sur des chantillons de plus de 10 s BUNGE 1977 La classification est obtenue par une mesure de la distance de Mahalanobis et deux types de d cision sont consid r s la classification en ensemble ferm et la discrimination Les tests effectu s sur un ensemble de 2500 nonc s provenant de 50 locuteurs ont PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE VI APPROCHE AUTOMATIQUE 137 montr d ex
107. de comparer des techniques sur la base d arguments th oriques sans recourir l exp rimentation Ce type de d marche a notamment t utilis pour s lectionner les caract ristiques du signal de parole les plus appropri es pour la reconnaissance DAS ET MOHN 1971 SAMBUR 1975 ATAL 1976 CHEUNG ET EISENSTEIN 1978 Cependant comme le rel ve avec pertinence CAPPE il est malheureusement impossible de progresser dans ce domaine sans recours a la mod lisation ou a la d finition d hypoth ses de travail ne correspondant qu imparfaitement a la r alit CAPPE 1995 3 6 3 Evaluation empirique Avec l arriv e de nouvelles m thodes de reconnaissance au d but des ann es 1980 l valuation empirique a supplant la comparaison des mod les th oriques Cette volution s explique d une part par la difficult d analyse th orique de ces m thodes complexes et d autre part par le d veloppement de la micro informatique qui a rendu cette valuation possible CAPPE 1995 L valuation empirique constitue une m thode de validation tr s satisfaisante car elle permet d obtenir directement une estimation de la fiabilit en situation r elle Dans le cas forensique cette phase d valuation consiste observer l ad quation entre l estimateur du rapport de vraisemblance LR et la r alit Cette strat gie est en ce sens beaucoup plus efficace que les arguments th oriques qui ne peuvent tre utilis s que pour c
108. de la Voix ou encore de l ing nieur des T l communications MAMOUx expert pr s la cour d appel de Paris ENDRESS ET AL 1971 MAMOUX 1971 BLOCK 1975 Ces prises de position conduisent les principaux pays europ ens membres de l Interpol adopter une attitude circonspecte vis a vis de cette technique Selon BLOCK seule la Suisse fait exception 4 la r gle BLOCK 1975 L attitude la plus extr me et la moins clairvoyante est certainement celle adopt e par la Roumanie qui possede une m thode spectrographique d identification de personnes par la voix tr s inspir e de celle de KERSTA et brevet e en 1972 ANGHELESCU 1974 Cette m thode permet selon son auteur 1 La d termination du sexe de la personne 2 L tablissement de certaines donn es sur l identit du sujet et de certaines maladies dont il peut tre atteint 3 L identification du sujet d apr s la voix et la phonation utilis es dans le cadre de conversations courantes 4 La d couverte et la d monstration des falsifications de la voix et de la phonation L approche roumaine refl te sans aucun doute l esprit du r gime politique d alors car le m me auteur devenu directeur de l Institut de Criminalistique de l Inspectorat g n ral de la milice de Roumanie insiste dans un second article publi en 1985 dans la Revue Internationale de Police Criminelle RIPC ANGHELESCU 1985 Les investigations ont d montr que l hypoth se selon
109. de mani re globale pour les locutrices et pour les locuteurs Ensuite ils sont pr sent s de maniere individuelle pour chaque locutrice et chaque locuteur deux rapports de vraisemblance moyens exprim s en termes de logarithmes en base 10 sont calcul s a partir des deux series de rapports de vraisemblance de mani re valuer l influence de la qualit des donn es qui constituent le mod le 8 6 1 2 1 Type d locution lors l enregistrement du mod le valuation globale Probabilit o ot 0 2 05 1 2 5 10 20 50 100 200 500 1000 LR sup rieur Session Comparaison N 64 Session Polyphone 1 N 64 Locutrices Probabilit 200 500 1000 A LR sup rieur Session Comparaison N 64 Session Polyphone 1 N 64 Locuteurs Figure VIII 2 R sultat de l valuation globale des rapports de vraisemblance en fonction du type d locution adopt lors de l enregistrement des mod les 8 6 1 2 2 Type d locution lors l enregistrement du mod le valuation individuelle LIMIT vos toc vor DIN do rse Les Lu vas Lee Lss Le so Los Log LR moyen Log LR moyen L10 uo ouz un L14 LS L16 L17 8 L20 Locutrices Oo Session Comparaison Session Polyphone 1 Locuteurs a Session Comparaison Session Polyphone 1 Figure VIII 3 R sultat de l valuation individuelle des rapports de vraisemblance moyens en fonc
110. des deux mod les Session Polyphone 1 et Session Polyphone Cellulaire avec les enregistrements de comparaison nomm s Parole spontan e Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat de la comparaison de ces m mes enregistrements de comparaison Parole spontan e avec les mod les de la voix des 1000 locutrices et des 1000 locuteurs de la base de donn es Polyphone Suisse Romande Comme la base de donn es ne contient pas de session enregistr e avec un t l phone cellulaire les enregistrements de comparaison n ont pas pu tre compar s des mod les de la base de donn es enregistr s partir d un t l phone cellulaire 186 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Les rapports de vraisemblance de ces l ments de preuve sont calcul s de la mani re suivante le num rateur quivaut la densit de probabilit de l l ment de preuve E dans la distribution de la variabilit intralocuteur du locuteur dont provient l enregistrement analys Le d nominateur du rapport de vraisemblance quivaut la densit de probabilit de l l ment de preuve E dans la distribution interlocuteur de l enregistrement de test Probabilit Probabilit o ot 02 0 5 1 De 10 20 50 100 200 500 1000 o ot 02 05 1 Be os 10 20 50 100 200 500 1000 LR sup rieur LR sup rieur e H1 M
111. discrimination ou d identification de locuteurs tend montrer que ces deux t ches proc dent de fonctions neuropsychologiques diff rentes sous tendues par des r gions c r brales distinctes Les performances aux tests de discrimination et d identification ne sont que mod r ment corr l es chez les sujets normaux ROSE ET DUNCAN 1995 et ne sont pas corr l es significativement chez des patients porteurs de l sions c r brales unilat rales droite ou gauche VAN LANCKER montre que les patients c r brol s s unilat ralement droite ou gauche pr sentent des troubles de la discrimination des voix alors que seuls les patients atteints de l sions unilat rales droites pr sentent des difficult s lors du test d identification de locuteurs familiers par rapport au groupe t moin VAN LANCKER ET AL 1987 Dans cette m me tude 44 des patients c r brol s s obtiennent des r sultats significativement diff rents pour les deux t ches De plus la discrimination ne constitue pas une premi re tape vers l identification puisque certains patients sont capables d identifier les locuteurs tout en chouant au test de discrimination le ph nom ne oppos est observ chez d autres Quatre patients pr sentant des d ficits importants soit de l identification soit de la discrimination ont galement t test s dans les preuves de discrimination et d identification de visages de bruits et de sons de l environnement Les
112. donc politiquement tr s d licate et souvent remise en question dans les Etats de droit Preuve en est l intensit des d bats du Conseil National suisse l automne 1996 au sujet de l initiative populaire et la loi f d rale S o S Pour une Suisse sans police fouineuse Maintien de la s rete int rieure ou la mobilisation de l opposition japonaise pour emp cher le S nat nippon d adopter une loi autorisant les coutes t l phoniques vot e au d but juin 1999 par les d put s de la Chambre des repr sentants HAYANO 1999 2 2 1 Conditions de recevabilit d un enregistrement t l phonique en Suisse Le secret de la correspondance t l phonique est un droit fondamental garanti par l art 36 al 4 de la Constitution f d rale de la Conf d ration suisse CF du 29 mai 1874 et repris dans l art 13 al 1 de la mise jour de la Constitution f d rale propos e par l Assembl e f d rale du 18 d cembre 1998 approuv e par le peuple le 19 avril 1999 et qui est entr e en vigueur le 1 janvier de l an 2000 En bref un inculp ou un suspect peut tre plac sous surveillance si les trois conditions suivantes sont r alis es La poursuite p nale concerne un crime ou un d lit dont la gravit ou la particularit justifie l intervention ou une infraction quelconque commise au moyen du t l phone m me une simple contravention comme l abus de t l phone au sens de l art 179septies du Code p
113. dont provient l enregistrement analys Le d nominateur du rapport de vraisemblance quivaut la densit de probabilit de l l ment de preuve E dans la distribution interlocuteur de l enregistrement de test PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VIII EVALUATION DU SYSTEME 195 8 11 2 2 R sultats 1 os os os os 07 07 v ee Bo 2 f os ou cs Ca 03 os 0 2 02 0 0 o o o 0 02 os 2 s o 20 50 20 So 1000 o o 02 os a 2 8 10 20 So too 200 So 1000 LR sup rieur LR sup rieur Hi Test GSM N 112 H2 Test GSM N 112 HI1 Test GSM N 112 H2 Test GSM N 112 e H1 Test RTPC N 112 e H2 Test RTPC N 112 e H1 Test RTPC N 112 e H2 Test RTPC N 112 Locutrices Locuteurs Figure VIII 18 R sultat de l valuation des rapports de vraisemblance en fonction du type de r seau t l phonique GSM ou RTPC lorsque le locuteur est effectivement la source de l enregistrement de test H et lorsqu il s agit d une autre personne dont la voix est auditivement proche H 8 11 2 3 Discussion des r sultats Les r sultats montrent que l utilisation du r seau cellulaire GSM pour la production des enregistrements de test alt re les performances de la m thode par rapport 4 l utilisation du r seau t l phonique commut RTPC Figure VIIL 18 D un point de vue forensique ce r sultat montre qu il est n cessaire de d velopper des m
114. du message canal de transmission performance SHIPP ET 7 x 25 locuteurs 3 me phrase du Haute qualit 25 auditeurs adultes Estimation directe de l ge HOLLIEN de 20 90 ans Rainbow jeunes Corr lation entre ge 1969 regroup s par Passage chronologique et ge d cennies per u 0 88 HORII ET RYAN 57 locuteurs 1 paragraphe du Haute qualit 20 auditeurs Estimation directe de l ge 1981 de 40 80 ans Rainbow Corr lation entre ge A 29 locuteur dont Passage chronologique et ge la voix per u correspond l ge A 0 84 per u B 0 67 B 28 locuteurs dont A B 0 76 la voix ne corres pond pas l ge percu NEIMAN ET A 18 locuteurs 3 premi res Haute qualit Groupe d auditeurs Estimation correcte de la APPLEGATE B 18 locutrices phrases du d cennie 1990 3 par tranche d ge Rainbow A1 61 B1 91 1 0 52 0 5 er A2 84 B2 85 3 40 45 4 50 55 A3 81 B3 74 5 60 65 6 70 75 A4 90 B4 86 A5 81 B5 82 A6 69 B6 80 Total 80 25 11 05 BRAUN ET 40 locuteurs de 27 Lecture du texte Haute qualit 19 auditeurs Estimation directe de l ge RIETVELD 59 ans m 41 05 ans The North Wind de 20 32 ans A 37 40 ans 1995 A 20 non fumeurs and the Sun en B 43 79 ans B 20 fumeurs de 10 allemand 45 s A B 40 59 ans a 40 ans Tableau IV 8 D termination de l ge du locuteur PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE IV APPR
115. en g n ral aucune base de donn es commerciale ou de r f rence 9 2 2 2 Apports et limites de l approche phon tique 9 2 2 2 1 Choix de la m thode auditive perceptive et phon tique acoustique La voix humaine est tout d abord un comportement et l approche subjective rend possible la prise en compte d une multitude de d tails imparfaitement reconnus et difficiles a d finir ou a cataloguer Cette constatation est d autant plus vraie que les descripteurs de l identit v hicul s par la voix humaine sont encore largement inconnus 9 2 2 2 2 Validite et fiabilite L approche phon tique peut tre consid r e comme asym trique En effet cette m thode essentiellement comparative repose sur une grille d analyse phon tique dialectologique et linguistique Elle permet d attribuer de mani re valide une probabilit subjective que les caract ristiques de l indice mat riel enregistr proviennent de l enregistrement de comparaison dans l hypoth se o la personne mise en cause est le v ritable auteur de l enregistrement pr sent comme indice p E H Lorsque le r sultat de l analyse indique de fortes dissemblances et de faibles ressemblances donc lorsque le num rateur du rapport de vraisemblance est faible ou tr s faible une valuation grossi re de la probabilit subjective que les caract ristiques de l indice mat riel enregistr proviennent d une autre personne de la population potentiel
116. en sciences forensiques 6 4 1 Semi Automatic Speaker Identification System SASIS USA 1971 1975 La seconde moiti du fond de 300 000 dollars allou en 1971 par le Law Enforcement Administration Assistance of the United States Department of Justice LEAA pour la recherche sur la reconnaissance de locuteurs est d volu au Sensory Sciences Research Center of the Stanford Research Institute SRI pour le d veloppement d un systeme semi automatique de reconnaissance de locuteurs la premi re moiti ayant t attribu e au Department of Michigan State Police afin de proc der la v rification des hypoth ses de KERSTA BECKER ET AL 1973 Le prototype mis au point au SRI se compose d un premier tage de num risation suivi d un tage de visualisation et d dition manuelle du signal de parole d un tage d extraction des caract ristiques et finalement d un tage de mesure de similarit L tage de num risation est capable de traiter des chantillons de parole d une dur e allant jusqu six secondes chantillonn s a 10 KHz et quantifi s sur 11 bits Le deuxi me tage du prototype est tr s volu du point de vue ergonomique pour l poque puisqu il permet la visualisation de la forme d onde du signal de parole sur un cran et sa segmentation rendue possible par l utilisation d une souris informatique La s lection manuelle des six voyelles l ments courts mais discriminants
117. es a t montr e pour les deux premiers formants leur r le est essentiellement phon tique car ils conditionnent la compr hension des voyelles CALINSKI ET AL 1970 Ce sont les formants d ordre plus lev qui conditionnent le plus la qualit de la voix du locuteur Cependant ils ont une tendue plus grande et une intensit plus faible que les deux premiers et dans la qualit de parole t l phonique ces formants d ordre lev manquent ou sont faiblement repr sent s DODDINGTON 1970 BALDWIN ET FRENCH 1990 La fiabilit des formants d pend de la localisation syntaxique et s mantique de la voyelle dans la phrase En frangais la meilleure fiabilit se retrouve dans les r alisations qui portent PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE IV APPROCHE AUDITIVE 79 l accentuation linguistique Cette constatation aussi valable pour l anglais peut probablement tre g n ralis e Les r gles d accentuation sont tr s diff rentes d une langue l autre En fran ais l accentuation est d finie au niveau du syntagme et le rythme est celui du comptage Chaque fois que la syntaxe s arr te la syllabe est accentu e le japonais est l une des rares langues partager ce trait avec le fran ais En anglais l accentuation est d finie au niveau du mot Elle se situe g n ralement sur la premi re syllabe des mots polysyllabiques Les mots tymologie latine suivent l accentuation latine qui se trou
118. es aux coefficients de pr diction lin aire orthogonaux les coefficients partial correlation orthogonaux PARCOR et les coefficients de fonction d aire orthogonaux L utilisation des deux parametrisations d riv es a apporte les meilleurs r sultats sur une base de donn es de 21 locuteurs un taux d identification de 99 a t obtenu en mode d pendant du texte et un taux de 94 en mode ind pendant du texte Lorsque les chantillons de parole transitent par une ligne t l phonique locale ce taux diminue 87 d identification correcte SAMBUR 1979 6 2 3 2 Analyse homomorphique 6 2 3 2 1 Principe L int r t principal de l analyse homomorphique r side dans sa capacit s parer la contribution de la source de celle du conduit vocal par une op ration de d convolution L hypoth se de l absence de couplage entre la source glottique et le conduit vocal facilite grandement le traitement du mod le bien que ce postulat ne soit qu approximativement v rifi OPPENHEIM 1968 IN THEVENAZ 1993 Le domaine de d finition du cepstre est un axe temporel gradu en unit s de qu frence C est une description temporelle d finie comme l inverse des fr quences que l on trouve dans le signal Le cepstre complexe d un signal s obtient par le calcul de la transform e en z inverse du logarithme du spectre du signal le cepstre r el tant la transform e en z inverse du logarithme du spectre d amplitude du signal
119. est pas confirm e IN CLIFFORD Auteurs Ensemble de r f Caracteristiques du Caract ristiques du Auditeurs T che et mesure de rence des locuteurs message canal de transmission performance MCGEHEE 5 locuteurs Lecture d un para Haute qualit Groupe d auditeurs Identification apr s 1937 graphe de texte a non familiers 1 jour 83 vitesse normale et 3 jours 81 altgr e 1 sem 81 2 sem 69 1 mois 57 5 mois 13 CLIFFORD ET 11 locuteurs et Une phrase Haute qualit A 70 auditeurs Identification apr s DENOT 1980 11 locutrices B 44 auditeurs A 10 min 56 A 40 min 45 A 100 min 40 A 130 min 44 B 10 min 41 B 1 jour 20 B 1sem 23 B 2sem 19 1980 Tableau IV 9 Influence du temps coul entre l coute du message et l audition de comparaison 4 3 3 3 9 Influence de la dur e du message Tableau IV 10 Les performances de l humain d pendent aussi de la quantit et de la qualit du message STEVENS ET AL 1968 Si le taux d identification entre huit locuteurs familiers est de 45 apr s 0 2 s il est d j de 98 apr s 2 s POLLACK ET AL 1954 Sur la base d chantillons de parole de 25 ms le taux d identification de voix famili res est d ja sup rieur au r sultat issu d un choix effectu au hasard COMPTON 1963 La progression de ce taux est forte jusqu 1 2 s et diminue par la suite BOLT ET A
120. est port sur l outil d analyse et sa ma trise alors que peu de r flexion est accord e a l interpr tation de l information fournie par cet outil dans un cadre forensique Ce point de vue conduit la mise en place de processus d valuation et de validation focalis s sur des d cisions binaires qui ne rendent pas compte de mani re satisfaisante des performances des syst mes test s Par exemple si un syst me de classification classe toujours la vraie source parmi les cinq meilleurs candidats sur mille candidats possibles mais seulement dans 20 des cas au 1 rang ce syst me ne sera cr dit que d un taux de classification correcte de 20 alors que l information d livr e par le syst me est d excellente qualit Cet exemple montre que le choix d un type d inf rence de l identit inadapt la probl matique forensique a pour grave cons quence de discr diter de mani re abrupte une approche automatique de la reconnaissance de locuteurs en rendant compte de mani re tr s imparfaite de ses performances PARTIE 3 RECHERCHE EXPERIMENTALE VII DEVELOPPEMENT D UN SYSTEME AUTOMATIQUE DE RECONNAISSANCE DE LOCUTEURS 7 1 Introduction L objectif de cette partie exp rimentale est double Le premier but consiste a d velopper un systeme de reconnaissance de locuteurs bas sur des m thodes d analyse et de classification repr sentant l tat de l art dans le domaine de la reconnaissance automatique de
121. ge Partenaire Lien de parent Appr ciation subjective de la maternelle proximit auditive A 00 allemande 24 01 Fille Plus grande proximit en 01 allemande 54 00 M re allemand qu en fran ais B 04 fran aise 32 06 Fille Grande proximit 06 fran aise 59 04 M re au t l phone C 05 fran aise 26 49 S ur Grande proximit 49 fran aise 27 05 S ur au t l phone D 07 fran aise 31 08 S ur Grande proximit 08 fran aise 33 07 S ur au t l phone E 09 fran aise 64 33 Fille Proximit moyenne 33 fran aise 32 09 M re au t l phone E 32 fran aise 13 44 S ur jumelle Grande proximit 44 fran aise 13 32 S ur jumelle au t l phone G 54 fran aise 52 55 M re Proximit moyenne 55 fran aise 26 54 Fille au t l phone H 58 fran aise 54 59 Fille Proximit moyenne 59 fran aise 25 58 M re au t l phone Tableau VIII 1 Les locutrices de la base de donn es Polyphone IPSC Paire Locuteur Langue Age Partenaire Lien de parent Appr ciation subjective de la maternelle proximit auditive I 10 francaise 61 56 P re Grande proximit 56 fran aise 29 10 Fils au t l phone J 11 fran aise 31 20 Fils Grande proximit 20 fran aise 62 11 P re au t l phone K 12 fran aise 30 40 Fils Proximit moyenne 40 fran aise 55 12 P re au t l phone L 13 fran aise 36 41 Fr re Grande proximit 41 fran aise 40 13 Fr re au t l phone M 14 fran aise 33 15 F
122. grit quit et impartialit 3 Les membres devraient d cliner leur affiliation l IAFP dans leurs rapports et lors de leurs t moignages en cour 4 Les membres devraient mentionner clairement les limitations de l analyse forensique de la parole dans leurs rapports et en cour 5 Les membres devraient mentionner clairement leur degr de certitude dans leur conclusion et donner une indication de l endroit o elle se situe dans l chelle des conclusions qu ils sont pr ts donner 6 a Les membres devraient approcher avec la plus grande prudence l analyse forensique d chantillons de parole nonc s dans une autre langue que leur langue maternelle 6 b Les membres devraient approcher avec la plus grande prudence l analyse forensique d chantillons de parole nonc s dans plusieurs langues 7 Les membres devraient pr ciser dans leurs rapports les m thodes d analyse sur lesquelles leur conclusion est bas e 8 Les membres en faisant leur analyse devraient tenir compte des m thodes disponibles et de leur opportunit pour l analyse des chantillons 9 Les membres ne devraient pas effectuer de profils psychologiques des locuteurs ni se prononcer sur leur sinc rit ANNEXE VI BASE DE DONNEES POLYPHONE IPSC A VI 1 Date des sessions d enregistrement A VI 1 a Enregistrements des mod les
123. identification task better than human listeners Clearly to make such a comparison it is necessary to define quantitatively what is meant by better performance for both man and machine LEWIS 1984 Le second objectif de cette recherche r side dans une tentative de r ponse la question de LEWIS en valuant les limites des probabilit s subjectives et statistiques dans le processus de reconnaissance de locuteurs Une r ponse a la question de LEWIS est m me devenue urgente puisque la recherche dans le domaine de la reconnaissance de locuteurs en sciences forensiques tend actuellement a se focaliser sur des proc dures automatiques ou semi automatiques comme le souligne BRAUN en 1998 dans son rapport Voice Analysis pr sent au congr s de l Interpol BRAUN 1998 1 6 Contributions majeures Les contributions majeures de cette recherche peuvent tre r sum es ainsi La d monstration de la conformit logique et l gale d un processus d inf rence de l identit du locuteur d riv du th or me de Bayes et bas sur une valuation de rapports de vraisemblance La d termination des limites des approches auditive spectrographique et automatique dans leur application en sciences forensiques sur la base d une recherche bibliographique La r alisation d un syst me de reconnaissance automatique de locuteurs reposant sur une technologie repr sentant l tat de l art dans le domai
124. indice mat riel mais seulement une personne dont la voix est auditivement proche Pour chaque paire de locutrices et de locuteurs l valuation consiste mettre en cause l une des personnes de la paire en comparant ses propres enregistrements de test avec les modeles de sa voix d une part et avec les modeles de voix de la seconde personne de la m me paire d autre part 8 11 1 Influence du t l phone et de la ligne t l phonique 8 11 1 1 Proc dure Les personnes de la base de donn es Polyphone IPSC qui utilisent le m me t l phone pour l enregistrement des mod les et des enregistrement de test et celles qui utilisent des t l phones diff rents sont consid r es de mani re ind pendante afin d valuer l influence du PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VIII EVALUATION DU SYSTEME 193 param tres du t l phone et de la ligne t l phonique lorsque les voix pr sentes dans le mod le et l indice sont proches Les tests ont t effectu s l aide des sept mod les Session Polyphone Cellulaire Session Comparaison et Session Polyphone 1 Session Polyphone 5 et enregistrements de test Test 1 Test 5 Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat pour chaque personne de la base de donn es Polyphone IPSC de la comparaison des enregistrements de test Test 1 Test 5 avec ses propres mod les Session
125. indice mat riel X et d un chantillon de comparaison provenant d une source Y H repr sente l hypoth se que la personne mise en cause Y est la source de l indice mat riel X alors que Hz repr sente l hypoth se que la personne mise en cause Y n est pas la source de cet indice mat riel X par definition les hypoth ses H et H sont mutuellement exclusives L l ment de preuve E est le r sultat de l analyse comparative des caract ristiques x de l indice mat riel X avec les caract ristiques y de l chantillon de comparaison de la source Y La vraisemblance de E est estim e d une part lorsque l hypoth se H est v rifi e et d autre part lorsque l hypoth se H est v rifi e Le rapport entre ces deux vraisemblances likelihood ratio LR est le r sultat du calcul de la valeur num rique qui permet de faire voluer le rapport de probabilit a priori vers le rapport de probabilit a posteriori 3 5 4 4 2 Formalisation P Hj Repr sente la probabilit que l hypoth se Y est la source de l indice mat riel X soit v rifi e avant l analyse de x et y P Hp Repr sente la probabilit que l hypoth se Y n est pas la source de l indice mat riel X soit v rifi e avant l analyse de x et y P H Repr sente le rapport de probabilit a priori des deux hypoth ses comp titives H1 P H et Hp avant l analyse de x et y P H4 1E Repr sente la probabilit que l hypoth se Y est la source de l in
126. its authenticity B was in a place where it if authentic would likely be and C has been in existence 20 years or more at the time it is offered 9 Process or system Evidence describing a process or system used to produce a result and showing that the process or system produces an accurate result 10 Methods provided by statute or rule Any method of authentication or identification provided by Act of Congress or by other rules prescribed by the Supreme Court pursuant to statutory authority Annexe V Code de proc dure de International Association for Forensic Phonetics LAFP l International Association for Forensic Phonetics AFP a t formellement tablie apr s le troisi me s minaire annuel sur la phon tique forensique a York Angleterre du 24 au 27 juin 1991 Les buts de l association devraient tre 1 D entretenir la recherche et de pr voir un forum pour l change d id es et d informations sur la pratique le d veloppement et la recherche en phon tique forensique 2 D tablir par crit et de renforcer les standards de conduite professionnelle et de proc dure pour ceux qui sont engag s dans la pratique de l expertise en phon tique forensique Code de proc dure 1 L analyse forensique de la parole devrait tre prise en charge seulement par ceux qui ont un entra nement et des qualifications en phon tique sciences de la parole 2 Les membres devraient toujours agir avec int
127. juge MERMINOD 1992 3 2 3 La pr sentation et l valuation de l tat de l art Selon AIGRIN la pr sentation des m thodes repr sentant l tat de l art et l valuation de leurs capacit s est la seule attitude vraiment scientifique m me si cette position peut demander beaucoup de travail et de sens critique malgr le fait que la qu te du risque z ro semble un leurre AIGRIN 1996 3 2 4 Choix d une approche m thodologique Le present travail s efforce donc de pr senter l tat de l art dans le domaine de la reconnaissance de locuteurs en sciences forensiques dans le but de d terminer l habilit de chacune des trois approches actuellement pratiqu es inf rer l identit d un locuteur L approche auditive pratiqu e par des profanes ou des experts et l approche spectrographique font l objet d une tude bibliographique alors que l approche automatique fait l objet d une recherche th orique bibliographique et exp rimentale 3 3 Exigences l gales en mati re de preuve scientifique 3 3 1 En droit suisse En Suisse la proc dure p nale permet en principe de recevoir toutes les preuves Les preuves obtenues par coute t l phonique enregistrement par magn tophone et enregistrement du num ro de t l phone de l auteur d appels r p t s sont admises sous certaines r serves Si de telles preuves n ont pas valeur d aveu ou de preuve compl te elles peuvent n anmoins cons
128. le t l phone le terme li la moyenne des mesures est peu significatif GISH ET AL 1985 GISH ET AL 1986 Devant les difficult s pos es par une mod lisation de l effet du canal de transmission en l absence d information le concernant une modification pr conis e du classificateur gaussien consiste ne consid rer que la partie de la vraisemblance qui d pend de la matrice de covariance des donn es KRASHNER ET AL 1984 GISH ET AL 1985 GISH ET AL 1986 GISH 1990 Cette modification du classificateur gaussien conduit une approche visant mesurer la similarit existant entre les matrices de covariance CAPPE 1995 Diverses variantes de cette approche comme les mesures statistiques du second ordre ont t pr sent es toutes font au moins implicitement r f rence au mod le gaussien multidimensionnel dans le sens o elles supposent que la matrice de covariance permet de rendre efficacement compte de la r partition des donn es GISH 1990 BIMBOT 1993 BIMBOT ET MATHAN 1994 GISH ET SCHMIDT 1994 BIMBOT ET AL 1995 Il faut cependant remarquer que l hypoth se gaussienne n est pas v rifi e en pratique pour des param tres tels que les coefficients cepstraux ou les coefficients de pr diction lin aire L attrait pour les techniques inspir es du mod le gaussien tient au fait qu elles sont peu co teuses en temps de calcul n cessitent l estimation d un petit nombre de param tres et
129. lit au signal de base moindre que celle assur e par le syst me de codage de la parole dans le r seau commut En effet dans le premier la parole est cod e avec un d bit de 16 Kbits s alors que dans le second ce d bit est de 64 Kbits s Du point de vue forensique ce r sultat indique qu il est n cessaire de conna tre le type de r seau par lequel a t transmis l indice de mani re r aliser l enregistrement des mod les et les enregistrements de comparaison avec le m me type de r seau t l phonique dans ce cas seulement la m thode de codage de la parole sera homog ne dans tous les enregistrements 8 8 4 Influence du r seau utilis pour la production des enregistrements de test 8 8 4 1 Proc dure Le type de r seau t l phonique utilis pour la production des enregistrements de test est susceptible d influencer les performances du syst me de reconnaissance de locuteurs surtout s il est diff rent de celui utilis pour les enregistrements servant la mod lisation L influence de ce param tre est valu e l aide des enregistrements de test Test cellulaire et Test 1 Pour chaque locutrice et chaque locuteur de la base de donn es Polyphone IPSC ces deux enregistrements ont t effectu s le m me jour mais de mani re ind pendante environ une demi heure d intervalle Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat po
130. mes ARISTOTE 384 322 av J C Pr s de 2400 ans apr s la naissance d ARISTOTE personne n a encore notre connaissance relev le d fi de la d monstration de l individualit de la voix humaine par rapport la population de la Terre ni celui de l criture manuscrite d ailleurs l aube du troisi me mill naire Vindividualit de la voix humaine demeure donc une hypoth se ANNEXES ANNEXE I EXTRAITS DE LA CONSTITUTION FEDERALE DE LA CONFEDERATION SUISSE RS 101 du 29 mai 1874 Etat le 20 avril 1999 Chapitre premier Dispositions g n rales Art 36 Dans toute la Suisse les postes et les t l graphes sont du domaine f d ral Le produit des postes et des t l graphes appartient la caisse f d rale Les tarifs seront fix s d apr s les m mes principes et aussi quitablement que possible dans toutes les parties de la Suisse L inviolabilit du secret des lettres et des t l grammes est garantie Mise jour du 18 d cembre 1998 adopt e par le peuple suisse le 6 juin 1999 tat le 26 octobre 1999 Titre 2 Droits fondamentaux citoyennet et buts sociaux Chapitre premier Droits fondamentaux Art 13 Protection de la sph re priv e Toute personne a droit au respect de sa vie priv e et familiale de son domicile de sa correspondance et des relations qu elle tablit par la poste et les t l communications Toute personne a le droit d t
131. normalement et A 62 voix similaires chuchot e B 50 A et B 6 locuteurs C 40 C 10 locuteurs HOLLIEN ET AL 10 locuteurs Phrases de 50 58 Haute qualit A 10 auditeurs fa Identification 1982 mots tir es du miliers A 98 90 100 texte B 47 auditeurs non My Grandfather familiers B 40 5 80 C 14 auditeurs non familiers de langue trang re SER CLIFFORD ET DE 10 locuteurs Une phrase de 29 Haute qualite 15 auditeurs Identification apres un NOT 1980 IN syllabes Memorisation jour CLIFFORD 1980 secondaire 60 4 Tableau IV 3 Influence de l ensemble de r f rence des locuteurs et auditeurs Selon CLIFFORD les performances des auditeurs de vingt quarante ans sont sup rieures a celles d auditeurs ges de plus de cinquante ans lors d exp riences portant sur la taille de l ensemble des locuteurs 44 contre 32 sur le d guisement de la voix 30 contre 20 et lors d exp riences d identification en ensemble ouvert ou ferm 59 contre 49 CLIFFORD 1980 4 3 3 3 2 Influence d une modification de la voix Tableau IV 4 et tableau IV 5 Le d guisement modification volontaire de la voix influence les performances auditives de reconnaissance de locuteurs mais la d gradation observ e d pend de la strat gie de d guisement choisie elle s tend de 22 pour l locution lente 33 pour la voix hypernasale dans l exp rience de REICH ET DUK
132. obsol te l art 7 al 2 de l ordonnance sur le service de surveillance de la correspondance postale et des t l communications du 1 d cembre 1997 Celle ci stipule que les fournisseurs de service de t l communication fournissent dans les meilleurs d lais les relev s de service demand s et transmettent si possible en temps r el les communications de la personne surveill e Ils suppriment les cryptages Cette derni re phrase n est pas satisfaisante puisqu elle n est pas applicable dans les faits En effet c est le constructeur du mat riel qui est l origine de la mise disposition de la technologie de cryptage et non le prestataire de services de t l communication et comme aucun moyen technique ne permet de supprimer ce cryptage la surveillance t l phonique devient parfaitement impossible Cette disposition risque m me d tre contre productive en laissant croire aux autorit s suisses charg es de la r pression des infractions que les probl mes li s au d cryptage et au d chiffrement des m thodes cryptographiques robustes sont ma tris s et r solus alors qu il n en est rien MEUWLY 1999 2 3 Collecte de l indice mat riel L indice mat riel ne consiste pas en la voix elle m me mais en un enregistrement t l phonique c est dire en une transposition obtenue par un transducteur qui convertit l nergie acoustique en une autre forme d nergie m canique lectrique ou magn tique Cet
133. of glass CTC Press Pleasanton CA CUTLER P E THIPGEN C R YOUNG T R MUELLER E B 1972 The evidentiary value of spectrographic voice identification The Journal of criminal law criminology and police science vol 63 no 3 pp 343 355 DAOUST F 1995 La graphologie comme moyen d expertise judiciaire M moire de dipl me postgrade en expertise en documents Institut de police scientifique et de criminologie Universit de Lausanne Das S K MOHN W S 1971 A scheme for speech processing in automatic speaker verification IEEE Trans Audio Electroacoust vol AU 19 pp 32 43 DAUMER W R 1982 Subjective evaluation of several efficient speech coders IEEE Trans Commun no April pp 655 662 Davis S B 1976 Computer evaluation of laryngeal pathology based on inverse filtering of speech Ph D Thesis University of California Santa Barbara DE COULON F 1990 Th orie et traitement des signaux Presses polytechniques romandes Lausanne DE FINETTI B 1975 Theory of Probability Wiley amp Sons London DE MARIA R 1994 A criminals playing field Cellular Business vol 11 no 9 pp 24 DE VETH J BOURLARD H 1995 Comparison of hidden Markov model techniques for automatic speaker verification in real world conditions Speech Communication vol 17 no 1 2
134. oriques et exp rimentales de la d monstration de l hypoth se de KERSTA BOLT ET AL 1970 1 La parole charrie plusieurs messages tr s interd pendants simultan ment entrem l s de fa on complexe Les caract ristiques d pendantes du locuteur sont difficiles d gager car elles ne sont pas connues Cependant dans une certaine mesure l humain peut r aliser cette t che de fa on auditive ou par observation de spectrogrammes Le signal acoustique de la voix peut tre analys en fr quence en nergie et en temps et visualis sous forme de spectrogramme mais aucune repr sentation ne visualise directement des traits individuels de la voix cause de leur m lange La d cision d identification demeure subjective 2 Les similarit s et les diff rences existant sur les spectrogrammes sont ambigu s et peuvent tre mal interpr t es L analogie entre empreintes digitales et vocales est fallacieuse et l interpr tation li e ces deux indices est tr s diff rente Le dessin des empreintes digitales et palmaires sont inh rents l anatomie et immuables Seule la destruction du derme peut affecter leur structure Les d tails de ces dessins les minuties sont permanents et ne sont pas affect s par la croissance et les habitudes seuls la taille et le grain de la peau voluent Les dessins d pendent du r sultat d un transfert direct de la peau du doigt sur une surface qu il a touch e Les sons produits par l
135. ou ordinaire La cadence peut tre plus ou moins soutenue musicale ou monotone Selon la rapidit de la phonation les mots se suivent rapides ou lents OTTOLENGHI 1910 OTTOLENGHI met d ja en vidence certaines causes de la variabilit du signal de parole qu elle soient dues au locuteur comme l ge ou le sexe ou au message lui m me comme le ton ou l accentuation Il met aussi en vidence la valeur informative des silences et tablit une premiere comparaison entre le signal de parole et l criture Dans la suite de sa description il num re toutes sortes de d fauts de prononciation et d articulation et les maladies ou malformations qui leur sont li es La plupart ne sont cependant plus d actualit Les observations d OTTOLENGHI sur les handicaps c r bro moteurs illustrent par 60 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE contre la difficult appr hender les m canismes de production de la parole qui aujourd hui restent encore en grande partie d couvrir On ne peut pas se d sint resser des alt rations de la formation de la parole qui d pendent de l sions des centres mn moniques du cortex et qui peuvent fournir des caract ristiques personnelles tr s utiles Ces l sions s appellent dysphasies et consistent dans la perte de la parole ou dans le fait que les images verbales deviennent floues Parmi ces dysphasies l aphasie m
136. part celui qui coute est vraisemblablement fort troubl soit que la sc ne dont il est t moin auriculaire le remplisse d horreur soit qu il craigne pour sa propre vie Or l motion a pour r sultat de troubler la perception et de rendre les souvenirs non seulement impr cis mais informes ou inexacts LOCARD 1932 LOCARD met en vidence l tat psychologique particulier de l auteur au moment de l acte d lictueux comme cause de variabilit du signal sonore et celui du t moin comme cause de reconnaissance incorrecte Dans L Enqu te Criminelle il analyse l influence de la subjectivit sur la description des perceptions auditives et mentionne l importance de la psychologie exp rimentale pour valuer les diff rentes perceptions humaines Avec les sensations auditives nous entrons dans la partie utile du t moignage Encore faut il distinguer la perception des sons ou des bruits de celle de la voix parl e Dans la multitude des ondes qui transmises par le tympan et la chaine des osselets veillent des vibrations dans les arcs de Corti un petit nombre parviennent jusqu au champ de la conscience celles que l attention choisit parce qu elles sont utiles et celles que l attention subit parce qu elles sont anormales Mais il s en faut que les qualit s de ces ondes soient directement per ues Entre la sensation brute et l image qui tendra recevoir une fixation d in vitables diff rences se
137. peut m moriser qu incidemment une voix CLIFFORD et MCCARDLE montrent que la voix d un locuteur m moris e incidemment est identifi e parmi dix locuteurs dans 60 des cas apr s un jour CLIFFORD ET MCCARDLE 1980 IN CLIFFORD 1980 Ces r sultats vont dans le m me sens que l tude de HINTZMAN et celle de LIGHT qui montrent qu long terme les performances d identification d une voix m moris e incidemment ne sont pas meilleures que celles r sultant d un choix effectu au hasard HINTZMAN ET AL 1972 LIGHT ET AL 1973 De m me les auditeurs reconnaissent mieux la voix d un partenaire de conversation que s ils coutent passivement deux interlocuteurs sans prendre part a leur conversation HAMMERSLEY ET READ 1985 VAN LANCKER ET AL 1985A VAN LANCKER ET AL 1985B PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE IV APPROCHE AUDITIVE 63 Auteurs Ensemble de r f Caracteristiques du Caract ristiques du Auditeurs T che et mesure de rence des locuteurs message canal de transmission performance BRICKER ET 10 locuteurs fami Phrase Haute qualit 16 Identification PRUZANSKY liers 98 1966 ROSE ET DUNCAN 6 locuteurs ayant 10s de parole Haute qualit 10 Identification 1995 des voix similaires spontan e A 85 A 4 familiers B 66 B 2 non familiers WILLIAMS 1964 Locuteurs non fa Phrase prononc e Haute qualit 36 Identification miliers ayant des
138. peuvent d j tre mises en uvre avec une dur e d apprentissage d une quinzaine de secondes de parole J 130 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE La comparaison d nonc s de r f rence et d nonc s de test contemporains par des mesures statistiques du second ordre fournissent d excellentes performances d identification de locuteurs en mode ind pendant du texte sur la base d enregistrements de haute fid lit d enregistrements dont la bande passante est limit e artificiellement a 4 KHz mais pas sur la base d enregistrements t l phoniques BIMBOT 1993 BIMBOT ET MATHAN 1994 Le classificateur gaussien est un cas particulier du m lange de fonctions de densit gaussiennes et les r sultats pr sent s par plusieurs chercheurs montrent que les performances du classificateur gaussien sont syst matiquement surpass es par les performances du modele par m lange de fonctions de densit gaussiennes Ce constat d montre la meilleure capacit de ce modele a representer la distribution reelle des param tres d riv s des analyses par pr diction lin aire et homomorphique ROSE ET REYNOLDS 1990 MATSUI ET FURUI 1992 TSENG ET AL 1992 6 3 2 2 Repr sentation par quantification vectorielle La quantification vectorielle Vector Quantization VQ est une m thode non param trique globale applicable en mode d pendant et ind pendant du texte
139. pp 81 90 DELATTRE P 1965 Comparing the phonetic features of English French German and Spanish an interim report J Groos Heidelberg DEVIJVER P A KITTLER J 1982 Pattern recognition a statistical approach Prentice Hall inc London 254 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE DODDINGTON G R 1970 A method of speaker recognition Ph D Thesis University of Wisconsin Madison DODDINGTON G R 1976 Personal identity verification using voice Proc Electro pp 22 24 DODDINGTON G R 1979 Personal identity verification using voice IN Automatic Speech and Speaker Recognition eds Dixon N R amp Martin T B John Wiley amp Sons New York pp 385 397 DODDINGTON G R 1985 Speaker recognition Identify people by their voices Proc IEEE vol 73 no 11 p 1651 DODDINGTON G R LIGGETT W MARTIN A PRZYBOCKI M REYNOLDS D 1998 Sheep goats lambs and wolves A statistical analysis of speaker performance in the NIST 1998 speaker recognition evaluation ICSLP pp 608 611 DOHERTY E T 1976 An evaluation of selected acoustic parameters for use in speaker identification J phonetics no 4 pp 321 326 DRYGAJLO A 1999 Cours de traitement de la parole parties I et II D partement d Electricite Eco
140. quence fondamentale usuelle Il la conserve dans une plage de fr quences donn e la tessiture inf rieure aux extr mes de l tendue de la voix qui peuvent tre atteints avec le registre de fausset La fr quence fondamentale peut tre mesur e pour des chantillons de voix parl e mais elle n est pas appropri e au chant car la hauteur de la voix a t pr d finie par le compositeur ORMEZZANO ET ROCH 1991 La mesure de la fr quence fondamentale permet de d terminer la distribution des fr quences l int rieur de la tessiture et d en extraire la fr quence fondamentale modale qui correspond la fr quence la plus utilis e par le locuteur et la fr quence fondamentale moyenne ou pitch qui est la moyenne de toutes les mesures Ces deux valeurs sont en g n ral tr s proches mais peuvent diff rer en pr sence de pathologies ORMEZZANO ET ROCH 1991 i N Foi FO moyenne N 4 2 PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE IV APPROCHE AUDITIVE 81 F est hautement significative pour la reconnaissance de locuteurs des deux sexes pour les auditeurs comme pour les machines LARIVIERE 1975 SAMBUR 1975 Les donn es statistiques concernant la mesure de F sugg rent l existence d une fr quence fondamentale sp cifique au locuteur dont la distribution se stabilise lorsque la dur e des chantillons cro t HORI 1975 10 s de parole spontan e permettent d j d obtenir une distribution grossi r
141. qui combine la m thode auditive perceptive traditionnelle et les techniques de phon tique acoustique rencontre l adh sion de la plupart des phon ticiens KUNZEL 1987 FRENCH IN BALDWIN ET FRENCH 1990 NOLAN 1990 BRAUN 1995 4 4 2 L approche phon tique acoustique La m thode spectrographique permet la visualisation du signal de parole en trois dimensions temps fr quence intensit et ouvre la possibilit d effectuer des mesures pr cises et rapides d l ments sous segmentaux et segmentaux du signal de parole dans ces trois dimensions Elle joue un r le dans l approche d ensemble mais ne constitue pas le centre exclusif des examens acoustiques comme c est le cas de la reconnaissance de locuteurs par spectrogrammes Les ressemblances et diff rences relev es par cette m thode de visualisation sont interpr t es avec prudence et confront es aux r sultats d analyse des chantillons par d autres types d investigation phon tique toute connaissance normative disponible et l exp rience accumul e par l analyste FRENCH 1994 4 4 2 1 Caract ristiques segmentales fr quentielles 4 4 2 1 1 Fr quences formantiques La production des voyelles orales est caract ris e par une excitation des cordes vocales sans point d articulation ni couplage nasal Elle peut tre mod lis e par l excitation d un tube non uniforme par une pulsation quasi p riodique La r ponse impulsionnelle du tube est c
142. s de mani re isol e Pour des examinateurs entra n s le taux d erreur est valu environ 1 avec l utilisation d un seul de ces mots erreur que KERSTA compare celle existant lors de l identification par empreinte digitale avec un seul doigt ce qui est incorrect CHAMPOD 1996 et conclut qu avec l utilisation de plusieurs mots ce taux d erreur diminue KERSTA 1962A Une autre tude montre que les performances de l examinateur augmentent lorsqu il peut comparer plusieurs mots cibles simultan ment elle indique aussi que les performances de la m thode sont en moyenne comparables pour la reconnaissance des hommes et des femmes et que les performances ne sont pas affect es par le d guisement de la voix ou par le passage de la voix travers le canal t l phonique ANONYME 1965 IN HECKER 1971 5 2 1 2 T moignages en cour En 1966 KERSTA quitte Bell Telephone Laboratories et fonde l entreprise Voiceprint Laboratories Corporation Sommerville NJ qui vend l quipement spectrographique et offre une formation en identification de locuteurs La m me ann e la premi re expertise de KERSTA bas e sur la technique de la comparaison visuelle des empreintes vocales est admise par une cour de justice dans l affaire People v Straehle Cette cour interpr te le silence de la communaut scientifique au sujet des travaux de KERSTA comme une acceptation g n rale tacite et conclut que cette m thode nouve
143. se r partissent en deux cat gories les m thodes param triques dans lesquelles la forme de la distribution de la quantit vectorielle est suppos e connue et les m thodes non param triques qui ne s appuient sur aucun mod le connu de forme de distribution A ceci s ajoute une distinction importante dans le domaine de la reconnaissance de locuteurs entre les m thodes s quentielles qui tiennent compte de l ordre de mesure des vecteurs d observation applicables en mode d pendant du texte et les m thodes globales o cet ordre n est pas consid r comme significatif applicables en mode d pendant et ind pendant du texte GISH ET SCHMIDT 1994 CAPPE 1995 6 3 1 Approches primaires 6 3 1 1 Discrimination par la valeur moyenne 6 3 1 1 1 Principe Cette technique non param trique globale consiste caract riser la distribution des caract ristiques vectorielles mesur es par leur valeur moyenne Comme les caract ristiques sont principalement li es au spectre court terme ce type d analyse est souvent d sign par le terme de spectre moyen long terme CAPPE 1995 En mode de reconnaissance de locuteurs ind pendante du texte la dur e des chantillons de parole devrait id alement atteindre de plusieurs secondes quelques minutes de mani re mod liser la voix et non des artefacts locaux L efficacit de la m thode d pend directement des vecteurs de caract ristiques et de la mesure de distan
144. sentant la moyenne des mesures o Ds Falaise 7 5 L cart type o est ensuite multipli par un param tre de lissage A smoothing parameter qui d termine le lissage de la courbe la valeur du param tre a t fix e la valeur moyenne de 0 5 valeur recommand e par le logiciel de traitement statistique S plus Pour chaque noyau la fonction de densit de probabilit K 0 z suit une loi de distribution gaussienne de moyenne z et de variance 1707 u 1 8 z K 61z A er 7 6 L estimation de la fonction de densit des donn es F 0 D est calcul e de la mani re suivante f GIF K 61z 7 7 k 1 1 k PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VII DEVELOPPEMENT D UN SYSTEME AUTOMATIQUE 155 7 3 4 Estimation des fonctions de densit de probabilit Pour mod liser le cas o l hypoth se H est v rifi e la fonction de densit de probabilit est estim e par kernel density estimation partir des donn es qui d crivent la variabilit intralocuteur A Elle est calcul e de la mani re suivante Figure VIL7 f 01A A T K Bla A f a an 7 8 Repr sentation graphique de l estimation de la variabilit intralocuteur Probabilit Densit Locutrice Y Locuteur Z Figure VII 7 Estimation de la variabilit interlocuteur par kernel density estimation Pour mod liser le cas o
145. services de t l communication 1A la demande du service les fournisseurs de services de t l communication lui fournissent les donn es suivantes sur les raccordements pour autant qu ils les poss dent a le nom l adresse et la profession de l usager b les ressources d adressage du raccordement selon l article 3 lettre f de la loi du 30 avril 1997 sur les t l communications c le type de raccordement Le service peut galement obtenir les informations pr vues au 1 alin a en consultant directement des P P banques de donn es 224 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Les fournisseurs de services de t l communication mettent disposition les quipements servant obtenir P quip ces renseignements Section 5 Dispositions communes Art 10 Emoluments et indemnit s ILe d partement fixe a les moluments pour les prestations du service pr vues aux articles 4 6 et 8 b les indemnit s pour les frais de la Poste et des fournisseurs de services de t l communication Le service adresse sa facture aux autorit s qui ont ordonn la surveillance et tablit le d compte des prestations de la Poste et des fournisseurs de services de t l communication Lorsque les renseignements sont fournis sans interm diaire les fournisseurs de services de q t l communication facturent les taxes directement aux autorit s comp tentes
146. thodes d extraction de caract ristiques d pendantes du locuteur sp cialement adapt es aux algorithmes de codage utilis s dans le domaine de la t l phonie cellulaire En effet la plupart des indices soumis pour analyse sont aujourd hui produits partir de t l phones cellulaires alors que les m thodes d extraction de caract ristiques d pendantes du locuteur ont t d velopp es pour les algorithmes de codage du r seau t l phonique commut 8 11 3 Influence d un d guisement de la voix 8 11 3 1 Proc dure La pr sence d un d guisement de la voix dans l enregistrement de test est susceptible d alt rer les performances du syst me automatique de reconnaissance de locuteurs lorsque les voix pr sentes dans le mod le et l indice sont proches L influence de ce param tre est valu e l aide des messages anonymes avec voix normale et d guis e Test an et Test ad enregistr s par chaque personne de la base de donn es Polyphone IPSC Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat pour chaque personne de la base de donn es Polyphone IPSC de la comparaison des messages anonymes avec voix normale et d guis e Test an et Test ad avec les sept mod les Session Polyphone Cellulaire Session Comparaison et Session Polyphone 1 Session Polyphone 5 196 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L AP
147. un autre au point d amener des erreurs il n est jamais identique qu un seul lui m me C est discriminer avec soin les l ments de ressemblance des l ments d identit que consiste le probl me de l identification LOCARD 1909 1 1 2 Concepts et raisonnement 1 1 2 1 L identit Une raison fondamentale de l organisation de la m moire est de permettre d tablir un lien entre exp rience pr sente et exp riences pass es LEWIS 1984 Il n y a pas d observation na ve tout ce que nous observons autour de nous est structur par les exp riences que nous avons faites c est dire par les th ories qui se sont confirm es jusqu ici POPPER 1988 Une autre raison est la tentative de pr dire ou d inf rer la connaissance associ e des exp riences personnellement non tent es soit dans le pass soit dans le futur Ces deux buts doivent tre clairement distingu s pour pr venir toute confusion dans la compr hension de la preuve d identit LEWIS 1984 Appr hender le pr sent sur la base d exp riences pass es fait appel au raisonnement d ductif Comme ces d ductions sont bas es sur des identit s tablies de facon inductive elles impliquent que les identit s tablies dans le pass sont correctes jusqu a ce qu une exp rience contradictoire ne r v le l inexactitude de ce raisonnement Par cons quent les identit s et del les relations tablies sur la base de ces identi
148. voix RIPC pp 9 15 260 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE KERSTA L G NASH E W 1973 Voiceprint identification Observations I and II Int Crim Police Rev vol 28 no 264 pp 9 15 KLEVANS L RODMAN R D 1997 Voice recognition Artech House Boston MA KOENIG B 1980 Speaker identification Three methods listening machine and aural visual FBI Law Enforcement Bulletin no Jan pp 1 4 KOENIG B E 1986A Spectrographic voice identification a forensic survey J Acoust Soc Am vol 79 no 6 pp 2088 2090 KOENIG B E 1986B Spectrographic voice identification Crime Laboratory Digest vol 13 no 4 pp 105 118 KOENIG B E RITENOUR D V Konus B A SAVOY KELLY A 1987 Reply to Some fundamental considerations regarding voice identification J Acoustic Soc Am vol 82 no 2 pp 688 689 KOIKE Y 1973 Application of some acoustic measures for the evaluation of laryngeal dysfunction Studia Phonologica Kyoto University vol 7 pp 17 23 KONDOz A M 1994 Coding for low bit rate communication systems John Wiley amp Sons New York USA Korr G A GREEN H C 1946 Basic phonetic principles of visible speech J Acoust Soc Am no 18 pp 74 90 K STER J P 1987
149. 0 des cas et l articulation param tre lie la parole dans 25 des cas le contenu n est jamais modifi seul Dans 45 des cas deux d guisements sont utilis s r partis en trois groupes de 15 phonation et articulation phonation et contenu et articulation et contenu MASTHOFF 1996 Figures II 6 et II 7 tableau 11 2 Moyen de d guisement Particularites Details de la modification de la phonation Murmure 38 Frequence fondamentale rehauss e 31 Tous des hommes Frequence fondamentale abaissee 23 Toutes des femmes Inspiration 8 Intelligible D tails de la modification de l articulation Imitation d un dialecte 20 Imitation d un accent tranger 10 Modification du tractus vocal 40 Immobilisation de la langue 20 Simulation d une pathologie 10 D tails de la modification du contenu Intonation non grammaticale 50 Modification du niveau d intonation Pauses non grammaticales 33 Pas de pauses ou pauses longues Dur es non grammaticales 17 Dur e extr me des voyelles Tableau II 2 D tails des moyens de d guisement MASTHOFF 1996 Le r sultat d une tude de MCCLELLAND montre par contre que lorsque le texte est long le d guisement du contenu est la forme de d guisement pr f r e par les locuteurs Malgr une libert de choix totale les locuteurs exploitent une douzaine de moyens de d guisement qu ils combinent dans un peu moins d
150. 0 00 2000 00 2000 00 1600 00 1600 00 1200 00 1200 00 800 00 800 00 400 00 400 00 M 0 70 0 90 0 00 0 00 0 10 Figure VI 1 Spectrogramme bande troite 25ms Figure VI 2 Spectrogramme bande large 8 ms 40Hz de l nonc Signalyze test 125Hz de l nonc Signalyze test Le spectrogramme est dit bande troite ou large bande par analogie la bande passante des filtres utilis s par le spectrographe dans le domaine analogique Dans la parole continue l analyse en bande troite du spectre court terme permet d appr cier la structure harmonique des sons vois s et l analyse en bande large leur structure formantique Le calcul de l intensit s effectue en d cibels sur le module du spectre et la phase n est pas exploit e dans cette analyse 6 2 2 3 S lection et exploitation des caract ristiques 6 2 2 3 1 Analyse court terme L analyse court terme consiste calculer un ensemble de coefficients acoustiques a des intervalles de temps r guliers nomm s trames compris entre 10 et 20 ms Ces coefficients sont d termin s partir de fen tres de signal repr sentant 20 40 ms de parole et l ensemble des coefficients r sultant de ces mesures constitue une trame acoustique La pond ration du signal par une fonction fen tre permet de tenir compte du caract re non stationnaire du signal DRYGAJLO 1999 En mode de reconnaissance d pendant d
151. 0 reprises ce n tait pas le cas ce qui correspond un taux de fausse identification de 4 2 pour les locuteurs Tableau VIIL3 102 supra 3 5 2 1 1 Classification en ensemble ferm closed set 168 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Rang N 1 2 3 4 5 6 7 8 9 10 et au del FA Locutrices 485 466 8 3 1 1 1 1 1 1 2 3 9 Locuteurs 472 452 15 3 1 0 0 1 0 0 2 4 2 Tableau VIII 3 R sultats de la classification en ensemble ferm dans une s lection de 500 locutrices et 500 locuteurs de la base de donn es Polyphone Suisse Romande 8 4 2 Evaluation sur la base de donn es Polyphone IPSC 8 4 2 1 Proc dure Cette evaluation a t r alis e en utilisant les enregistrements de test Test 1 a Test 5 et Test cellulaire des 32 participants Pour chaque personne ces enregistrements de test sont compar s d une part aux modeles provenant de la m me session d enregistrement que le test et d autre part aux mod les des voix des personnes de la base de donn es Polyphone Suisse Romande Pour les participantes les enregistrements de test sont compar s aux modeles des locutrices n 0001 a 1000 et pour les locuteurs ils sont compar s aux mod les des locuteurs n 4001 5000 Ce test est aussi une classification en ensemble ferm 8 4 2 2 R sultats
152. 00 o 01 02 05 1 2 5 10 20 50 100 200 500 1000 LR sup rieur LR sup rieur Hl Voix normale N 48 Hl Voix d guis e N 48 Hl Voix normale N 42 HI Voix d guis e N 42 e H2 Voix normale N 8000 H2 Voix d guis e N 8000 e H2 Voix normale N 7000 H2 Voix d guis e N 7000 Locuteurs Locuteurs Figure VIII 7 R sultat de l valuation globale des rapports de vraisemblance lorsqu il y a absence ou pr sence d un d guisement de la voix dans l enregistrement de comparaison 8 7 1 3 Discussion des r sultats La pr sence d un d guisement de la voix dans l enregistrement de comparaison alt re les r sultats par rapport l locution normale Curieusement cette alt ration est moins importante pour les locutrices que pour les locuteurs Une des raisons r side dans le fait que dans la session de comparaison le d guisement consistait pour tous les locuteurs s exprimer avec un crayon dans la bouche Figure VIII 7 Certaines personnes ont minimis l effet de cet l ment g nant en le pla ant au coin de la bouche par commodit Dans les enregistrements de test le d guisement tait laiss la libert de chacun ce qui s est sold par une d gradation des r sultats beaucoup plus importante Figure VIILS D un point de vue forensique ce premier r sultat indique que le syst me automatique de reconnaissance de locuteurs est sensible to
153. 03 8 L12 c d2 02 0 L13 c d2 02 6 L14 c d2 02 8 L15 c d2 04 7 L16 c d2 02 5 L17 c d2 02 3 L10 c d2 05 0 L12 c d2 04 6 L13 c d2 02 7 L14 c d2 04 9 L15 c d2 04 9 L16 c d2 04 5 L17 c d2 04 6 Lecture d guis e L10 c ld 05 0 L11 c ld 02 5 L12 c ld 09 6 L13 c ld 04 7 L14 c 1d 06 0 L15 c ld 04 0 L16 c 1d 03 3 L17 c 1d 02 5 L10 c ld 07 7 L11 c ld 03 4 L12 c ld 11 5 L13 c 1d 06 6 L14 c 1d 09 4 L15 c ld 05 1 L16 c ld 05 5 L17 c 1d 03 6 L10 c 1d 08 3 L11 c ld 05 8 L12 c ld 16 4 L13 c ld 07 2 L14 c 1d 10 0 L15 c ld 06 4 L16 c ld 06 5 L17 c ld 05 0 L10 c 1d 13 3 L11 c ld 06 8 L13 c 1d 09 5 L14 c ld 12 2 L15 c 1d 09 3 L16 c ld 07 9 L17 c ld 07 0 L10 c ld 14 6 L11 c ld 06 9 L13 c 1d 11 0 L15 c 1d 09 6 L16 c 1d 09 8 L17 c ld 07 5 L11 c ld 09 0 L17 c 1d 08 0 L17 c ld 10 4 L17 c 1d 12 8 Parole spontan e L10 c s 04 2 L11 c s 06 7 L12 c s 07 8 L13 c s 01 0 L14 c s 02 8 L15 c s 01 7 L16 c s 03 7 L17 c s 02 0 L10 c s 04 7 L11 c s 06 9 L12 c s 10 6 L13 c s 01 1 L14 c s 03 8 L15 c s 04 9 L16 c s 04 8 L17 c s 02 2 L10 c s 05 0 L11 c s 07 6 L12 c s 10 9 L13 c s 03 1 L14 c s 04 8 L15 c s 05 0 L16 c s 04 9 L17 c s 03 1 L10 c s 05 2 L11 c s 08 3 L12 c s 11 0 L13 c s 06 4 L14 c s 07 5 L15 c s 05 5 L16 c s 05 0 L17 c s 03 6 L10 c s 05 7 L11 c s 08 7 L12 c s 11 1 L13 c s 09 1 L14 c s 08 5 L15 c s 07 3 L16 c s 05 1 L17 c s 04 4 L10 c s 05 8 L11 c s 09 0 L12 c s 11 5 L13 c s 10 7 L14 c s 10 1 L15 c s 07 4 L16 c s 05 2 L17 c s 04 5 L10 c s 06 1 L11 c s 09 2 L12 c s 11 9 L13 c s 12 5 L14 c s
154. 1 02 7 L54 c d1 02 5 L55 c d1 02 6 L58 c d1 03 2 L59 c d1 02 8 L32 c d2 02 8 L33 c d2 01 1 L44 c d2 01 8 L49 c d2 01 4 L54 c d2 01 0 L55 c d2 00 9 L58 c d2 01 0 L59 c d2 01 3 L32 c d2 04 4 L33 c d2 02 1 L44 c d2 03 2 L49 c d2 02 4 L54 c d2 02 3 L55 c d2 01 8 L58 c d2 01 9 L59 c d2 01 8 L32 c d2 07 0 L33 c d2 02 6 L44 c d2 04 4 L49 c d2 03 8 L54 c d2 02 6 L55 c d2 02 1 L58 c d2 02 3 L59 c d2 04 4 L33 c d2 03 7 L44 c d2 09 6 L54 c d2 06 0 L55 c d2 06 8 L58 c d2 05 5 L59 c d2 06 4 Lecture d guis e L32 c ld 06 2 L33 c 1d 03 2 L44 c ld 10 0 L49 c 1d 02 6 L54 c 1d 03 7 L55 c 1d 03 6 L58 c 1d 03 8 L59 c 1d 04 7 L32 c 1d 12 8 L33 c 1d 05 1 L44 c ld 11 5 L49 c 1d 06 6 L54 c 1d 05 3 L55 c 1d 06 5 L58 c 1d 04 4 L59 c 1d 07 4 L32 c 1d 15 2 L33 c 1d 06 9 L44 c 1d 13 4 L49 c 1d 06 9 L54 c 1d 06 9 L55 c 1d 06 6 L58 c 1d 07 5 L59 c 1d 08 5 L32 c 1d 15 9 L33 c 1d 08 5 L44 c ld 13 7 L49 c 1d 08 4 L54 c 1d 09 9 L55 c ld 11 0 L58 c 1d 08 9 L59 c 1d 09 4 L32 c 1d 22 1 L33 c 1d 08 7 L44 c 1d 22 3 L49 c 1d 09 5 L54 c ld 10 5 L55 c 1d 13 0 L58 c 1d 24 2 L59 c Id 12 4 L44 c ld 26 6 L59 c ld 16 2 L59 c ld 16 8 Parole spontan e L32 c s 02 2 L33 c s 01 1 L44 c s 01 9 L49 c s 02 2 L54 c s 00 8 L55 c s 02 9 L58 c s 01 5 L59 c s 04 5 L32 c s 03 5 L33 c s 02 0 L44 c s 03 6 L49 c s 02 3 L54 c s 02 1 L55 c s 04 0 L58 c s 01 6 L59 c s 06 0 L32 c s 03 6 L33 c s 02 2 L44 c s 03 8 L49 c s 03 2 L54 c s 02 9 L55 c s 04 1 L58 c s 05 9 L59 c s 06 5 L32 c s 03 7 L33 c s 02 5 L44 c s 04 1 L49 c s 03
155. 10 9 L15 c s 07 5 L16 c s 05 3 L17 c s 04 6 L10 c s 06 2 L11 c s 10 0 L12 c s 12 1 L13 c s 12 6 L14 c s 11 4 L15 c s 08 2 L16 c s 07 4 L17 c s 05 5 L10 c s 06 3 L11 c s 10 2 L12 c s 12 2 L13 c s 13 3 L14 c s 12 6 L15 c s 08 5 L16 c s 07 7 L17 c s 06 2 L10 c s 06 5 L11 c s 10 8 L12 c s 12 3 L13 c s 13 8 L14 c s 13 7 L15 c s 08 7 L16 c s 07 9 L17 c s 06 6 L10 c s 06 6 L11 c s 11 1 L12 c s 13 7 L13 c s 14 7 L14 c s 13 9 L15 c s 08 8 L16 c s 08 2 L17 c s 07 8 L10 c s 07 1 L11 c s 11 2 L12 c s 14 5 L13 c s 14 8 L14 c s 14 0 L15 c s 09 0 L16 c s 08 5 L17 c s 08 0 L10 c s 07 6 L11 c s 11 4 L12 c s 14 9 L13 c s 15 1 L14 c s 14 1 L15 c s 09 2 L10 c s 07 7 L11 c s 13 7 L12 c s 16 4 L13 c s 15 6 L14 c s 14 2 L15 c s 09 5 L10 c s 07 8 L11 c s 17 2 L12 c s 18 1 L13 c s 15 7 L14 c s 17 0 L15 c s 10 7 L10 c s 07 9 L11 c s 17 7 L12 c s 18 4 L13 c s 15 8 L14 c s 18 0 L15 c s 11 1 L10 c s 10 1 L11 c s 17 8 L12 c s 19 4 L13 c s 17 6 L14 c s 18 3 L15 c s 11 6 L10 c s 16 2 L13 c s 17 8 L14 c s 20 7 L15 c s 13 2 L13 c s 19 7 L14 c s 21 5 L15 c s 14 5 L13 c s 21 1 L14 c s 23 0 L14 c s 24 2 242 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE A VI 3 d Enregistrements de comparaison des locuteurs L18 L56 Locuteu
156. 116 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 6 2 2 1 3 Fonction d autocorr lation La variation court terme de la fr quence fondamentale ou contour de Fo conna t d importantes variations interlocuteurs Comme plusieurs m thodes permettent de l extraire automatiquement du signal de fa on fiable m me en cas de rapport signal sur bruit faible cette caract ristique a t largement utilis e pour la reconnaissance automatique de locuteurs ATAL 1976 CORSI 1982 Dans le domaine temporel le calcul de la fonction d autocorr lation court terme de la forme d onde filtr e permet d extraire la p riodicit en d terminant le degr de similarit entre deux courbes La fr quence fondamentale peut alors tre estim e en cherchant le 2 pic le plus important de la fonction d autocorr lation L efficacit de cette approche temporelle d analyse de Fo pour la reconnaissance automatique de locuteurs a notamment t montr e par ATAL Des 1968 il a obtenu un taux d identification de 97 en mode d pendant du texte sur une base de donn es de dix locutrices en analysant l volution dynamique de la fr quence fondamentale sur des chantillons de parole normalis s dans le domaine temporel ATAL 1968 Par l analyse de la distribution statistique de la moyenne court terme de la fr quence fondamentale STEFFEN BATOG estime qu il est possible de diff
157. 2 2 1 1 Choix de la m thode automatique Pour tre s lectionn e en vue d une application forensique une m thode de reconnaissance automatique de locuteurs doit satisfaire aux grands principes de l ind pendance par rapport au texte fournir des r sultats sous forme d un nombre r el dans un ensemble de donn es continues et tre reconnue pour ses performances dans des conditions de d gradation du signal de la parole t l phonique 9 2 2 1 2 Validit et fiabilit de la m thode automatique Selon le principe de falsifiabilit les exp riences men es au cours de cette recherche ont permis de d terminer les principales conditions dans lesquelles la m thode automatique ne peut pas tre appliqu e de mani re mieux cerner les conditions dans lesquelles elle est utilisable sans pouvoir le d montrer toutefois La m thode automatique a l avantage de permettre une valuation de l enregistrement consid r comme indice dans l hypoth se o il provient de la personne mise en cause sous la forme de la probabilit p E H utilis e comme num rateur dans le rapport de vraisemblance Elle permet aussi une valuation de l enregistrement consid r comme indice dans l hypoth se o il ne provient pas de la personne mise en cause sous la forme de la probabilit p EI H utilis e comme d nominateur dans le rapport de vraisemblance p El H indique la fr quence empirique des caract ristiques tudi es dans la
158. 23 J 0 41 J 0 J 0 J 9 J 14 J 30 J 35 J 0 56 J 0 J 0 J 14 J 18 J 27 J 33 J 0 234 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE A VI 1 b Enregistrements de test Locutrice Test Test 1 Test 2 Test 3 Test 4 Test 5 Message Message cellulaire anonyme 1 anonyme 2 00 J 0 J 0 J 8 J 26 J 28 J 28 J 32 J 32 01 J 0 J 0 J 12 J 16 J 26 J 33 J 54 J 55 04 J 0 J 0 J 22 J 29 J 35 J 42 J 83 J 83 05 J 0 J 0 J 8 J 11 J 20 J 45 J 59 J 95 06 J 0 J 0 J 19 J 25 J 36 J 64 J 21 J 25 07 J 0 J 0 J 10 J 18 J 26 J 32 J 26 J 32 08 J 0 J 0 J 7 J 15 J 22 J 34 J 7 J 15 09 J 0 J 0 J 8 J 22 J 25 J 32 J 22 J 25 32 J 0 J 0 J 14 J 28 J 35 J 42 J 14 J 28 33 J 0 J 0 J 12 J 17 J 32 J 38 J 45 J 53 44 J 0 J 0 J 14 J 28 J 36 J 42 J 14 J 14 49 J 0 J 0 J 10 J 15 J 34 J 38 J 11 J 25 54 J 63 J 0 J 9 J 18 J 25 J 34 J 18 J 67 55 J 32 J 0 J 10 J 21 J 29 J 32 J 74 J 74 58 J 22 J 0 J 21 J 27 J 29 J 43 J 21 J 50 59 J 0 J 0 J 8 J 15 J 20 J 29 J 68 J 69 Locuteur Test Test 1 Test 2 Test 3 Test 4 Test 5 Message Message cellulaire anonyme 1 anonyme 2 10 J 0 J 0 J 9 J 15 J 52 J 53 J 91 J 105 11 J 0 J 13 J 18 J 27 J 28 J 40 J 0 J 18 12 J 0 J 0 J 27 J 33 J 45 J 59 J 37 J 39
159. 3 des chantillons de comparaison doivent tre soigneusement pr par s 4 Un examen pr liminaire 5 doit permettre d valuer la qualit des l ments de preuve et de d terminer si l analyse peut tre effectu e par m thode auditive et spectrographique 6 L examinateur doit aboutir l une des sept conclusions possibles identification identification probable identification possible r sultat inconcluant exclusion possible exclusion probable exclusion 7 et peut parfois demander un second avis Le travail doit tre soigneusement document et le rapport r dig sous une forme standardis e Finalement l IAI pr cise encore 108 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE qu elle n approuve l usage d aucune autre m thode d identification de voix que celle stipul e dans ses standards Durant l examen pr liminaire l examinateur doit s assurer que les enregistrements inconnus et de comparaison sont originaux Comme la m thode est d pendante du texte les enregistrements de parole inconnue et de comparaison doivent comprendre au moins dix mots correspondants et des passages contenant au moins trois mots correspondants cons cutifs Les chantillons doivent tre de haute qualit sans d guisement sans exc s de distorsion sans interf rences caus es par de la parole ou du bruit et sans exc s de variation des syst mes de transmission d enregistremen
160. 3 no 3 pp 185 196 BASZTURA C MAJEWSKI W 1978 The application of long term analysis of the zero crossing analysis of a speech signal in automatic speaker identification Archives of acoustics vol 1 no 3 pp 3 15 250 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE BECKER R W CLARKE F R POZA F T YOUNG J R 1973 A semi automatic speaker recognition system U S Department of Justice Law Enforcement Assistance Administration National Institute of Law Enforcement and Criminal Justice Washington BERNASCONI C 1990 On instantaneous and transitional spectral information for text dependent speaker verification Speech Communication vol 9 no 2 pp 129 139 BERTILLON A 1881 Une application de l anthropometrie sur un proc d d identification Annales de D mographie Internationale G Masson Paris BERTILLON A 1893 Renseignements descriptifs IN Identification anthropom trique instructions signaletiques Imprimerie administrative Melun pp 103 105 BIMBOT F 1993 Assessment methodology for speaker identification and verification systems SAM A Esprit Project 6819 report I 9 task 2500 BIMBOT F C HOLLET G PAOLONI A 1994 Assessment methodology for speaker identification and verification systems an overview of SAM A Esprit Project 6819
161. 3 M thode de calcul du rapport de vraisemblance supra 7 3 M thode de calcul du rapport de vraisemblance 160 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 0 9 0 8 0 7 0 6 0 5 Probabilit 0 4 0 3 0 2 0 1 0 0 1 0 2 0 5 1 A 5 10 20 50 100 200 500 1000 LR sup rieur a Evolution du LR lorsque l hypoth se H1 est v rifi e N 48 Evolution du LR lorsque l hypoth se H2 est v rifi e N 80000 Figure VII 13 Repr sentation graphique d un r sultat d exp rience sous forme de Tippet plot 7 5 Conclusion Ce chapitre a principalement permis de d crire la structure et le fonctionnement du systeme de reconnaissance d velopp qui est bas sur quatre modules logiciels un module de suppression des silences SILREM un module d extraction des caract ristiques PLP un module de modelisation GMM et un module de comparaison GMM evaluate Le calcul des rapports de vraisemblance repose quant a lui sur une estimation des variabilit s intralocuteur et interlocuteur par kernel density estimation et les r sultats sont pr sent s graphiquement sous forme de Tippet plot VIII EVALUATION DU SYSTEME 8 1 Introduction L valuation du systeme debute par la selection et la constitution de bases de donn es d enregistrements de parole Il est important que la qualit de ces enregistrements soit comp
162. 3 4 3 5 3 6 3 7 Introduction R le de l expert ou du scientifique 3 2 1 Le refus de t moigner 3 2 2 Le maximalisme 3 2 3 La pr sentation et l valuation de l tat de l art 3 24 Choix d une approche m thodologique Exigences l gales en mati re de preuve scientifique 3 3 1 En droit suisse 3 3 2 En droit nord am ricain 3 3 3 Choix d une d marche M thodes de reconnaissance de locuteurs 3 4 1 D finitions 3 4 2 Proc dure 3 4 3 Classification des m thodes de reconnaissance 3 4 4 Choix d une m thode Inf rence de l identit d un locuteur 3 5 1 Discrimination 3 5 2 Classification 3 5 3 Quantification des taux d erreur de type I et de type II 3 5 4 Evaluation de rapports de vraisemblance 3 5 5 Choix d un processus d inf rence de l identit Evaluation d une m thode de reconnaissance automatique de locuteurs 3 6 1 Etablissement de mod les th oriques 3 6 2 Comparaison de mod les th oriques 3 6 3 Evaluation empirique 3 6 4 Choix d une m thode d valuation Conclusion 22 23 24 27 29 29 29 29 29 30 30 30 30 31 32 32 32 33 34 36 37 37 39 42 44 47 50 50 50 50 51 52 TABLE DES MATIERES V PARTIE 2 RECHERCHE BIBLIOGRAPHIQUE 53 IV Approche auditive 55 4 1 La perception de la voix et de la parole 55 4 1 1 Principes de la perception 55 4 1 2 Le processus de discrimi
163. 8dB L49 test1 18dB L54 test1 18dB L55 test1 18dB L58 test1 18dB L59 test1 18dB L32 test1 24dB L33 test1 24dB L44 test1 24dB L49 test1 24dB L54 test1 24dB L55 test1 24dB L58 test1 24dB L59 test1 24dB L32 test1 30dB L33 test1 30dB L44 test1 30dB L49 test1 30dB L54 test1 30dB L55 test1 30dB L58 test1 30dB L59 test1 30dB Test analogique L32 test1 L33 test1 L44 test1 L49 test1 L54 test1 L55 test1 L58 test1 L59 test1 analogique analogique analogique analogique analogique analogique analogique analogique Parole spontan e L32 test1 L33 test1 L44 test1 L49 test1 L54 test1 L55 test1 L58 test1 L59 test1 L32 test2 L33 test2 L44 test2 L49 test2 L54 test2 L55 test2 L58 test2 L59 test2 L32 test3 L33 test3 L44 test3 L49 test3 L54 test3 L55 test3 L58 test3 L59 test3 L32 test4 L33 test4 L44 test4 L49 test4 L54 test4 L55 test4 L58 test4 L59 test4 L32 test5 L33 test5 L44 test5 L49 test5 L54 test5 L55 test5 L58 test5 L59 test5 74A V1 3 g Enregistrements de test des locuteurs L10 L17 Locuteur 10 Locuteur 11 Locuteur 12 Locuteur 13 Locuteur 14 Locuteur 15 Locuteur 16 Locuteur 17 Messages anonymes L10 test ad L11 test ad L12 test ad L13 test ad L14 test ad L15 test ad L16 test ad L17 test ad L10 test an L11 test an L12 test an L13 test an L14 test an L15 test an L16 test an L17 tes
164. 91 Speaker identification and verification via singular value decomposition of speech parameters Midwest Symposium on Circuits and Systems IEEE vol 2 pp 725 728 GORBAN I I GORBAN N I KLIMENKO A V 1999 Crime detection automatic verification and identification CASVI system J Acoustic Soc Am vol 105 no 2 pp 1353 GROSJEAN F DESCHAMPS A 1972 Analyse des variables temporelles du fran ais spontan Phonetica vol 26 pp 129 156 GROSJEAN F 1995 Cours de phon tique acoustique Facult des lettres et des sciences humaines Universit de Neuchatel GRUBER J S POZA F 1995 Voicegram identification evidence American Jurisprudence Trials Lawyers Cooperative Publishing vol 54 GUBRYNOWICZ R 1973 Application of a statistical spectrum analysis to automatic voice identification IN Speech analysis and synthesis vol 3 ed Jassem W Polish Academy of Sciences Warsaw pp 171 180 BIBLIOGRAPHIE 257 GUELPA B SCHAAD B 1998 Georges Zecchin mes 200 heures face Mikhailov L Hebdo n 51 17 d cembre GUNTER C MANNING W 1982 Listener estimation speaker height and weight in unfiltered and altered conditions J Phonet vol 10 pp 251 257 GUYTON A C 1984 39 La ventilation pulmonaire IN Trait de physiologie m dicale Doin Editeurs 8
165. 96 3 2 1 Le refus de t moigner Quoique la question rel ve de leur domaine de comp tence certains scientifiques refusent de t moigner AIGRIN 1996 Cette attitude de r serve est adopt e par le Bureau du Groupe de la Communication Parl e de la Soci t Fran aise d Acoustique GFCP de m me que par la British Association of Academic Phoneticians BAAP GFCP 1991 BoE 1998 BRAUN 1995 Ces groupes justifient leur position par le fait qu l heure actuelle aucune m thode propos e n est valide et dela personne n est comp tent pour donner une r ponse fiable a la demande du monde judiciaire C est oublier la r alit du probl me Le refus de collaboration des hommes de l art conduit l ordre judiciaire par manque de connaissance du domaine s en remettre l expertise de personnes dont la comp tence est de loin inf rieure celle des phon ticiens et des experts en science de la parole BALDWIN ET FRENCH 1990 BRAUN 1995 Cette situation est analogue celle du grave probl me qui existe dans le domaine de l expertise judiciaire d criture manuscrite notamment en France et dans une moindre mesure en Suisse MATHYER 1990 DAOUST 1995 AIGRIN souligne d autre part que cette politique de l autruche ne lui semble pas digne de l thique scientifique AIGRIN 1996 3 2 2 Le maximalisme Cette attitude consiste 4 sur valuer plus ou moins involontairement les risques Le ph nom n
166. 990 IN NOLAN 1990 4 4 1 L approche auditive perceptive Cette approche est bas e sur l analyse auditive de param tres comme la qualit de la voix les d fauts de prononciation et d locution la vitesse d locution l intonation et le rythme ainsi que les analyses d ordre plus lev lexicale syntaxique s mantique et idiomatique en vue de la caract risation du dialecte et de l accent regional Elle peut aussi consid rer des parametres paralinguistiques comme le cycle inspiration expiration ou la dur e des silences BRAUN 1995 4 4 1 1 Caract ristiques segmentales Au d but du travail de comparaison des chantillons de parole une pratique consensuelle des phon ticiens consiste a transcrire phon tiquement les chantillons inconnus et de comparaison Ils se basent sur les symboles de l Association Phon tique Internationale IPA pour retranscrire les moindres d tails de la prononciation des voyelles et des consonnes souvent en conjonction avec l utilisation de symboles suppl mentaires propres chaque expert Une attention particuli re est port e a chaque caract ristique que l analyste consid re comme idiosyncrasique Ce choix d pend videmment de la connaissance que l analyste a des accents r gionaux et sociaux concern s dans le sens que l habilit identifier des d viations d une norme phonologique pr suppose une compr hension ou une familiarit avec cette norme FRENCH 1
167. 994 Une compr hension des normes phonologiques est un facteur qui doit aussi tre pris en compte lorsque l expert analyse des chantillons dont la langue lui est trang re Le code de proc dure dict par I International Association for Forensic Phonetics LAFP sugg re ses membres d approcher avec la plus grande prudence l analyse forensique d chantillons de parole nonc s dans une autre langue que leur langue maternelle NOLAN 1992 En pratique le choix des caract ristiques devrait tre effectu avec l assistance d une personne de la langue concern e ayant des connaissances phon tiques et linguistiques ou une personne ayant des connaissances phonologiques tendues de la langue analys e FRENCH 1994 4 4 1 2 Caract ristiques suprasegmentales ou prosodiques 4 4 1 2 1 Fr quence fondamentale moyenne rythme et aisance d expression Les examens auditifs de la fr quence fondamentale peuvent aussi inclure une analyse de l intonation et une premi re valuation de la hauteur moyenne de la fr quence fondamentale infra Annexe V Code de proc dure de IAFP PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE IV APPROCHE AUDITIVE 75 Aucune relation statistiquement significative n a t trouv e entre la hauteur de la fr quence fondamentale la vitesse d locution et son intensit KUNZEL ET AL 1995 Il n a pas t d montr non plus que dans une langue donn e la fr quence fond
168. AL 1971 Les tests r alis s avec six locuteurs d age variant entre 29 et 43 ans offrent des r sultats sans quivoque ni la structure des formants des voyelles ni la fr quence fondamentale ne sont ind pendants de l ge La possibilit de modifier la structure des formants des voyelles et la fr quence fondamentale est consid rable gr ce un d guisement d lib r de la voix En cas d imitation les caract ristiques imit es permettent d associer de mani re auditive la voix de l imitateur celle de la personne imit e mais ces caract ristiques sont difficiles d finir et localiser sur les spectrogrammes vocaux Seul TOSI professeur au D partement d Audiologie et des Sciences de la Parole de l Universit d tat du Michigan consid re comme prometteuses les tudes de KERSTA malgr le besoin d tudes compl mentaires ind pendantes sp cifiques Tos 1967 Tos 1968 Malheureusement son enthousiasme est d j d menti par la premi re tude publi e par l cole de Justice Criminelle de l Universit d tat du Michigan HENNESSY ET ROMIG r examinent la m thode de comparaison visuelle de spectrogrammes d un point de vue th orique ils reproduisent aussi les exp riences de KERSTA mais les taux d identification qu ils mettent en vidence ne sont que de 70 en moyenne Ils en concluent que la validation de cette m thode n a pas t faite et que la controverse qui l entoure ne pourra
169. AMMONE R J 1995 Comparative study of robust linear predictive analysis methods with applications to speaker identification IEEE Trans ASSP vol 3 no 2 pp 117 125 RAMIG L A RINGEL R L 1983 Effects of physiological aging on selected acoustic characteristics of voice J Speech Hearing Res vol 26 pp 22 30 RAMISHVILL G S 1966 Automatic voice recognition Eng Cyber vol 5 pp 84 90 REDNER R A WALKER H F 1984 Mixture densities maximum likelihood and the EM algorithm SIAM Review vol 26 no 2 pp 195 239 REICH A D UKE J 1979 Effects of selected vocal disguises upon speaker identification by listening J Acoustic Soc Am vol 66 pp 1023 1028 REICH A MOLL K CURTIS J 1976 Effects of selected vocal disguises upon spectrographic speaker identification J Acoust Soc Am vol 60 pp 919 925 Reiss A R 1907 Un code t l graphique du portrait parl A Maloine 25 27 Rue de l cole de m decine Paris pp 17 18 REYNOLDS D A 1992 A gaussian mixture modeling approach to text independent speaker identification Ph D thesis Georgia Institute of Technology Atlanta USA BIBLIOGRAPHIE 267 REYNOLDS D A 1994 Speaker identification and verification using gaussian mixture speaker models Proceedings of ESCA Workshop on automatic
170. AN est quivalente a la prior probability de FINKELSTEIN ET FAIRLEY Par contre la posterior probability de FINKELSTEIN ET FAIRLEY ne correspond pas a la probabilit a posteriori que la personne mise en cause soit la source de l indice mat riel P H E d finie par KAPLAN KAPLAN 1968 IN KWAN 1977 FINKELSTEIN ET FAIRLEY 1970 KWAN 1977 En effet la probabilit a posteriori P H IE d finie par KAPLAN repr sente la probabilit d observer les caract ristiques x et y dans le cas o l hypoth se H est v rifi e alors que la posterior probability P H E de FINKELSTEIN et FAIRLEY repr sente la probabilit d une non discrimination des caract ristiques x et y en anglais match dans le cas ou l hypoth se H est v rifi e KAPLAN 1968 IN KWAN 1977 FINKELSTEIN ET FAIRLEY 1970 KWAN 1977 FINKELSTEIN et FAIRLEY consid rent donc que l analyse comparative des caract ristiques x et y aboutit a une d cision binaire de discrimination ou de non discrimination en anglais match ou non match accessible aux m thodes quantitatives non param triques d inf rence que sont les tests statistiques de signification de type t test de Student test de rang et test de x Cette approche peut tre qualifi e de discr te puisqu en cas de correspondance P H E 1 L approche de KAPLAN par contre peut tre consid r e comme continue car en cas de correspondance P H IE lt 1 KWAN 1977 En cons quenc
171. Au total 20 rapports de vraisemblance sont calcul s pour chaque locutrice et chaque locuteur 184 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat de la comparaison de ces m mes enregistrements de test Test 1 Test 5 avec les mod les de la voix des 1000 locutrices et des 1000 locuteurs de la base de donn es Polyphone Suisse Romande Les rapports de vraisemblance de ces l ments de preuve sont calcul s de la mani re suivante le num rateur quivaut la densit de probabilit de l l ment de preuve E dans la distribution de la variabilit intralocuteur du locuteur dont provient l enregistrement analys Le d nominateur du rapport de vraisemblance quivaut la densit de probabilit de l l ment de preuve E dans la distribution interlocuteur de l enregistrement de test 8 8 2 2 R sultats Les r sultats sont d abord pr sent s de mani re globale afin d illustrer les diff rences de performances entre les groupes qui ont toujours utilis le m me t l phone et les groupes qui ont utilis des t l phones diff rents Ensuite les r sultats sont pr sent s de mani re individuelle pour chaque locutrice et chaque locuteur un rapport de vraisemblance moyen exprim en termes de logarithme en base 10 est calcul partir des 20 rapports de vrais
172. BERG d crit un syst me de reconnaissance d velopp chez Bell Telephone Laboratories exploitant l algorithme DTW pour aligner le contour de F Une base de donn es de plus de 100 locuteurs enregistr s par t l phone a t utilis e pour le test La r f rence de chacun des locuteurs est obtenue par l enregistrement de cinq nonc s en une seule session Cinquante enregistrements de test de chaque locuteur ont t recueillis sur une p riode de cinq mois et les performances report es indiquent un taux d gale erreur d environ 10 pour la t che d identification ROSENBERG 1976B BIMBOT 1993 En 1981 Furui pr sente un syst me de reconnaissance o pour chacun des 50 locuteurs de la base de donn es la r f rence est constitu e d une ou de plusieurs r p titions de chaque mot d un vocabulaire d termin Les nonc s de test sont compar s avec l algorithme DTW la concat nation des mots de r f rence correspondants Cette m thode permet d obtenir un taux d erreur d un peu plus de 2 en t che de v rification supra 3 5 3 Quantification des taux d erreur de type I et de type II PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE VI APPROCHE AUTOMATIQUE 129 En 1985 la version la plus r cente du systeme de contr le d acc s du centre de calcul de Texas Instruments galement bas e sur l algorithme DTW aboutissait des taux d erreur de type I et de type IT inf rieurs a 1 DODDINGTO
173. CES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE fondamentale INGEMAN 1968 SCHWARTZ 1968 SCHWARTZ ET RINE soulignent cependant que cette determination est plus facile a partir de mots isol s qu a partir d un texte continu SCHWARTZ ET RINE 1968 4 3 3 3 7 D termination de l ge du locuteur Tableau IV 8 L examen de plusieurs centaines de locuteurs et locutrices g s de six a nonante ans montre que pendant l enfance et l adolescence la tessiture s largit et la hauteur moyenne de la fr quence fondamentale s abaisse avant de se stabiliser l ge adulte Au del de la soixantaine la tessiture r tr cit principalement cause du d placement de la limite inf rieure Simultan ment la hauteur moyenne de la fr quence fondamentale augmente chez l homme alors qu elle diminue chez la femme B HME ET HECKER 1970 Pour les locuteurs cette constatation est confirm e par HOLLIEN ET SHIPP qui mettent en vidence une l g re diminution de la hauteur moyenne de la fr quence fondamentale de 120 Hz 112 Hz entre 20 et 40 ans aussi relev e par SUZUKI et une augmentation lin aire de 107 Hz 146 Hz entre 40 et 90 ans HOLLIEN ET SHIPP 1972 SUZUKI ET AL 1994 HOLLIEN ET SHIPP rel vent cependant l existence de larges differences individuelles Auteurs Ensemble de r f Caract ristiques Caract ristiques du Auditeurs T che et mesure de rence des locuteurs
174. CHTER L 1973 Statistical discrimination functions and their applications to the problem of voice identification IN Speech analysis and synthesis ed Jassem W Polish Academy of sciences Warsaw vol 3 pp 144 157 BIBLIOGRAPHIE 261 K NZEL H J 1987 Sprechererkennung Grundz ge forensischer Sprachverarbeitung Kriminalistik Verlag Heidelberg K NZEL H J 1989 How well does average fundamental frequency correlate with speaker height and weight Phonetica no 46 p 117 K NZEL H J 1994A Current approaches to forensic speaker recognition Proceedings of ESCA Workshop on automatic speaker recognition identification and verification pp 135 141 K NZEL H J 1994B On the problem of speaker identification by victims and witnesses Forensic Linguistics vol 1 no 1 pp 45 58 K NZEL H J MASTHOFF H R KOSTER J P 1995 The relation between speech tempo loudness and fundamental frequency an important issue in forensic speaker recognition Science amp Justice vol 35 no 4 pp 291 295 Kwan Q Y 1977 Inference of Identity of Source Ph D Thesis University of California Berkeley CA USA LABOV W 1972 Sociolinguistic patterns University of Pennsylvania Press Philadelphia LADD D R SILVERMAN K E A TOLKMITT F BERGMANN G SCHERER K R
175. CLIFFORD ET AL 1981 M me si tous les param tres sont soigneusement choisis en vue d augmenter la validit d une telle proc dure la grande variabilit des performances individuelles des auditeurs limite le r sultat d une telle investigation une valeur indicative dont l incertitude est rapprocher de celle du t moignage HOLLIEN ET AL 1982 HAMMERSLEY ET READ 1983 Le r sultat obtenu lorsqu un chantillon de parole inconnue est diffus grande chelle par exemple la radio semble plus int ressant En effet dans cette circonstance les auditeurs familiers du locuteur inconnu touch s par une telle diffusion peuvent proc der une t che d identification bas e sur une r f rence mn monique tendue et non pas une t che de discrimination ou une t che d identification bas e sur une r f rence limit e un stimulus comme c est le cas pour les victimes ou les t moins 74 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 4 4 Proc dure de reconnaissance par des experts L approche actuelle pratiqu e par les phon ticiens combine l approche phon tique auditive perceptive et les techniques de phon tique acoustique KUNZEL 1987 BRAUN 1995 L analyse linguistique forensique ne fait pas partie de cette investigation mais elle constitue une m thode d analyse de l chantillon de parole inconnue suppl mentaire et ind pendante KNIFFKA 1
176. CT 67 DECT 67 DECT 67 DECT 67 DECT 67 16 GSM 70 DECT 63 DECT 63 DECT 63 DECT 63 DECT 63 DECT 63 DECT 63 17 GSM 70 DECT 63 DECT 63 DECT 63 DECT 63 DECT 44 DECT 63 DECT 63 18 GSM 70 RTPC 40 RTPC 40 RTPC 40 RTPC 40 RTPC 40 RTPC 40 RTPC 40 19 GSM 70 DECT 37 DECT 37 DECT 37 DECT 37 DECT 37 DECT 37 DECT 37 20 GSM 70 RTPC 16 RTPC 16 RTPC 16 RTPC 16 RTPC 16 RTPC 16 RTPC 16 22 GSM 70 RTPC 25 RTPC 25 RTPC 25 RTPC 25 RTPC 25 RTPC 25 RTPC 25 39 GSM 70 DECT 96 DECT 96 DECT 96 DECT 96 DECT 96 DECT 96 DECT 96 40 GSM 70 RTPC 09 RTPC 09 RTPC 30 RTPC 30 RTPC 30 RTPC 30 RTPC 30 41 GSM 70 RTPC 28 RTPC 30 RTPC 30 RTPC 30 RTPC 30 RTPC 28 RTPC 30 56 GSM 70 RTPC 44 RTPC 44 GSM 77 RTPC 21 RTPC 44 RTPC 21 RTPC 21 238 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE A VLS Composition des enregistrements Enregistrements de comparaison c indique la session d enregistrement de comparaison d une cinquantaine de diapositives ad indique la simulation d un message anonyme avec un crayon dans la bouche an indique la simulation d un message anonyme avec la voix no
177. Chichester UK RODMAN R D 1998 Speaker recognition of disguised voices A program for research Proceedings of the 8th COST 250 workshop Ankara Speaker identification by man and by machine Directions for forensic applications pp 9 22 ROSE P DUNCAN S 1995 Naive auditory identification and discrimination of similar voices by familiar listeners Forensic Linguistics vol 2 no 1 pp 1 17 ROSE R C FITZMAURICE J HOFSTETTER E M REYNOLDS D A 1991 Robust speaker identification in noisy environments using noise adaptive speaker models ICASSP vol 1 pp 401 404 ROSE R C REYNOLDS D A 1990 Text independent speaker identification using automatic acoustic segmentation ICASSP 90 pp 293 296 ROSENBERG A E 1973 Listener performance in speaker verification tasks IEEE Trans Audio Electroacoust no 3 pp 221 225 ROSENBERG A E 1976A Automatic speaker verification a review Proc IEEE vol 64 no 4 pp 475 487 ROSENBERG A E 1976B Evaluation of an automatic speaker verification system over telephone lines B S T J vol 55 no 6 pp 723 743 ROSENBERG A E SOONG F K 1986 Evaluation of a vector quantization talker recognition system in text independent and text dependent modes ICASSP pp 873 876 268 RECONNAISSANCE DE LOCUTEURS EN SCIENCES
178. DODDINGTON 1985 Elle est bas e sur le type d approche subjective ou objective utilis dans les deux tapes de la reconnaissance de locuteurs l extraction des caract ristiques et leur comparaison 3 4 3 2 2 Aspects forensiques Dans la reconnaissance de locuteurs par audition qu elle consiste en l opinion d un phon ticien d une personne famili re de la personne mise en cause d un t moin ou d une victime l extraction et la comparaison de ces caract ristiques sont effectu es de mani re subjective Dans la comparaison visuelle de spectrogrammes vocaux l extraction des caract ristiques est plus objective car elle fait appel un instrument le spectrographe sonore mais la comparaison demeure subjective GRUBER amp POZA 1995 Le but de la reconnaissance automatique par contre est de tendre vers une extraction et une comparaison objectives des caract ristiques en utilisant pour la premi re diverses techniques de traitement du signal et pour la seconde des syst mes de classification automatique DEVIJVER ET KITTLER 1982 LEWIS 1984 Cependant dans chacune de ces approches tout ou partie du processus de reconnaissance demeure subjectif Une proc dure ad quate vise r duire le facteur humain autant que possible bien que le plus sophistiqu des syst mes n cessite l interaction d un expert de nombreuses reprises en commen ant par la s lection d nonc s de paroles ad quats le filtrage et
179. E REICH ET DUKE 1979 Les modifications involontaires de la voix comme les conditions de stress la fatigue une motion forte ou le changement de ton dans l locution p nalisent aussi tr s fortement la performance Celle ci diminue de plus de moiti dans plusieurs exp riences SASLOVE ET YARMEY 1980 HOLLIEN ET AL 1982 HOMAYOUNPOUR ET AL 1993 et de 50 a 33 dans l exp rience de CLIFFORD ET DENOT CLIFFORD ET DENOT IN CLIFFORD 1980 Les motions par exemple influencent la hauteur et la variabilit de la fr quence fondamentale la tessiture la position des formants l intensit et le tempo WILLIAMS ET AL 1970 LEVIN ET LORD 1975 KRAUSE 1976 SCHERER 1981 La taille de l ensemble des locuteurs et l ge des auditeurs influencent aussi les r sultats lorsque la voix est modifi e Le taux d identification passe de 36 17 en cas 64 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE d augmentation de quatre huit locuteurs et les performances du groupe d auditeurs g s de plus de cinquante ans sont moins lev es que celles des groupes d auditeurs de seize vingt ans et de vingt cinquante ans qui elles sont quivalentes CLIFFORD 1980 Auteurs Ensemble de r f Caract ristiques du Caract ristiques du Auditeurs T che et mesure de rence des locuteurs message canal de transmission performance REICH ET DUKE 40 locuteurs
180. EN ET AL 1982 GFROERER 1994 IN MASTHOFF 1996 LOCARD propose l introduction de tampons de coton enveloppant le gros bout d une plume de coq dans les narines ou l utilisation d un dispositif de filtrage m canique comme le mouchoir sur le combin du t l phone comme moyens de d guisement Il est aussi possible de recourir des dispositifs plus modernes de filtrage et de brouillage analogiques ou num riques LOCARD 1932 MASTHOFF 1996 Les modifications qu un locuteur peut apporter un nonc dans un but de d guisement peuvent porter sur la voix respiration registre mode de phonation sur la parole articulation intonation accent vitesse d locution stress modification du tractus vocal par un corps tranger ou encore sur le contenu jargon dialecte tranger GFROERER 1994 IN MASTHOFF 1996 K NZEL 1994A Certaines caract ristiques sont cependant plus difficiles modifier que d autres comme le montre le tableau r capitulatif d une tude concernant les strat gies de d guisement pr sent e par FAHRMANN FAHRMANN 1966A FAHRMANN 1966B Figure II 6 PARTIE I APPROCHE THEORIQUE CHAPITRE II LA VOIX COMME INDICE MATERIEL 25 Caract ristiques g n rales Sens choix des mots construction de la phrase Style du langage Dynamique de la parole Facile modifier Difficile 4 modifier Caract ristiques individuelles Articulation Accentuation m lodi
181. FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE ROSENBERG A E SOONG F K 1991 Recent research in automatic speaker recognition IN Advances in speech signal processing eds Furui S amp Sondhi M M Marcel Decker New York USA pp 701 737 ROTHER H 1967 Stimm Spektrographie Neuartiges Hilfsmittel der Kriminalistik Kriminalistik pp 233 235 ROTHMAN H B 1979 Further analysis of talkers with similar sounding voices IN Current issues in linguistic theory eds Hollien H amp P John Benjamins B V Amsterdam vol 9 pp 837 846 Roux C 1997 La valeur indiciale des fibres textiles d couvertes sur un si ge de voiture Probl mes et solutions th se de doctorat Institut de police scientifique et de criminologie Universit de Lausanne RYAN W J BURK K W 1972 Predictors of age in the male voice J Acoustic Soc Am vol 53 pp 345 A RYAN W J BURK K W 1974 Perceptual and acoustic correlates of aging in the speech of males Journal of Communication Disorders vol 7 pp 181 192 SAMBUR M R 1975 Selection of acoustic features for speaker identification IEEE Trans Acoust Speech Signal Processing vol 23 pp 176 182 SAMBUR M R 1979 Speaker recognition using orthogonal linear prediction IN Automatic Speech amp Speaker Recognition ed
182. H 1994 V APPROCHE SPECTROGRAPHIQUE 5 1 Le spectrographe sonore 5 1 1 La technologie Suite aux travaux de STEINBERG le spectrographe sonore a t mis au point chez Bell Telephone Laboratories en 1941 en tant qu instrument d analyse fondamentale de la voix aussi bien d volu aux applications phon tiques l usage des sourds l apprentissage des langues qu l am lioration de la qualit des transmissions t l phoniques STEINBERG 1934 POTTER ET AL 1947 ALEXANDERSON 1997 Cet instrument permet de repr senter les variations temporelles du spectre a court terme d une onde de parole sous une forme graphique appel e spectrogramme vocal vocogramme KERSTA 1973 ou sonagramme NOLAN 1983 Le prototype de l instrument analogique a t d clin en deux formes le Direct Translator destin aux sourds permettant une visualisation directe du r sultat sur un cran cathodique phosphor et la version commune du spectrographe sonore offrant le r sultat sous forme imprim e Sur le spectrogramme le temps occupe la dimension horizontale les fr quences la dimension verticale et la densit du trait indique l intensit BOLT ET AL 1970 Cette repr sentation permet la mise en vidence de plusieurs informations contenues dans le signal de parole comme la largeur de bande et la pente des formants des voyelles leurs fr quences centrales la dur e des v nements acoustiques les formes caract ristiq
183. IE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE V APPROCHE SPECTROGRAPHIQUE 89 g n r e dans des conditions de stress par rapport la m me voix g n r e dans des conditions normales HECKER ET AL 1968 YOUNG ET CAMPBELL ainsi que STEVENS montrent aussi que certains locuteurs sont consid rablement plus difficiles reconna tre par leurs spectrogrammes que d autres YOUNG ET CAMPBELL 1967 STEVENS ET AL 1968 A cause de la grande variabilit de cette capacit d identification le groupe de locuteurs de test devrait tre aussi grand que possible et homog ne d un point de vue de la perception auditive HECKER mentionne qu il n existe que peu d informations concernant les corr lations entre les ressemblances perceptuelles auditives et les ressemblances spectrographiques visuelles HECKER 1971 De plus ce crit re d homog n it auditive lui semble inappropri et il ne rel ve pas que la proximit auditive de deux voix est la base de toute d cision pr alable de proc der une expertise forensique ROTHMAN a d ailleurs montr une r duction des performances d identification par comparaison visuelle de spectrogrammes lorsque la proximit auditive de deux chantillons est grande ROTHMAN 1979 En Allemagne ENDRESS ET AL testent la variation des spectrogrammes en fonction de l ge du d guisement et de l imitation de la voix dans le but de v rifier les hypoth ses d velopp es par KERSTA ENDRESS ET
184. IEL 13 lesquelles les propos ont t enregistr s doivent tre lucid es et ce moyen de preuve doit tre cart s il porte atteinte aux droits de la personnalit GAUTHIER 1984 Quant l enregistrement effectu au su d un interlocuteur mais contre son gr les avis sont partag s D aucuns pensent que celui qui s est oppos l enregistrement de ses d clarations mais parle n anmoins sachant que ses propos sont enregistr s donne son consentement par actes concluants STRATENWERTH 1983 Pour d autres au contraire l enregistrement n est pas autoris et demeure punissable SCHULTZ 1971 Si un accord crit de la part des personnes enregistr es lors de proc dures d enregistrement de comparaison peut permettre de lever cette incertitude juridique la conscience d tre enregistr est susceptible d influencer tres n gativement la constitution d enregistrements repr sentatifs d une locution spontan e Le locuteur peut d lib r ment alt rer son locution par une strategie de d guisement syst matique ou s il est coop ratif le stress ou la peur engendr e par cette proc dure peut induire une modification involontaire de son locution BROEDERS 1995 2 2 2 La proc dure d coute t l phonique en Suisse La proc dure d coute t l phonique est soumise l ordonnance sur le service de surveillance de la correspondance postale et des t l communications du 1 d
185. IL5 Ces probabilit s consid r es comme ind pendantes sont multipli es entre elles pour calculer la vraisemblance de l enregistrement de test par rapport au mod le p S198 p s 18 gt St Figure VII 5 Calcul de la vraisemblance du vecteur de param tres par rapport au mod le GMM 6 compos de M fonctions de densit de probabilit gaussiennes 152 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 7 3 M thode de calcul du rapport de vraisemblance 7 3 1 Production des donn es 7 3 1 1 Estimation de la distribution de la variabilit intralocuteur Pour un locuteur Y l estimation de la variabilit intralocuteur est obtenue par la comparaison de l ensemble M 8y dy des mod les de sa propre voix avec l ensemble C Syw Syo des enregistrements de comparaison de la voix de ce m me locuteur Les mod les de l ensemble M sont calcul s avec le module logiciel GMM les s quences de vecteurs de param tres sont extraits des enregistrements de comparaison par le module logiciel PLP et la comparaison est r alis e avec le module logiciel GMM evaluate La comparaison de tous les l ments de l ensemble M avec tous les l ments de l ensemble C de p Syal ya p Su dy permet d obtenir des scores sous forme d un ensemble de nombres r els Cet ensemble de donn es A a an d crit la variabilit intralocuteur du locut
186. IN Social markers in speech eds Scherer amp Giles Cambridge University Press Cambridge BRYDEN M P 1982 Laterality Functional Asymmetry in the Intact Brain Academic Press New York BUNGE E 1977 Speaker recognition by computer Philips Technical Review vol 37 no 8 pp 207 219 BUNGE E 1979 Identification judiciaire de la voix par ordinateur Revue Int Pol Crim no 332 pp 254 270 BUNGE E 1991 The role of pattern recognition in forensic science an introduction to methods IN Police research in the Federal Republic of Germany 15 years research within the Bundeskriminalamt eds Kube E St rzer H U Clarke R V Springer Verlag Berlin pp 254 265 BURKE J P COLEMAN R O 1973 Speaker identification by naive observers using visual comparison of contour spectrograms The Criminologist vol 8 no 30 pp 46 52 CALINSKI T KACZMAREK Z 1968 Application of bivariate analysis of variance to some problem in phonetic research IN Speech analysis and synthesis ed Jassem W Polish Academy of Sciences Warsaw vol 1 pp 43 52 CALINSKI T JASSEM W KACZMAREK Z 1970 Investigation of vowel formant frequencies as personal voice characteristics by means of multivariate analysis of variance IN Speech analysis and synthesis ed Jassem W Polish Acad
187. L 1970 Plus encore que la dur e la richesse phon tique est d terminante de 56 sur la base d un seul phon me le taux d identification de seize locuteurs par dix auditeurs familiers progresse a 98 sur la base d une phrase de plus de quinze phon mes BRICKER ET PRUZANSKY 1966 STEVENS ET AL montrent aussi une augmentation appr ciable du taux de reconnaissance sur la base d chantillons d une de deux ou de trois syllabes STEVENS ET AL 1968 PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE IV APPROCHE AUDITIVE 71 Avec des auditeurs adultes CLIFFORD montre que l augmentation du taux d identification a partir d un chantillon d une de deux et de quatre phrases n est pas significatif mais met en vidence le fait que les voix de femmes sont significativement mieux reconnues que les voix d hommes 85 contre 70 confirmant ainsi l observation de MCGEHEE MCGEHEE 1944 CLIFFORD 1980 La m me exp rience effectu e avec des auditeurs g s de 12 16 ans partir de messages plus courts d une demi d une et de deux phrases montre une diff rence significative des r sultats en fonction de la dur e du message Les performances en moyenne plus faibles des jeunes auditeurs laissent penser que leurs capacit s d identification sont moindres que celles des adultes CLIFFORD 1980 L volution des performances de discrimination de locuteurs ayant des voix auditivement similaires en fonction de la dur
188. L APPORT D UNE APPROCHE AUTOMATIQUE 8 2 4 Constitution d enregistrements de test Les 32 personnes s lectionn es pour jouer le r le des personnes mises en cause ont aussi contribu a constituer un ensemble d enregistrements de test simulant les indices qui peuvent tre rencontr es en cas d abus de t l phone ou de mesure de surveillance 8 2 4 1 Simulation d abus de t l phone Pour simuler le type d enregistrement recueilli en cas d abus de t l phone les participants ont premi rement effectu deux messages anonymes l un sans d guisement de la voix et l autre avec un d guisement de leur choix Dans les deux cas le contenu et la longueur du message taient laiss s la libert de chacun Annexe VI 3 e f g et h 8 2 4 2 Simulation de mesures de surveillance Pour simuler le type d enregistrement recueilli dans le cadre d une mesure de surveillance les demandes de renseignement enregistr es dans le cadre des six sessions Polyphone IPSC ont t retir es de ces sessions pour servir d enregistrement de test elles sont intitul es Test cellulaire et Test 1 Test 5 Annexe VL3 e f g et h Le Test 1 a aussi servi a la fabrication de plusieurs enregistrements secondaires Il a t enregistr sur le syst me d enregistrement des conversations t l phoniques de la Police Cantonale de Neuch tel Cet enregistreur de marque et mod le Atis VCG 600 an
189. N 1985 Malgr une am lioration constante de la technique jusqu atteindre dans l tude de BERNASCONI un taux de v rification sup rieur 99 9 sur une population de 22 locuteurs l alignement temporel par programmation dynamique a peu peu t abandonn au profit de mod les s quentiels statistiques comme les mod les de Markov cach s moins rigides et plus robustes vis vis de la variabilit inh rente au signal de parole BERNASCONI 1990 CAPPE 1995 6 3 2 Approches actuelles 6 3 2 1 Classification gaussienne La classification gaussienne est une technique param trique globale bas e sur l hypoth se que les param tres mesur s suivent une r partition gaussienne Cette distribution gaussienne est multidimensionnelle puisque les param tres sont d finis dans un espace vectoriel multidimensionnel Les param tres estim s sont en plus du vecteur moyen la matrice de covariance des param tres CAPPE 1995 Cette mod lisation gaussienne permet de calculer un rapport de vraisemblance entre l nonc de test et l nonc de r f rence partir de la forme analytique des distributions gaussiennes repr sentant les param tres lorsque l hypoth se que les param tres sont statistiquement ind pendants est admise Le calcul de la vraisemblance fait intervenir la fois la moyenne et la matrice de covariance des param tres mais dans le cadre d une application o les enregistrements sont r alis s par
190. N G R 1984 A speaker recognizability test ICASSP 84 no 18B 6 pp 1 4 PAUL J E RABINOWITZ A S RIGANATI J P RICHARDSON J M 1975 Semi automatic speaker identification system SASIS Analytical studies Final Report Rockwell International Report N C74 11841501 PAWLEWSKI M DOWNEY S N 1996 Channel effects in speaker recognition BT Technology Journal no January PERKELL J S KLATT D S STEVENS K N KEYERS S J 1986 Toward a phonetic and phonological theory of redundant features IN Invariance and variability in speech processes eds Perkell J S amp Klatt D H L Erlbaum London pp 426 449 PIQUEREZ G 1994 Pr cis de proc dure p nale suisse Payot Lausanne PISONI D B LUCE P A 1987 Acoustic phonetic representations in word recognition Cognition pp 21 52 POLLACK I PICKETT J M SUMBY W H 1954 On the identification of speakers by voice J Acoustic Soc Am vol 26 pp 403 406 266 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE POPPER K R 1973 edition originale 1935 La falsifiabilit IN La logique de la d couverte scientifique Payot Lausanne Suisse pp 77 91 POPPER K R 1988 premi res publications 1944 45 Misere de l historicisme Pocket Par
191. NCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE m thode spectrographique Par contre la m thode a continu tre utilis e comme moyen d investigation KOENIG 1980 Ce rapport n a malheureusement pas eu le m me impact sur toutes les cours Si certaines ont utilis ses conclusions pour motiver un rejet de la m thode spectrographique d autres ont continu a l accepter en ignorant parfois jusqu l existence de ce rapport BLACK ET AL 1994 5 4 Apres le rapport du Conseil National des Sciences 5 4 1 La dissolution de l IAVI En 1980 l IAVI est dissoute et ses membres ont pu rejoindre individuellement I International Association for Identification IAI Suite l adh sion d un nombre suffisant de membres l IAI a cr un sous comit concernant l identification de la voix le Voice Identification and Acoustic Analysis Subcommittee VIAAS Le fonctionnement de cette soci t permet de l assimiler plus une confrerie qu a une soci t savante car elle est form e en majorit de non scientifiques et son acces a t refus a des scientifiques renomm s sous pr texte qu ils avaient t moign en cour contre la m thode spectrographique HOLLIEN 1990 D s lors les directives donn es par l IAI dans ce domaine ainsi que son programme de certification tabli sur le mod le de celui de l IAVI sont sujets caution MOENSSENS ET AL 1986 5 4 2 L tude du FBI
192. New York 270 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Su L S Li K P Fu K S 1979 Identification of speakers by use of nasal coarticulation IN Automatic Speech amp Speaker Recognition eds Dixon N R amp Martin T B John Wiley amp Sons New York USA pp 378 384 SUZUKI T TANIMOTO M OSANAI T KIDO H 1994 Voice of the same male speakers twenty years apart studied on vowels 79th Annual IAI Educational Conference Phoenix USA TARONI F AITKEN C G G 1996 Interpretation of Scientific Evidence Science and Justice vol 36 no 4 pp 290 292 TARONI F CHAMPOD C MARGOT P A 1998 Forerunners of Bayesianism in early forensic science Jurimetrics Journal 38 183 200 TAYLOR H C 1933 Social agreements on personality traits as judged from speech J Soc Psychol vol 5 pp 244 248 THEVENAZ P 1990 Reconnaissance de locuteurs ind pendante du texte AGEN communications no 52 pp 35 45 THEVENAZ P 1993 R sidu de pr diction lin aire et reconnaissance de locuteurs ind pendante du texte th se de doctorat Universit de Neuchatel Suisse THOMAS K 1981 Voiceprint Myth or miracle IN Scientific and expert evidence in criminal advocacy ed Imwinkelried E J Practising Law Institute New
193. OCHE AUDITIVE 69 l aide d auditeurs entra n s les principaux indicateurs de l ge du locuteur ont pu tre mis en vidence la hauteur de la fr quence fondamentale la vitesse d locution HARTMAN ET DANHAUER 1976 le tremblement de la voix la tension du larynx la perte d air l impr cision des consonnes et la vitesse de l articulation RYAN ET BURK 1972 Lorsque des locuteurs lisent un m me passage leur ge peut habituellement tre valu dans une tranche de dix ans ALLPORT 1963 Cette constatation a t illustr e par de nombreuses exp riences apr s que PTACEK ET SANDER eurent mis en vidence des diff rences physiologiques lors de la phonation dans un groupe de locuteurs de moins de quarante ans par rapport a un groupe de locuteurs de plus de soixante cing ans PTACEK ET SANDER 1966 SHIPP et HOLLIEN montrent la capacit des auditeurs a classer des locuteurs comme jeunes adultes ou vieux et a determiner leur d cennie SHIPP ET HOLLIEN 1969 Lors d une estimation directe de l ge ils tablissent une corr lation de 0 88 entre l ge chronologique CA des locuteurs et l ge per u PA Ces r sultats ont t confirm s notamment par RYAN et BURK avec une corr lation de 0 74 par HORII ET RYAN avec une corr lation de 0 76 par NEIMAN et APPLEGATE avec une corr lation de 0 88 et par BRAUN avec une corr lation de 0 68 RYAN ET BURK 1974 HORII ET RYAN 1981 NEIMAN ET AP
194. OONG 1991 FURUI 1994 126 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 6 3 Mesure de similarit Le principe qui sous tend toutes les m thodes de mesure de similarit et de probabilit est la mod lisation des caract ristiques d pendantes du locuteur extraites lors de l analyse du signal Avant le d veloppement des algorithmes probabilistes la mesure de similarit tait ramen e un probl me de reconnaissance de formes o la distance tait calcul e sur la base de formes extraites des donn es de test et compar es aux formes de r f rence calcul es pour chaque locuteur partir des donn es d entrainement Les m thodes actuelles s attachent d crire la distribution statistique des caract ristiques extraites du signal et peuvent tre d finies comme des m thodes de mod lisation probabiliste de donn es multidimensionnelles De chaque fen tre d analyse sont extraits un certain nombre de param tres qui peuvent tre consid r s comme une quantit vectorielle Par exemple l extraction de douze param tres conduit la d finition d un vecteur dans un espace douze dimensions et chaque param tre constitue une coordonn e du vecteur mesur Cette interpr tation est particuli rement justifi e pour les coefficients de pr diction lin aire et les coefficients cepstraux qui sont des quantit s homog nes Les techniques de reconnaissance de formes
195. OPENSHAW ET AL 1993 RAMACHANDRAN ET AL 1995 Par contre aucune m thode de compensation de l effet du canal de transmission n a t utilis e pour d finir de mani re claire les limites du syst me et pour permettre de quantifier un apport ult rieur de techniques de compensation par exemple bas es sur la th orie des param tres manquants EL MALIKI ET DRYGAJLO 1998 7 2 1 2 Choix du classificateur Pour une application forensique le choix du classificateur d pend principalement de sa capacit a fonctionner en mode ind pendant du texte et a fournir une mesure de similarit sous la supra 6 2 3 3 2 Param tres d riv s de la pr diction lin aire 148 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE forme d un nombre r el faisant partie d un ensemble de donn es continues Plusieurs m thodes remplissent cette condition mais la mod lisation par m lange de fonctions de densit gaussiennes GMM repr sente l tat de l art pour la reconnaissance de locuteurs en mode ind pendant du texte lorsque la quantit de donn es n cessaire la constitution du mod le est suffisante Cette derniere condition est remplie dans le domaine forensique puisque le modele statistique de la voix des locuteurs est r alis soit a partir des sessions d enregistrement d une base de donn es pour la mod lisation de la variabilit interlocuteur soit partir des e
196. PLEGATE 1990 BRAUN 1996 Seule exception l tude de RAMIG qui ne met en vidence qu une corr lation de 0 17 RAMIG ET AL 1985 IN BRAUN 1996 La perception de l ge des locuteurs d pend aussi de l ge des auditeurs HUNTLEY ET AL 1987 de la difference d ge entre locuteurs et auditeurs SHIPP ET HOLLIEN 1969 et du sexe des auditeurs HARTMANN 1979 L tat physiologique du locuteur influence aussi la perception de son age par la voix RAMIG ET RINGEL 1983 La voix des locuteurs en bonne sant est pergue comme plus jeune que les autres RINGEL ET CHODZKO ZAJKO 1987 La consommation de tabac sous forme de fum e modifie l tat physiologique et histologique des organes participant la phonation et les fumeurs sont per us comme tant plus g s que les non fumeurs BRAUN ET RIETVELD 1995 4 3 3 3 8 Influence du temps coul entre l coute du message et l audition de comparaison Tableau IV 9 Dans l affaire State v Hauptmann le colonel Charles Lindbergh pr tendit identifier la voix de l accus comme tant celle du ravisseur de son fils kidnapp presque trois ans auparavant Bien que son t moignage fut accept en cour la d fense d clara qu une telle identification ne pouvait pas avoir valeur de preuve x Suite cette affaire MCGEHEE a montr que la fiabilit de l identification diminue rapidement lorsque l intervalle de temps entre les sessions est sup rieur deux s
197. PORT D UNE APPROCHE AUTOMATIQUE Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat pour chaque personne de la base de donn es Polyphone IPSC de la comparaison des messages anonymes avec voix normale et d guis e Test an et Test ad avec les sept mod les Session Polyphone Cellulaire Session Comparaison et Session Polyphone 1 a Session Polyphone 5 de la seconde personne de chaque paire de locutrices et de locuteurs Les rapports de vraisemblance de ces l ments de preuve sont calcul s de la mani re suivante le num rateur quivaut la densit de probabilit de l l ment de preuve E dans la distribution de la variabilit intralocuteur du locuteur dont provient l enregistrement analys Le d nominateur du rapport de vraisemblance quivaut la densit de probabilit de l l ment de preuve E dans la distribution interlocuteur de l enregistrement de test 8 11 3 2 R sultats Mod les et enregistrements de test Mod les et enregistrements de test enregistr s avec le m me t l phone enregistr s avec des t l phones diff rents Probabilit Probabilit o 01 0 2 0 5 1 2 5 10 20 50 100 200 soo 1000 o oi o2 os 1 20 58 10 20 so 100 200 500 1000 u LR sup rieur a LR sup rieur HI voix normale N 49 H2 voix normale N 49 Hl voix normale N 63 H2 voix normale N 63 Hl vo
198. PROCHE SPECTROGRAPHIQUE 99 5 2 2 6 4 Validation CUTLER JONES et WELCH mettent en vidence le caract re embryonnaire et exp rimental de la m thode d identification par comparaison visuelle de spectrogrammes vocaux l absence de fondement scientifique et de d monstration des hypoth ses de base qui la sous tendent l absence de d monstration de sa fiabilit l absence d acceptation par la communaut scientifique le caract re purement subjectif de l inf rence ultime de l identit sa valeur probante jug e incertaine et minimale et son haut potentiel trompeur l gard du jury CUTLER ET AL 1972 JONES 1973A JONES 1973B WELCH 1973 Ils mentionnent encore les r serves qui peuvent tre mises propos des personnes impliqu es dans le d veloppement de cette m thode et concluent que ce syst me ne devrait tre admis pour aucune t che ni d exclusion ni de corroboration Les conclusions du rapport lui m me sont d j quivoques En g n ral un examinateur entra n est clairement capable de reconna tre les spectrogrammes des m mes mots produits par le m me locuteur De plus lorsque des erreurs sont commises le taux de faux n gatifs erreur de type I est plus important que le taux de faux positifs erreur de type II LASHBROOK 1972 Aucun degr de validit de cette conclusion n est pr cis Tout laisse 4 penser qu il est question d une validit g n rale alors qu elle est en fait
199. Polyphone Cellulaire Session Comparaison et Session Polyphone 1 Session Polyphone 5 Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat pour chaque personne de la base de donn es Polyphone IPSC de la comparaison des enregistrements de test Test 1 Test 5 avec les sept mod les Session Polyphone Cellulaire Session Comparaison et Session Polyphone 1 Session Polyphone 5 de la seconde personne de chaque paire de locutrices et de locuteurs Les rapports de vraisemblance de ces l ments de preuve sont calcul s de la mani re suivante le num rateur quivaut la densit de probabilit de l l ment de preuve E dans la distribution de la variabilit intralocuteur du locuteur dont provient l enregistrement analys Le d nominateur du rapport de vraisemblance quivaut la densit de probabilit de l l ment de preuve E dans la distribution interlocuteur de l enregistrement de test 8 11 1 2 R sultats Probabilit Probabilit 5 10 20 50 100 200 500 1000 gt LR sup rieur A LR sup rieur Hl RTPC m me t l phone N 315 e H1 RTPC t l phone diff rent N 245 Hl RTPC m me t l phone N 315 e H2 RTPC m me t l phone N 245 H2 RTPC N 560 H2 RTPC N 560 Locutrices Locuteurs Figure VIII 17 R sultat de l valuation d
200. R M D 1976 Speaker sex identification from voiced whispered and filtered isolated vowels J Acoustic Soc Am vol 59 pp 675 678 Lass N J KELLY D T CUNNINGHAM C M 1980A A comparative study of speaker height and weight identification from voiced and whispered speech W Va Univ J Phonet vol 12 Lass N PHILIPS J K BRUCHEY C A 1980B The effect of filtered speech on speaker height and weight identification J Phonet vol 8 pp 90 100 262 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Lass N J ALMERINO C A JORDAN L F WALSH J N 1980C The effect of filtered speech on speaker race and sex identification J Phonet vol 8 pp 101 112 LAVER J 1980 The phonetic description of voice quality Cambridge University Press LEMPERT R O 1995 The honest scientist s guide to DNA evidence IN Human identification the use of DNA markers eds Weir B S Kluwer Academic Publishers Dordrecht Vol 4 pp 119 124 LEVIN H LORD W 1975 Speech pitch frequency as emotional state indicator IEEE Trans SMC vol 5 no 2 p 259 LEWIS S R 1984 Philosophy of Speaker Identification Police Applications of Speech and Tape Recording Analysis Proceedings of Acoustics vol 6 no 1 pp 69 77 L K HUGHES G
201. S 54 8 Vector Sum Excited Linear 3 7 93 68 cellulaire 1 g n ration Prediction VSELP USA T l phonique GSM Enhanced Full 12 2 Code Excited Linear Predictive cellulaire Rate EFR Coder CELP Europe 2 g n ration Telephonique GSM Half Rate HR 5 6 Code Excited Linear Predictive cellulaire 2 g n ration Coder CELP Europe Militaire DOD CELP 4 8 Code Excited Linear Predictive 3 0 93 67 FS 1016 Coder CELP Militaire LPC 10 2 4 Linear Prediction Coder LPC 2 5 90 54 FS 1015 Tableau II 1 Comparaison de la qualit du signal transmis par plusieurs systemes de codage JAYANT 1992 KONDOZ 1994 8 infra 6 2 3 1 Pr diction lin aire 20 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 2 3 4 Influence de la prise de son La qualit de la prise de son d pend des caract ristiques du microphone Figure II 4 et des caract ristiques acoustiques de l endroit o se trouve le locuteur alors que son locution d pend principalement de l environnement sonore de cet endroit La manifestation la plus connue de l influence de l environnement sur le locuteur est sans aucun doute l adaptation de l intensit de la voix au niveau sonore ambiant l effet LOMBARD LOMBARD 1911 IN HATON 1994 La conjonction de toutes ces influences peut contaminer le message de multiples fa ons par des bruits de fond de convolu
202. SIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 4 3 3 3 10 Influence des caract ristiques du canal de transmission Tableau IV 11 La diminution de la bande passante du canal de transmission affecte aussi les performances de reconnaissance de locuteurs L effet de filtres passe haut et passe bas est sym trique et les courbes de d gradation des performances sont centr es en 1500 Hz POLLACK ET AL 1954 A partir d chantillons de la voyelle i de 25 ms une seconde et demie COMPTON montre que pour un taux d identification donn la dur e de l chantillon doit augmenter si la largeur de bande du canal de transmission diminue COMPTON 1963 De m me le taux de reconnaissance de locuteurs partir de signaux transmis par t l phone ou ayant travers un codeur LPC est plus faible qu partir de signaux exempts de ces distorsions PAPAMICHALIS ET DODDINGTON 1984 Auteurs Ensemble de r f Caract ristiques du Caract ristiques du canal de Auditeurs T che et mesure de rence des locuteurs message transmission performance POLLACK ET 8 locuteurs Parole spontan e A Filtrage passe bas 7 Identification AL 1954 3 5 syl s B Filtrage passe haut A1 53 B1 84 1 100 Hz 2 250 Hz A2 54 B2 83 3 500 Hz 4 1 KHz A3 61 B3 81 5 2KHz 6 5 KHz A4 70 B4 78 A5 79 B5 72 A6 84 B6 55 MCGONEGAL A 8 locuteurset8 We were awaya 1 Filtre 100 Hz 2 6 KHz Auditeurs non D
203. Soci t Fran aise d Acoustique GFCP a labor et adopt une motion pr cisant que l identification de locuteurs est 140 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE un probl me non r solu que les m thodes utilis es ne sont pas fiables et demandant que tout sp cialiste se pr sentant comme expert en identification de locuteurs fasse la preuve de ses comp tences avant de proc der a toute expertise BOE 1998 Au moins un laboratoire a r pondu l appel d offres et a t retenu la soci t Microsurfaces sarl de Besan on exploitant des technologies d velopp es l cole Nationale Sup rieure de M canique et de Microtechnique de Besan on ENSMM et collaborant avec l Institut de Phon tique de Besan on Dans leur projet de recherche d empreintes g n tiques vocales les auteurs proposent de mettre en place les outils propres un syst me permettant d tablir un portrait robot vocal des individus quels que soient leur langue leur identit socioculturelle et leur tat physiologique En 1989 les premiers travaux de d veloppement du logiciel de REconnaissance Vocale Assist e par Ordinateur REVAO entrepris par la soci t Microsurfaces reposent sur l application de la g om trie fractale de MANDELBROT MANDELBROT 1983 Cette soci t avait d ja appliqu la th orie fractale dans le domaine forensique en d veloppant une m
204. Test RTC N 16000 H2 Mod le RTC Test GSM N 16000 Locutrices Locuteurs Figure VIII 14 R sultat de l valuation globale des rapports de vraisemblance en fonction du r seau t l phonique utilis pour les enregistrements de test 8 8 4 3 Discussion des r sultats Les performances sont tr s nettement diminu es lorsque l enregistrement du test provient du r seau cellulaire GSM et le mod le du r seau t l phonique public commut RTPC Figure VII 14 Ce r sultat met encore une fois en vidence la qualit de codage de la parole inf rieure dans le r seau t l phonique cellulaire que dans le r seau t l phonique commut et confirme qu il est n cessaire de r aliser tous les enregistrements dans un r seau homogene commut ou cellulaire Cette contrainte a pour cons quence de devoir utiliser une base de donn es enregistr e dans le m me type de r seau pour l valuation de la variabilit interlocuteur ce qui peut se r v ler un exercice difficile car les bases de donn es existantes enregistr es par l interm diaire du r seau cellulaire sont encore peu nombreuses 8 9 Evaluation de l influence du bruit de fond 8 9 1 Proc dure La pr sence de bruit de fond dans les enregistrements de test est susceptible d alt rer les performances de la m thode de reconnaissance de locuteurs L influence de ce param tre est quantifi e l aide d enregistrements de test bruit s artificiellement
205. UNIVERSITE FACULTE DE DROIT INSTITUT DE POLICE SCIENTIFIQUE ET DE CRIMINOLOGIE RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Th se de doctorat Pr sent e a l Institut de Police Scientifique et de Criminologie de l Universit de Lausanne par Didier Meuwly Licenci en sciences forensiques de l Universit de Lausanne Lausanne 2001 Institut de police scientifique et de criminologie UNIL Batiment de Chimie CH 1015 LAUSANNE DORIGNY T l 021 692 46 00 Fax 021 692 46 05 IMPRIMATUR A l issue de la soutenance de th se le Jury autorise l impression de la these de Monsieur Didier MEUWLY candidat au doctorat en sciences forensiques intitul e Reconnaissance automatique de locuteurs en sciences forensiques l apport d une approche automatique Le Pr sident du Jury e Professeur Andre KUHN Lausanne le 22 mai 2000 A mes parents A Nicole Res sons mis par la voix sont les symboles des dats de lame ct les mots crits les symboles des mots mis par la voix Gui de m me que l criture n est pas la m me chez tous les hommes les mots parl s ne sont pas non plus les m mes bien que les tats de l me dont ces expressions sont les signes imm diats soient identiques chez tous comme sont identiques aussi les choses dont ces tats sont les Images De interpretatione 1 16 a5 10 ARISTOTE 384 322 av J C
206. VI Approche automatique 6 1 Introduction 6 1 1 D finition 6 1 2 Historique 6 2 Analyse du signal de parole 6 2 1 Principes 6 2 2 Approches primaires 6 2 3 Approches actuelles 6 2 4 Conclusion 6 3 Mesure de similarit 6 3 1 Approches primaires 6 3 2 Approches actuelles 6 4 Systemes automatiques d velopp s en sciences forensiques 6 4 1 Semi Automatic Speaker Identification System SASIS USA 1971 1975 6 4 2 Automatic Recognition Of Speakers AUROS Allemagne 1977 6 4 3 Computer Assisted Voice Identification System CAVIS USA 1985 1989 6 4 4 Semi AUtomatic Speaker Identification system SAUSI USA 1976 1998 6 4 5 IDEntification Method IDEM Italie des 1991 6 4 6 REconnaissance Vocale Assist e par Ordinateur REVAO France 1988 1993 6 4 7 Approches r centes 6 5 Conclusion PARTIE 3 RECHERCHE EXPERIMENTALE VII D veloppement d un syst me automatique de reconnaissance de locuteurs 7 1 Introduction 7 2 Le systeme de reconnaissance de locuteurs 7 2 1 Definition g n rale du systeme 7 2 2 Architecture du systeme 7 2 3 Pr traitement du signal 7 3 M thode de calcul du rapport de vraisemblance 7 3 1 Production des donn es 7 3 2 Distribution des donn es 7 3 3 Estimation de la distribution par kernel density estimation 111 113 113 113 113 114 114 115 119 125 126 126 129 135 135 136 137 138 139 139 141 143 145
207. a Scientifica Salvatore OTTOLENGHI souligne qu un individu ne se reconna t pas seulement par ses attributs anatomiques mais aussi par la fa on qu il a de se pr senter par sa d marche par sa voix par sa mimique par son criture par sa force par son acuit sensorielle et par ses attitudes organiques visc rales OTTOLENGHI 1910 Avec beaucoup de d tails il analyse cette partie du signalement qu il appelle signalement descriptif fonctionnel et montre qu en plus de l observation de l anatomie celle de la physiologie peut contribuer l identification d une personne Le signalement physique doit tenir compte de la propri t que l individu a de parler car le langage peut offrir des caract ristiques de sa personnalit tr s importantes et faciles relever Pour comprendre les caract res du langage il faut en conna tre les m canismes de formation On ne doit pas s occuper ici du contenu du langage mais de la formation des mots et de leur mission Nous parlons surtout car nous entendons C est dire que des sons parviennent notre ouie Ils sont r colt s alors par notre organe auditif puis transmis au centre cortical premi re circonvolution temporale o s accumulent ces images acoustiques Quand on parle on r p te en fait des sons que l on a entendus une fois le sourd muet ne parle pas car il n entend pas Et qui a parl et perd la facult d entendre perd n cessairement la facult de parle
208. a densit de probabilit de l l ment de preuve E dans la distribution de la variabilit intralocuteur du locuteur dont provient l enregistrement analys Le d nominateur du rapport de vraisemblance quivaut la densit de probabilit de l l ment de preuve E dans la distribution interlocuteur de l enregistrement de test PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VIII EVALUATION DU SYSTEME 187 Probabilit Probabilit o 2 gt o 4t o 0 1 0 2 0 5 1 ES 10 20 50 100 200 500 1000 o o1 0 2 0 5 1 2 NS 10 20 50 100 200 500 1000 LR sup rieur LR sup rieur e H1 Mod le GSM Test RTPC N 16 Hl Mod le GSM Test GSM N 16 H1 Mod le GSM Test RTPC N 16 H1 Mod le GSM Test GSM N 16 Locutrices Locuteurs Figure VIII 13 R sultat de l valuation globale des rapports de vraisemblance lorsque le r seau t l phonique utilis pour l enregistrement des mod les est de type GSM 8 8 3 3 Discussion des r sultats L utilisation d un r seau cellulaire pour l enregistrement du mod le la place d un r seau t l phonique commut alt re les performances du syst me de reconnaissance automatique de locuteurs que les enregistrements de test proviennent du r seau t l phonique commut ou cellulaire Figure VIII 12 et VIIL13 Ce r sultat n est pas surprenant car la m thode de codage de la parole utilis e dans le r seau cellulaire assure une fid
209. a distribution des caract ristiques analys es dans l approche phon tique contribuant ainsi la valider Alliant toutes ces qualit s les enregistrements r alis s lors des proc dures d coute t l phonique seraient une source id ale pour constituer des bases de donn es dans les langues diverses et int ressantes dans l investigation 9 3 Utilisation dans la r alit de l approche automati que d velopp e 9 3 1 Aspects m thodologiques Cette recherche a contribu clarifier l aspect m thodologique des approches subjectives et objectives pratiqu es dans le domaine de la reconnaissance de locuteurs en sciences forensiques L exigence principale avant une utilisation consiste dans la possibilit de tester la m thode in situ car malgr la volont de calquer la r alit forensique au plus pres la proc dure d valuation men e dans cette recherche doit tre consid r e comme une valuation in vitro PARTIE IV SYNTHESE CHAPITRE IX DISCUSSION GENERALE 211 9 3 2 Aspects techniques Les r sultats pr sent s montrent que l information d pendante du locuteur contenue dans le signal de parole t l phonique est perdue lors de son enregistrement sur un support analogique de mauvaise qualit Le passage a l enregistrement dans un format num rique ad quat sans compression du signal est une condition sine qua non avant d envisager une quelconque proc dure d expertise en reconnaissance de locuteurs
210. a voix d pendent en premier lieu d attitudes apprises pour produire le code du langage et seulement partiellement de la structure anatomique Les spectrogrammes vocaux r sultant d une analyse de ces sons sont modifi s par les mouvements articulatoires exig s pour r aliser le code du langage et sont seulement indirectement corr l s l anatomie du locuteur Les d tails de ces dessins sont affect s par la croissance et les habitudes par les connaissances et l tat de sant du locuteur De plus le canal de transmission du locuteur au spectrographe est vuln rable aux distorsions acoustiques et lectriques 3 Les performances de la m thode d pendent de la t che des circonstances et de l examinateur 4 Les tudes men es dans ce domaine ne sont pas suffisantes pour aboutir une valuation objective 5 Les m thodes les proc dures et les tests de validit n ont pas t publi s par les auteurs PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE V APPROCHE SPECTROGRAPHIQUE 91 5 2 1 5 Prise de position du Federal Bureau of Investigation FBI Dans une lettre l diteur du Journal of Criminal Law Criminology and Police Science du 21 d cembre 1971 le directeur du FBI Edgar J Hoover r v le la position prudente de l agence vis vis de cette technique Nous estimons que la comparaison des empreintes vocales est utile des fins d investigation mais pour l in
211. abilit intralocuteur dans diff rentes situations et divers styles d locution 3 6 4 1 4 Constitution d enregistrements de test Pour les besoins de cette recherche les personnes s lectionn es pour jouer le r le des personnes mises en cause ont aussi contribu constituer un ensemble d enregistrements de test simulant les indices qui peuvent tre rencontr s en cas d abus de t l phone ou de mesure de surveillance 3 7 Conclusion Premi rement cette analyse m thodologique met en vidence la n cessit de pr senter l tat de l art dans le domaine de la reconnaissance de locuteurs en sciences forensiques Elle montre deuxi mement que la d marche scientifique est une d marche appropri e pour parvenir cette pr sentation de l tat de l art Troisi mement l analyse des diff rentes m thodes pratiqu es pour la reconnaissance de locuteurs en sciences forensiques conduit consid rer l approche automatique d un point de vue th orique et exp rimental plut t que les approches auditive ou spectrographique Quatri mement le r sultat de l tude des diff rents processus d inf rence de l identit envisag s pour la reconnaissance de locuteurs en sciences forensiques indique la conformit logique et l gale de l approche par valuation de rapports de vraisemblance Finalement l valuation empirique est consid r e comme le meilleur moyen d estimer les performances du syst me de reconnais
212. adre du proc s p nal le principe d individualit de la voix humaine a t implicitement accept d s le XVII si cle Le premier cas d identification de la voix d un suspect par un t moin remonte 1660 lors du proc s de l un des vingt neuf hommes jug s pour haute trahison 38 supra 1 2 2 La voix comme moyen d identification PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE IV APPROCHE AUDITIVE 57 ayant conduit l ex cution de Charles IS d Angleterre BOLT ET AL 1979 Cependant ce n est qu la fin du XIXe si cle que la valeur de la voix en tant que caract re d identit a t tudi e 4 3 1 Approche descriptive 4 3 1 1 L anthropom trie ou bertillonnage Des 1879 Alphonse BERTILLON propose une m thode de reconnaissance des r cidivistes bas e sur les mensurations de certaines longueurs somatiques particulierement invariables le signalement anthropom trique BERTILLON 1881 Il s assortit d une s rie de syst mes compl mentaires dont l ensemble a re u du professeur Alexandre Lacassagne le nom de bertillonnage Parmi les nombreux caract res d identit propos s a cette poque en police scientifique certaines particularit s d ordre physiologique telles que la d marche l allure le geste le regard et la parole sont inclus dans le signalement anthropom trique LOCARD 1909 La voix et le langage sont caract ris s pour la premi re fois dans les instructions
213. ais par exemple ici il y a un spot d nergie qui est sp cifique sur l enregistrement de question il appara t sur l chantillon de comparaison Il peut ne pas vous sembler le m me vous profanes non entra n s mais pour mon il entra n c est le m me Ici il y a un spot d nergie sur l enregistrement de question qui est une autre particularit qui devrait tre ici sur l enregistrement de comparaison Ce peut ne pas tre visible pour votre il non entra n mais pour mon il entra n je sais qu il est ici GRUBER ET POZA 1995 5 3 1 4 2 D cision La d cision d identification est subjective car elle est prise par l examinateur et non par le spectrographe L interpr tation des diff rentes ressemblances et diff rences d pend de l exp rience et de l entra nement Elle peut provenir d une transcription phon tique particuli re qui met l accent sur certaines ressemblances ou diff rences Les diff rences dans la familiarit avec les distorsions provoqu es par les technologies de communication et d enregistrement font que certains examinateurs sont plus habiles que d autres dans l interpr tation des distorsions pr sentes dans les chantillons Des diff rences existent aussi dans l assurance avec laquelle l examinateur approche les diff rentes t ches Certains examinateurs peuvent tre plus r serv s quant une d cision positive d identification dans un cas de crime s rieux que dans un cas de crime
214. aison Comparaison Comparaison 00 DECT 17 32 RTPC 32 10 RTPC 44 18 RTPC 40 01 DECT 17 33 DECT 01 11 DECT 38 19 DECT 37 04 RTPC 28 44 RTPC 32 12 RTPC 16 20 RTPC 16 05 RTPC 08 49 RTPC 28 13 DECT 26 22 RTPC 25 06 RTPC 11 54 RTPC 38 14 RTPC 47 39 DECT 96 07 DECT 67 55 RTPC 38 15 DECT 67 40 RTPC 09 08 DECT 81 58 RTPC 75 16 DECT 63 41 RTPC 28 09 DECT 01 59 RTPC 09 17 DECT 63 56 RTPC 44 ANNEXES ANNEXE VI BASE DE DONNEES Polyphone IPSC 237 A VL2 c Enregistrements de test Locutrice Test Test 1 Test 2 Test 3 Test 4 Test 5 Message Message cellulaire anonyme 1 anonyme 2 00 GSM 70 RTPC 17 RTPC 17 DECT 17 DECT 17 DECT 17 RTPC 17 RTPC 17 01 GSM 70 RTPC 17 RTPC 17 RTPC 17 RTPC 17 RTPC 17 DECT 17 DECT 17 04 GSM 70 RTPC 28 RTPC 28 RTPC 28 RTPC 28 RTPC 28 RTPC 28 RTPC 28 05 GSM 70 RTPC 08 RTPC 08 RTPC 16 RTPC 08 RTPC 08 RTPC 08 RTPC 08 06 GSM 70 RTPC 11 RTPC 11 RTPC 11 RTPC 11 RTPC 11 RTPC 11 RTPC 11 07 GSM 70 DECT 67 DECT 67 DECT 67 RTPC 67 DECT 67 RTPC 67 DECT 67 08 GSM 70 DECT 81 RTPC 81 RTPC 81 RTPC 81 RTPC 81 DECT 81 RTPC 81
215. ale LASS ET AL 1978 LASS ET AL 1980A Cependant ni la suppression de la fr quence fondamentale ni le filtrage passe bas ou passe haut 255 Hz LASS ET AL 1980B ni m me la suppression de la plage de fr quence des deux premiers formants GUNTER ET MANNING 1982 n affecte le jugement des auditeurs de facon significative Une mesure directe de la corr lation entre taille poids et fr quence fondamentale montre que l information sur le poids et la taille n est pas localis e dans ce seul param tre acoustique mais contenue dans le signal de parole tout entier KUNZEL 1989 4 3 3 3 5 D termination de la race du locuteur La capacit de d termination de la race par des auditeurs profanes a partir d un signal de parole a aussi t tudi e MERTZ ET KIMMEL 1978 LASS ET AL 1980C Le crit re de la couleur de la peau a t retenu comme crit re de distinction entre les diff rents groupes de locuteurs Or sur le plan biologique aucun crit re pr cis ne permet de distinguer un groupe humain et la plupart des caract ristiques physiques varient de mani re progressive et ind pendante parmi les personnes LANGANEY 1992 D une part dans une m me population les diff rences de couleur de peau peuvent tre grandes et d autre part une correspondance de la couleur de la peau n implique aucune ressemblance de la forme et du fonctionnement des organes participant la production de la parole Les ressemblan
216. alogique fabriqu en Suisse par Atis Uher SA Fontaines NE permet 24 heures d enregistrement de 40 pistes simultan es sur une seule bande magn tique de type VHS La qualit de l enregistrement r sultant est suffisante pour conserver une intelligibilit acceptable mais insuffisante pour sauvegarder int gralement la qualit du signal provenant du r seau t l phonique Finalement le Test 1 a t utilis pour fabriquer une s rie d enregistrements de test bruit s par addition d un bruit de fond enregistr lors d un ap ritif dans une salle contenant une centaine de personnes Huit enregistrements ont t produits avec un rapport signal sur bruit de 0 3 6 9 12 18 24 et 30 dB Annexe VI 3 e f g et h En principe les participants ont r alis ces enregistrements de test avec leur t l phone priv ou professionnel sauf le test r alis avec le t l phone cellulaire mis 4 leur disposition Quelques personnes ont aussi utilis leur propre t l phone cellulaire pour l enregistrement d une session de test Annexe VI 2 c 8 3 Proc dure d valuation du systeme La premi re phase de l valuation consiste valuer les limites th oriques du syst me sur la base des deux bases de donn es Polyphone Suisse Romande et Polyphone IPSC Dans une deuxi me phase l valuation du syst me consiste mettre en cause chacune des 32 personnes en comparant ses enregistrements de test av
217. amentale moyenne varie avec des param tres r gionaux ou sociaux c est par contre le cas pour l intonation Des deviations par rapport la norme de l accent peuvent tre not es et s lectionn es pour un examen acoustique ult rieur La fr quence fondamentale est d termin e par une analyse acoustique d chantillons comparables s lectionn s sur la base d une impression auditive pr liminaire FRENCH 1994 Le rythme de la parole et l aisance d expression sont aussi tudi s ainsi que les figures d elision et d assimilation Ces aspects de la parole contiennent un potentiel d identification individuelle tant donn les divergences qui peuvent appara tre entre locuteurs d un m me milieu social et r gional FRENCH 1994 4 4 1 2 2 Timbre ou qualit de la voix Le timbre est la combinaison des r sonances obtenues par la modulation du signal acoustique lors de l articulation et qui modifient sa composition spectrale Comme il s agit certainement de l l ment le plus subjectif mais aussi le plus repr sentatif d une voix donn e il est beaucoup plus ouvert une analyse auditive perceptive qu une analyse phon tique acoustique Les impressions auditives du timbre peuvent tre not es soit de fa on informelle soit l aide d un syst me d valuation formalis LAVER 1980 Un enregistrement compos d une alternance d extraits d chantillons inconnus et de comparaison peut permettre de c
218. analogique analogique analogique analogique Parole spontan e L18 test1 L19 test1 L20 test1 L22 test1 L39 test1 L40 test1 L41 test1 L56 test1 L18 test2 L19 test2 L20 test2 L22 test2 L39 test2 L40 test2 L41 test2 L56 test2 L18 test3 L19 test3 L20 test3 L22 test3 L39 test3 L40 test3 L41 test3 L56 test3 L18 test4 L19 test4 L20 test4 L22 test4 L39 test4 L40 test4 L41 test4 L56 test4 L18 test5 L19 test5 L20 test5 L22 test5 L39 test5 L40 test5 L41 test5 L56 test5 BIBLIOGRAPHIE BIBLIOGRAPHIE ABBERTON E FOURCIN A J 1978 Intonation and speaker identification Language and Speech vol 21 pp 305 318 AIGRIN P 1996 Experts alibis experts pi g s experts responsables Le Monde p 15 23 octobre AITKEN C G G 1995 Statistics and the evaluation of evidence for forensic scientists John Wiley amp Sons Chichester ALEXANDERSON R 1997 Communication personnelle 30 janvier ALLPORT G W 1963 Pattern and growth in personality Holt Rinehart amp Winston New York ALLPORT G W CANTRIL H 1934 Judging personality from voice J Soc Psychol vol 5 pp 37 55 ANGHELESCU I 1974 Methode d identification des personnes d apr s la voix et la mani re de parler en roumain RIPC vol 28 no 274 pp 2 8 ANGHELESCU I 1985 L expertise criminalistique de la vo
219. ant une centaine de personnes ce qui correspond au type de bruit que l on peut retrouver dans un lieu public Ce type de bruit additif est particuli rement d favorable car il est lui m me constitu de parole Les r sultats indiquent clairement que les performances sont inversement proportionnelles au niveau du bruit de fond Un rapport signal bruit de 18 dB semble la limite inf rieure pour l obtention d un r sultat exploitable avec la m thode utilis e et partir d un rapport signal sur bruit de 6 dB les rapports de vraisemblance mis en vidence lorsque l hypoth se H est v rifi e se confondent avec les rapports de vraisemblance mis en vidence lorsque l hypoth se H est v rifi e Figure VIIL 15 L avenir des m thodes de reconnaissance de locuteurs en sciences forensiques notamment passe par le d veloppement de techniques de compensation efficaces permettant d exploiter des signaux bruit s mais aucune technique universelle de compensation du bruit de fond n a encore t propos e 15 supra 2 3 4 Influence de la prise de son PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VIII EVALUATION DU SYSTEME 191 8 10 Evaluation de l influence du systeme d enregis trement des indices 8 10 1 Proc dure L influence du systeme utilis pour l enregistrement des indices est susceptible d influencer les performances du systeme de reconnaissance automatique de locuteurs surtout lorsque le systeme utilis
220. antillons BIMBOT ET AL 1994 3 4 3 3 2 Aspects forensiques L absence complete de ma trise du criminaliste sur l indice milite en faveur de l utilisation de m thodes de reconnaissance ind pendantes du texte La reconnaissance de locuteurs par l audition est ind pendante du texte lorsqu elle est effectu e par des profanes et ne n cessite qu une d pendance certains v nements phon tiques particuliers pr sents dans les diff rents chantillons lorsqu elle est r alis e par un expert La reconnaissance de locuteurs par spectrogrammes d marche essentiellement comparative exige une d pendance plus rigoureuse par rapport au texte La reconnaissance automatique de locuteurs conna t des m thodes d pendantes et ind pendantes du texte 3 4 4 Choix d une m thode Dans cette recherche plusieurs raisons ont conduit consid rer l approche automatique d un point de vue th orique et exp rimental plut t que les approches auditive ou spectrographique Premi rement la d marche scientifique choisie tend vers une minimisation du facteur humain et vers une objectivation des m thodes d analyse Deuxi mement seule une proc dure automatis e permet d aborder le probl me d une mani re r ellement statistique par la prise en compte d un nombre significatif d hypoth ses alternatives Finalement l automatisation s inscrit dans la tendance actuelle d optimisation des processus inclus dans le domaine de l exp
221. aphie TABLE DES MATIERES Sommaire Table des mati res PARTIE 1 APPROCHE THEORIQUE I Introduction 1 1 La notion d identit en sciences forensiques 1 1 1 D finitions 1 1 2 Concepts et raisonnement 1 2 La voix comme caract re d identit 1 2 1 La voix humaine 1 2 2 La voix comme moyen d identification 1 3 Le r le des probabilit s dans l identification 1 3 1 Definitions 1 3 2 Limites de l approche subjective 1 3 3 Limites de l approche statistique 1 4 Hypoth se de la recherche 1 5 Objectifs de la recherche 1 6 Contributions majeures 1 7 Organisation de la recherche II La voix comme indice mat riel 2 1 Introduction 2 2 Cadre l gal 2 2 1 Conditions de recevabilit d un enregistrement t l phonique en Suisse 2 2 2 La proc dure d coute t l phonique en Suisse 2 3 Collecte de l indice mat riel 2 3 1 Description et repr sentation du signal de parole 2 3 2 Mesure de la qualit de la parole 2 3 3 Influence du syst me de codage num rique de l information 2 3 4 Influence de la prise de son 2 3 5 Influence du canal de transmission HI 11 11 12 12 13 14 15 16 16 20 20 IV RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 2 4 2 3 6 Influence du systeme d enregistrement 2 3 7 Influence du type d investigation 2 3 8 Influence du locuteur Conclusion III M thodologie 3 1 3 2 3 3
222. aptis e G 711 elle est bas e sur l algorithme PCM le signal est num ris avec une fr quence d chantillonnage de 8 kHz et quantifi de mani re non uniforme sur 8 bits selon la loi A en Europe et la loi u aux Etats Unis dont les qualit s sont quivalentes Ce d bit binaire de 64 kbits s assure une bande passante de 300 3400 Hz Les normes G 721 et G 726 d finies en 1984 et 1990 sont bas es sur l algorithme Adaptive Differential Pulse Code Modulation ADPCM qui ne code plus directement l amplitude de 18 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE l chantillon mais seulement la diff rence entre l amplitude et une valeur pr dite par un filtrage de type adaptatif ce qui permet une r duction du d bit binaire 32 kbits s G 721 ou un d bit variable de 40 32 24 et 16 kbits s7 G 726 En 1991 ITU T a s lectionn un syst me de codage 16 kbits s G 728 bas sur une technique hybride de mod lisation et de quantification vectorielle l algorithme Low Delay Code Excited Linear Prediction Coder LD CELP qui pr sente un faible d lai de reconstruction propri t particuli rement importante pour un change t l phonique Tableau II 1 Le standard G 729 d fini par ITU T pour le syst me de codage 8 kbits s est un compromis entre l algorithme Algebraic Code Excited Linear Prediction Coder ACELP pr sent par l Universit de Sherbro
223. arable a celle qui peut tre atteinte lors de l enregistrement d un message anonyme ou d une coute t l phonique Les diff rentes conditions d finies pour les enregistrements de comparaison et les enregistrements utilis s pour le calcul des mod les doivent servir 4 circonscrire au mieux la proc dure n cessaire l obtention d une valuation r aliste de la variabilit intralocuteur Quant aux diff rentes conditions pr sentes dans les enregistrements de test les indices dans un cas r el doivent permettre de cerner les limites d application du syst me dans un cadre forensique L valuation du syst me se poursuit par l estimation des limites th oriques du syst me de reconnaissance d velopp dans le chapitre VII et se termine par une valuation des performances du syst me dans diff rentes conditions qui peuvent tre rencontr es dans le cadre d une application forensique Cette derni re partie sert aussi illustrer et d montrer la capacit de la m thode valuer de mani re satisfaisante tout syst me automatique de reconnaissance de locuteurs vocation forensique 8 2 Enregistrement et s lection de bases de donn es Cette tape consiste enregistrer ou s lectionner les deux bases de donn es la premi re servant estimer la variabilit interlocuteur l int rieur de la population des locuteurs qui sont potentiellement l origine de l enregistrement consid r comme indice la seconde s
224. aract ris e par ses fr quences de r sonance et leurs harmoniques Comme le tractus vocal n est pas uniforme les fr quences propres sont in galement espac es en fr quence Ces zones o l intensit des harmoniques est plus importante sont appel es formants ou fr quences formantiques La perception des voyelles est largement d termin e par leurs trois premiers formants abr g s F F et F DODDINGTON 1970 FANT 1973 Si la fr quence fondamentale d un locuteur augmente alors qu il conserve la m me articulation les indices d harmoniques diminuent alors que les formants ne changent pas ORMEZZANO ET ROCH 1991 La mesure de la largeur de bande des formants qui reste une op ration difficile a t r alis e notamment par FURUI 1989 F de 30 120Hz moyenne 50Hz F de 30 200 Hz moyenne 60Hz F de 40 300Hz moyenne 115Hz 78 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Voyelles frangaises 1 formant F Hz 2 me formant F Hz g me formant F Hz i 280 2300 2950 e 350 1950 2550 e 450 1800 2470 a 660 1350 2380 a 620 1150 2250 gt 480 1050 2250 o 360 780 2230 u 290 850 2270 y 290 1800 2140 360 1450 2290 490 1380 2270 a 480 1400 2200 Tableau IV 11 Valeurs formantiques des voyelles orales du frangais GROSJEAN 1995 Il existe une relation en
225. aract ristique et sa distribution doivent rester stables au cours du temps pour un locuteur donn en particulier elle ne doit pas tre affect e par des l ments perturbant le locuteur tels que la sant l tat motionnel ou le contexte de la communication La robustesse la caract ristique doit tre insensible aux perturbations du signal de parole occasionn es par la prise de son le canal de transmission ou le syst me d enregistrement WOLF 1972 BOITE ET KUNT 1987 THEVENAZ 1993 HOMAYOUNPOUR ET CHOLLET 1995 L analyse de la s lection des caract ristiques d velopp e par KWAN dans le domaine forensique concorde avec ces crit res mais l auteur rel ve avec pertinence l importance d une distribution rectangulaire des caract ristiques et de l absence de corr lation entre les 8 q caract ristiques analys es en vue d augmenter le pouvoir discriminatoire de la methode KWAN 1977 BREMERMANN observe d autre part que le choix judicieux des caract ristiques conditionne plus de la moiti de l efficacit de l identification aucun traitement math matique post rieur ne saurait combler des caract ristiques mal choisies BREMERMANN 1971 IN KWAN 1977 34 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Selon la m thode adopt e l extraction des caract ristiques d pendantes du locuteur est op r e soit par un expert de mani re auditive et l ai
226. arole spontan e Figure VIII 4 Par contre l influence de la dur e de ces enregistrements est peu importante particuli rement lorsque les diff rents enregistrements ont t r alis s depuis plusieurs t l phones Dans le domaine forensique ce r sultat indique que la session d enregistrement de comparaison doit proposer des exercices favorisant plusieurs styles d locution pour mod liser correctement la variabilit intralocuteur le choix devrait se baser sur le ou les styles d locution pr sents dans l indice Une session de commentaire de diapositives comparable celle constitu e pour l enregistrement de la Session Comparaison de la base de donn es Polyphone IPSC est un moyen d y parvenir Sans pr paration cet exercice de lecture et de description d images n cessite toute l attention du locuteur et contribue obtenir une spontan it acceptable en effet un contr le conscient de l locution est difficile durant ce type d exercice car il nuit la fluidit du discours et se remarque rapidement L exercice de simulation de dialogues est particuli rement concluant pour les personnes qui maitrisent parfaitement la lecture car elles se prennent facilement a ce jeu Pour les personnes qui ne maitrisent pas parfaitement la lecture la description d images reste le meilleur moyen d obtenir une locution fluide et spontan e 8 7 Evaluation de l influence d un d guisement de la voix 8 7 1 D gui
227. at determine speaker recognition ESD TR 66 636 Bedford Mass Electronic systems division Air force Systems commands U S Air Force CLIFFORD B R 1980 Voice identification by human listeners on earwitness reliability Law and Human Behaviour vol 4 no 4 pp 373 394 CLIFFORD B R BULL R H RATHBORN H A 1981 Voice identification Res Bull no 11 pp 18 20 COLEMAN R O 1973 Speaker identification in the absence of intersubject differences in glottal source characteristics J Acoustic Soc Am vol 53 pp 1741 1743 COLEMAN R O 1976 A comparison of the two vocal characteristics to the perception of maleness and femaleness in the voice J Speech Hearing Res vol 19 pp 168 180 COMPTON A J 1963 Effects of filtering and vocal duration upon the identification of speakers aurally J Acoustic Soc Am vol 35 pp 1748 1752 CorsI P 1982 Speaker recognition A survey IN Automatic speech analysis and recognition ed Haton J P D Reidel Dordrecht Holland pp 277 308 CURRAN J M TRIGGS C M BUCKLETON J S WALSH K A J Hicks T N 1998 Assessing transfer probabilitites in a Bayesian interpretation of forensic glass evidence Science amp Justice vol 38 no 1 pp 15 21 CURRAN J Hicks T N BUCKLETON J 2000 Evidentiary value
228. ate car elle est subjective et d pend de nombreux param tres Plusieurs chelles permettent d valuer globalement cette qualit mais les param tres sur lesquels ces chelles sont d finies sont tous centr s sur le probl me de la qualit subjective de la perception bien qu un syst me de communication vocal doive non seulement garantir un confort de perception mais aussi pr server les caract ristiques permettant l identification de chaque voix SCHMIDT NIELSEN ET STERN 1985 Le Mean Opinion Score MOS est une chelle gradu e sur cinq niveaux 1 mauvais bad 2 m diocre poor 3 suffisant fair 4 bon good et 5 excellent excellent DAUMER 1982 Des scores plus lev s que 4 0 correspondent une qualit lev e ou un syst me de codage du signal presque transparent La qualit th orique du r seau t l phonique public commut se situe entre 4 0 et 4 5 mais pour que cette qualit soit atteinte tous les l ments du r seau doivent se trouver ce niveau De fait la qualit r elle des r seaux est toujours en de de cette qualit th orique mais cette information n est pas disponible car elle fait partie des donn es sensibles des entreprises de t l communication Des scores entre 3 5 et 4 0 correspondent une qualit de communication de t l phonie cellulaire ou de synth se vocale Ce niveau de qualit est caract ris par une d gradation ais ment d tectable sans pour autant
229. ation de l influence d un d guisement de la voix 177 8 7 1 D guisement de la voix dans les enregistrements de comparaison 177 8 7 2 D guisement de la voix dans les enregistrements de test 179 8 8 valuation de l influence du r seau de la ligne et du t l phone 182 8 8 1 Influence du t l phone et de la ligne t l phonique utilis s pour l enregistrement des mod les 182 8 8 2 Influence du t l phone et de la ligne t l phonique utilis s pour les enregistrements de test 183 Vil RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 8 8 3 Influence du r seau utilis pour l enregistrement des mod les 8 8 4 Influence du r seau utilis pour la production des enregistrements de test 8 9 Evaluation de l influence du bruit de fond 8 9 1 Proc dure 8 9 2 R sultats 8 9 3 Discussion des r sultats 8 10 valuation de l influence du systeme d enregistrement des indices 8 10 1 Proc dure 8 10 2 R sultats 8 10 3 Discussion des r sultats 8 11 valuation de l influence de voix auditivement proches 8 11 1 Influence du t l phone et de la ligne t l phonique 8 11 2 Influence du r seau t l phonique 8 11 3 Influence d un d guisement de la voix 8 11 4 Discussion sur les voix auditivement proches PARTIE 4 SYNTHESE IX Discussion g n rale 9 1 Introduction 9 2 Bilan de la recherche 9 2 1 R flexion sur la d marche 9 2 2 R flexion sur les m thodes 9 2 3 Situa
230. ation sur les r seaux de t l communication offre par contre la possibilit pour l utilisateur final de recourir au cryptage de l information transmise avec des algorithmes de cryptage puissants strong encryption inviolables par la seule puissance de calcul des ordinateurs actuels en un temps raisonnable L encryptage puissant des donn es informatiques est possible avec des algorithmes de cryptage de type Data Encryption System DES dont certains comme Pretty Good Privacy PGP sont disponibles gratuitement sur le r seau Internet Le cryptage des donn es audio est encore r serv une certaine cat gorie d utilisateurs mais des solutions commerciales comme le concept de Total Information Security d velopp par l entreprise suisse Crypto AG offrent des possibilit s d encryptage puissant non seulement aux arm es la diplomatie et aux polices mais aussi aux entreprises et aux personnes priv es pour leurs communications vocales et informatiques sur les diff rents r seaux t l phoniques RTPC RNIS GSM et satellitaires Ce type de technologie est consid r comme sensible dans certains pays dont la France et les Etats Unis et sa mise disposition de tout utilisateur sans contr le risquerait moyen terme de rendre inop rante toute mesure officielle de surveillance des t l communications Dans un expos intitul Impact of Encryption on Law Enforcement and Public Safety pr sent le 25 juillet 1996 devant la
231. atique ou la proximit statistique entre l indice mat riel et la voix des locuteurs de la population potentielle Cette estimation empirique est r alis e en supra 2 3 Collecte de l indice mat riel supra 2 3 7 1 Influence de l investigation pr liminaire 28 infra 4 3 3 3 6 D termination du genre du locuteur 52 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE comparant la voix de l indice avec chacun des mod les des voix des locuteurs de la premi re base de donn es 3 6 4 1 3 Estimation de la variabilit intralocuteur Cette base de donn es est constitu e des enregistrements de la personne suspect e d tre la source de l indice Le r le de cette base de donn es consiste mesurer la variabilit intralocuteur de la personne mise en cause c est a dire 4 mesurer la distance math matique ou la proximit statistique des nonc s de cette personne avec les mod les de sa propre voix Deux types d enregistrement lui sont demand s Premi rement l enregistrement de plusieurs sessions en tous points analogues aux sessions existant dans la base de donn es interlocuteur si possible r parties sur une p riode de temps comparable a celle de l affaire pour permettre une valuation de la variabilit intralocuteur sur la m me dur e deuxi mement l enregistrement d une longue session de 5 15 minutes selon les locuteurs de mani re mod liser la vari
232. aux d erreur probable Mais j accepterais un minimum de 6 comme estimation sommaire de la possibilit d effectuer une fausse identification en supposant bien stir qu il ne s agisse ni de voix de femmes ni d imitation et que Videntification ait t faite par un investigateur exp riment et responsable LADEFOGED ET VANDERSLICE 1967 LADEFOGED mentionne tout de m me que la fiabilit de la m thode est entierement d pendante de l examinateur dont il propose de mesurer les performances par un indice qu il nomme confusability factor CUTLER ET AL 1972 La carri re d examinateur de spectrogrammes de NASH aupr s de la police d tat du Michigan se termine cependant apr s deux erreurs commises lors de d positions en cour La premi re eut lieu en 1973 dans le cas California v Chapter L examinateur se trouve face plusieurs suspects configuration appel e voice lineup et pr tend que la voix no 4 est celle de l accus alors qu il s agit de celle du procureur du district De plus TOSI avait dit le jour pr c dent en cour qu un examinateur comparant le phon me e de key avec le phon me e de mate tait incomp tent ce que NASH avait pr cis ment fait L association entre TOSI et NASH continue pourtant dans Michigan v Chaisson en 1974 Dans ce cas NASH rend une identification positive de l accus sur la base de la comparaison de douze mots cibles La cour demande a TOSI
233. bilit se fait au d triment des caract ristiques d pendantes du locuteur ce qui n est pas sans poser certaines questions sur l identification des interlocuteurs Le systeme de codage exploit par le r seau satellitaire INMARSAT International Maritime Satellite est bas sur l algorithme Multi Band Excitation MBE dont le d bit binaire est de 16 kbits s Les communications militaires de l arm e des tats Unis de l OTAN et de l Arm e Suisse utilisent un syst me de codage FS 1016 standardis par le d partement de la D fense des tats Unis USDoD et bas sur un algorithme CELP 4 8 kbits s KONDOZ 1994 DRYGAJLO 1999 Tableau II 1 Type de Standard de co Taux de trans Syst me de codage MOS DRT DAM r seau dage num rique fert kbits s 7 T l phonique G 711 64 Pulse Code Modulation PCM 4 3 95 73 commut 1 g n ration T l phonique G 721 32 Adaptive Differential Pulse Code commut 2 g n ration Modulation ADPCM 4 1 94 68 T l phonique G 726 16 40 Code Excited Linear Predictive commut 2 g n ration Coder CELP T l phonique G 728 16 Code Excited Linear Predictive 4 0 94 70 commut 3 g n ration Coder CELP T l phonique INMARSAT 16 Muti Band Excitation MBE satellitaire Standard B T l phonique GSM 13 Regular Pulse Excitation Long cellulaire 1 g n ration Term Prediction RPE LTP Europe T l phonique CTIA I
234. bruit de fond Avec un bruit de fond constitu de parole humaine tel qu il existe dans les lieux publics un rapport signal sur bruit de 18 dB semble la limite inf rieure pour l obtention d un r sultat exploitable Le type de mat riel d enregistrement utilis pour la collecte de l indice et de l enregistrement de comparaison est pr pond rant avec le systeme de reconnaissance d velopp seule l utilisation PARTIE IV SYNTHESE CHAPITRE IX DISCUSSION GENERALE 209 d un quipement d enregistrement num rique capable d enregistrer directement l information v hicul e par le r seau t l phonique engendre des r sultats utilisables Finalement la composition de la population potentielle des auteurs de l indice peut avoir une importance essentielle sur les performances En effet comme les caract ristiques analys es ne sont pas sp cifiques mais seulement d pendantes du locuteur elles sont aussi influenc es par le systeme de transmission Les performances peuvent notoirement s amenuiser lorsque la population potentielle est r duite une personne dont la voix est proche de celle de l auteur et que celle ci est enregistr e dans une configuration t l phonique comparable par exemple avec le m me t l phone par la m me ligne t l phonique ou par l interm diaire de la m me cellule d un r seau cellulaire 9 2 4 2 2 Le programme d valuation comme base de comparaison de m thodes diff rent
235. cation de tests statistiques L valuation statistique repose sur la base de donn es t l phoniques Speaker Identification and Verification Archives SIVA Elle compte plus de 1000 locuteurs ayant appel de toute l Italie pour la mod lisation de la variabilit interlocuteur et 40 locuteurs enregistr s 20 reprises pour la mod lisation intralocuteur FALCONE ET DE SARIO 1994 PAOLONI 1999 6 4 6 REconnaissance Vocale Assist e par Ordinateur REVAO France 1988 1993 En 1989 le minist re fran ais de l Int rieur par l interm diaire du Centre d tudes et de Recherche de la Police Nationale et de la Direction des Transmissions et de l Informatique a lanc un appel d offres pour une Etude mise au point et pr sentation de moyens permettant une identification de locuteurs par des m thodes de comparaison partir d enregistrements magn tiques l administration fournissant des chantillons repr sentatifs des besoins le titulaire devant mettre au point un syst me pr sentant des taux de reconnaissance aussi lev s que possible le pr senter en fonctionnement et r aliser l ensemble des tests correspondant aux chantillons BOE 1998 Devant les exigences extr mes de ce cahier des charges aucun laboratoire en traitement de la parole universitaire ou du Centre National de Recherche Scientifique CNRS n y a r pondu En 1990 suite cet appel d offres le Groupe Communication Parl e de la
236. cation with the aid of spectrographic analysis J Assoc Offic Analyt Chem vol 56 no 4 pp 944 946 NATARAJAN M CLARKE R V JOHNSON B D 1995 Telephones as facilitators of drug dealing in crime environnements and situational prevention European Journal of Criminal Policy and Research vol 03 3 pp 137 153 NEIMANN G S APPLEGATE J A 1990 Accuracy of listeners judgements of perceived age relative to chronological age in adults Folia Phoniatrica vol 42 pp 327 330 NOLAN F 1983 The phonetic bases of speaker recognition Cambr Univ Press Cambridge UK NOLAN F 1990 The limitations of auditory phonetic speaker identification IN Texte zu Theorie und Praxis forensischer Linguistik ed Kniffka H M Niemeyer T bingen pp 457 479 NOLAN F 1991 Forensic phonetics Journal of Linguistics vol 27 pp 483 493 NOLAN F 1992 Code of practice Journal of the International Phonetic Association vol 1 amp 2 pp 80 81 BIBLIOGRAPHIE 265 NOLAN F 1995 Can the definition of each speaker be expected to come from the laboratory in the next decade Proceedings of the XIIth International Congress of Phonetic Sciences Stockholm vol 3 pp 130 137 NOLL P 1975 Technische Methoden zur berwachung verd chtiger Personen im Strafverfahren Revue P nale Suisse
237. cations poster pr sent lors de la conf rence annuelle de l IAFP Edinbourg MEUWLY D EL MALIKI M DRYGAJLO A 1998 Forensic Speaker Recognition Using Gaussian Mixture Models and a Bayesian Framework Proceedings of the 8th COST 250 workshop Ankara Speaker identification by man and by machine Directions for forensic applications pp 52 55 MEUWLY D 2000 Voice Analysis IN Encyclopedia of forensic science eds Siegel J Saukko P and Knupfer G Academic Press Ldt London UK pp 1413 1423 MOENSSENS A A INBAU F E STARRS J E 1986 Spectrographic voice recognition IN Scientific evidence in criminal cases 3 ed The foundation Press Inc Mineola New York USA pp 653 677 Moon T K 1996 The Expectation maximisation algorithm Proc IEEE pp 47 60 MosEs J P 1941 Theories regarding the relation of constitution and character through the voice Psychol Bull vol 38 pp 746 NAIK J M NETSCH L P DODDINGTON G R 1989 Speaker verification over long distance telephone lines ICASSP pp 524 527 NAKASONE H 1999 Communication personnelle 30 avril NAKASONE H MELVIN C 1989 C A V LS Computer Assisted Voice Identification System final report National Institute of Justice Grant no 85 IJ CX 0024 NasH E W 1973 Voice identifi
238. ce choisie pour effectuer la comparaison de ces vecteurs GISH ET SCHMIDT 1994 La m trique la plus simple utilis e pour la r alisation d un classificateur de distance minimale est la mesure de la distance euclidienne La mesure de distance peut galement tre bas e sur la mesure de corr lation entre les deux vecteurs de caract ristiques compar s Il est PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE VI APPROCHE AUTOMATIQUE 127 possible de modifier ces deux mesures de distance en pond rant chaque dimension de l espace vectoriel par la valeur de l inverse de sa variance entre diff rents nonc s du m me locuteur de mani re privil gier l influence des composantes les plus fiables du vecteur de caract ristiques BUNGE 1979 Le rendement optimal d un classificateur de distance minimale est obtenu lorsque les vecteurs de base de l espace vectoriel ne sont pas corr l s ce qui correspond a une situation particuliere rarement atteinte lors du choix des param tres Le calcul d une matrice de correlation des vecteurs de base permet de connaitre leur taux de corr lation et de modifier leur position par rotation dans l espace vectoriel jusqu obtenir leur orthogonalit par une analyse en composantes principales ou une transformation de Karhunen Loeve CORSI 1982 O SHAUGNESSY 1986 L application du classificateur de distance minimale 4 ces donn es orthogonales en consid rant la distance euclidienne
239. cellents r sultats un taux d erreur de type I de 0 5 pour la classification et des taux d erreur de type I et de type II de 1 pour la discrimination Malgr le d veloppement de techniques de compensation des variations du canal de transmission t l phonique le manque de robustesse de la m thode dans des conditions forensiques r elles a conduit son abandon dans les ann es 1980 BUNGE 1979 BUNGE 1991 6 4 3 Computer Assisted Voice Identification System CAVIS USA 1985 1989 Le projet CAVIS a t d velopp par NAKASONE et MELVIN et cofinanc par le Los Angeles County Sheriff s Department le National Institute of Justice et le United States Secret Service Le but est de d velopper un syst me objectif ind pendant du texte et du canal de transmission La base de donn es enregistr es pour l exp rimentation contient 10 chantillons de 30 s de parole spontan e provenant de 49 hommes blancs enregistr s par t l phone microphone et transmission radiophonique miniaturis e lors de deux sessions distantes d au moins deux mois L analyse de parole repose sur une num risation du signal chantillonn 10 24 KHz et quantifi sur 12 bits sur sa segmentation effectu e par un op rateur sur une base auditive et visuelle et sur une extraction des parties vois es du signal de mani re constituer un chantillon d au moins 10 s Cing param tres sont extraits de ce signal dans le domaine temporel sur la
240. cembre 1997 La surveillance est ordonn e par un magistrat de l ordre ex cutif ou judiciaire d sign par la loi et est effectu e par le prestataire de service de t l communication a la demande du service f d ral de la surveillance de la Poste et des t l communications Les enregistrements qui ne sont pas n cessaires pour l enqu te sont conserv s sous cl et d truits l issue de la proc dure Ils ne sauraient tre conserv s plus longtemps au titre de pi ces a conviction auxiliaires ni utilis s dans une autre proc dure sans tre soumis la consultation des parties GAUTHIER 1984 PIQUEREZ 1994 L avenement de la technologie des r seaux cellulaires num riques rend consid rablement plus difficile la proc dure d coute En effet s il est possible de d terminer facilement le num ro d appel d un t l phone portable achet avec un abonnement la situation d un appareil achet avec une carte pr paiement ou d un appareil vol est tr s diff rente Leurs num ros sont uniquement accessibles aux syst mes de scanners lectroniques qui interceptent la transmission des codes d identification des appareils des fins de facturation et l ventuel num ro d identification personnel de l utilisateur MCCULLEY ET RAPPAPORT 1993 IN NATARAJAN ET AL 1995 Malheureusement ce type de scanner permet aussi des utilisateurs ill gitimes d intercepter ces codes pour programmer des appareils
241. ceptation 15 1995 vitellins phrases ne provient familiers A2 69 faux rejet 17 27 autres personnes de jumeaux fausse acceptation 14 incluant 4 non B Toutes les paires de B1 48 faux rejet 29 Jas phrases provien fausse acceptation 23 nent de jumeaux B2 64 faux rejet 20 fausse acceptation 16 Tableau IV 5 Influence de la pr sence de voix auditivement proches 4 3 3 3 4 D termination de caract ristiques physiques g n rales du locuteur profiling Les premi res exp riences contr l es s attachent mesurer l aptitude de l auditeur d terminer les types physique et psychologique du locuteur SAPIR 1927 TAYLOR 1933 HERZOG 1933 ALLPORT ET CANTRIL 1934 KAISER 1939 1944 Selon plusieurs auteurs de cette poque il est m me possible de lui assigner un des trois types physiques d crits par KRETSCHMER KRETSCHMER 1922 BONAVENTURA 1935 FAY ET MIDDLETON 1940 MOSES 1941 Cependant MCGEHEE trouve que les performances des auditeurs sont faibles quant l valuation de l ge de la taille du poids et des caract ristiques de la personnalit des locuteurs MCGEHEE 1944 66 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE N anmoins plusieurs tudes ont sugg r qu une valuation du poids et de la taille du locuteur pouvait tre r alis e par des auditeurs profanes a partir de la fr quence fondament
242. ces per ues dans la parole et attribu es la race sont plut t rechercher dans des origines ethniques culturelles et sociales communes Sur le plan anatomique certains petits muscles participant la phonation comme les muscles thyro piglottiques inf rieurs thyro membraneux et crico thyro diens ou participant l articulation comme le muscle risorius qui r tracte les l vres pour sourire ne sont pas pr sents chez toutes les ethnies ou sont pr sents sous des formes diff rentes Tableau IV 6 MERKEL 1902 CATFORD 1977 Les r sultats de LASS montrent d ailleurs que la capacit d terminer si le locuteur est noir ou blanc varie entre 60 et 70 r sultat s approchant d une d cision prise au hasard LASS ET AL 1980C Pr sence des muscles Population Pr sence du muscle thyro piglottiques Muscles crico thyro diens risorius inf rieurs et Un seul Deux muscles soli Deux muscles thyromembraneux muscle daires au centre ind pendants Europ enne 85 Allemands 75 80 0 10 90 Asiatique 20 Japonais 80 100 Chinois 8 Japonais 34 Japonais 57 Japonais Tableau IV 6 Particularit s anatomiques de muscles participant la phonation selon la race CATFORD 1977 4 3 3 3 6 D termination du genre du locuteur Tableau IV 7 COLEMAN montre que la d termination du sexe par des auditeurs est corr l e 94 la hauteur de la fr quence fondamentale
243. chantillons pour proc der a leur alignement temporel en mode d pendant du texte LUMMIS 1973 6 2 2 1 2 Taux de passage par z ro Pour un signal num ris il y a passage par z ro dans la repr sentation temporelle lorsque deux chantillons successifs sont de signes oppos s Le comptage et le trac d histogrammes des passages par zero du signal traduisent bien que grossierement le contenu spectral Les valeurs du taux de passage par z ro sont normalement plus lev es pour les sons non vois s que pour les sons vois s Le taux de passage par z ro a long terme pr sente une r partition sensiblement gaussienne avec une moyenne de l ordre de 4 9 ms pour les sons non vois s et de 1 4 ms pour les sons vois s ces deux r partitions se recouvrent partiellement GUBRYNOWICZ LIN ET PILLAY ainsi que BASZTURA ET JURKIEWICZ ont montr l efficacit de l analyse court terme du taux de passage par zero en mode d pendant du texte alors que BASZTURA ET MAJEWSKI ont montr l efficacit de l analyse long terme de cette caract ristique en mode ind pendant du texte sur des chantillons de parole de 30 s 40 s GUBRYNOWICZ 1973 LIN ET PILLAY 1976 BASZTURA ET JURKIEWICZ 1978 BASZTURA ET MAJEWSKI 1978 GOPALAN ET MAHIL ont montr qu associ la mesure de l nergie court terme le taux de passage par z ro est efficace pour l analyse d chantillons de tr s courte dur e GOPALAN ET MAHIL 1991
244. chaque personne de la base de donn es Polyphone IPSC de la comparaison des enregistrements de test Test 1 Test 5 avec les cinq mod les de sa propre voix Session Polyphone 1 Session Polyphone 5 170 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat de la comparaison des m mes enregistrements de test Test 1 a Test 5 avec les modeles de la voix des 1000 locutrices ou des 1000 locuteurs de la base de donn es Polyphone Suisse Romande Les rapports de vraisemblance de ces l ments de preuve sont calcul s de la mani re suivante le num rateur quivaut la densit de probabilit de l l ment de preuve E dans la distribution de la variabilit intralocuteur du locuteur dont provient l enregistrement de test Le d nominateur du rapport de vraisemblance quivaut la densit de probabilit de l l ment de preuve E dans la distribution interlocuteur de l enregistrement de test 8 5 2 R sultats Cette procedure de test amene deux types de configurations dans la premiere l enregistrement de test est enregistr avant le mod le alors que dans la seconde il est enregistr apr s le mod le Enregistrement de test enregistr avant le mod le Enregistrement de test enregistr apr s le mod le Probabilit Probabilit
245. che de celle fournie par un mod le de m lange de fonctions de densit gaussiennes et les performances de ces deux m thodes sont comparables Lorsque les donn es disponibles pour l apprentissage sont suffisantes il semble toutefois que le mod le de m lange de fonctions de densit gaussiennes soit plus robuste A l oppos lorsque les enregistrements utilis s pour l apprentissage durent moins de 20 s la quantification vectorielle semble fournir une description 7 infra 6 3 2 3 Mod lisation par m lange de fonctions de densit gaussiennes PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE VI APPROCHE AUTOMATIQUE 131 plus fiable que le mod le de m lange gaussien qui n cessite l estimation d un grand nombre de param tres MATSUI ET FURUI 1992 CAPPE 1995 Le volume de donn es n cessaire l apprentissage peut tre estim suite l observation que les performances de reconnaissance ne s am liorent que tr s peu lorsque le nombre de vecteurs du dictionnaire d passe 2 ou 2 et l algorithme de quantification vectorielle ne fonctionne de mani re satisfaisante que si l on dispose d au moins 20 a 50 fois plus de vecteurs de donn es que de vecteurs du dictionnaire ce qui correspond a environ 20 s de parole avec une extraction des param tres tous les 10 ms SOONG ET AL 1985 ROSENBERG ET SOONG 1986 MATSUI ET FURUI 1992 En pratique une diminution tr s nette des performances est observ e lorsque la dur
246. circonstances mais elle comprend au maximum la population des tres humains de la Terre ou de la cat gorie d objets consid r s Le facteur de r duction est d fini par la sp cificit ou la raret des caract ristiques concordantes observ es entre un indice mat riel comme l enregistrement d un message anonyme et un enregistrement de comparaison par exemple l enregistrement de la voix d une personne mise en cause La conclusion de l identification est une opinion l expression d une probabilit subjective ou objective indiquant que la chance d observer sur la Terre une personne ou un objet pr sentant des caract ristiques concordantes tend vers z ro CHAMPOD ET MEUWLY 1998 1 2 La voix comme caract re d identit 1 2 1 La voix humaine La production de la parole trouve sa source dans l activit respiratoire dont elle est d pendante puisque l appareil de la phonation ne poss de pas d individualit anatomique Elle est le r sultat de deux fonctions m caniques de base la phonation et l articulation La phonation consiste en la production d un ph nom ne acoustique L articulation inclut la modulation de ce ph nom ne acoustique par les articulateurs principalement les l vres la langue et le palais ainsi que sa modulation par les cavit s supraglottiques orales et ou nasales GUYTON 1984 L nergie expiratoire est utilis e pour produire des bruits et ou mettre en mouvement les cordes vocales qui
247. cision L objet de l inf rence statistique est d utiliser au maximum l information incompl te dont on dispose Mais le saut qu implique ce passage de pr misses insuffisantes une conclusion ou une d cision ne peut se faire sans recours un principe par nature extrins que l information est ce qu elle est et aucune transformation tautologique ne pourra lui faire dire plus Le principe d inference utilis ne pourra donc jamais chapper totalement l arbitraire et est n cessairement d pendant de la conception qu on a de la nature de la connaissance MATALON 1967 Dans le domaine de l inf rence de l identit les deux types de probabilit s subjectives et objectives sont utilis s fait qui n est pas toujours reconnu LEWIS 1984 1 3 2 Limites de l approche subjective L approche subjective rend possible la prise en compte d une multitude de details imparfaitement reconnus et difficiles d finir ou cataloguer impossibles appr hender statistiquement FINKELSTEIN ET FAIRLEY 1970 Pour la voix humaine DODDINGTON d finit cette information comme l information de haut niveau v hicul e dans la parole DODDINGTON 1985 La critique principale de l approche subjective porte sur la difficult mesurer effectivement les probabilit s personnelles En effet la th orie d montre l existence chez un individu rationnel de probabilit s qui traduisent ses degr s de croyance mais e
248. clones d appareils l gitimes leur offrant ainsi la possibilit d une utilisation illicite virtuellement illimit e et sans grands risques NATARAJAN ET AL 1995 Cette proc dure est d autant plus facile que les logiciels informatiques et les instructions de reprogrammation des t l phones portables sont disponibles sur le r seau informatique Internet infra 2 3 8 Influence du locuteur 5 infra Annexe III Ordonnance sur le service de surveillance de la correspondance postale et des t l communications 14 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE GAURA 1994 IN NATARAJAN ET AL 1995 Comme contre mesure NATARAJAN mentionne la mise en place de systemes sommaires d identification de locuteurs capables de d tecter la pr sence d une voix inhabituelle mais l efficacit de cette m thode n est pas connue NATARAJAN ET AL 1995 La s curit devrait tre am lior e par la technologie de cryptage num rique et par celle qui consiste a modifier les codes d identification a chaque appel tumbling Par contre ces mesures devraient rendre tr s difficile voire impossible l coute t l phonique de communications et l identification d appareils quip s de ce syst me DE MARIA 1994 Finalement l arriv e sur le march d appareils t l phoniques portables dot s de m thodes cryptographiques robustes strong encryption du signal de parole rend
249. compagnies de t l communication comme American Telephone and Telegraphs AT amp T BRICKER ET AL 1971 SAMBUR 1975 ROSENBERG 1976A ou Nippon Telephones and Telegraphs NTT FURUI 1981B CAPPE 1995 Des recherches en vue d applications forensiques sont aussi entreprises comme le Semi Automatic Speaker Identification System SASIS d velopp par le Stanford Research Institute SRI puis Rockwell International ou le projet AUtomatic Recognition Of Speakers by computers AUROS con u en Allemagne chez Philips GmbH puis d velopp au BKA BECKER ET AL 1973 PAUL ET AL 1975 BUNGE 1977 A partir des ann es 1980 le d veloppement de l informatique et celui de nouvelles m thodes ont dynamis la recherche dans le domaine de la reconnaissance de locuteurs et actuellement de nombreux organismes travers le monde poursuivent des recherches dans ce domaine comme le montre la participation d une quinzaine de laboratoires la derni re valuation des algorithmes de reconnaissance de locuteurs propos e par le National Institute of STandards NIST des tats Unis PRZYBOCKI ET MARTIN 1998 114 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 6 2 Analyse du signal de parole 6 2 1 Principes Dans le domaine de la reconnaissance de locuteurs le traitement du signal vocal a pour but de fournir une repr sentation moins redondante de la parole que celle obtenue pa
250. cul de la fonction d autocorr lation sur l estimation de la source glottique 6 2 3 1 6 Application a la reconnaissance de locuteurs ATAL a tudi en d tail l utilisation de la pr diction lin aire pour la reconnaissance de locuteurs Il a compar plusieurs parametrisations d riv es de la pr diction lin aire comme les coefficients de r flexion les coefficients d autocorr lation les coefficients de fonction d aire et les coefficients cepstraux Il a montr la sup riorit des coefficients cepstraux par rapport aux autres repr sentations du signal de parole en obtenant un taux d identification de 98 avec des chantillons de test de plus de 0 5 s sur une base de donn es de dix locutrices enregistr es en deux sessions distantes de 27 jours ATAL 1974 FURUI ET ITAKURA sont parvenus des r sultats similaires avec une base de donn es de neufs locuteurs enregistr s sur une p riode de trois mois en utilisant des coefficients de corr lation partielle PARCOR d riv s d une analyse par pr diction lin aire FURUI ET ITAKURA 1973 SAMBUR s est int ress la pr diction lin aire orthogonale suite l observation exp rimentale de la redondance des coefficients de pr diction lin aire Cette redondance implique qu une analyse conventionnelle en composante principale peut tre appliqu e pour r duire l espace dimensionnel de la pr diction lin aire Deux param trisations d riv es ont t compar
251. cuteurs et en l absence d am liorations permettant de diminuer ou d liminer ce ph nom ne une valuation extensive de l intravariabilit de chaque personne soumise une analyse reste une n cessit L utilisation d un t l phone sans fil num rique de type Digital Enhanced Cordless Telecommunication DECT en lieu et place d un t l phone filaire est sans influence notable 8 8 3 Influence du r seau utilis pour l enregistrement des mod les 8 8 3 1 Proc dure Le fait que le mod le de la voix du locuteur soit enregistr partir du r seau t l phonique public commut RTPC ou du r seau t l phonique cellulaire GSM est susceptible d influencer les performances du syst me automatique de reconnaissance de locuteurs surtout si le r seau qui a servi la production des enregistrements de test est diff rent de celui qui a servi produire le mod le L influence de ce param tre est valu e l aide des deux mod les Session Polyphone 1 et Session Polyphone Cellulaire Pour chaque personne de la base de donn es Polyphone IPSC les deux enregistrements ont t effectu s le m me jour mais de mani re ind pendante environ une demi heure d intervalle 8 8 3 2 R sultats 8 8 3 2 1 Mod le RTPC GSM Test RTPC Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat pour chaque personne de la base de donn es Polyphone IPSC de la comparaison
252. cuteurs poss dant un accent comparable et ne permet certainement pas d aboutir l identification d un locuteur au del du doute raisonnable Tant qu une recherche extensive ne d montrera pas l utilit de l idiolecte dans la reconnaissance de locuteurs il faudra supposer que des chantillons dont les propri t s phon tiques linguistiques correspondent peuvent provenir de locuteurs diff rents NOLAN 1990 NOLAN 1991 D autre part l exp rience de SHIRT montre que l aptitude d un groupe de phon ticiens identifier un locuteur partir d chantillons de parole brefs sur la base de l impression auditive g n rale de la qualit et de la hauteur de la voix est peine sup rieure celle d un groupe d auditeurs inexperts SHIRT 1984 NOLAN 1990 PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE IV APPROCHE AUDITIVE 77 Rares sont les phon ticiens qui comme BALDWIN consid rent l approche auditive perceptive apte a identifier le locuteur a elle seule mais nombreux sont ceux qui combattent l argumentation d velopp e par NOLAN BALDWIN IN BALDWIN ET FRENCH 1990 NOLAN 1990 NOLAN 1991 KONZEL et BRAUN notamment citent une tude de KOSTER qui montre une certaine sup riorit des phon ticiens dans la tache de reconnaissance auditive de locuteurs par rapport aux deux groupes d auditeurs inexperts 100 contre 94 et 89 KOSTER 1987 K NZEL 1994B BRAUN 1995 Par contre l approche
253. d identification automatique des phon mes dans les applications ind pendantes du texte comme le montrent les exp riences de DAS ET MOHN et celles de HAIR ET REKIETA DAS ET MOHN 1971 HAIR ET REKIETA 1972 INGRAM 1995 M me la m thode r cente d velopp e par NEWMAN o la segmentation des phon mes repose sur une reconnaissance de parole ind pendante du locuteur dans un vocabulaire tendu ne permet pas de surpasser les m thodes bas es sur une analyse de la variabilit implicite du signal de parole NEWMAN ET AL 1996 IN FURUI 1997 Ces obstacles ont conduit les chercheurs se tourner vers l extraction de caract ristiques dynamiques et statistiques mesurables tout au long du signal de parole FURUI 1981B O SHAUGNESSY 1986 Cette volution fait suite ce qui s est pass dans le domaine de la reconnaissance de la parole o l approche acoustique phon tique bas e sur l extraction et la reconnaissance explicite des v nements acoustiques correspondant aux l ments phon tiques s est av r e moins efficace dans le cadre d applications pratiques que les m thodes de type reconnaissance de formes RABINER ET JUANG 1993 7 supra 4 4 2 L approche phon tique acoustique PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE VI APPROCHE AUTOMATIQUE 115 6 2 1 2 Analyse de la variabilit implicite du signal en fonction du locuteur L analyse de la variabilit implicite du signal en fonction du l
254. d un combin t l phonique muni d un couplage acoustique et c dans des conditions t l phoniques et un environnement bruyant 50 dB de bruit blanc mesur s au niveau de la t te du locuteur 4 Le contexte des mots cibles utilis s pour l identification a nonc s de mani re isol e b nonc s dans un contexte fixe et c nonc s dans des contextes libres pour lesquels diff rentes phrases ont t compar es 5 La taille de l ensemble de test comprenant soit a dix locuteurs b vingt locuteurs ou c quarante locuteurs 6 La variation intralocuteur temporelle Les spectrogrammes de test et de comparaison sont issus soit a de la m me session d enregistrement soit b de deux sessions distantes d un mois au minimum Contrairement au d roulement chronologique forensique les spectrogrammes de test ont t recueillis apr s ceux de comparaison 7 La t che confi e a l examinateur est soit une t che d identification en ensemble fini soit une t che d identification en ensemble infini Lors de la t che d identification en ensemble fini a un chantillon du locuteur test est pr sent dans l ensemble de r f rence des locuteurs alors que pour la t che d identification en ensemble infini l chantillon du locuteur test est pr sent dans la moiti des cas b dans l autre moiti il est absent c videmment l examinateur ne poss de que l information ensemble fini ou ensemble inf
255. d veloppement d une r flexion avanc e notamment sur la recevabilit de la preuve scientifique en justice et de la m thodologie qui sous tend la d monstration d une telle preuve Selon la Federal Rule of Evidence FRE 901 b 5 qui r gle la recevabilit des preuves en mati re d identification un t moignage reposant sur l identification auditive d un locuteur entendu de mani re directe ou par l interm diaire d un syst me de transmission ou d enregistrement est recevable La preuve scientifique quant elle est soumise des r gles de recevabilit depuis 1923 date laquelle une cour F d rale de justice des tats Unis a nonc la premi re r gle de recevabilit connue sous le nom de standard de Frye La cour tait confront e une preuve bas e sur une th orie scientifique nouvelle et non famili re pour laquelle il n existait aucun pr c dent ni principe tabli permettant d en d terminer la recevabilit Elle conclut que la validit et la fiabilit de la technologie utilis e devaient tre d termin es et d cida que cette technologie devait recevoir l acceptation g n rale des autorit s physiologiques et psychologiques comme indication ou preuve de fiabilit ou de validit LOEVINGER 1995 Le parti pris notoire des experts choisis et pay s par les parties ainsi que les abus constat s dans le recours aux experts ont conduit la Conf rence Judiciaire proposer de re
256. de de moyens de visualisation soit automatiquement sur la base d algorithmes d analyse du signal de parole Les caract ristiques prises en compte par les experts sont g n ralement li es a la r alit physiologique comme la fr quence fondamentale ou la hauteur et l tendue des formants alors que les caract ristiques extraites automatiquement sont plut t li es la r alit du traitement num rique des signaux il peut s agir de coefficients de pr diction lin aire de coefficients spectraux ou cepstraux ou encore de vecteurs obtenus par quantification vectorielle Malheureusement aucune caract ristique satisfaisant tous les crit res nonc s supra n a encore t isol e dans le signal de parole 3 4 2 2 Comparaison des caract ristiques La comparaison des caract ristiques extraites est r alis e soit de mani re subjective par un expert qui value les ressemblances et les diff rences entre les caract ristiques extraites de la voix inconnue et celles extraites de la voix de la personne mise en cause pr sentes dans l enregistrement de comparaison Cette comparaison peut aussi tre effectu e de mani re objective l aide d une m thode de reconnaissance automatique de locuteurs qui fournit un estimateur num rique repr sentant une distance math matique ou une proximit statistique entre la voix inconnue et la voix pr sente sur l enregistrement de comparaison Le r sultat de cette valuation rep
257. de la parole A Monsieur le Professeur Pierre Margot pour toutes les possibilit s qu il m a offertes de d couvrir et partager sa passion des sciences forensiques A Monsieur le Docteur Fr d ric Bimbot pour l int r t qu il porte l application forensique de la reconnaissance de locuteurs et la rigueur scientifique qui anime sa r flexion A Monsieur le Docteur Ton Broeders pour m avoir guid sur le difficile chemin de l expertise de reconnaissance de locuteurs par son ouverture d esprit et sa grande exp rience scientifique A Monsieur le Professeur Christophe Champod pour sa disponibilit de tous les instants et sa propension naturelle partager ses immenses connaissances dans le domaine de l interpr tation de la preuve scientifique A Monsieur Mounir El Maliki doctorant au laboratoire de traitement des signaux de l cole Polytechnique F d rale de Lausanne pour avoir su d chiffrer mes explications et les retranscrire en lignes de code efficaces avec un humour et une bonne humeur toute preuve A Monsieur Philippe Renevey doctorant au laboratoire de traitement des signaux de l cole Polytechnique F d rale de Lausanne pour sa dext rit dans l art du pilotage des stations UNIX A Monsieur Robert van Kommer responsable du laboratoire R amp D Digital Signal Processing de Swisscom pour m avoir mis gracieusement disposition la base de donn es Polyphone Suis
258. de la phon tique et des sciences de la parole Il doit viter de se prononcer positivement s il a le moindre doute il doit pouvoir utiliser autant de temps que n cessaire pour effectuer les contr les suffisants pour confirmer une conclusion L IAVI est habilit e juger des qualifications professionnelles des examinateurs faire passer des tests pour ceux qui veulent obtenir la qualification d expert et se donne comme mission d encourager la recherche dans ce domaine et de renforcer le code d thique 5 2 2 5 Prise de position de la communaut scientifique et juridique sur l tude de TOSI D s 1973 plusieurs tudes contredisent les r sultats et les conclusions de l tude de TOSI Bien que l chantillonnage soit plus restreint les r sultats de l tude de HAZEN montrent que le cumul des deux types d erreur I et Il se monte 52 lorsque le contexte dans lequel les nonc s sont enregistr s est diff rent HAZEN 1973 Quant l tude de BURKE ET COLEMAN effectu e avec des examinateurs naifs elle met en vidence qu aucune corr lation ne peut tre tir e entre les performances d identification et l ge le degr d instruction le degr de certitude dans la d cision le temps a disposition ou le nombre de mots cibles utilis s BURKE ET COLEMAN 1973 98 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Entre 1974 et 1979 plusieurs tud
259. de normalisation plut t que comme caract ristique d pendante du locuteur puisqu il se r v le tre trop sensible aux variations des caract ristiques d pendantes du locuteur et du canal de transmission ROSENBERG ET SOONG 1991 FURUI 1994 6 3 1 2 Alignement temporel par programmation dynamique 6 3 1 2 1 Principe L alignement temporel par programmation dynamique Dynamic Time Warping DTW est une m thode non param trique s quentielle applicable en mode d pendant du texte CAPPE 1995 Le principe a t d crit par Flanagan et impl ment originellement par DODDINGTON en 1970 sous le nom de warping function DODDINGTON 1970 Chaque nonc est repr sent par une s quence de vecteurs caract ristiques g n ralement li s au spectre court terme La variation temporelle de l nonc de r f rence et de l nonc de test est normalis e par alignement non lin aire de la s quence des vecteurs caract ristiques en utilisant l algorithme de programmation DTW FURUI 1997 La distance euclidienne cumul e calcul e entre l chantillon de r f rence et l chantillon de test sert la classification DODDINGTON 1985 6 3 1 2 2 Application Suite aux travaux de DODDINGTON l alignement temporel par programmation dynamique a t tudi par LUMMIS qui a utilis la valeur absolue de la diff rence entre les nergies des nonc s compar s pour proc der leur alignement LUMMIS 1973 En 1976 ROSEN
260. de preuve e d une part lorsque PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VII DEVELOPPEMENT D UN SYSTEME AUTOMATIQUE 159 l hypoth se H est v rifi e c est dire lorsque la source du mod le et celle de l enregistrement de test est unique et d autre part lorsque l hypoth se H est v rifi e c est dire lorsque la source du modele et celle de l enregistrement de test est diff rente 7 4 2 Pr sentation des r sultats Le choix s est port sur un mode de pr sentation propos par EVETT ET BUCKLETON dans le domaine de l interpr tation de l analyse g n tique forensique ces deux auteurs ont choisi de nommer ce mode de presentation Tippet plot en r f rence aux concepts dintravariabilite within source comparison et d intervariabilit between source comparison d finis par TIPPET ET AL TIPPET ET AL 1968 EVETT ET BUCKLETON 1996 Evett 2000 L axe des abscisses est gradu en termes de valeurs croissantes de rapports de vraisemblance LR L axe des ordonn es indique la probabilit que le r sultat du test exc de une valeur de LR donn e Chaque repr sentation graphique comporte deux courbes la premi re rend compte de l volution des rapports de vraisemblance estim s lorsque l hypoth se H est v rifi e alors que la seconde rend compte de la distribution des rapports de vraisemblance estim s lorsque l hypoth se H est v rifi e 7 4 3 Exemple L exemple suivant illu
261. de son pays A Tacha ma coll gue de bureau et amie qui durant six ans a constat avec moi que l arbre de la Connaissance pousse tr s lentement Je tiens galement remercier tous mes coll gues et amis de l Institut de Police Scientifique et de Criminologie Fr d ric Anglada Alexandre Anthonioz Monica Bonfanti Julien Cartier Mich le Claude Rapha l Coquoz Olivier Del mont Eric Dupasquier Eric Dtirst Pierre Esseiva Francoise Fridez Alain Gallusser Aita Khanmy Vital Eric Lock Jean Claude Martin William Mazzella Florence Monard Sermier C dric Neumann Jo lle Papilloud Christophe Reymond Olivier Ribaux Eric Sapin Franco Taroni et Christian Zingg AVANT PROPOS Le titre de cette recherche m rite tout d abord une explication Les sciences forensiques constituent l ensemble des principes scientifiques et des m thodes techniques appliqu es l investigation criminelle pour prouver l existence d un crime et aider la justice d terminer l identit de l auteur et son mode op ratoire La reconnaissance automatique de locuteurs s int resse aux processus de d cision informatis s qui utilisent quelques caract ristiques du signal de parole pour d terminer si une personne particuli re est l auteur d un nonc donn La reconnaissance automatique de locuteurs est relativement m connue du grand public car personne n a l exp rience de son utilisation dans la vie de tous les jours dans un syst m
262. dence Jurimetrics Journal of law science and technology vol 35 no 2 pp 153 190 LUCK J E 1969 Automatic speaker verification using cepstral measurements J Acoust Soc Am vol 46 pp 1026 1032 Lum Is R 1973 Speaker verification by computer using speech intensity for temporal registration IEEE Trans Audio amp Electroac vol AU 21 pp 80 89 MAJEWSKI W ZALEWSKI J HOLLIEN H 1979 Some remarks on different speaker identification techniques IN Current Issues in linguistic Theory eds Hollien H amp P John Benjamins B V Amsterdam vol 9 pp 829 835 MAKHOUL J Roucos S Gis H 1985 Vector quantization in speech coding Proc IEEE vol 73 no 11 pp 1551 1588 BIBLIOGRAPHIE 263 MAMMONE R J ZHANG X RAMACHANDRAN R P 1996 Robust speaker recognition A feature based approach IEEE Signal Processing Magazine pp 58 71 MAMOUX J P 1971 Identification de la voix humaine M decine l gale et dommage corporel no 4 pp 35 38 MANDELBROT B 1983 The fractal geometry of nature W H Freeman New York USA MARESCAL F 1999 The forensic speaker recognition method used in the French Gendarmerie European Union Symposium of Forensic Science Wiesbaden MARTIN E P 1967 Zur Frage des Beweiswertes von Tonbandaufnahmen im Straf
263. dence sont nettement plus lev s si celle ci amp quivaut 4 une personne auditivement proche Figure VIII 19 que lorsqu elle quivaut une personne de la m me langue de m me sexe et de m me accent tant pour les locutrices que pour les locuteurs Figure VIIL8 Lorsque la voix des enregistrements de test est d guis e et qu au d part il s agit d une voix auditivement proche les rapports de vraisemblance mis en vidence lorsque l hypoth se H est v rifi e se confondent avec les rapports de vraisemblance mis en vidence lorsque l hypoth se H est v rifi e D un point de vue forensique ce r sultat confirme que la m thode n est pas utilisable en pr sence d un d guisement de la voix dans l indice 8 11 4 Discussion sur les voix auditivement proches L hypoth se alternative que la personne mise en cause n est pas la source de l indice mais seulement une personne dont la voix est auditivement proche est la plupart du temps soulev e de mani re judicieuse par la d fense M me si sa pertinence doit tre examin e de cas en cas la soulever suffit souvent veiller le doute Lorsqu une telle hypoth se alternative existe l utilisation du syst me de reconnaissance automatique de locuteurs n cessite une connaissance du type de r seau t l phonique par lequel a transit l indice et du type de t l phone utilis par l auteur Cette information peut tre facilement recueillie car le num ro de t l phon
264. dice mat riel X soit v rifi e apr s l analyse de x et y gt People v Collins 68 Cal 2d 319 438 P 2d 33 66 Cal Rptr 497 1968 46 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE P Hy IE Repr sente la probabilit que l hypoth se Y n est pas la source de l indice mat riel X soit v rifi e apr s l analyse de x et y P H l E Repr sente le rapport de probabilit a posteriori des deux hypoth ses comp titives P H E H et Hp apr s l analyse de x et y P E H Repr sente le rapport de vraisemblance likelihood ratio LR mis en vidence entre le rapport de probabilit a priori et le rapport de probabilit a posteriori P E H P H multipli par LR P Al E P H P H E IH Rapport de probabilit 4 priori LR Rapport de probabilit a posteriori P E H Tableau III 1 Sch matisation du processus d inference de l identit en sciences forensiques par valuation de rapports de vraisemblance CHAMPOD ET TARONI 1994 ROBERTSON ET VIGNAUX 1995 3 5 4 4 3 Approches discr te et continue pour l valuation de rapports de vraisemblance La formulation de la m thode d valuation de rapports de vraisemblance d velopp e par FINKELSTEIN ET FAIRLEY diff re toutefois de celle initi e par KAPLAN La probabilit a priori que la personne mise en cause soit la source de l indice mat riel P H d finie par KAPL
265. diff rentiables que des personnes ayant des voix similaires mais sans lien de fraternit HOMAYOUNPOUR ET CHOLLET 1995 D autre part l aptitude des auditeurs familiers des jumeaux est plus grande que celle des auditeurs non familiers dans la tache de discrimination de locuteurs Le tr s faible taux d acceptation correcte mis en Evidence par ROSENBERG n est pas confirm par HOMAYOUNPOUR ET CHOLLET probablement parce que les auditeurs de la seconde exp rience taient inform s de la pr sence de paires de locuteurs jumeaux alors que les auditeurs de la premiere ne l taient pas Auteurs Ensemble de r f Caract ristiques du Caract ristiques du Auditeurs T che et mesure de rence des locuteurs message canal de transmission performance ROSENBERG A 8 locuteurs Une phrase Haute qualit 2 groupes de 5 Discrimination 1973 imit s par 4 femmes non A 60 6 imitateurs famili res B 4 B Une paire de jumeaux HOMAYOUN 11 locuteurs et 46 paires de phrases de Qualit t l phonique 20 auditeurs non Discrimination POUR ET AL 13 locutrices 4s imit es familiers 68 faux rejet 6 1993 de 25 50 ans fausse acceptation 26 HOMAYOUN 4 paires de jumeaux 46 paires de phrases de Qualit t l phonique 1 Auditeurs non Discrimination POUR ET et 5 paires de 6s familiers A1 68 faux rejet 17 CHOLLET jumelles uni A Aucune paire de 2 Auditeurs fausse ac
266. e 5 3 1 1 Qualit de l information L existence d une variabilit intralocuteur et interlocuteur rend l analyse de la voix beaucoup plus proche de celle des critures que de celle des empreintes digitales Pour cette raison le terme voicegram vocogramme doit tre pr f r a celui de voiceprint empreinte vocale Il 61 Reed v State 1978 391 A 2d 364 Md United States v Williams 1978 583 F 2d 1194 2d Cir cert denied 1979 439 U S 1117 104 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE est possible que deux personnes puissent poss der des voix qui ne peuvent tre discrimin es dans les limites de pr cision disposition Lorsqu un m me locuteur prononce deux fois le m me nonc les deux spectrogrammes qui en r sultent ne sont jamais identiques mais se ressemblent d s lors que les mots prononc s sont les m mes et dans le m me ordre 5 3 1 2 Technique Les spectrogrammes permettent d examiner les caract ristiques suivantes fr quences moyennes des formants des voyelles largeur de bande des formants p riodes et striations verticales pente des formants dur es formes caract ristiques des fricatives et nergie entre les formants Aucune m thode ne permet d isoler les caract ristiques d pendantes du locuteur des caract ristiques d pendantes du contenu 5 3 1 3 Conditions forensiques Le recours une analyse a lieu le pl
267. e DAT de 44 1 kHz pour le Compact Disc CD et 32 kHz pour le Digital Audio Broadcasting DAB ce qui assure une bande passante du signal d au moins 16 kHz Les convertisseurs analogiques num riques professionnels quantifient les chantillons sur 24 bits ce qui correspond une r solution de 16 777 216 niveaux 2 et repr sente un rapport signal sur distorsion de quantification de l ordre de 140 dB Pour les convertisseurs haute fid lit grand public le codage est g n ralement r alis sur 16 bits ce qui correspond a une r solution de 65 536 niveaux 2 et un rapport signal sur bruit de l ordre de 93 dB Le DAB se contente d une r solution non uniforme sur 12 bits L obtention de telles qualit s sonores n cessite un d bit binaire compris entre 384 kbits s 12 bits 32 kHz et 1152 kbits s7 24 bits 48 kHz par canal 2 3 3 2 R seau t l phonique public commut RTPC Les systemes de codage d velopp s pour la t l phonie permettent une forte r duction du d bit binaire de l information mais impliquent une perte de qualit perceptible Figure II 3 Figure IL3 Extrait d un centi me de seconde du phon me i signal vocal ski A 16 bits 44 1 kHz B 8 bits 8 kHz Pour le r seau t l phonique public commut RTCP Public Switched Telephone Network PSTN la premi re norme de codage num rique a t recommand e en 1972 par l ITU T International Telephone Union Telephony division B
268. e aucun des deux n est dot d une capacit de reconnaissance de forme mais il s agit de l hypoth se que la voix est unique que cette unicit est reproduite sur le spectrogramme et qu elle peut tre d tect e par l il humain Malheureusement la plupart des cours ont statu sur l acceptation par la communaut scientifique de la fiabilit et de la reproductibilit du spectrographe THOMAS 1981 Les deux principaux cas de cette p riode initiale sont jug s en 1968 State v Cary et People v King avec comme base de la d cision juridique le pr c dent constitu par l affaire United States v Wright BOLT ET AL 1970 Cependant les cours d appel du New Jersey et de Californie rejettent la m thode statuant que le processus d identification par empreintes vocales n a pour l heure ni atteint une acceptation scientifique suffisante ni prouv sa fiabilit pour tre admis comme preuve d identification dans des cas o la vie ou la libert d une personne est en jeu KENNEDY 1968 IN HECKER 1971 Cette d cision s appuie largement sur les positions des repr sentants de la communaut scientifique pertinente au sens du standard de Frye LADEFOGED ET VANDERSLICE 1967 MCDADE 1968 Suite ces deux affaires KERSTA qui avait t moign dans huit affaires dont sept fois pour l accusation interrompt son activit d expert entre 1968 et 1970 5 2 1 3 Prise de position de la communaut scientifique et
269. e la formulation de FINKELSTEIN ET FAIRLEY ne se pr occupe pas de la question de l intravariabilit de la source pour des raisons de simplicit Cependant cette PARTIE I APPROCHE THEORIQUE CHAPITRE III MERTHODOLOGIE 47 simplification implique des limitations propres aux approches discr tes souvent mises en vidence comme le calcul des taux d erreur de type I et de type II li toute d cision binaire ou le fall of the cliff effect ph nom ne d crit par Ken Smalldon FINKELSTEIN ET FAIRLEY 1970 LINDLEY 1977 AITKEN 1995 EVETT ET BUCKLETON 1996 CURRAN ET AL 2000 La formulation de KAPLAN ne souffre pas de ces limitations car dans l approche continue Vintravariabilit de la source Y et l intervariabilit de l indice X sont prises en consid ration pour l valuation du rapport de vraisemblance de l l ment de preuve E Dans le cas o l intravariabilit et l intervariabilit sont quivalentes les probabilit s associ es H et H sont gales et le rapport de vraisemblance vaut 1 3 5 4 4 4 Cons quences de l adoption de l approche par valuation de rapports de vraisemblance KAPLAN ainsi que FINKELSTEIN et FAIRLEY s accordent pour proposer que la cour soit libre de fixer la valeur de la probabilit a priori KAPLAN 1968 IN KWAN 1977 FINKELSTEIN ET FAIRLEY 1970 En 1977 LINDLEY formalise ce point de vue La preuve devrait tre pr sent e au jury sous la forme de d
270. e mais des dur es de 30 s une minute sont n cessaires pour obtenir une distribution fine et stable STEFFEN BATOG ET AL 1970 HILLER ET AL 1984 La population f minine peut tre clairement distingu e de la population masculine par la fr quence fondamentale ATKINSON 1976 COLEMAN 1976 et la distribution de la fr quence fondamentale moyenne de la parole spontan e des locutrices F moyenne 240 Hz 6 40 est approximativement le double de celle des locuteurs Fp moyenne 125 Hz 6 20 5 Figure IV 1 SAITO ET AL 1958 IN FURUI 1989 Comme la limite inf rieure de la bande passante du systeme t l phonique situ e a 300 Hz est sup rieure a la fr quence fondamentale de la plupart des locuteurs celle ci est calcul e a partir de ses harmoniques H4 Hy pr sentes dans le signal KELLER 1994 0 02 0 018 0 016 0 014 0 012 0 01 0 008 0 006 0 004 0 002 0 10 N Locuteurs Locutrices Probabilit LD 1 nn 1 a n D NN NN LD NR ODN OW N AN tt OO NON ON ON mm M 350 375 400 Fr quence fondamentale moyenne Hz Figure IV 1 Approximation de la distribution de la fr quence fondamentale moyenne de la parole spontan e des locutrices et des locuteurs SAITO ET AL 1958 IN FURUI 1989 4 4 2 3 2 L intonation L intonation appel e aussi m lodie de la parole ou contour de Fy correspond au niveau acoustique la variation temporelle
271. e p nal nord am ricain est choisie pour cette recherche Ce choix est motiv par la volont de limiter la part du raisonnement inductif au profit du raisonnement d ductif dans le processus d individualisation et de d velopper une connaissance dans la ligne de l enseignement prodigu et de la recherche d velopp e l Institut de police scientifique et de criminologie de l Universit de Lausanne 3 4 M thodes de reconnaissance de locuteurs 3 4 1 D finitions HECKER 1971 d finit la reconnaissance de locuteurs comme tout processus de d cision qui utilise des caract ristiques d pendantes du locuteur dans le signal de parole alors que ATAL 1976 offre la formulation suivante tout processus de d cision qui utilise quelques 16 Daubert v Merrel Dow Pharmaceuticals 1993 US 125 L Ed 2d 469 113 S Ct 2786 17 Conde v Velsicol Chemical Corporation 1994 WL 184966 6th Cir 1994 18 infra Annexe IV Extraits des Federal Rules of Evidence PARTIE I APPROCHE THEORIQUE CHAPITRE III MERTHODOLOGIE 33 caract ristiques du signal de parole pour d terminer si une personne particuli re est auteur d un q 8 P P P P nonc donn Cette seconde formulation est pr f rable car les processus de d cision requis dans le d codage du contenu linguistique d un nonc font aussi appel des caract ristiques du signal de parole d pendantes du locuteur Par exemple en reconnaissant une voyelle d
272. e carte de conversion Les donn es ont t acquises sur une station de travail UNIX de marque et mod le Sun ULTRASPARC reli e au r seau t l phonique par l interm diaire d une carte d acquisition de type TM SunISDN BRI SBT qui permet un enregistrement des donn es au format G 711 Le pilotage de la TM partie mat rielle a t assur par le logiciel Sunlink ISDN 1 0 d velopp par Sun Microsystems et livr avec la carte d acquisition Le m me type de mat riel a t utilis par Swisscom pour l enregistrement de la base de donn es nomm e Polyphone Suisse Romande 8 2 2 1 2 Justification de la proc dure d enregistrement par t l phone Les enregistrements r alis s dans le cadre p nal sont en grande majorit enregistr s par l interm diaire du r seau t l phonique Dans ce cas les enregistrements servant de comparaison devraient aussi tre enregistr s par t l phone selon l tude de HUNT HUNT 1983 Cette proc dure de collecte des enregistrements de comparaison par le r seau t l phonique a aussi l avantage de pouvoir tre appliqu e directement dans la r alit polici re Il est en effet simple pour un fonctionnaire de police de collecter les enregistrements de comparaison en demandant une personne mise en cause d effectuer une s rie d enregistrements par t l phone depuis une pi ce calme de taille moyenne Cette mani re de proc der aboutit aussi une meilleure s
273. e de contr le d acc s des services bancaires par exemple Ce constat en demi teinte d note l aspect encore exp rimental de cette technologie malgr le nombre important de recherches entreprises dans ce domaine depuis bient t quarante ans Pourtant les acteurs du monde judiciaire se prononcent r guli rement en faveur de l utilisation de la reconnaissance de locuteurs dans le cadre de l investigation criminelle et de l expertise judiciaire Plusieurs raisons peuvent expliquer cette prise de position La principale est certainement la sous estimation de la difficult de la proc dure de reconnaissance de locuteurs par la personne inexperte Forte de son exp rience dans l identification de ses proches par la voix elle est persuad e que cette constatation demeure valide en toute situation Une autre explication provient certainement du cin ma de la t l vision et de la litt rature qui nourrissent l id e qu il existe des techniques scientifiques valid es et fiables permettant la reconnaissance de locuteurs dans n importe quelle circonstance Cette r alit ambivalente est l origine de la pr sente tude Elle s adresse avant tout au criminaliste cens conna tre l ensemble des m thodes scientifiques d identification et conseiller de mani re pertinente les acteurs du monde judiciaire Cette recherche tente de fournir une vue d ensemble des m thodes de reconnaissance de locuteurs utilis es aujourd hui dans
274. e de donn es Polyphone IPSC sont des locuteurs dont les tests fournissent des r sultats conformes aux attentes Ce ph nom ne est connu dans le domaine de la reconnaissance automatique de locuteurs DODDINGTON par exemple d signe ces deux types de locuteurs diff rents par les termes de ch vres et de moutons DODDINGTON ET AL 1998 Finalement cette exp rience montre les limites de la classification comme m thode d inference de l identit en sciences forensiques En effet l information selon laquelle l auteur se situe au 2 rang des 500 locuteurs est int ressante en sciences forensiques alors que seule la configuration dans laquelle l auteur est positionn au premier rang est pertinente pour un contr le d acces 8 5 valuation de l influence du temps s parant l enregistrement de l indice et celui du mod le 8 5 1 Proc dure La voix se modifie au cours du temps et la dur e entre l enregistrement de l indice et du mod le est susceptible d alt rer les performances du syst me de reconnaissance automatique de locuteurs L influence de ce param tre est valu e l aide des enregistrements de test Test 1 Test 5 des 32 participants la base de donn es Polyphone IPSC enregistr s sur une p riode de deux mois pour les locutrices et de trois pour les locuteurs Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat pour
275. e du message a t mise en vidence par ROSE ET DUNCAN qui montrent par la m me occasion les diff rences de performances entre les auditeurs familiers et non familiers ROSE ET DUNCAN 1995 Auteurs Ensemble de r f Caract ristiques du Caract ristiques du Auditeurs T che et mesure de rence des locuteurs message canal de transmission performance POLLACK ET de 2 8 locuteurs Parole spontan e Haute qualit 7 Identification AL 1954 3 5 syl s 0 25 45 0 43 s 78 0 65 5 83 1 15 s 95 2s 98 BRICKERET 10 locuteurs familiers A Phrase gt 15 ph Haute qualit 16 Identification PRUZANSKY B Disyllabes 4 ph A 98 1966 C Monosyllabes 3 2 ph B 87 D Consonne voyelle 2 C 81 ph D 63 E Voyelles 1 ph E 56 STEVENS ET AL 8 locuteurs A Une phrase Haute qualit 6 Identification 1968 B Une syllabe A 92 B 88 CLIFFORD 6 locuteurs A demi phrase Haute qualit 1 134 auditeurs Identification 1980 B Une phrase adultes A2 36 C Deux phrases 2 132 auditeurs B1 75 B2 41 D Quatre phrases de 12 16 ans C1 77 C2 49 D1 82 ROSE ET 6 locuteurs ayant des 1 45 s de parole Haute qualit 10 Discrimination DUNCAN voix similaires spontan e A1 85 A2 74 1995 A 4 familiers 2 Un seul mot B1 67 B2 45 B 2 non familiers Tableau IV 10 Influence de la dur e du message 72 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FOREN
276. e est transmis par le r seau t l phonique commut num rique tout comme par le r seau t l phonique cellulaire M me si la corr lation entre num ro de t l phone et appareil t l phonique n est pas parfaite puisque plusieurs appareils peuvent tre reli s la m me ligne sur le r seau commut et que la carte Subscriber Identity Module SIM d un t l phone portable est amovible l information reste utilisable comme le pense aussi REYNOLDS REYNOLDS 1996 PARTIE 4 SYNTHESE IX DISCUSSION GENERALE 9 1 Introduction Le principe d individualit de la voix n est toujours qu une hypoth se preuve en est l absence de caract ristique sp cifique au locuteur mise en vidence ce jour Plusieurs indices laissent penser que de nombreuses caract ristiques hautement discriminantes inh rentes la voix restent d couvrir NOLAN 1990 mais la difficult d crire symboliquement et d finir l information d pendante du locuteur dans la voix emp che une proc dure r ellement analytique bas e sur des descripteurs correspondant des classes Cette r alit s observe dans l assise th orique lacunaire et controvers e de la phon tique forensique et dans la difficult tablir une m thodologie unifi e et satisfaisante pour la pratique de cette discipline Ce m me manque de connaissance th orique rend tr s partielle l ad quation entre les strat gies de reconnaissance
277. e la moiti des cas pour laborer leur strat gie MCCLELLAND 1994 IN MASTHOFF 1996 Selon KUNZEL 1994A il est clairement possible de d terminer qu il y a d guisement dans environ 15 des cas trait s par le Bundeskriminalamt de Wiesbaden BKA REICH ET DUKE montrent qu a partir d un enregistrement 89 des auditeurs inexperts et 93 des auditeurs experts d tectent un d guisement librement choisi par des locuteurs REICH ET DUKE 1979 Ceux ci admettent toutefois que les instructions donn es permettent aux locuteurs de choisir des r alisations extr mes qui ne sont pas naturelles infra 4 3 3 3 2 Influence d une modification de la voix PARTIE I APPROCHE THEORIQUE CHAPITRE II LA VOIX COMME INDICE MATERIEL 27 Pourtant tout d guisement n implique pas comme r sultat une locution en dehors des variations produites par la population normale Le locuteur a un grand nombre de moyens d alt rer son locution sans pour autant imiter consciemment un autre locuteur ou outrepasser les limites de la variation normale de la population Des lors aucune base ne laisse a penser a priori que les auditeurs sont capables d valuer de fa on fiable si l locution d un locuteur est habituelle ou non pour un nonc donn mais un certain degr chacune de ces modifications est susceptible de g ner l identification de locuteurs NOLAN 1983 2 3 8 2 Enregistrement dans le cadre
278. e la surveillance conform ment l ordre qu elle a re u et en contact direct avec l autorit qui l a ordonn e Elle met disposition les quipements n cessaires Elle communique la lev e de la surveillance au service La surveillance et toutes les informations qui s y rapportent sont soumises au secret postal et au secret des t l communications art 33 CP Section 3 Surveillance des t l communications Art 6 T ches du service lEn mati re de surveillance des t l communications le service remplit les t ches suivantes a il s assure que la surveillance soit conforme au droit applicable et qu elle ait t ordonn e par une autorit comp tente b il ordonne aux fournisseurs de services de t l communication de prendre les mesures n cessaires l ex cution de la surveillance c il re oit les communications de la personne surveill e d vi es par les fournisseurs de services il les enregistre et les transmet l autorit qui a ordonn la surveillance d il veille l installation de raccordements directs mais il n enregistre pas les communications qui ont lieu via ces derniers e il re oit les relev s de service des fournisseurs de services de t l communication et les transmet l autorit qui a ordonn la surveillance f il communique imm diatement la lev e de la surveillance l autorit qui l a approuv e g il conserve l ordre de surveilla
279. e n est pas nouveau Au XIX si cle d j Arago oppos au d veloppement des chemins de fer pr senta de mani re apocalyptique les risques encourus selon lui par les usagers de ce nouveau mode de transport Cette attitude permet l expert de se d douaner si quelque chose tourne mal mais elle ne r sout pas les probl mes r els auxquels sont confront s les d cideurs et peut les conduire a des d cisions injustifi es parfois tres co teuses AIGRIN 1996 30 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Par exemple l absence d tude grande chelle de la variabilit de la plupart des caract ristiques d pendantes du locuteur observ es et mesur es dans l approche phon tique acoustique force les experts recourir a des probabilit s subjectives pour interpr ter leurs r sultats Or il n est pas possible de savoir dans quelle mesure leur exp rience permet de combler les diff rences entre leurs probabilit s subjectives personnelles et les probabilit s statistiques qui rendent compte de la variabilit r elle de ces caract ristiques Ces incertitudes de m me que l thique qui anime certainement la plupart des experts les poussent maximiser les probabilit s favorables l accus et minimiser celles qui lui sont d favorables appliquant plus ou moins consciemment l adage in dubio pro reo alors qu il s agit la clairement du r le du
280. e r seau t l phonique utilis pour la production des enregistrements de test est susceptible d influencer les performances du systeme automatique de reconnaissance de locuteurs lorsque les voix pr sentes dans le mod le et l enregistrement de test sont proches L influence de ce param tre a t valu e a l aide des enregistrements de test Test cellulaire et Test 1 Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat pour chaque personne de la base de donn es Polyphone IPSC de la comparaison des tests Test cellulaire et Test 1 avec les sept mod les Session Polyphone Cellulaire Session Comparaison et Session Polyphone 1 a Session Polyphone 5 Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat pour chaque personne de la base de donn es Polyphone IPSC de la comparaison des enregistrements de test Test cellulaire et Test 1 avec les sept mod les Session Polyphone Cellulaire Session Comparaison et Session Polyphone 1 a Session Polyphone 5 de la seconde personne de chaque paire de locutrices et de locuteurs Les rapports de vraisemblance de ces l ments de preuve sont calcul s de la mani re suivante le num rateur quivaut la densit de probabilit de l l ment de preuve E dans la distribution de la variabilit intralocuteur du locuteur
281. easurements of fundamental frequency perturbations in connected speech Edinburgh University Department of Linguistics Work in Progress no 17 pp 59 76 HINTZMAN D L BLOCK R A INSKEEP N R 1972 Memory for mode input Journal of Verbal Learning and Verbal Behaviour vol 11 pp 741 749 HIRSON A DUCKWORTH M 1993 Glottal fry and voice disguise A case study in forensic phonetics Journal of Biomedical Engineering vol 15 no 3 pp 193 200 HOLLIEN H 1977 Status report on voiceprint identification in the United States Proceedings of the International Conference on Crime Countermeasures Science and Engineering Oxford July 25 29th HOLLIEN H 1990 The acoustics of crime Plenum Press New York HOLLIEN H 1995 The Future in Speaker Identification A Model Proceedings of the XIIth International Congress of Phonetic Sciences Stockholm vol 3 pp 138 145 HOLLIEN H JIANG M 1998 The challenge of effective speaker identification Proceedings of RLA2C Workshop Speaker Recognition and its Commercial and Forensic Applications pp 2 10 HOLLIEN H MAJEWSKI W 1977 Speaker identification by long term spectra under normal and distorted speech conditions J Acoust Soc Am vol 62 no 4 pp 975 980 HOLLIEN H MAJEWSKI W DOHERTY E T 1982 Perceptual identification of voices u
282. ec les mod les de sa propre voix et avec les mod les des voix des personnes de la population potentielle Cette configuration de test permet d valuer les rapports de vraisemblance qui peuvent tre d gag s lorsque la personne mise en cause est la source r elle de l indice mat riel PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VIII EVALUATION DU SYSTEME 167 Dans une troisi me phase l valuation consiste mettre en cause dans chaque paire la seconde personne de la paire en comparant les enregistrements de test de la premi re personne avec les modeles de la voix de la seconde et avec les mod les des voix des personnes de la population potentielle Cette configuration de test permet d valuer les rapports de vraisemblance qui peuvent tre d gag s lorsque la personne mise en cause n est pas la source r elle de l indice mat riel mais une personne dont la voix est auditivement proche de celle de l auteur Dans une derni re phase l valuation consiste mettre en cause chacune des 32 personnes en comparant ses enregistrements de test avec les modeles de sa propre voix et avec les modeles de la voix de la seconde personne de la paire Cette configuration de test permet d valuer les rapports de vraisemblance qui peuvent tre d gag s lorsque l hypoth se alternative propos e par exemple par la d fense indique que la source est une personne dont la voix est auditivement proche 8 4 Limites th oriques du
283. ect et deuxi mement dans une hypoth se alternative dans laquelle le locuteur suspect n est pas la source de l indice La recherche bibliographique d finit l tat de l art et analyse les trois approches utilis es pour la reconnaissance de locuteurs en sciences forensiques l approche auditive l approche spectrographique et l approche automatique La recherche exp rimentale d crit le d veloppement d un systeme automatique de reconnaissance de locuteurs bas e sur la m thode de mod lisation par m lange de fonctions de densit gaussiennes GMM Gaussian Mixture Models et le d veloppement d une approche continue du calcul des rapports de vraisemblance notamment grace par l estimation de densit de noyaux KDE Kernel Density Estimation Le syst me ainsi d velopp est ensuite test dans diverses conditions typiquement rencontr es en sciences forensiques comme l influence de la qualit et la quantit des donn es l influence d un d guisement de la voix l influence de la ligne et du t l phone l influence du bruit de fond l influence du syst me d enregistrement et l influence de voix auditivement proches Le bilan de la recherche et la question de l utilisation dans la r alit de la reconnaissance de locuteurs en sciences forensiques sont d velopp es dans la discussion g n rale et la conclusion r dig es en forme de synth se ZUSAMMENFASSUNG Diese Forschung versucht eine Gesamt bersicht d
284. egr d excitation du locuteur de la m lodie du langage de 76 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE l articulation et de l accentuation compos e de la m lodie du langage de l accent dynamique de la r solution de l allure des pauses et de la modulation du timbre 4 4 1 4 Limites de l approche phon tique auditive perceptive L mergence de cette pratique principalement au Royaume Uni semble plut t mue par l augmentation de la demande et non la cons quence d un d veloppement scientifique Les principes sur lesquels se base cette m thode n ont fait l objet que de peu de publications et il n est pas vident que les pratiques des phon ticiens cit s au tribunal soient suffisamment unifi es pour que l on puisse les consid rer comme une seule et m me m thode Il appara t cependant que les praticiens se basent sur une combinaison de l impression auditive g n rale de la qualit et de la hauteur de la voix et sur la comparaison d une vari t de segments phon tiques pr sents dans les chantillons L utilit de la seconde partie de cette m thode repose sur la supposition que la conjonction d une s lection suffisante de variables segmentales aboutit non seulement la cat gorisation d un accent mais la description d un idiolecte propre l individu NOLAN 1990 Incontestablement cette seconde partie essentiellement dialectologique permet d liminer u
285. ejoint les r sultats de l tude de MASTHOFF sur plusieurs points MASTHOFF 1996 Il a aussi t observ que lorsque le contenu est court une seule phrase les locuteurs optent majoritairement pour la modification d un seul param tre 87 5 De m me environ 10 des personnes utilisent un syst me de filtrage extrins que un mouchoir devant le microphone dans la pr sente exp rience et une dizaine de strat gies diff rentes sont utilis es de mani re fort diff rente selon le sexe de la personne Tableau VIII 5 1 supra 2 3 6 2 Enregistrement dans le cadre d un abus de t l phone 182 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Par contre d autres points divergent par exemple la majorit des participants a opt pour une modification de l articulation notamment une modification du tractus vocal alors que dans l tude de MASTHOFF une majorit des personnes a proc d une modification de la phonation L l vation et l abaissement de la fr quence fondamentale est une strat gie adopt e par les femmes et les hommes alors que MASTHOFF observe que les femmes privil gient l abaissement de F et les hommes son l vation Tableau VIII 5 MASTHOFF 1996 8 8 Evaluation de l influence du r seau de la ligne et du t l phone 8 8 1 Influence du t l phone et de la ligne t l phonique utilis s pour l enregistrement des mod les 8
286. ellulaires PARTIE I APPROCHE THEORIQUE CHAPITRE II LA VOIX COMME INDICE MATERIEL 21 2 3 5 1 Communication sur le r seau t l phonique public commut En Suisse la qualit du r seau t l phonique public commut entierement num rique est situ e entre 4 0 et 4 5 MOS bien qu aucune valuation pr cise ne soit disponible il semble qu il soit excellent en comparaison internationale Le r seau est organis en toile et la conversion analogique num rique est effectu e dans le central de quartier en cas de raccordement analogique ou l int rieur m me de l appareil en cas de raccordement RNIS R seau Num rique Int gration de Services Ce dernier type de raccordement permet la transmission simultan e de deux canaux de voix et d un canal de signalisation Dans le r seau t l phonique public commut le combin des appareils est reli au t l phone soit par un fil soit par une liaison hertzienne pour les appareils dits sans fil Pour les appareils sans fil analogiques la transmission entre le t l phone et le combin est assur e par modulation de fr quence 27 MHz Les appareils actuels exploitent une technologie num rique nomm e DECT Digital European Cordless Telephone proche de celle du GSM 120 canaux num riques sont distribu s entre 1880 et 1900 MHz 2 3 5 2 Communication sur le r seau t l phonique num rique cellulaire Dans le domaine de la t l phonie num rique ce
287. elsicol Chemical Corporation cette m me cour nonce une s rie de r gles concernant le t moignage scientifique et pr cise notamment des exigences concernant la m thodologie LOEVINGER 1995 Pour d terminer si un t moignage all gu bas sur une connaissance scientifique est valide et fiable du point de vue de la Federal Rule of Evidence 702 six standards ont t tablis par la cour Les th ories le raisonnement ou la m thodologie sur lesquels le t moignage repose doivent 1 tre falsifiables selon la d finition de POPPER avoir t test s ou pouvoir tre test s 2 avoir fait l objet d une revue par les pairs peer review et de publication 3 avoir un taux d erreur connu ou potentiel dans l application 4 tre g n ralement accept s dans la communaut scientifique pertinente 5 tre bas s sur des faits ou des donn es dignes de confiance pour les experts du domaine 6 avoir une valeur probante qui n est pas supplant e par les dangers d un pr judice injuste la confusion des conclusions ou l induction en erreur du jury Ces facteurs sont a consid rer ensemble aucun d entre eux n tant seul d cisif ou d terminant POPPER 1973 LOEVINGER 1995 3 3 3 Choix d une d marche Une d marche scientifique n est ni exig e ni privil gi e dans le syst me p nal suisse mais une d marche respectant les crit res de recevabilit des preuves scientifiques dans le syst m
288. emaines MCGEHEE 1937 MCGEHEE 1944 Certains aspects de ces donn es sont cependant en opposition dans le sens que l tude de 1937 montre que le taux d identification passe de 68 apr s deux semaines 51 apr s trois semaines et 35 apr s trois mois alors qu en 1944 ce taux passe de 48 47 et 45 respectivement apr s deux quatre et huit semaines Ces r sultats permettent 31 State v Hauptmann Atlantic Rep 1935 180 809 829 70 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE tout de m me de circonscrire une estimation de la limite temporelle de la m moire a long terme impliqu e dans la tache d identification de locuteurs Lorsque la voix est m moris e incidemment par l auditeur le taux d identification d un locuteur ou d une locutrice dans un groupe de onze personnes est d environ 45 lorsque le d lai entre la premi re coute et la confrontation est de quelques heures Lorsque ce d lai se situe entre un jour et deux semaines le taux d identification chute 20 Apr s un d lai de trois semaines le r sultat n est plus que de 9 ce qui quivaut un choix effectu au hasard CLIFFORD ET DENOT 1980 IN CLIFFORD 1980 Ces r sultats montrent que les performances de l humain sont faibles lorsque la dur e entre la premi re coute et la suivante augmente mais la d croissance monotone observ e par MCGEHEE 1937 MCGEHEE 1944 n
289. emblance calcul s de mani re illustrer les diff rences de performances entre les personnes 8 8 2 2 1 valuation globale 1 1 os o s o8 o8 o7 o7 2 os Z os 3 T os 05 2 a u u 0 3 0 3 0 2 0 2 0 0 o o o 01 0 2 os 1 2 As 10 20 50 100 200 500 1000 o 01 0 2 os 1 2 As 10 20 50 100 200 500 1000 LR sup rieur LR sup rieur Hl m me telephone N 140 Hl t l phone different N 180 Hl m me t l phone N 180 Hl t l phone different N 140 H2 m me t l phone N 35000 H2 t l phone different N 45000 e H2 m me t l phone N 45000 H2 t l phone different N 35000 Locutrices Locuteurs Figure VIII 10 Resultat de l valuation globale des rapports de vraisemblance en fonction du t l phone et de la ligne utilises pour les enregistrements de test 8 8 2 2 2 Evaluation individuelle Mod les et enregistrements de test Mod les et enregistrements de test Mod les et enregistrements de test Mod les et enregistrements de test enregistr s avec le m me t l phone enregistr s avec des t l phones diff rents 3 enregistr s avec le m me t l phone enregistr s avec des t l phones diff rents Lio L13 OLIS LI Li8 LI9 L20 L22 L39 L LI2 L14 LI L40 Lait L56 Los Loe L32 L33 L44 L54 L59 Loo Lo Los LO7 Los Los L49 L55 L58 a Log LR moyen Log LR moyen
290. eme CAVIS a t abandonn en 1992 sans avoir atteint le degr de fiabilit n cessaire un usage dans des conditions r elles K NZEL 1994A NAKASONE 1999 6 4 4 Semi AUtomatic Speaker Identification system SAUSI USA 1976 1998 Le syst me SAUSI a t d velopp par Harry HOLLIEN et ses collaborateurs entre 1976 et 1998 l Institute for Advanced Study of the Communication Processes de l Universit de Floride DOHERTY 1976 HOLLIEN ET JIANG 1998 Il a t utilis pour la r solution de cas r els durant cette p riode mais cette activit a cess la suite de la retraite de HOLLIEN Sur la base d chantillons de parole d une dur e de 15 20 s l analyse du signal de parole repose sur quatre vecteurs de caract ristiques mesur s sur des portions du signal de parole naturelle s lectionn es par un op rateur 1 la fr quence fondamentale mesur e par un syst me de bancs de filtres sp cialement mis au point pour cette application 2 le spectre de puissance moyen long terme 3 la mesure entre les trois premiers formants des voyelles et de la fr quence centrale de ces trois premiers formants calcul s par transform e de Fourier rapide et finalement 4 un vecteur regroupant des caract ristiques temporelles comme le nombre de syllabes par unit de temps les proportions entre temps de parole et temps de silence entre temps d locution des consonnes et des voyelles HOLLIEN 1990
291. ement mais elles doivent tre immediatement confirm es par crit ou par t l fax Les renseignements requis sont transmis par crit ou par t l fax au service d sign par les autorit s comp tentes ANNEXES ANNEXE III ORDONNANCE SUR LE SERVICE DE SURVEILLANCE DE LA CORRESPONDANCE 225 Section 6 Dispositions finales Art 12 Ex cution Le d partement applique la pr sente ordonnance Il dicte les dispositions d ex cution relatives l organisation et aux t ches du service aux obligations de la Poste et des fournisseurs de services de t l communication ainsi qu a la teneur minimale des ordres de surveillance Art 13 Entr e en vigueur et validit ILa pr sente ordonnance entre en vigueur le 1 janvier 1998 Sa validit expire lors de l entr e en vigueur d une loi sur la surveillance de la poste et des t l communications Annexe IV Extraits des Federal Rules of Evidence 28 United States Code Appendix current through 11 7 94 Article I General Provisions Rule 104 Preliminary Questions a Questions of admissibility generally Preliminary questions concerning the qualification of a person to be a witness the existence of a privilege or the admissibility of evidence shall be determined by the court subject to the provisions of subdivision b In making its determination it is not bound by the rules of evidence except those with respect to privileges b Relevancy conditioned on fac
292. emy of Sciences Warsaw vol 2 pp 7 39 CAPPE O 1995 Etat actuel de la recherche en reconnaissance du locuteur et des applications en criminalistique rapport interne Ecole Nationale des T l communications D partement Signal Paris CATFORD J C 1977 Fundamental problems in phonetics Edinburgh University Press Edinburgh CHAMPOD C 1996 Reconnaissance automatique et analyse statistique des minuties des empreintes digitales th se de doctorat Institut de police scientifique et de criminologie Universit de Lausanne CHAMPOD C MEUWLY D 1998 The inference of identity in forensic speaker recognition Proceedings of RLA2C Workshop Speaker Recognition and its Commercial and Forensic Applications pp 125 135 et 2000 Speech Communications vol 31 no 2 3 pp 193 203 CHAMPOD C TARONI F 1994 Probabilit s au proc s p nal risques et solutions Revue p nale suisse vol 112 no 2 pp 194 219 CHEN M S LIN P H WANG H C 1993 Speaker identification based on a matrix quantization method IEEE Trans ASSP vol 41 no 1 pp 398 403 CHEUNG R S EISENSTEIN B A 1978 Feature selection via programming for text independent speaker identification Proc IEEE ASSP pp 397 403 BIBLIOGRAPHIE 253 CLARKE F R BECKER R W NIXON J C 1966 Characteristics th
293. enac pouvait tre raisonnablement exig de l auteur de l acte le juge att nuera librement la peine art 66 Lorsqu un acte aura t commis pour pr server d un danger imminent et impossible d tourner autrement un bien appartenant autrui notamment la vie l int grit corporelle la libert l honneur le patrimoine cet acte ne sera pas punissable Si l auteur pouvait se rendre compte que le sacrifice du bien menac pouvait tre raisonnablement exig de celui auquel le bien appartenait le juge att nuera librement la peine art 66 220 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Livre deuxi me Dispositions sp ciales Titre troisieme Infractions contre l honneur et contre le domaine secret ou le domaine priv Art 179 ter Enregistrement non autoris de conversations Celui qui sans le consentement des autres interlocuteurs aura enregistr sur un porteur de son une conversation non publique a laquelle il prenait part celui qui aura conserv un enregistrement qu il savait ou devait pr sumer avoir t r alis au moyen d une infraction vis e au premier alin a ou en aura tir profit ou Yaura rendu accessible a un tiers sera sur plainte puni de l emprisonnement pour un an au plus ou de Yamende Art 179 septies Abus de t l phone Celui qui par m chancet ou par espi glerie aura abus d une installation t l phonique soum
294. ences forensiques BRICKER ET PRUZANSKY ont propos une grille d analyse des diff rentes variables de la procedure exp rimentale en calquant leur modele sur les diff rents composants du processus de reconnaissance auditive de locuteurs Chacune de ces variables est d termin e par l exp rimentateur selon le but de son exp rience Tableau IV 2 BRICKER ET PRUZANSKY 1976 Composants du proces Locuteur Enonc s Transmission orale Processus Processus de sus de reconnaissance auditive sensoriels et d cision perceptifs Variables de la proc Ensemble de r f Caract risti Caract ristiques du Auditeurs T che et mesure dure exp rimentale rence des locuteurs ques du canal de transmission de performance message Tableau IV 2 Grille d analyse des diff rentes variables de la proc dure exp rimentale 4 3 3 2 Tache et mesure de performance Selon les d finitions propos es par BRADSHAW et NETTLETON ainsi que VAN LANCKER la tache effectu e lors de proc dures d coute est une tache de classification lorsqu il est demand aux auditeurs de faire appel au souvenir qu ils ont de la voix entendue au moment de la commission de l infraction BRADSHAW ET NETTLETON 1983 VAN LANCKER ET AL 1987 Par contre il s agit d une t che de discrimination lorsqu il leur est demand de comparer un enregistrement de parole inconnue la voix de diff rents locuteurs supra 4 1 2
295. ent le march des drogues illicites D s lors la formation d experts phon ticiens comp tents dans ces langues est d une part presque utopique ou en tout cas extr mement longue et d autre part tout changement de situation g opolitique amenant une restructuration des canaux clandestins de distribution des drogues illicites peut rapidement rendre obsol tes les connaissances et l exp rience acquises 9 2 3 Situation de l approche spectrographique La validit de l approche de comparaison visuelle de spectrogrammes telle qu elle est pratiqu e aux Etats Unis est contestable et contest e tant par le vide th orique qui la caract rise que par la controverse qu a inaugur son application dans le domaine forensique Malgr de multiples prises de position de scientifiques renomm s un rapport de l Acad mie Nationale des Sciences des Etats Unis et un certain nombre d arr ts de la Cour Supr me dans la foul e de l arr t Daubert le systeme juridique nord am ricain est malheureusement toujours incapable de se d terminer de mani re unanime et definitive alors qu en 1946 d ja les inventeurs du spectrographe s taient prononc s contre la validit de la m thode spectrographique pour la reconnaissance de locuteurs It is axiomatic that no two individuals have voices that are exactly alike in pitch or vocal quality but visible speech in the form considered in this paper spectrogrammes bande troite do
296. er heute im Gebiete der Forensik angewandten Methoden zur Sprechererkennung zugeben sowie die damit verbundenen Risiken und Limiten zu erfassen Dazu ist die vorliegende Arbeit in vier Abschnitte gegliedert Im theoretischen Teil werden die in den forensischen Wissenschaften angewandten klassischen induktiven und deduktiven Identifikationsmethoden beschrieben Die Stimme als Materialbeweis wird erforscht und eine neue auf dem Theorem von Bayes basierende Methodologie als Interpretationsanleitung zur forensischen Sprechererkennung vorgeschlagen Diese Methodologie erlaubt die Wahrscheinlichkeit des Materialindizes in bezug auf zwei Alternativhypothesen abzusch tzen n mlich einerseits die Hypothese dass die Quelle des Indizes der Sprecher ist und anderseits die alternative Hypothese dass der Sprecher nicht die Quelle des Indizes ist Der Literatur berblick informiert ber den Stand der Forschung und analysiert die drei f r die forensische Sprechererkennung verwendeten Methoden n mlich die auditive Methode die spektrographische Methode und die automatische Methode Der Expertimentalteil beschreibt die Entwicklung eines automatischen Sprechererkennungssystems welches auf dem GMM Gaussian Mixture Model basiert sowie einer Methode zur einer fortlaufenden Berechnung des Wahrscheinlichkeitsverh ltnisses im besonderen durch die KDE Kernel Density Estimation Das so entwickelte System wurde unter verschiedenen spezifisch in der Forensi
297. ermet simplement d obtenir une estimation de la puissance d un banc de filtres quivalent CAPPE 1995 La derni re approche utilise un mod le autor gressif du signal qui fournit une premi re description param trique du contenu spectral du signal Une formule de conversion permet ensuite de calculer les coefficients cepstraux partir du mod le autor gressif RABINER ET SCHAFER 1978 6 2 3 2 3 Application Tous les coefficients cepstraux ne pr sentent pas une variabilit intralocuteur de m me ampleur celle ci d croit avec l ordre des coefficients Dans le domaine de la reconnaissance de locuteurs l influence des coefficients qui pr sentent la plus forte variabilit intralocuteur est r duite par une distance de Mahalanobis correspondant une distance euclidienne pond r e du fait de la d corr lation des coefficients cepstraux SOONG ET ROSENBERG 1988 SOONG a aussi montr qu il est pertinent de proc der au calcul des coefficients sur toutes les fen tres o le signal est pr sent vois ou non SOONG ET AL 1987 Par contre il est utile d exclure les fen tres o le signal de parole est absent surtout lorsque le canal de transmission est de mauvaise qualit et susceptible de varier NAIK ET AL 1989 GISH 1990 REYNOLDS 1994 6 2 3 3 Recherche de param tres d riv s plus robustes 6 2 3 3 1 Integration des decouvertes psycho acoustiques Les effets conjugu s des diff rences de l environne
298. ertise forensique Dans son rapport Voice Analysis pr sent au congr s de l Interpol en 1998 BRAUN souligne d ailleurs que la recherche tend actuellement se focaliser sur des proc dures plus objectives et moins gourmandes en temps de travail BRAUN 1998 infra 5 4 3 Les standards de l IAI 21 infra 3 5 5 Choix d un processus d inf rence de l identit PARTIE I APPROCHE THEORIQUE CHAPITRE III MERTHODOLOGIE 37 Une proc dure d valuation de l approche phon tique bien qu absolument n cessaire reste extr mement difficile mettre sur pied pour plusieurs raisons le faible nombre de personnes pratiquant l expertise en reconnaissance de locuteurs dans la m me langue le temps n cessaire l analyse d un seul cas la constitution de cas fictifs de difficult comparable dans des langues diff rentes l absence de consensus et d unit autour des proc dures d analyse et une absence de volont de transparence parmi les principaux int ress s Il est en effet frappant de constater la raret des publications concernant l explicitation de la m thodologie dans le domaine de l expertise phon tique KUNZEL 1987 KOVAL ET AL 1998A KOVAL ET AL 1998B Ces l ments expliquent en partie l absence d valuation grande chelle et de contr le de qualit dans la phon tique forensique alors qu un syst me de proficiency testing existe dans beaucoup de domaines des sciences
299. ervant a l estimation de la variabilit intralocuteur de la ou des personne s suspect e s d tre la source de l indice Elle sert aussi constituer un ensemble d enregistrements de test de mani re simuler des indices mat riels qui peuvent tre rencontr s en cas d abus de t l phone ou de mesure de surveillance 8 2 1 D termination de la langue parl e Comme l ind pendance des m thodes automatiques de reconnaissance de locuteurs par rapport la langue parl e n est pas d montr e la proc dure d valuation d velopp e dans cette recherche est r alis e dans une seule langue le fran ais 8 2 2 Estimation de la variabilit intralocuteur Une base de donn es baptis e Polyphone IPSC a t int gralement enregistr e dans le cadre de cette recherche Le r le des personnes mises en cause a t tenu par 32 personnes huit paires de femmes A H et huit paires d hommes I P qui habitent la Suisse Romande et s expriment en fran ais Tableau VIII 1 et Tableau VIIL2 Les personnes formant chaque paire ont 162 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE un lien de parent entre elles et ont t s lectionn es sur la base d une proximit auditive subjective de leur voix en effet leurs proches d clarent les confondre r guli rement au t l phone Paire Locutrice Langue
300. es Le programme d valuation r alis dans le cadre de cette recherche permet d observer les possibilit s et les limites du syst me de reconnaissance Le classificateur par mod lisation de m langes de fonctions de densit gaussiennes peut tre consid r comme un outil g n rique utilisable moyen terme par contre l valuation d algorithmes d analyse du signal de parole particuli rement adapt s aux diff rentes conditions rencontr es en sciences forensiques peut tre envisag e d s aujourd hui sur la base du programme d valuation r alis 9 2 5 Voies de recherche 9 2 5 1 Recherche fondamentale Les principales questions non r solues dans le domaine de la reconnaissance automatique de locuteurs ont aussi t r pertori es par FURUI FURUL 1997 Elles concernent premi rement l apport de connaissances dans le domaine des processus de production de la parole et de la reconnaissance de locuteurs par les tres humains deuxi mement elles concernent les caract ristiques d pendantes du locuteur et finalement la mod lisation de la variabilit interlocuteur et intralocuteur notamment la variabilit intralocuteur 4 long terme et le d guisement En 1983 d ja NOLAN mentionnait un certain d sint r t pour la recherche fondamentale dans le domaine de la variabilit interlocuteur Un manque d int r t pour la complexit de la base des diff rences interlocuteur que ce soit par ignorance de cette com
301. es 1983 450 N E 2d 498 Ind United States v Smith 1989 869 F 2d 348 7th Cir 67 United States v Maivia 1990 F supp 1471 DC Hawaii 728F Supp 1471 1471 1478 US Dist PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE V APPROCHE SPECTROGRAPHIQUE 107 supposition qu une d cision d identification est correcte lorsqu elle est compatible avec l issue du cas est fausse SHIPP ET AL 1987 Ces auteurs affirment avec raison qu un crit re tel qu une d cision de culpabilit ou d innocence n est pas suffisant pour tablir la rectitude des d cisions d identification Cette tude illustre aussi l influence pr pond rante des r sultats de la m thode spectrographique sur l issue de nombreux cas alors qu elle est officiellement utilis e uniquement des fins d enqu te Cette analyse laisse penser que la position officielle du FBI permet l agence d utiliser la m thode en vitant soigneusement toute pol mique concernant la recevabilit plut t qu garantir au justiciable une investigation sur la base de m thodes acceptables Dans une premi re r ponse KOENIG ET AL ne se d fendent pas sur le fond mais affirment qu ils ne consid rent pas une methode entach e d un taux d erreur sup rieur 0 5 au m me titre que les empreintes digitales qu ils consid rent comme exactes 100 Cette raison motive selon eux le fait que la m thode spectrographique n est utilis e que pour l inv
302. es valuent les performances de la m thode spectrographique en pr sence de voix d guis es HOLLIEN ET MCGLONE concluent que la probabilit d identification correcte se situe 4 peine au dessus de la chance alors que REICH montre des r ductions de performance allant de 14 2 en pr sence de parole lente 35 en pr sence de d guisement libre HOLLIEN ET MCGLONE 1976 REICH ET AL 1976 Par ailleurs ces auteurs mettent en vidence des taux d identification limit s de 56 7 en l absence de d guisement de la voix SMRKOVSKI montre par contre que l entra nement de l examinateur permet de r duire les taux d erreur de mani re significative SMRKOVSKI 1976 TRUBY quant lui d nonce le myst re qui entoure le processus de reconnaissance de formes de cette technique et pense qu il est impossible de le d finir de le d crire et de l valuer TRUBY 1976 IN HOLLIEN 1990 Finalement HOLLIEN dresse un tat de la situation aux tats Unis lors de la Conference on Crime Countermeasures dans lequel il expose tous les griefs faits la m thode spectrographique HOLLIEN 1977 5 2 2 6 Analyse de l extension de l tude de TOSI ET AL aux conditions forensiques r elles 5 2 2 6 1 chantillonnage et r sultats Selon THOMAS le processus de s lection de l ensemble des 250 locuteurs de test dans l tude de TOSI n est pas al atoire contrairement ce qui est pr tendu Le choix s est port sur un groupe de
303. es d cisions d identification Cette tude PARTIE IV SYNTHESE CHAPITRE IX DISCUSSION GENERALE 207 illustre plut t l impact d terminant des r sultats de l analyse en reconnaissance de locuteurs sur l issue du cas alors que la m thode spectrographique n est officiellement utilis e qu des fins d enqu te De plus lorsque le magistrat entame une proc dure en reconnaissance de locuteurs il instruit dans la tr s forte majorit des cas charge et non d charge situation pour laquelle l approche phon tique n est pas encore pr te donner des r ponses valides Finalement l appr ciation des capacit s des experts bien qu absolument n cessaire reste extr mement difficile mettre sur pied pour plusieurs raisons le temps n cessaire l analyse d un seul cas le faible nombre de personnes actives dans la m me langue la constitution de cas fictifs de difficult comparable dans des langues diff rentes ainsi que l absence de consensus et d unit autour des proc dures d analyse 9 2 2 2 3 Ind pendance par rapport aux langues analys es L article 6 a du code de proc dure de l IAFP Annexe V souligne que les membres devraient approcher avec la plus grande prudence l analyse forensique d chantillons de parole nonc s dans une autre langue que leur langue maternelle Comme d ja mentionn les langues parl es dans ces enregistrements d pendent fortement des ethnies qui noyaut
304. es enregistrements de comparaison nomm s Messages anonymes avec les mod les de la voix des 1000 locutrices et des 1000 locuteurs de la base de donn es Polyphone Suisse Romande Les rapports de vraisemblance de ces l ments de preuve sont calcul s de la mani re suivante le num rateur quivaut la densit de probabilit de l l ment de preuve dans la distribution de la variabilit intralocuteur du locuteur dont provient l enregistrement analys Le d nominateur du rapport de vraisemblance quivaut la densit de probabilit de l l ment de preuve E dans la distribution interlocuteur de l enregistrement de test 8 7 2 2 R sultat Les personnes qui ont toujours utilis le m me t l phone sont valu es ind pendamment de celles qui ont utilis des t l phones ou des lignes de t l phone diff rents pour l enregistrement des mod les Mod les et enregistrements de test Mod les et enregistrements de test enregistr s avec le m me t l phone enregistr s avec des t l phones diff rents Probabilit Probabilit o ot 0 2 0 5 1 2 5 10 20 50 100 200 soo 1000 o ot 0 2 0 5 1 5 10 20 50 100 200 500 1000 LR sup rieur Hl Voix normale N 49 HI1 Voix d guis e N 49 e H2 Voix normale N 7000 H2 Voix d guis e N 7000 Locutrices A LR sup rieur Hl Voix normale N 63 HI1 Voix d guis e N 63 e H2 V
305. es fen tres est de 10 ms Figure VII 2 Transform e de Fourier rapide Analyse en bandes critiques Mod lisation autor gressive Figure VII 2 M thode d extraction des param tres de pr diction lin aire perceptuelle PLP HERMANSKY 1990 Compression Transform e de l amplitude de Fourier du signal inverse Correction d intensit s 7 2 3 3 Mod lisation Cette tape consiste mod liser la distribution des douze param tres PLP Figures VIL3 et VII 4 Chaque param tre est mod lis par un m lange de M fonctions de densit gaussiennes d finies par leur moyenne u et leur variance o Chaque locuteur est repr sent par un mod le GMM issu de cette mod lisation Le mod le 6 est constitu des vecteurs de moyennes ji des vecteurs de variance extraits de la diagonale de la matrice de covariance 2 et des facteurs r qui pond rent l importance de chaque fonction de densit gaussienne dans le mod le S fn HE i 1 M 7 1 supra 6 2 2 2 2 Analyse du spectre court terme par transform e de Fourier 150 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Dans le cadre de cette recherche les enregistrements de parole utilis s pour la mod lisation durent de 80 s 140 s Pour ce type de dur e les essais r alis s par le concepteur de l algorithme montrent que la mod lisation des param tres obtenue avec un m lange de 64 foncti
306. es m thodes Des m thodes repr sentant des g n ralisations s quentielles des m thodes globales que sont la quantification vectorielle et le classificateur gaussien ont t propos es A l image du fonctionnement de la mod lisation par mod les de Markov cach s par rapport la mod lisation par m lange de fonctions de densit gaussiennes la quantification matricielle et la mod lisation autor gressive multidimensionnelle sont susceptibles d apporter des am liorations dans le cadre des applications en mode d pendant du texte ou vocabulaire restreint ROSENBERG ET SOONG 1991 CHEN ET AL 1993 BIMBOT 1993 FURUI 1994 PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE VI APPROCHE AUTOMATIQUE 135 L application de r seaux de neurones artificiels artificial neural networks ANN s pour la reconnaissance de locuteurs a t d velopp e surtout au d but des ann es 1990 Comme le montre notamment HENNEBERT les classificateurs de type Multi Layer Perceptron MLP sont puissants et fournissent des r ponses en termes de probabilit par contre cette m thode est non lin aire et Vexplicitation du processus d apprentissage et de classification du r seau neuronal demeure difficile HENNEBERT 1999 Le ph nom ne de bo te noire li a ce manque d explicitation rend d licate l utilisation des r seaux de neurones artificiels en sciences forensiques pour l instant 6 4 Systemes automatiques d velopp s
307. es not emphasize these variables KOPP ET GREEN 1946 208 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 9 2 4 Reflexion sur les r sultats 9 2 4 1 Choix du mode de pr sentation Les variables qui influencent les performances d un systeme de reconnaissance de locuteurs sont connues L originalit des r sultats pr sent s dans cette recherche ne r side donc pas dans la mise en evidence de ces variables mais plut t dans la quantification de leur influence et dans la pr sentation des r sultats sous une forme qui met en vidence l volution des rapports de vraisemblance 9 2 4 2 R sultats de la proc dure d valuation L valuation des conditions requises pour l application d une approche automatique dans des conditions forensiques a deux utilit s La premi re concerne la possibilit d tablir a priori les chances de succ s d une proc dure d expertise en reconnaissance de locuteurs avec la m thode d velopp e par une analyse pr liminaire des caract ristiques de l indice La seconde se rapporte l utilisation du programme d valuation tabli comme base de comparaison de performances de diff rentes m thodes de reconnaissance s lectionn es pour l application forensique 9 2 4 2 1 Analyse pr liminaire de l indice La proc dure d valuation a montr la gradation de l influence des variables sur les performances du syst me de reconnaissance
308. es rapports de vraisemblance en fonction du t l phone et de la ligne de t l phone utilis s lorsque le locuteur est effectivement la source de l enregistrement de test H et lorsqu il s agit d une autre personne dont la voix est auditivement proche H 194 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 8 11 1 3 Discussion des r sultats Les r sultats montrent encore une fois que la m thode de reconnaissance est plus robuste aux variations engendr es par le t l phone et la ligne t l phonique pour les locuteurs que pour les locutrices Pour les locuteurs les r sultats montrent qu il est possible de distinguer la vraie source d une personne dont la voix est auditivement proche Pour les locutrices cette diff renciation est beaucoup plus difficile faire si des t l phones diff rents ont t utilis s pour l enregistrement des mod les et les enregistrements de test Figure VIII 17 Les r sultats montrent aussi que la m thode est sensible au fait que les voix qui constituent le mod le et le test sont proches En effet les rapports de vraisemblance mis en vidence sont plus lev s lorsque l hypoth se H quivaut une personne auditivement proche Figure VIII 17 que lorsque elle quivaut une personne de m me langue de m me sexe et de m me accent Figure VIII 10 8 11 2 Influence du r seau t l phonique 8 11 2 1 Proc dure Le type d
309. est format G 711 Conversion au format lin aire y 8 KHz 16 bits Suppression des silences module SILREM y Extraction des param tres module PLP Mod lisation Extraction des param tres module GMM module PLP pour la mod lisation format G 711 Conversion au format lin aire 8 KHz 16 bits Suppression des silences module SILREM Mod le statistique de la voix Mesure de similarit module GMM evaluate S quence de vecteurs de param tres PLP S Indice de proximit p s 18 Figure VII 1 Architecture du syst me de reconnaissance de locuteurs PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VII DEVELOPPEMENT D UN SYSTEME AUTOMATIQUE 149 7 2 3 Pr traitement du signal 7 2 3 1 Suppression des silences Le module de suppression des silences SILREM est bas sur l algorithme de Murphy d crit par REYNOLDS Un seuil adaptatif permet de s parer les endroits de forte nergie consid r s comme de la parole des endroits de faible nergie consid r s comme des silences REYNOLDS 1992 7 2 3 2 Param trisation Le module de param trisation PLP permet d extraire les coefficients de pr diction lin aire perceptuels selon la m thode de HERMANSKY HERMANSKY 1990 Un vecteur de douze param tres PLP est extrait de chaque fen tre de 20 ms Le fen trage du signal est de type Hamming et le recouvrement d
310. est un enregistreur analogique sur bande magn tique a faible vitesse de d filement L influence de ce param tre est valu e a l aide des enregistrements de test Test 1 enregistr de mani re num rique et Test 1 analogique enregistr sur l enregistreur analogique de la Police Cantonale de Neuchatel Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat pour chaque personne de la base de donn es Polyphone IPSC de la comparaison des enregistrements de test Test 1 et Test 1 analogique au mod le Session Comparaison Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat de la comparaison de ces m mes enregistrements de test Test 1 et Test 1 analogique avec les mod les de la voix des 1000 locutrices et des 1000 locuteurs de la base de donn es Polyphone Suisse Romande Les rapports de vraisemblance de ces l ments de preuve sont calcul s de la mani re suivante le num rateur quivaut la densit de probabilit de l l ment de preuve E dans la distribution de la variabilit intralocuteur du locuteur dont provient l enregistrement analys Le d nominateur du rapport de vraisemblance quivaut la densit de probabilit de l l ment de preuve E dans la distribution interlocuteur de l enregistrement de test 8 10 2 R sultats 1 1 Probabilit Probabili
311. estigation KOENIG ET AL 1987 Dans une seconde r ponse MELVIN explique qu une probabilit plus grande que 95 est consid r e comme une certitude dans toute science exp rimentale MELVIN ET AL 1988 Cet argument illustre la confusion faite entre degr de signification associ 4 une observation statistique et degr de certitude associ a une decision De plus la d marche utilis e pour la confirmation des hypoth ses va l encontre de la r gle de falsifiabilit nonc e par POPPER qui vise valuer la validit scientifique d une hypoth se en d finissant les conditions qui permettent de la r futer POPPER 1973 Cette pol mique est encore aliment e par TOSI dans un ditorial du Journal of Forensic Identification mais n aborde malheureusement jamais les probl mes de fond Tos 1990 5 4 3 Les standards de IAI En 1991 le sous comit VIAAS de I TAI publie des standards pour la comparaison des voix VIAAS 1992 Ils n ont pas de valeur legale car ils ne lient que les examinateurs certifies officiellement par l IAI mais ont l avantage d expliciter la m thodologie et de mettre jour ses faiblesses intrins ques potentiellement impossibles r soudre En r sum l examinateur doit tre ad quatement form entra n et qualifi 1 l l ment de preuve doit tre manipul avec pr caution 2 les chantillons doivent tre soigneusement choisis en vue de la comparaison
312. estimation de la densit par noyau kernel density estimation d crite par SILVERMAN SILVERMAN 1986 AITKEN 1995 Cette m thode peut tre consid r e comme un d veloppement de l histogramme Dans l estimation de la densit par noyau les blocs rectangulaires correspondant une observation dans l histogramme sont remplac s par une fonction noyau kernel function en g n ral une courbe de densit de probabilit gaussienne centr e sur l observation qu elle d crit L estimation de la courbe de densit de probabilit est ensuite obtenue en additionnant l ensemble des courbes qui d crivent les observations et en divisant cette somme par le nombre d observations Comme chaque composante de la somme est une fonction de densit de probabilit chacune a une aire gale 1 La division par le nombre d observations permet d obtenir une aire de 1 sous la courbe d estimation de la distribution des donn es et d en faire ainsi une fonction de densit de probabilit f 8 AITKEN 1995 154 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Dans l histogramme la pr cision de la description de la distribution est conditionn e par la largeur des intervalles Dans l estimation de la densit par noyau elle est conditionn e par la variance des courbes de densit de probabilit gaussiennes qui peut tre calcul e partir de l ensemble des donn es F Z repr
313. et dans une moindre mesure la r sonance du tractus vocal 59 estim e par la mesure des trois premiers formants COLEMAN 1976 LASS confirme cette corr lation en montrant la d gradation des performances entre la d termination du sexe sur la base de voyelles vois es i e amp a o et u et des m mes voyelles chuchot es LASS PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE IV APPROCHE AUDITIVE 67 ET AL 1976 La d gradation du message par un filtrage passe bas ou passe haut 255 Hz n affecte par contre que peu la performance auditive de d termination du sexe du locuteur l identification des femmes est toujours plus facile que celle des hommes LASS ET AL 1980B La suppression de l information personnelle concernant la fr quence fondamentale par l utilisation d un larynx artificiel g n rant une onde de 120 Hz ou de 240 Hz montre que la d termination correcte du sexe sur la base de la r sonance du tractus vocal est de 67 pour les hommes et seulement de 30 pour les femmes COLEMAN 1976 La discrimination de paires de locuteurs reste cependant possible dans plus de 90 des cas COLEMAN 1973 Auteurs Ensemble de r f Caract ristiques Caract ristiques du Auditeurs T che et mesure de rence des locuteurs du message canal de transmission performance COLEMAN 20 locuteurs Lecture du Haute qualit 17 auditeurs Corr lation entre la 1973 20 locutrices Rainbow adultes et
314. et la robustesse aux variations du canal de transmission taient pourtant connues depuis longtemps au d but des ann es 1990 Les travaux cons cutifs cette recherche n ont fait l objet d aucune publication le logiciel REVAO n a pas t commercialis Les r sultats obtenus ont t classifi s confidentiel d fense par le minist re francais de l Int rieur suite une liquidation judiciaire la soci t Microsurfaces a disparu en 1993 apr s que son mat riel informatique eut t mis sous s questre BO 1998 7 supra 3 2 1 Le refus de t moigner 0 supra 6 3 1 1 2 Application PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE VI APPROCHE AUTOMATIQUE 141 Les raisons de cette classification sont obscures mais les informations et les v nements rendus publics alors laissent 4 penser qu elle a servi a viter aux autorit s mandantes un discr dit devant l ampleur d un chec Cette decision de classification est d autant plus regrettable qu elle sert justifier l efficacit de cette m thode et le bien fond de son utilisation par la Police Nationale francaise encore actuellement sans aucune d monstration scientifique videmment puisque la m thode est secr te C est en tout cas ce que sous entend une circulaire de pr sentation du laboratoire d analyse et de traitement de signal a destination des autorit s judiciaires et polici res fran aises et suisses romandes Les
315. eule r alis e grande chelle dans le domaine de l identification visuelle de spectrogrammes vocaux toutes les autres ont t effectu es petite chelle et leurs m thodologies sont si diff rentes que les r sultats sont tr s difficiles a comparer BOLT ET AL 1979 5 2 2 1 Evaluation principale en laboratoire L tude de TOSI analyse l influence de sept variables sur les performances d identification par comparaison visuelle de spectrogrammes vocaux dans un ensemble de 250 locuteurs 5 2 2 1 1 Variables analys es 1 Le nombre de mots cibles utilis s pour l identification les mots utilis s sont it is on you and the I to et me tr s courants en anglais Les tests ont t effectu s avec a neuf mots cibles et b six mots cibles 2 Le nombre d nonc s du m me mot cible produit par chaque locuteur les tests ont t effectu s avec a une occurrence b deux occurrences et c trois occurrences infra 6 4 1 Semi Automatic Speaker Identification System SASIS USA 1971 1975 92 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 3 Les conditions d enregistrement et de transmission des mots cibles les enregistrements ont t effectu s a dans des conditions de haute fid lit directement avec un enregistreur et un microphone dans un environnement calme b dans des conditions t l phoniques et un environnement calme l aide
316. eur Y 7 3 1 2 Estimation de la distribution de la variabilit interlocuteur L estimation de la variabilit interlocuteur de l indice mat riel X est obtenue par la comparaison des vecteurs de param tres de cet chantillon Sx avec les mod les des voix de l ensemble P p des personnes qui mod lisent la population potentielle des auteurs de l indice mat riel X Les mod les de l ensemble P sont calcul s avec le module logiciel GMM la sequence de vecteurs de param tres est extraite de l indice mat riel X par le module logiciel PLP et la comparaison est r alis e avec le module logiciel GMM evaluate La comparaison de l indice mat riel X avec tous les l ments de l ensemble P de p Sx dp p Sx 5p permet d obtenir des scores sous forme d un ensemble de nombres r els Cet ensemble de donn es B b ba d crit la variabilit interlocuteur de l indice mat riel X 7 3 2 Distribution des donn es Dans un premier temps la distribution des donn es A et B issues de l estimation des variabilit s intralocuteur et interlocuteur a t approch e par une simple fonction gaussienne MEUWLY ET AL 1998 Cependant s il existe des cas o la distribution des donn es A et B suit une fonction de densit de probabilit gaussienne leur distribution est la plupart du temps multimodale ou asym trique et ne peut tre estim e par aucune loi de distribution connue comme le montrent
317. eure 20 s la m thode GMM semble moins efficace que la quantification vectorielle compte tenu du nombre important de param tres qu il est n cessaire d estimer CAPPE 1995 FURUI 1997 MATSUI et FURUI ont r alis des mesures de performance d identification en mode ind pendant du texte dans les m mes conditions que celles utilis es pour la quantification vectorielle Les r sultats obtenus sont comparables ceux obtenus pour la quantification vectorielle Ils s chelonnent entre 85 8 et 95 6 d identification correcte selon la vitesse d locution et le nombre de gaussiennes utilis es pour le m lange Les performances maximales sont obtenues pour la vitesse d locution normale avec un m lange de 64 gaussiennes MATSUI ET FURUI 1992 7 infra 7 2 3 4 Comparaison PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE VI APPROCHE AUTOMATIQUE 133 6 3 2 4 Mod lisation par modeles de Markov cach s La mod lisation par mod les de Markov cach s Hidden Markov Models HMM est une approche param trique et s quentielle puisqu elle prend en compte certains aspects s quentiels du signal de parole elle s est av r e tr s efficace notamment dans le cadre de la reconnaissance de la parole Le mod le de Markov cach est un mod le statistique s quentiel qui suppose que les caract ristiques observ es forment une succession d tats distincts Il est caract ris par trois l ments les probabilit
318. fficult et son application n exige que des calculs simples Toutefois la formule pr sente une caract ristique essentielle elle nous indique que si l on veut tre en mesure de calculer la infra 3 5 4 4 Application forensique PARTIE I APPROCHE THEORIQUE CHAPITRE III MERTHODOLOGIE 45 probabilit pour qu un joueur ait trich sachant qu il a gagn huit fois sur dix et qu un tricheur gagne avec une probabilit de quatre vingt dix pour cent il est indispensable en plus d avoir une id e a priori sur la probabilit de tricher avant de disposer d aucun indice En d autres termes le th or me de Bayes ne permet pas de se faire une opinion partir des indices uniquement mais indique simplement comment notre jugement pr alable doit tre modifi par le rapport de vraisemblance ou Likelihood Ratio LR calcul partir de ces indices MATALON 19671 3 5 4 4 Application forensique 3 5 4 4 1 Principe Dig a ae KAPLAN 1968 IN KWAN 1977 Elle a ensuite t d velopp e par FINKELSTEIN ET FAIRLEY suite aux probl mes d interpretation des donn es chiffr es li es aux diff rents l ments de preuve dans l affaire People v Collins FINKELSTEIN ET FAIRLEY 1970 L utilisation de ce th or me permet de faire voluer un rapport de probabilit a priori de deux hypoth ses comp titives H et Ha vers un rapport de probabilit a posteriori de ces deux hypoth ses apr s l analyse d un
319. forensiques y compris dans un domaine analogue celui de l expertise d criture manuscrite L valuation des examinateurs de spectrogrammes est encore plus difficile r aliser depuis l Europe puisque cette pratique existe surtout aux tats Unis Par contre les nombreuses tudes de l approche spectrographique r alis es ce jour permettent d estimer la validit et la fiabilit de cette approche 3 5 Inference de l identit d un locuteur L inf rence de l identit d un locuteur partir de l l ment de preuve issu de l analyse de la voix a t envisag e de plusieurs mani res dans la litt rature Les auteurs ont principalement t influenc s par les processus de d cision utilis s dans les autres domaines des sciences forensiques et dans les autres applications de la reconnaissance automatique de locuteurs Pour certains auteurs il s agit d un probl me de discrimination alors que pour d autres il s agit d un probleme de classification D autres encore estiment que les experts devraient se contenter de quantifier les taux d erreur de type I et II des m thodes qu ils utilisent Seul un petit nombre pense que la solution passe par l valuation de rapports de vraisemblance 3 5 1 Discrimination 3 5 1 1 D finition La discrimination aussi appel e v rification de locuteurs dans le domaine de la reconnaissance automatique de locuteurs consiste mesurer une distance entre un enregistreme
320. g n rent les sons vois s Les sons de la parole peuvent tre caract ris s dans les domaines temporel spectral et spectro temporel les unit s segmentales de la parole les phon mes se divisent en consonnes semi consonnes et en voyelles La parole est l un des premiers moyens de communication entre les tres humains ce comportement est r gi par un code le langage L tendue spectrale de la voix humaine est comprise entre 80 et 8000 Hz et la puissance sonore de la parole normale se situe de 60 70 dB La fr quence fondamentale moyenne de vibration des cordes vocales F est comprise entre 180 et 300 Hz chez les femmes entre 300 et 600 Hz chez les enfants et entre 90 et 140 Hz chez les hommes PARTIE I APPROCHE THEORIQUE CHAPITRE I INTRODUCTION 5 1 2 2 La voix comme moyen d identification La voix est une caract ristique biom trique comme le sont l empreinte digitale le r seau vasculaire r tinien ou l information g n tique En tant que telle elle b n ficie d un a priori de tr s grande fiabilit voire m me d infaillibilit en terme d identification DODDINGTON 1985 Ce principe d individualit particuli rement associ aux mesures biom triques est souvent invoqu en sciences forensiques ROBERTSON ET VIGNAUX 1995 et parfois appliqu la voix humaine K NZEL 1987 KLEVANS ET RODMAN 1997 Il n est pourtant ni justifiable a priori ni d montrable d un point de vue th orique
321. g ner la transmission t l phonique naturelle La parole de qualit synth tique utilis e dans les syst mes de transmission militaires atteint des scores qui n exc dent pas 3 0 Elle peut impliquer un signal d intelligibilit lev e mais trop peu naturel pour permettre la reconnaissance auditive de locuteurs Le Diagnostic Rhyme Test DRT est une mesure de l intelligibilit des mots alors que la Diagnostic Acceptability Measure DAM refl te l acceptabilit g n rale de la communication parl e Le r sultat de ces deux tests est exprim en pour cent VOIERS 1977A VOIERS 19778 2 3 3 Influence du systeme de codage num rique de l information L aire d audition humaine est comprise entre le seuil d audition qui varie entre 0 et 40 dB selon la fr quence et le seuil de la douleur situ aux alentours de 120 dB Dans le domaine fr quentiel la sensibilit de l oreille s tend entre 16 Hz et 20 kHz PARTIE I APPROCHE THEORIQUE CHAPITRE II LA VOIX COMME INDICE MATERIEL 17 2 3 3 1 Haute fid lit Pour couvrir entierement cette aire d audition dans le domaine num rique et obtenir une haute fid lit de restitution les convertisseurs analogiques num riques exploitent des syst mes de codage de type Pulse Code Modulation PCM Le signal est chantillonn une fr quence de 48 kHz pour les syst mes d enregistrement professionnels comme le Digital Audio Stationery Head DASH ou le Digital Audio Tap
322. gnal cause de leur grande d pendance au locuteur et de leur identification relativement facile dans le signal de parole LI ET HUGUES 1974 SAMBUR 1975 SU ET AL 1979 Cependant la complexit de la proc dure d extraction automatique de ces l ments phon tiques comme celle propos e par DAS ET MOHN a conduit les auteurs a pr f rer le spectre moyen long terme au spectre court terme pour sa facilit de mesure et la possibilit de l utiliser dans un mode ind pendant du texte DAS ET MOHN 1971 O SHAUGNESSY 1986 6 2 2 2 3 Spectrogrammes num riques par transform e de Fourier rapide x La transform e de Fourier court terme est souvent utilis e pour confectionner des spectrogrammes num riques D une part le volume de calcul qu elle implique n est pas trop important gr ce l utilisation de l algorithme de calcul rapide Fast Fourier Transform FFT et d autre part l image obtenue est proche de celle du spectrogramme analogique Pour cette application le choix du type de la fen tre n est pas d terminant car les premiers formants sont en g n ral assez nets si la fen tre est de longueur suffisante La longueur de la 118 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE fen tre determine l observation de la structure harmonique Figure VI 1 ou formantique Figure VI 2 d un son vois 3200 00 gt 2800 00 2400 00 7 240
323. hon tique forensique et am liorer les strat gies de reconnaissance automatique de locuteurs lorsque le signal de parole est d grad 9 2 5 2 Recherche appliqu e Dans tout processus d identification la principale lacune concerne les bases de donn es D une part il n existe que tr s peu de bases de donn es qui prennent en compte des l ments de la variabilit intralocuteur rencontr s en sciences forensiques tels que le d guisement ou la variabilit intralocuteur long terme D autre part la mod lisation des populations potentielles demeure difficile car s il est possible de mod liser la population suisse romande et al manique de mani re acceptable avec des bases de donn es comme Polyphone les bases de donn es dans des langues pertinentes du point de vue de l enqu te criminelle sont rares ou inexistantes A notre avis une base de donn es caract re forensique devrait non seulement contenir un nombre suffisant de locuteurs pour mod liser la population potentielle mais comporter aussi plusieurs enregistrements de chaque locuteur enregistr s avec plusieurs appareils t l phoniques dont une fraction importante de t l phones cellulaires et sur une p riode aussi longue que possible de l ordre d une ann e Ce type de base de donn es pourrait tre utilis pour la mod lisation des variabilit s intralocuteur et interlocuteur dans l approche automatique il permettrait aussi l tablissement progressif de l
324. ication des locuteurs d croissent en raison de la r duction de la bande passante et l addition de bruit Dans des conditions d enregistrement de haute qualit ces d gradations alt rent plus le taux d identification et dans des conditions d enregistrement de basse qualit elles affectent plus l intelligibilit CLARKE ET AL 1966 Ces r sultats laissent penser que l intelligibilit de la parole d grad e n est pas un indicateur fiable pour l identification bien que ce crit re soit probablement tr s utilis dans la t che initiale d coute et de tri des chantillons Par contre la d termination subjective de la langue parl e peut tre consid r e comme fiable si elle est r alis e par une personne qui ma trise cette langue puisque cette facult fait alors partie du sens commun Ceci peut n anmoins signifier la n cessit pour l autorit polici re ou judiciaire de recourir aux services d un linguiste d un interpr te ou d un traducteur asserment 2 3 7 2 Enregistrement dans le cadre d un abus de t l phone Si le message est enregistr dans le cadre d un abus de t l phone au sens de l art 1795ePties CP il est en g n ral de courte dur e de quelques secondes quelques minutes et contient une faible quantit d information Son contenu peut constituer en lui m me une infraction dont la qualification d pend de l intention de son auteur et des th mes abord s La taille des cham
325. ie d ailleurs les t ches de reconnaissance de formes des r gions c r brales centr es dans l h misph re droit et les processus analytiques des r gions c r brales centr es dans l h misph re gauche BRYDEN 1982 BRADSHAW ET NETTLETON 1983 Cette interpr tation de la dissociation entre discrimination et identification n est cependant ni d finitive ni cat gorique car la r alisation de ces deux t ches suppose d une part un processus de traitement en deux grands niveaux reposant sur de multiples s quences et op rations interactives et d autre part la n cessit d un traitement massivement parall le de l information auditive WATROUS 1990 EUSTACHE 1995 4 2 Les m thodes de reconnaissance auditive L tude de la reconnaissance de locuteurs par audition se concentre sur l tude de la mani re dont les auditeurs humains r alisent la t che d association d une voix particuli re un individu particulier ou un groupe et notamment dans quelles circonstances une telle t che peut tre remplie NOLAN 1983 En sciences forensiques la reconnaissance de locuteurs par l audition est pratiqu e soit par des experts phon ticiens ou sp cialistes des sciences de la parole sur la base de principes scientifiques soit de mani re perceptive par des profanes principalement les victimes ou les t moins d une infraction KUNZEL 1994B 4 3 Proc dure de reconnaissance par des profanes Dans le c
326. ience training or education may testify thereto in the form of an opinion or otherwise 228 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Rule 703 Bases of Opinion Testimony by Experts The facts or data in the particular case upon which an expert bases an opinion or inference may be those perceived by or made known to the expert at or before the hearing If of a type reasonably relied upon by experts in the particular field in forming opinions or inferences upon the subject the facts or data need not be admissible in evidence Article IX Authentication and Identification Rule 901 Requirement of Authentication or Identification a General provision The requirement of authentication or identification as a condition precedent to admissibility is satisfied by evidence sufficient to support a finding that the matter in question is what its proponent claims b Illustrations By way of illustration only and not by way of limitation the following are examples of authentication or identification conforming with the requirements of this rule 1 Testimony of witness with knowledge Testimony that a matter is what it is claimed to be 2 Nonexpert opinion on handwriting Nonexpert opinion as to the genuineness of handwriting based upon familiarity not acquired for purposes of the litigation 3 Comparison by trier or expert witness Comparison by the trier of fact or by exper
327. ini TOSI ET AL 1972A 5 2 2 1 2 Echantillonnage Deux cent cinquante locuteurs masculins ont t s lectionn s al atoirement dans la population des tudiants de l Universit d tat du Michigan Tous sont natifs des tats Unis de langue maternelle anglaise am ricaine sans d faut de parole ni diff rence dialectale marqu e L ge des locuteurs s tend de 17 27 ans avec une moyenne 19 8 ans et un cart type de 2 1 ans TOSI ET AL 1972A Quant aux examinateurs ils ont t recrut s par voie d annonce et s lectionn s apr s une br ve explication de la m thode spectrographique et deux tests liminatoires portant sur l identification visuelle d un locuteur dans un ensemble de trois puis de onze personnes Avant de commencer l exp rimentation les 29 examinateurs choisis suivent un mois de cours de phon tique et de lecture de spectrogrammes ainsi qu un entrainement dans la t che d identification en ensemble ferm Les examinateurs ont t plac s dans trois groupes le premier I compos de femmes de 17 a 60 ans de diff rentes formations le suivant II compos d etudiants non dipl mes de diff rentes facult s de l Universit d tat du Michigan et le dernier III compos uniquement d tudiants du d partement de Justice Criminelle de cette universit En plus trois sous groupes d un de deux ou de trois examinateurs ont t form s Le cycle d identification a partir de
328. initi s par TIPPET ET AL dans le domaine de l interpr tation des r sultats d analyse de peintures automobiles sous les d nominations respectives de within source comparison et de between source comparison TIPPET ET AL 1968 3 6 4 1 1 D termination de la langue parl e L coute de l enregistrement consid r comme indice permet de d terminer la langue parl e et l accent r gional du locuteur inconnu de mani re subjective mais fiable 7 dans une moindre mesure le sexe de la personne inconnue peut tre d termin notamment sur la base de la hauteur de la fr quence fondamentale de sa voix D autres criteres de qualification fond s sur la qualit de la voix ou sur une proximit auditive peuvent tre envisag s petite mais pas grande chelle de plus ces crit res restent difficiles 4 syst matiser 3 6 4 1 2 Estimation de la variabilit interlocuteur Les crit res mis en vidence lors de l coute initiale de l indice servent d finir la population des locuteurs qui en sont potentiellement l origine et s lectionner une fraction de ces personnes pour mod liser cette population d auteurs potentiels La qualit de la mod lisation d pend de la taille de la base de donn es et de la justesse avec laquelle celle ci repr sente la population potentielle Le r le de cette premi re base de donn es consiste mesurer la variabilit interlocuteur c est dire calculer la distance math m
329. insi que CHAMPOD DRYGAJLO et MEUWLY sous l influence de EVETT ont suggere son application 4 la reconnaissance de locuteurs en sciences forensiques LEWIS 1984 BROEDERS 1995 MEUWLY ET AL 1998 CHAMPOD ET MEUWLY 1998 MEUWLY 2000 La th orie math matique des probabilit s tant coh rente le th or me de Bayes s applique tout aussi bien aux probabilit s statistiques que subjectives SAVAGE 1972 DE FINETTI 1975 L valuation des rapports de vraisemblance peut donc tre g n ralis e tous les indices comme le t moignage l indice mat riel ou l aveu en ce sens qu elle d crit de fa on pr cise la mani re dont ils se combinent si les juges ou le jury agissent de mani re rationnelle 48 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 3 5 5 1 Application a la reconnaissance de locuteurs 3 5 5 1 1 Choix d une approche Par sa prise en compte de l intravariabilit de la source dans l valuation de rapports de vraisemblance l approche continue initi e par KAPLAN est un processus d inf rence de l identit plus adapt la reconnaissance de locuteurs en sciences forensiques que l approche discr te d velopp e par FINKELSTEIN et FAIRLEY KAPLAN 1968 IN KWAN 1977 FINKELSTEIN ET FAIRLEY 1970 En effet l valuation de la variabilit intralocuteur sur la base de l analyse de caract ristiques d pendantes du locuteur repr sente un enjeu maje
330. interrogatoire contradictoire des experts GIANELLI ET IMWINKELRIED 1986 Les tribunaux des Etats sont pr s de rejeter ensemble le standard de Frye Ils pr f rent le reformuler afin que ses crit res d valuation permettent la recevabilit de la m thode spectrographique Dans l affaire Commonwealth v Lykus la cour Supr me du Massachusetts l exprime de cette mani re Aussi limit que puisse tre le nombre d experts les conditions requises par le standard de Frye sont notre avis remplies si le principe scientifique est accept par ceux qui sont familiers de son usage REYNOLDS ET WEBER 1979 Une telle interpr tation du concept de communaut scientifique pertinente implique que celle ci n est plus constitu e que de personnes acquises la m thode n cessairement partiales et d pendantes La cour Supr me de Californie le rel ve d ailleurs dans People v Kelly en notant que Comme KERSTA avant lui NASH avait construit sa carri re sur la fiabilit de cette technique et s identifiait trop aux postulats de la m thode spectrographique pour juger de mani re quitable et impartiale toute position scientifique oppos e Si la cour conserve l interpr tation reformulee du standard de Frye elle juge par contre que le technicien NASH ne peut tre assimil un scientifique GRUBER ET POZA 1995 Se rapprochant de la doctrine la cour Supr me de Pennsylvanie applique de mani re stricte le
331. ionnels peuvent choisir entre les d cisions suivantes a Identification positive c Identification possible e Impossibilit de conclure b limination positive d limination possible Ce choix de d cisions peut conf rer une fiabilit extr me aux identifications et liminations positives TOSI ET AL 1972B 5 2 2 3 Conclusion de l tude de Tos 5 2 2 3 1 Conclusion de l valuation principale en laboratoire Apr s une analyse statistique de l influence de chacune des sept variables analys es LASHBROOK propose de r pondre aux huit questions pos es dans le projet initial LASHBROOK 1972 Q1 Les spectrogrammes des m mes mots prononc s par un m me locuteur dans diff rentes circonstances sont ils suffisamment semblables pour tre identifi s R1 Le pourcentage de r ponses correctes est en moyenne de 84 72 Ce r sultat combine les performances en ensemble ferm 92 01 et en ensemble ouvert 77 44 infra 5 2 2 2 2 Extension des r sultats PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE V APPROCHE SPECTROGRAPHIQUE 95 Q2 La m thode est elle limit e par la dur e s parant la production des nonc s de r f rence et des nonc s de test R2 La capacit des examinateurs identifier des locuteurs partir de spectrogrammes contemporains est significativement sup rieure 95 21 l identification partir de spectrogrammes no
332. ique quasi universel tant pour les donn es audio qu informatiques et le prix de revient du support de type Recordable Compact Disc CD R est largement inf rieur 4 celui d une cassette audio compact de qualit Les forces de police de Suisse sont encore largement quip es de mat riel d enregistrement analogique obsol te mais le moment est judicieux pour un passage a une strat gie d enregistrement num rique avec comme base des standards de qualit et des protocoles d acquisition communs dans tout le pays PARTIE I APPROCHE THEORIQUE CHAPITRE II LA VOIX COMME INDICE MATERIEL 23 2 3 7 Influence du type d investigation 2 3 7 1 Influence de l investigation pr liminaire Comme d ja dit en introduction dans toute enqu te comprenant des enregistrements de parole l coute de l enregistrement consid r comme indice constitue la t che initiale et la seule lorsqu aucune relation avec une voix connue ne peut tre tablie par les personnes charg es de l enqu te un t moin ou une victime BOLT ET AL 1979 Ce tri pr liminaire implique que le recours une analyse a lieu le plus souvent lorsqu une ressemblance auditive frappante est constat e entre la voix pr sente sur l indice et la voix d une personne mise en cause ou lorsque la pr somption de d guisement existe sur la base de cette coute NOLAN 1991 BRAUN 1994 BROEDERS 1995 Dans le canal t l phonique l intelligibilit et le taux d identif
333. is POTTER R K 1946 Introduction to technical discussions of sound portrayal J Acoust Soc Am no 18 pp 1 3 POTTER R K KOPP K G GREEN H C 1947 Visible speech D van Nostrand Co NY Poza F T 1999 Communication personnelle 14 avril PRESTI A 1966 High Speed Sound Spectrograph J Acoust Soc Am vol 40 pp 628 634 PRUZANSKY S 1963 Pattern matching procedure for automatic talker recognition J Acoust Soc Am vol 35 pp 354 358 PRUZANSKY S MATHEWS V 1964 Talker recognition procedure based on analysis of variance J Acoust Soc Am vol 36 pp 2041 2047 PRZYBOCKI M MARTIN A F 1998 NIST speaker recognition evaluation 1997 Proceedings of RLA2C Workshop Speaker Recognition and its Commercial and Forensic Applications pp 120 124 PTACEK P H SANDER E K 1966 Age recognition from voice J Speech Hearing Res vol 9 pp 273 277 PTACEK P H SANDER E K MALONEY W H 1966 Phonatory and related changes with advanced age J Speech Hearing Res vol 9 pp 353 360 RABINER L R JUANG B H 1993 Fundamental of speech recognition PTR Prentice Hall RABINER L SCHAFER R 1978 Digital processing of speech signals Englewood cliffs NJ Prentice Hall RAMACHANDRAN R P ZILOVIC M S M
334. is qu il est fortement corr l aux chantillons qui l ont pr c d s Comme cet chantillon peut tre pr dit partir des chantillons pass s il suffit en principe de calculer les coefficients et l erreur de pr diction en utilisant la fonction d autocorr lation DRYGAJLO 1999 Le co t op ratoire suffisamment faible pour permettre l application en temps r el de la m thode de pr diction lin aire des fins de codage ou de reconnaissance de parole en font une m thode r pandue THEVENAZ 1993 DRYGAJLO 1999 6 2 3 1 2 Minimisation de l nergie r siduelle de pr diction Le calcul de l erreur de pr diction se fonde sur les connaissances du mod le de production de parole et suppose que ce mod le de production est lin aire et que sa fonction de transfert ne comporte que des p les d o son nom de mod le autor gressif tout p le Cette fonction de 120 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE transfert est exprim e sous la forme d un polyn me appel polyn me de prediction Les coefficients de ce polyn me mod lisent le conduit vocal excit par un signal inconnu et dont les caract ristiques sont suppos es L enjeu de l analyse par pr diction lin aire consiste d terminer les coefficients partir du signal de parole de mani re obtenir une bonne estimation de ses propri t s temporelles et spectrales tant donn la nature non stationnai
335. iscrimination ET AL 1978 locutrices enregis year ago 2 Codage ADPCM et filtre 1 familiers et locuteur imposteur tres 10 foi gur Iknow when my 3 Codage LPC et filtre 1 imexperts A1B1 89 6 85 plusieurs never due A2B2 f 86 amp 83 men A3B3 80 8 81 pee sand 880 tr s ne fois A3B1 79 8 86 A3B2 9 85 6 82 SCHMIDT A 19 locuteurs Message de haute 1 Haute qualit 24 auditeurs Identification NIELSEN ET familiers qualit 20 s 40 s 2 Codage LPC 2 4 Kbit s A1 90 A2 71 STERN 1985 B 5locuteursnon Message cod LPC A1 B1 88 familiers 27sa81s A2 B2 69 Tableau IV 10 Caract ristiques du canal de transmission L tude de MCGONEGAL montre qu en cas de transmission num rique le syst me de codage utilis n a que tr s peu d influence sur les performances de discrimination lorsque celui ci est homog ne pour tous les chantillons Cependant comme la qualit de la voix r sultant d un codage LPC ou ADPCM est extr mement diff rente les performances sont significativement alt r es lorsque des syst mes diff rents sont utilis s pour le codage de l indice et des enregistrements de comparaison MCGONEGAL ET AL 1978 supra 2 3 3 2 R seau t l phonique public commut RTPC 3 supra 2 3 3 4 Communications s curis es et communications par satellite PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE IV APPROCHE AUDITIVE 73
336. ise 4 la r gale des t l phones pour inqui ter un tiers ou pour l importuner sera sur plainte puni des arr ts ou de l amende Art 179 octies Mesures officielles de surveillance N est pas punissable celui qui dans l exercice d une attribution que lui conf re express ment la loi ordonne des mesures officielles de surveillance de la correspondance postale et des t l communications de personnes d termin es ou prescrit l utilisation d appareils techniques de surveillance art 179 bis et s condition qu il demande imm diatement l approbation du juge comp tent L approbation vis e au 1 alin a peut tre donn e aux fins de poursuivre ou de pr venir un crime ou un d lit dont la gravit ou la particularit justifie l intervention ANNEXE Ill ORDONNANCE SUR LE SERVICE DE SURVEILLANCE DE LA CORRESPONDANCE POSTALE ET DES TELECOMMUNICATIONS RS 780 11 du 1 d cembre 1997 Etat le 31 d cembre 1997 Le Conseil f d ral suisse vu l article 43 2 alin a de la loi sur l organisation du gouvernement et de l administration vu les articles 44 et 62 de la loi du 30 avril 1997 sur les t l communications vu l article 4 de la loi f d rale du 4 octobre 1974 instituant des mesures destin es am liorer les finances f d rales arr te Section 1 Organisation Article premier Principe La Conf d ration exploite un service charg de surveiller la correspondance postale et les
337. ision lorsque celle ci est faible ou inexistante La m trique utilis e pour la comparaison combine la mesure d une distance euclidienne pour les caract ristiques spectrales et une sommation des moindres carr s pour les caract ristiques temporelles Le r sultat est exploit soit dans une proc dure de classification en ensemble ferm soit dans une proc dure de discrimination NAKASONE ET MELVIN 1989 138 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Les auteurs consid rent cependant que la distance ainsi mesur e doit plut t tre consid r e comme un indice de proximit qu une probabilit d origine commune Pour la proc dure de classification les r sultats ne sont pas fournis uniquement lorsqu a l issue de la comparaison l enregistrement inconnu correspondant l enregistrement de comparaison est class au premier rang mais aussi lorsqu il est class au deuxi me au troisi me au septi me et au quinzi me rang Les tests montrent que l enregistrement inconnu est class au premier rang dans 80 des cas dans 85 des cas dans les deux premiers rangs dans 91 des cas dans les trois premiers rangs dans 95 des cas dans les sept premiers rangs et dans 99 dans les quinze premiers rangs NAKASONE ET MELVIN 1989 Malgr des r sultats int ressants obtenus a partir d nonc s de parole enregistr s dans des conditions proches des conditions forensiques le syst
338. isse et qui par leur travail et leur disponibilit contribuent mettre en valeur et rendre accessible les tr sors insoup onn s qui s y cachent Aux personnes qui en pr tant leur voix et leur temps ont contribu a la constitution de la base de donn es Polyphone IPSC Qu elles soient ici remerci es de leur pers v rance et de leur disponibilit Ce sont Mesdames Caroline et Ruth Behr Anne Brunelle Dominique et Fabienne Emonet Barbara et Caroline Lauber Eliane et Genevi ve Massonnet Monique Mermilliod Nicole et Rose Marie Meuwly Agatina et Fortinata Santangelo Martine Tristan Udriot Val rie Tristan Rochaix et Messieurs Alexandre et Maurice Boin Jean Francois et Marc Chevalley Marcel et Rapha l Coquoz Marc et Robert Demierre Alexandre et Marc Girod Jacques et Pierre Mathyer Bernard Meuwly ainsi que Jean Michel et Pierre Louis Rochaix A Madame Suzanne Dieterle et Madame le Docteur Genevi ve Massonnet ainsi que Monsieur Bernard Meuwly pour leur relecture attentive de ce manuscrit et leurs suggestions pertinentes A mes parents pour leur soutien inconditionnel dans tout ce que j ai entrepris et que j ai pu r ussir grace a eux A Nicole ma petite sceur pour sa soif et sa joie de vivre un rayon de soleil dans le monde des crans cathodiques A Monsieur l abb Georges Rukundo mon ami pour l exemple de courage qu il m a donn lui qui a surv cu la justice inique et aux prisons
339. ith la cour mentionne d ailleurs que les taux d erreur varient de 0 83 selon les valuations Le cinqui me crit re indique que le t moignage doit tre bas sur des faits ou des donn es dignes de confiance pour les experts du domaine Le fait que les tentatives de d monstration de la m thode spectrographique reposent essentiellement sur des donn es souvent consid r es comme incompl tes et sur des faits discutables et critiqu s par nombres d experts reconnus dans leurs domaines tels les scientifiques de BOLT I et II HECKER ou les juristes THOMAS ou BLACK pour ne citer qu eux montre clairement que la m thode spectrographique ne satisfait pas ce crit re non plus Le dernier crit re exige que la valeur probante de la m thode ne soit pas supplant e par les dangers d un pr judice injuste la confusion des conclusions ou l induction en erreur du jury Or l argument d velopp par les d fenseurs de la m thode spectrographique all gue que seuls les praticiens de la comparaison visuelle de spectrogrammes sont m me d en comprendre pr cis ment le fonctionnement alors que des scientifiques reconnus ne le peuvent pas malgr un bagage th orique plus important Selon TRUBY l impossibilit pour quiconque de d finir de d crire et d valuer le processus de reconnaissance de formes utilis dans cette technique ou encore les d positions de NASH dans People v Jackson qualifi es de verbiage pseudo scie
340. ix RIPC vol 40 no 390 pp 180 185 ANONYME 1991 A la recherche d une signature vocale Pol Nat Fr no 6 pp 14 16 ARGYLE M 1976 The psychology of interpersonal behaviour 2 d Penguin Books Harmondsworth ARISTOTE 384 322 av J C De Interpretatione ASSALEH K T MAMMONE R J 1994 Robust cepstral features for speaker identification Proceedings ICASSP vol 1 pp 1 129 132 ATAL B S 1968 Automatic speaker recognition based on speech contours Ph D Thesis Polytech Int Brooklyn NY ATAL B S 1974 Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification J Acoust Soc Am vol 55 pp 1304 1312 ATAL B S 1976 Automatic recognition of speakers from their voices Proc IEEE vol 64 no 4 p 460 ATKINSON J E 1976 Inter and intra speaker variability in fundamental voice frequency J Acoustic Soc Am vol 60 no 2 pp 440 455 ATWOOD W HOLLIEN H 1986 Stress monitoring by polygraph for research purposes Polygraph vol 15 pp 47 56 BALDWIN J FRENCH P 1990 Forensic Phonetics Pinter London BASZTURA C JURKIEWICZ J 1978 The zero crossing analysis of a speech signal in the short term method of automatic speaker recognition Archives of acoustics vol
341. ix d guis e N 49 H2 voix d guis e N 49 e H1 voix d guis e N 63 H2 voix d guis e N 63 Locutrices Locutrices Probabilit Probabilit o ot 0 2 0 5 1 2 10 20 so 100 200 soo 1000 5 A LR sup rieur a o oi 02 os 1 2 NS 10 20 50 100 200 500 1000 LR sup rieur H voix normale N 63 HI voix normale N 63 H2 voix normale N 63 Hl voix normale N 63 Hi voix d guis e N 63 H2 voix d guis e N 63 Hl voix d guis e N 63 H2 voix d guis e N 63 Locuteurs Locuteurs Figure VIII 19 R sultat de l valuation des rapports de vraisemblance en fonction de l absence ou de la pr sence d un d guisement dans l enregistrement de test lorsque le locuteur est effectivement la source de l enregistrement de test H et lorsqu il s agit d une autre personne dont la voix est auditivement proche H 8 11 3 3 Discussion des r sultats Les r sultats impliquant les messages anonymes avec voix normale Test an montrent des performances sup rieures pour les locuteurs que pour les locutrices lorsque l hypoth se H est PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VIII EVALUATION DU SYSTEME 197 v rifi e ce qui confirme encore que le syst me est plus robuste pour les voix d hommes que pour les voix de femmes Figure VIII 19 Lorsque l hypoth se H est v rifi e les rapports de vraisemblance mis en evi
342. jeunes d termination du sexe Passage et Fy 0 94 et F1 F2 et F3 0 59 LASS ET AL 10 locuteurs A i B e Haute qualit 15 auditeurs D termination 6 1976 10 locutrices C a D a A1 96 A2 74 E o F u B1 96 B2 80 1 voix normale C1 98 C2 76 2 voix chuchot e D1 98 D2 79 E1 94 E2 74 F1 94 F2 68 LASS ET AL A 10 locuteurs 4 phrases 1 Haute qualit 28 auditeurs D termination 6 1980C B 10 locutrices 2 Filtrage passe bas A1 96 B1 99 3 Filtrage passe haut A2 92 B2 98 A3 95 B3 96 COLEMAN A 5 locuteurs Lecture du Haute qualit 18 auditrices et D termination 6 1976 choisis F1 F2 F3 Rainbow 7 auditeurs A1 100 A2 67 bas Passage adultes et jeunes B1 30 B2 96 B 5 locutrices choisies F1 F2 F3 haut 1 Fo artificielle 120 Hz 2 Fo artificielle 240 Hz INGEMAN 14 locuteurs A h B f Haute qualit 5 auditeurs D termination 6 1968 phon tiquement C s D x 5 auditrices A 91 B 77 entraines E x F 0 C 75 D 73 D E 67 F 61 G 60 H 55 1 54 Tableau IV 7 D termination du genre du locuteur Les fricatives sourdes surtout h J et s prononc es de facon isol e contribuent aussi a la d termination du sexe du locuteur malgr l absence d information concernant la fr quence 68 RECONNAISSANCE DE LOCUTEURS EN SCIEN
343. juridique Indice X enregistrement t l phonique 4 Contenu nale Fa dune er p informations mise en cause ou 5 d pendantes enregistrement de Art 179septies CP P du locuteur et informations techniques Ecoutes D cision isi comparatives Du alternative pr liminaires Proc dure d expertise en reconnaissance de locuteurs Choix de l expert par le magistrat et d finition de la mission contr le Art 1790cties CP Choix m thodologique de l expert Figure II 1 Place de la proc dure d expertise en reconnaissance de locuteurs dans l enqu te p nale La plupart des indices sont des enregistrements qui r sultent d coutes t l phoniques ou de messages anonymes en Allemagne c est par exemple le cas pour 95 des chantillons de voix inconnue analys s K NZEL 1994A Cette particularit concernant le mode de collecte de l indice mat riel m rite une pr sentation du cadre l gal et des aspects techniques qui entourent actuellement la proc dure d enregistrement en Suisse 12 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 2 2 Cadre l gal La protection de la sph re priv e et notamment la protection des relations tablies par les t l communications est consid r e comme un droit fondamental en Suisse La l gislation concernant l autorisation pour l tat de proc der des coutes t l phoniques est
344. juridique sur l tude de KERSTA Dans le New York Times du 12 avril 1966 BORDERS fait remarquer que la faillibilit de l observateur est un probl me crucial pour l utilisation l gale de la m thode spectrographique et auditive BORDERS 1966 D s 1967 les r sultats des exp riences men es par KERSTA sont contest s et infirm s par YOUNG ET CAMPBELL qui montrent que pour un chantillonnage de cinq locuteurs le taux d identification correcte est de 78 4 en cas d utilisation de mots isol s mais seulement de 37 3 en cas d utilisation de mots extraits d nonc s de parole spontan e YOUNG ET CAMPBELL 1967 STEVENS et ses coll gues montrent que les performances sont proportionnelles la dur e des nonc s et que les performances de la m thode de reconnaissance auditive surpassent syst matiquement celles obtenues par la m thode de comparaison visuelle de spectrogrammes STEVENS ET AL 1968 Pour l identification de huit locuteurs elles sont de 88 pour la m thode auditive contre 68 pour la m thode visuelle partir d une seule syllabe de 90 contre 75 partir de mots isol s et de 91 contre 83 partir d une phrase enti re Dans le m me temps HECKER met en vidence les modifications significatives des spectrogrammes provenant d une voix State v Cary 1967 49 N J 343 People v King 1968 2 Dist 266 Cal App 2d 437 72 Cal Rptr 478 United States v Wright 17 CMA 183 37 MR 447 PART
345. k angetroffenen Bedingung getestet wie der Einfluss der Qualit t und der Quantit t der Daten der Einfluss der Stimmverstellung der Einfluss der Leitung und des Telephons der Einfluss des Hintergrundrauschens der Einfluss des Aufnahmesystems und der Einfluss von auditiv nahen Stimmen Die Bilanz der Forschung und die Frage nach der reellen Anwendung in der forensischen Sprechererkennung werden in der allgemeinen Diskussion und der in Form einer Synthese formulierten Schlussfolgerung behandelt SUMMARY This study attempts to present a synthesis on the methods currently used in forensic science for identifying speakers to define the issues involved and to assess practical limitations To this end we have divided the present work into four parts A theoretical discussion summarises established methods both inductive and deductive practised in forensic science for purposes of identification examining the voice as a material trace A new methodology is proposed based on Bayes s theorem as a framework for interpretation in speaker recognition for forensic science This methodology permits an assessment of the probabilities for trace material following two alternative hypotheses we first consider the source of the trace as the suspected speaker in the second hypothesis the suspected speaker is not the source of the trace Our second part is a bibliography outlining the state of the discipline and analyses the three methods used f
346. l ensemble contient 20 locuteurs il est de 91 87 lorsque l ensemble contient 40 locuteurs il est de 89 58 Q6 Le pourcentage de r ponses correctes d pend il de la pr sence d un chantillon du locuteur test dans l ensemble de r f rence R6 Oui l absence d un chantillon du locuteur test dans l ensemble de r f rence alt re les performances Q7 Le pourcentage de r ponses correctes obtenu par des examinateurs entra n s d pend il des conditions et du contexte d enregistrement et de transmission des mots cibles utilis s pour l identification R7 L analyse ne met pas en vidence de diff rence significative de pourcentage d identification correcte lorsque le contexte d enregistrement et de transmission change Il est de 92 42 lorsque les enregistrements proviennent directement d un enregistreur de bandes magn tiques il est de 91 31 lorsque les enregistrements ont t effectu s travers le r seau t l phonique et dans un environnement calme et de 91 02 lorsque les enregistrements ont t effectu s travers le r seau t l phonique et dans un environnement bruyant Q8 Une personne entra n e est elle capable de reconna tre si des spectrogrammes proviennent de la m me personne ou non R8 En g n ral un examinateur entra n est clairement capable de reconna tre les spectrogrammes des m mes mots produits par le m me locuteur De pl
347. l approche bay sienne ne permet pas d aboutir une conclusion ou une decision sans recours un principe par nature extrins que sur la base de l analyse de pr misses insuffisantes C est pourtant dans ces pr misses insuffisantes que r side la gen se m me de la question qui nous occupe A notre avis cette approche est apte a valuer l interpr tation des r sultats tant dans une approche subjective de type phon tique que plus objective de type automatique avec l avantage de mettre en lumi re les apports et les limites de chacune des m thodes Finalement la question de la validit scientifique d une m thode catalogu e comme telle est une comp tence de la communaut scientifique et non de l autorit juridique comme il a par exemple t pr tendu dans United States v Baller au sujet de la m thode spectrographique GIANELLI ET IMWINKELRIED 1986 1 United States v Baller 1975 519 F 2d 463 4th Cir cert denied 423 U S 1019 PARTIE IV SYNTHESE CHAPITRE IX DISCUSSION GENERALE 203 9 2 2 R flexion sur les m thodes De notre point de vue la port e du choix de la m thode de reconnaissance est moindre par rapport celle de la d marche La d marche choisie est en effet ouverte toute approche objective ou subjective pour autant que sa validit dans l valuation de rapports de vraisemblance ait t d montr e 9 2 2 1 Apports et limites de l approche automatique 9
348. l erreur de type II Cette valeur est connue sous le nom de taux d gale erreur ou equal error rate EER FURUI 1997 0 0 P de faux rejet 1 0 1 0 P d identification correcte 0 0 0 0 1 0 1 0 0 0 P de fausse P de rejet identification correct Figure IIL 4 Repr sentation graphique de trois courbes ROC et du taux d gale erreur d apr s GRUBER ET Poza 1995 3 5 3 2 Analyse forensique Certains auteurs pensent que soit la discrimination soit la classification en ensemble ouvert sont envisageables selon les circonstances du cas BIMBOT ET AL 1994 PAOLONI ET AL 1994 ROSE ET DUNCAN 1995 Dans ces deux cas les d cisions possibles peuvent tre repr sent es dans un tableau en fonction des diff rents tats Tableau III 1 PARTIE I APPROCHE THEORIQUE CHAPITRE III MERTHODOLOGIE 43 tat Identit ID Non identit ID Identification 0 99 0 01 Erreur de type I D cision Non identification 0 01 Erreur de type II 0 99 Tableau III 1 Repr sentation des taux d erreur de type I et de type II pour la t che de discrimination Admettons qu un indice mat riel enregistr soit compar la voix d une personne mise en cause et accept par un syst me dont les performances correspondent celles pr sent es dans le tableau III 1 Cette d cision positive d identification permet elle l expert de conclure que la per
349. l hypoth se H est v rifi e la fonction de densit de probabilit est estim e par kernel density estimation a partir des donn es qui d crivent la variabilit interlocuteur B Elle est calcul e de la mani re suivante Figure VIL8 D K 01b B bis det 7 9 i 1 f OIB T Repr sentation graphique de l estimation de la variabilit interlocuteur dans un chantillon de 1000 personnes 0 50 0 30 Densit Densit chantillon provenant de la locutrice Y chantillon provenant du locuteur Z Figure VII 8 Estimation de la variabilit interlocuteur par kernel density estimation 7 supra 3 5 5 1 5 Formalisation s8 supra 3 5 5 1 5 Formalisation 156 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Lorsque l estimation de la densit au point E est gale z ro elle est remplac e par une densit estim e de 1 10 Cette attitude certainement conservatrice a t choisie en fonction de la taille de la base de donn es utilis e pour la mod lisation de la population potentielle en effet dans ce cas la valeur E repr sente la seule occurrence parmi les 10 personnes que contient cette base de donn es 7 3 5 Calcul du rapport de vraisemblance de l l ment de preuve E 7 3 5 1 Vraisemblance de l l ment de preuve E lorsque H est vraie Dans le cas o l hypoth se H est v rifi e
350. l success factors Proceedings of RLA2C Workshop Speaker Recognition and its Commercial and Forensic Applications pp 150 160 BRADSHAW J NETTLETON N 1983 Human Cerebral Asymmetry Prentice Hall Englewood Cliffs NJ BRAUN A 1994 The effect of cigarette smoking on vocal parameters Proceedings of ESCA Workshop on automatic speaker recognition identification and verification pp 161 164 BRAUN A 1995 Procedures and Perspectives in Forensic Phonetics Proceedings of the XIIth International Congress of Phonetic Sciences Stockholm vol 3 pp 146 153 BRAUN A 1996 Age estimation by different listener groups Forensic Linguistics vol 3 no 1 pp 50 64 BRAUN A 1998 Voice Analysis rapport pr sent lors de la 12 Conf rence Triennale d Interpol sur les sciences forensiques Lyon BRAUN A RIETVELD T 1995 The Influence of smoking habits on perceived age Proceedings of the XIIth International Congress of Phonetic Sciences Stockholm vol 1 pp 294 297 BRICKER P P RUZANSKY S 1966 Effects of stimulus content and duration on talker identification J Acoustic Soc Am vol 40 pp 1441 1449 BRICKER P GNANADESIKAN R MATHEWS M W P RUZANSKI S TUKEY P A WATCHER K W WARNER J L 1971 Statistical techniques for talker identification Bell Sys Tech J
351. la densit de probabilit de l l ment de preuve E dans la distribution interlocuteur de l enregistrement de comparaison 174 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 8 6 2 2 R sultats Les personnes qui ont toujours utilis le m me t l phone sont valu es ind pendamment de celles qui ont utilis des t l phones ou des lignes de t l phone diff rents pour l enregistrement des mod les Mod les et enregistrements de comparaison Mod les et enregistrements de comparaison enregistr s avec le m me t l phone enregistr s avec des t l phones diff rents 5 x 2 2 2 Een Es Es a a2 EIER oa ee 2 o 0 10 0 20 0 50 1 A 5 10 20 50 100 200 500 1000 2 o 0 10 0 20 0 50 1 2 m 5 10 20 50 100 200 500 1000 LR sup rieur LR sup rieur e H1 0 4s N 168 HI plus de 4 s N 510 H1 0 4s N 108 HI1 plus de 4 s N 1116 H2 0 4 s N 28000 H2 plus de 4 s N 86000 H2 0 4 s N 12000 H2 plus de 4 s N 165000 Locutrices Locutrices i 2 2 Zo Zo Es Es a2 a2 Er oa Pe A LR sup rieur LR sup rieur eH1 084s N 162 HI plus de 4 s N 960 H1 0 4s N 108 HI1 plus de 4 s N 864 lt H2 0 4 s N 27000 H2 plus de 4 s N 152000 H2 0 4 s N 23000 H2 plus de 4 s N 114000 Locuteurs Locuteurs
352. la distribution interlocuteur de l enregistrement de test PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VIII EVALUATION DU SYSTEME 183 8 8 1 2 R sultats 1 1 w g 0 6 0 6 3 3 8 05 amp 05 A A 8 04 8 04 LA LA 0 LR sup rieur LR sup rieur e H1 m me t l phone N 678 Hi t l phone different N 1206 e H1 m me t l phone N 1122 Hi t l phone diff rent N 1044 H2 m me t l phone N 114000 H2 t l phone diff rent N 177000 H2 m me t l phone N 179000 H2 t l phone diff rent N 135000 Locutrices Locuteurs Figure VIIL9 R sultat de l valuation globale des rapports de vraisemblance en fonction du t l phone et de la ligne utilis s pour l enregistrement des mod les 8 8 1 3 Discussion des r sultats Les r sultats confirment les indications observ es dans les exp riences pr c dentes et report es dans la litt rature PRZYBOCKI ET MARTIN 1998 L utilisation d un t l phone diff rent pour l enregistrement du mod le et de la comparaison a une influence pr pond rante sur le r sultat L utilisation du m me t l phone pour l enregistrement du mod le et l enregistrement de comparaison permet d obtenir dans 50 des cas un rapport de vraisemblance de l ordre de 25 alors que l on doit se contenter de rapports de vraisemblance de l ordre de 7 5 pour les locutrices et de 2 pour les locuteu
353. laquelle la voix et le parler permettent l identification du sujet est scientifiquement fond e puisque la voix reste stable au cours de la 7 supra 5 2 1 3 Prise de position de la communaut scientifique et juridique sur l tude de KERSTA PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE V APPROCHE SPECTROGRAPHIQUE 111 vie adulte jusqu la vieillesse toutes les modifications vocales cons cutives au vieillissement deviennent leur tour des particularit s concourant l identification P Depuis 1972 le laboratoire de phonocriminalistique de notre institut a effectu un nombre appr ciable d expertises ayant pour objet l identification des personnes d apr s la voix et le parler expertises dont les r sultats ont t confirm s dans la proportion de 99 par les tribunaux Depuis quelque temps la criminalistique s est empar e pour les mettre au service de la justice et de la v rit des plus r centes r alisations techniques et scientifiques contemporaines au nombre desquelles figure c t de l ordinateur le laser On en est donc venu examiner les diagrammes en les clairant l aide d une source laser dans un syst me de filtrage optique ce qui permet d obtenir un spectre de Fourier qui synth tise toutes les caract ristiques de la voix transcrites sur les sonagrammes et qui offre la possibilit d un examen comparatif int gral de ces derniers De plus on assure ainsi la t
354. le Polytechnique F d rale de Lausanne DUDA R O HART P E 1973 Pattern classification and scene analysis John Wiley amp Sons New York EL MALIKI M DRYGAJLO A 1998 Statistical modeling and missing feature compensation for noisy speech in forensic speaker recognition Proceedings of the 8th COST 250 workshop Ankara Speaker identification by man and by machine Directions for forensic applications pp 39 45 ENDRESS W BAMBACH W FLOSSER G 1971 Voice spectrograms as a function of age voice disguise and voice imitation J Acoust Soc Am vol 49 pp 1842 1848 ENGEL E VENETOULIAS A 1991 Monty Hall s Probability Puzzle Chance 4 no 2 pp 6 9 EUSTACHE F 1995 Identification et discrimination auditive donn es neuropsychologiques IN Perceptions et agnosies eds Lechevalier B Eustache F Viader F Universit De Boeck Bruxelles pp 243 271 EVETT I W 1983 What is the Probability that This Blood Came from That Person A Meaningful Question Journal of the Forensic Science Society vol 23 pp 35 39 EVETT I W 1987 On Meaningful Questions A two Trace Transfer Problem Journal of the Forensic Science Society vol 27 pp 375 381 EVETT I W 1990 The theory of interpreting scientific transfer evidence Forensic Science Progress vol 4 pp 141
355. le p EIH2 peut tre consid r e comme acceptable Dans ce cas elle suffit d gager un rapport de vraisemblance largement inf rieur 1 Par contre lorsque le r sultat de l analyse indique de faibles dissemblances et de fortes ressemblances donc que le num rateur du rapport de vraisemblance est proche de 1 l exp rience de l expert phon ticien ne peut pas tre consid r e comme un moyen acceptable pour inf rer un d nominateur largement inf rieur 1 car seule une d marche statistique permet d tablir 206 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE empiriquement que la fr quence relative d apparition des caract ristiques tudi es dans la population potentielle est extr mement faible Or l exception des informations sur la fr quence fondamentale le rythme et la puissance de la voix ces statistiques de distribution sont inexistantes dans le domaine de la phon tique forensique KUNZEL ET AL 1995 L tablissement de la distribution des caract ristiques analys es n cessite une base de donn es de la population potentielle et repr sente pour chaque population potentielle un travail cons quent pour une base de donn es de taille statistiquement valide Cette analyse du m canisme de l inference de l identit illustre les raisons pour lesquelles la validit des inf rences de non identit fournies par l approche phon tique peut tre consid
356. le pr traitement des signaux la s lection ou la suppression de certains param tres acoustiques ou linguistiques l interpr tation des r sultats chiffr s et la formulation de la decision finale d identit ou de non identit K NZEL 1994A 36 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 3 4 3 3 Selon le mode de d pendance au texte 3 4 3 3 1 D finition Cette troisieme classification distingue les m thodes ind pendantes du texte des m thodes d pendantes du texte Les premi res offrent la possibilit d utiliser des chantillons form s de n importe quels mots ou phrases alors que les secondes requi rent que l chantillon de parole inconnue soit form des m mes mots ou phrases que l chantillon de comparaison FURUI 1994 Une m thode parfaitement ind pendante du texte devrait aussi satisfaire a la condition d ind pendance par rapport la langue parl e Trois niveaux de d pendance au texte peuvent cependant tre distingu s La d pendance rigoureuse au texte qui n cessite que les chantillons soient form s de la m me s quence de mots la d pendance au vocabulaire qui permet l utilisation d chantillons form s de s quences de mots diff rents choisis l int rieur d un vocabulaire restreint et la d pendance l v nement de parole qui ne n cessite que la pr sence de certains v nements phon tiques particuliers dans les ch
357. le domaine forensique et d en saisir les enjeux et les limites Pour y parvenir le pr sent ouvrage est structur en quatre parties Apr s une approche th orique il propose une analyse des proc dures utilis es en sciences forensiques se poursuit par une recherche exp rimentale destin e valuer l apport d une approche automatique dans ce domaine et se termine par une discussion g n rale et une conclusion en forme de synth se Nous souhaitons la lectrice et au lecteur de trouver autant de plaisir la lecture de cet ouvrage que nous en avons eu la r alisation de ce projet Lausanne juin 2000 Didier Meuwly RESUME Cette recherche tente de fournir une vue d ensemble des m thodes de reconnaissance de locuteurs utilis es aujourd hui dans le domaine forensique et d en saisir les enjeux et les limites Pour y parvenir le pr sent ouvrage est structur en quatre parties L approche th orique rappelle les approches classiques inductive et d ductive utilis es pour l identification en sciences forensiques et explore la voix en tant qu indice mat riel Elle propose une m thodologie nouvelle bas e sur le th oreme de Bayes comme canevas d interpr tation pour la reconnaissance de locuteurs en sciences forensiques Cette m thodologie permet l valuation de la vraisemblance de l indice mat riel dans deux hypoth ses alternatives premi rement dans l hypoth se que la source de l indice est le locuteur susp
358. lement par l op rateur qui peut de cette mani re prendre l initiative d une non decision Les tests ont t effectu s par des tudiants sans connaissance particuli re en science de la parole sur la base de 200 phrases prononc es par 100 locuteurs Les r sultats montrent que si les op rateurs d finissent des seuils de mani re a ne rendre aucune decision dans environ 30 des cas les taux d erreur de type I et de type II sont inf rieurs 1 en cas de d cision Sur la base de ces r sultats et d une valuation parall le effectu e par Texas Instruments qui a notamment mis en vidence le manque de robustesse du syst me lorsque les locuteurs sont enrhum s les auteurs concluent que cette m thode est utilisable des fins d investigation par des op rateurs sans formation particuli re Par contre ils recommandent des tudes compl mentaires sur des param tres comme la coarticulation la variabilit intersession et la langue parl e avant de proposer l utilisation de cette m thode devant un tribunal BECKER ET AL 1973 Ces conclusions ont conduit le LEAA a poursuivre les recherches en mandatant la firme Rockwell International dont la division de recherche en lectronique a d velopp le programme Semi Automatic Speaker Identification System SASIS visant a am liorer le systeme mis au point par le SRI Ce programme s articule sur plusieurs axes de recherche l enregistrement d une base de donn es
359. les 225 Annexe IV Extraits des Federal Rules of Evidence 227 Article I General Provisions 227 Article VII Opinions and Expert Testimony 227 Article IX Authentication and Identification 228 Annexe V Code de procedure de l International Association for Forensic Phonetics IAFP 231 Code de proc dure 231 Annexe VI Base de donn es Polyphone IPSC 233 A VI 1 Date des sessions d enregistrement 233 A VL2 Type de t l phone utilis 235 A VI 3 Composition des enregistrements 238 Bibliographie 247 Bibliographie 249 PARTIE 1 APPROCHE THEORIQUE I INTRODUCTION 1 1 La notion d identit en sciences forensiques 1 1 1 D finitions L identit est un concept humain qui d coule directement de l exp rience du monde physique Les objets sp cifiques ou g n riques sont group s ou organis s dans la m moire en fonction d exp riences pass es de la perception de leurs caract ristiques intrinseques Comme il n est possible d appr hender le monde que par les sens c est un processus inductif qui gouverne les identit s ainsi tablies LEWIS 1984 En police scientifique et en droit l identit est l ensemble des caract res par lesquels un homme definit sa personnalit propre et se distingue de tout autre Dans ce dernier ordre d id es tablir l identit d un individu est l op ration polici re ou m dico l gale appel e identification Un homme peut tre semblable 4 plusieurs autres ou a
360. limit e la premi re partie de l tude effectu e en laboratoire 5 2 2 6 5 Observations du Technical Committee on Speech Communication of the Acoustical Society of America BOLT II Dans une lettre l diteur du Journal of Acoustical Society of America les auteurs de BOLT I mettent en vidence que certains facteurs pr pond rants dans le domaine forensique n ont pas t abord s dans l tude de TOSI tels les changements de l tat psychologique provoqu s par le stress ou les motions les effets de l environnement sonore du syst me d enregistrement du d guisement ou de l imitation tous susceptibles d augmenter la variabilit intralocuteur de la voix BOLT ET AL 1973 Dans leur analyse des r sultats ces m mes auteurs soulignent aussi que dans les conditions les plus proches des conditions forensiques pr sentes dans l tude de TOSI la comparaison de spectrogrammes non contemporains issus d nonc s enregistr s en contexte libre et dans un ensemble ouvert aboutit un taux d erreur de 29 5 de fausses identifications et 24 de fausses exclusions Ce r sultat montre que la probabilit d erreur augmente substantiellement dans les conditions peu id ales rencontr es dans le domaine forensique D s lors pr tendre sans d monstration scientifique que la probabilit d erreur sera inf rieure dans les conditions forensiques que lors des exp riences de laboratoire rel ve d une extrapolati
361. limite o l chantillon dans lequel elles sont observ es repr sente la population potentielle LEWIS 1984 La puissance de calcul des micro ordinateurs actuels permet d envisager le probl me sous un angle r ellement statistique en exploitant des bases de donn es de taille convenable pour la mod lisation d une population potentielle le tout dans un temps raisonnable En cons quence l valuation empirique d une m thode de reconnaissance automatique statistique dans des conditions forensiques est r alisable et permet de proc der l valuation et la quantification de ses performances En cela elle remplit le crit re de recevabilit nonc dans la Federal Rule of Evidence 702 De plus l valuation de rapports de vraisemblance permet une bonne appr ciation du co t de l erreur en fonction de l volution de la probabilit a priori 204 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Paradoxalement le r sultat de la quantification des performances repr sente aussi un frein psychologique l utilisation en sciences forensiques de toute m thode ne pr sentant pas des taux d erreur th oriques infinit simaux Dans le domaine de l analyse g n tique par exemple l argument d un taux d erreur infinit simal est contest et contestable lorsque la m thode est mise en pratique LEMPERT estime d ailleurs que le taux d gale erreur r sultant de l ana
362. lle dans les phases explosives des sons occlusifs Figure IL 2 A B C D Figure II 2 La forme d onde du signal vocal ski A al atoire B bruit C impulsionnelle D pseudo p riodique 2 3 1 2 Repr sentation num rique Le signal acoustique temporel continu n est accessible aux techniques num riques de traitement du signal que sous une repr sentation chantillonn e quantifi e et limit e en temps DRYGAJLO 1999 2 3 1 2 1 Echantillonnage La repr sentation num rique implique un chantillonnage du signal effectu une fr quence fe compatible avec les exigences du th or me de Shannon Selon ce th or me la perte d information entre le signal temporel continu et le signal discret correspondant est nulle si et seulement si la fr quence d chantillonnage est au moins sup rieure ou gale au double de la fr quence la plus haute contenue dans ce signal appel e fr quence de Nyquist 2 3 1 2 2 Quantification Chaque chantillon est quantifi avec un pas de quantification q en rapport avec la pr cision souhait e et cod par un algorithme qui d pend de la nature et des exigences de l application Pour un convertisseur analogique num rique oti n repr sente le nombre de bits des valeurs de sortie le rapport signal sur distorsion de quantification mesur en dB varie lin airement avec n et augmente de 6 dB avec chaque bit suppl mentaire le niveau de la distorsion de quantification d pe
363. lle est admissible puisqu elle satisfait au standard de Frye Une formulation de ce standard souvent cit e pr cise que la cour doit distinguer l tape exp rimentale de l tape de d monstration d une d couverte ou d un principe scientifique et qu elle ne devrait admettre un tel t moignage que lorsque le principe duquel la d duction est tir e est suffisamment tabli pour avoir gagn une acceptation g n rale de la communaut scientifique pertinente LOEVINGER 1995 En 1967 dans l affaire United States v Wright la cour Militaire d Appel des Etats Unis condamne un membre de l Air Force pour des appels t l phoniques anonymes menagants et People v Straehle No 9323 64 Sup Ct Westchester County not dans 12 New York L F 501 1966 supra 3 3 Exigences l gales en mati re de preuve scientifique 38 State v Valdez 1962 91 Ariz 274 371 P894 United States v Wright 17 CMA 183 37 MR 447 88 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE obsc nes sur la base de l identification effectu e par KERSTA Elle est cependant la seule cour d appel a avoir admis la validit de la m thode uniquement sur la base des exp riences de KERSTA GOCKE ET OLENIEWSKI 1973 La cour a cependant mal identifi le principe scientifique duquel la d duction est tir e Il ne s agit ni du spectrographe ni de son produit le spectrogramme puisqu
364. lle n assure pas que les degr s de croyance exprim s directement par les individus r els sont bien des probabilit s Autrement dit rien ne prouve que lorsqu un individu donne sa probabilit subjective de l occurrence d un v nement ou de la v rit d une proposition cette grandeur ne satisfasse au calcul des probabilit s MATALON 1967 Un exemple frappant des dangers li s la probabilit subjective a t donn par EVETT Lors d un jeu t l vis am ricain un joueur se trouve face trois rideaux A B et C derri re Yun desquels se trouve un prix qu il peut gagner s il fait le bon choix Le pr sentateur conna t le rideau gagnant et invite le joueur faire un premier choix sans toutefois lui permettre de voir s il a imm diatement gagn ce stade du jeu le joueur a une chance sur trois de gagner Admettons que le joueur choisisse le rideau A le pr sentateur montre alors que l un des deux rideaux restants par exemple C ne cache pas le prix A ce moment le joueur est amen faire un deuxi me choix rester sur son premier choix le rideau A ou changer de rideau en faveur du rideau B La question est de savoir si le joueur a int r t ou non changer de rideau Le fait de changer de rideau influence t il ses chances de gain Intuitivement on peut raisonner de la mani re suivante Une fois le rideau C soulev par le pr sentateur il ne reste que deux solutions le prix est
365. llulaire l volution des algorithmes de codage tend vers une diminution des taux de transfert tout en garantissant une qualit de communication acceptable sup rieure ou gale 3 0 MOS La conversion analogique num rique est effectu e l int rieur de l appareil metteur r cepteur L appareil portable met le signal num rique entre 890 et 915 MHz et la station de base entre 935 et 960 MHz KREBSER 1993 Pour augmenter le nombre de raccordements simultan s au r seau le r seau DCS 1800 Digital Cellular System est actuellement mis en place en Suisse Dans ce second r seau la station de base met le signal entre 1805 et 1880 MHz et l appareil portatif entre 1710 et 1785 MHz Les algorithmes de codage num riques sont optimis s pour la transmission du signal de la parole La contamination de ce signal par du bruit de fond engendre des distorsions non lin aires impossibles mod liser analytiquement Ce probl me est surtout pr sent dans le cas de la t l phonie mobile car les appareils cellulaires sont utilis s dans des environnements sonores tr s divers et bruyants notamment en voiture 2 3 5 3 Communication sur le r seau t l phonique par satellite Une qualit de 3 0 MOS est accept e pour une utilisation militaire et professionnelle extr me comme celle des correspondants de guerre et des navigateurs dans laquelle la sauvegarde de Vintelligibilit est l essentiel Par contre la r cente exp rience du pre
366. locuteurs Le second d velopp dans le chapitre VIII consiste valuer l outil r alis dans un cadre bay sien l aide de bases de donn es d nonc s de parole dont la qualit n est pas sup rieure celle qui peut tre atteinte lors de l enregistrement d un message anonyme ou d une coute t l phonique 7 2 Le syst me de reconnaissance de locuteurs 7 2 1 D finition g n rale du syst me 7 2 1 1 Choix de la m thode d analyse du signal de parole Les m thodes d analyse actuelles sont bas es sur la variabilit implicite du signal de parole en fonction du locuteur Les caract ristiques spectrales du signal d pendantes du locuteur sont extraites soit par la m thode de pr diction lin aire soit par l analyse homomorphique En plus de leur efficacit ces m thodes ont l avantage de r duire le temps et la complexit du travail de l op rateur puisque toute segmentation manuelle est inutile Cette approche limite par l m me l influence de la subjectivit humaine dans le processus analytique Le choix s est port sur la pr diction lin aire perceptuelle PLP qui est d une part l une des m thodes les plus couramment utilis es et d autre part une m thode peu affect e par des diff rences de niveau sonore des signaux analys s et dont la robustesse aux diff rentes d gradations est plus universelle que d autres m thodes d extraction des coefficients de pr diction lin aire YEGNANARAYANA ET AL 1992
367. locuteurs assez homog ne qui ne peut pas tre repr sentatif de la totalit de la population estudiantine Les r sultats obtenus ne peuvent donc pas tre extrapol s la population estudiantine dans son entier TOSI ET AL 1972B THOMAS 1981 5 2 2 6 2 Extension des r sultats Aucune preuve n a t produite par TOSI pour d clarer que dans des conditions forensiques r elles les performances d identification augmentent Au contraire d importants facteurs non examin s comme la faible qualit des enregistrements pourraient les faire diminuer SIEGEL 1976 5 2 2 6 3 Inf rence de l identit du locuteur Bien que TOSI conc de que d un point de vue th orique la population potentielle est un ensemble ouvert il affirme que dans les situations pratiques l ensemble est un ensemble ferm Cette conception de l identification forensique n est pas du tout en accord avec le concept d identification forensique d velopp par TUTHILL qui repose sur un processus d individualisation a partir d un ensemble de locuteurs defini selon les circonstances du cas la population potentielle TUTHILL 1994 Or les r sultats de l tude montrent que dans une population pourtant r duite l augmentation du nombre de 20 40 locuteurs alt re d j les performances d identification de mani re significative LASHBROOK 1972 supra 1 1 2 2 L identification PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE V AP
368. long terme de la fr quence fondamentale L essentiel de la recherche phon tique s est concentr sur l information linguistique contenue dans l intonation et le fait que cette fonction linguistique soit de premiere importance ne laisse que peu de place des caract ristiques d pendantes du locuteur ATKINSON montre que la variabilit intralocuteur et 82 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE interlocuteur du contour de F est comparable lorsqu un seul et m me type d nonc est utilis ATKINSON 1976 La contribution du contour de F l identification de locuteurs familiers a cependant t mise en vidence par ABBERTON ET FOURCIN et plus syst matiquement par VAN DOMMELEN ABBERTON ET FOURCIN 1978 VAN DOMMELEN 1987 Ces deux tudes montrent que les locuteurs dont le contour de F est semblable sont plus facilement confondus par des auditeurs que lorsqu il est diff rent L importance du contour de F est cependant secondaire la plus grande partie de la t che d identification ayant d j t effectu e sur la base de la hauteur de F au moment o la dur e de l nonc est suffisante pour que l intonation soit prise en compte VAN DOMMELEN 1990 D autres investigations sur l un des param tres constituant le contour de F la tessiture montrent qu elle influence la perception que les auditeurs ont de l tat psychologique du locuteur BROWN
369. lorsque l hypoth se H est v rifi e Figure VIII 16 Le passage un format d enregistrement num rique ad quat sans compression du signal est donc une condition sine qua non avant d envisager une quelconque procedure d expertise en reconnaissance de locuteurs partir d enregistrements recueillis par la police lors d enqu tes Cette situation repr sente malheureusement un handicap extr me pour l implantation du syst me de reconnaissance de locuteurs mis au point puisque toute d monstration de son efficacit dans une situation r elle est emp ch e par la qualit intrins que des indices enregistr s dans la grande majorit des cas avec des enregistreurs analogiques sur bande magn tique a faible vitesse de d filement 8 11 Evaluation de l influence de voix auditivement proches Une hypoth se alternative parfois propos e par la personne suspect e est celle de l existence d une autre personne inconnue faisant partie de la population potentielle dont la voix est si proche de la sienne qu elles ne peuvent tre diff renci es par t l phone Le cas de cette hypoth se alternative particuli re a t test e dans plusieurs situations grace aux 16 paires de personnes de la base de donn es Polyphone IPSC dont la voix est auditivement proche Cette configuration de test permet de comparer les rapports de vraisemblance qui peuvent tre d gag s lorsque la personne mise en cause n est pas la source de l
370. ls ont l avantage de reposer sur une m thodologie valide D autre part les valeurs de rapports de vraisemblance mises en vidence ne demandent qu voluer en fonction des progr s technologiques dans les domaines de la collecte de l indice mat riel et de la reconnaissance automatique de locuteurs Si l approche phon tique comparative peut tre consid r e comme valide dans une d marche d inf rence de la non identit du locuteur sa validit dans la d marche d inf rence de l identit du locuteur sera contestable et contest e tant qu aucune statistique fiable de la distribution des caract ristiques analys es dans la population potentielle n aura pas t tablie Sur un plan pratique l approche phon tique est accept e dans certains pays mais rejet e dans d autres La validit de la reconnaissance auditive de locuteurs par des profanes n a qu une valeur comparable celle d un autre t moignage Finalement la validit de la m thode spectrographique bas e sur la comparaison visuelle de spectrogrammes vocaux est contestable et contest e tant par le vide th orique qui la caract rise que par la controverse qu a soulev e son application dans le domaine forensique Sur un plan pratique elle est de moins en moins pratiqu e mais subsiste encore dans certains tats des tats Unis Et de m me que l criture n est pas la m me chez tous les hommes les mots parl s ne sont pas non plus les m
371. lyse g n tique se situe aux alentours de 2 apres la prise en compte de toutes les sources d erreur notamment celles de laboratoire LEMPERT 1995 L avanc e constante et un rythme soutenu de la recherche offre une marge de progression confortable aux m thodes de reconnaissance automatiques de locuteurs Les capacit s des classificateurs progressent en exploitant les solutions les plus volu es dans les domaines de la reconnaissance de formes et de l intelligence artificielle perceptive A terme cette marge de progression est cependant limit e en sciences forensiques si de nouvelles strat gies d extraction des caract ristiques d pendantes du locuteur ne sont pas d velopp es par exemple sur la base d un traitement local des distorsions pr sentes dans le signal de parole ou d une s gr gation des parties int ressantes par segmentation du signal de parole lors du pr traitement Pour l instant les crit res de s lection des caract ristiques d finis par exemple par KWAN ne sont que tr s partiellement satisfaits KWAN 1977 ROSENBERG ET SOONG 1991 FURUI 1994 Cette constatation illustre parfaitement l observation de BREMERMANN un choix judicieux des caract ristiques conditionne plus de la moiti de l efficacit de Videntification et aucun traitement math matique post rieur ne saurait combler des caract ristiques mal choisies BREMERMANN 1971 IN KWAN 1977 Les exp riences men es au c
372. ment acoustique du microphone et du canal de transmission t l phonique et dans le domaine criminalistique du syst me d enregistrement affectent la qualit de l extraction de caract ristiques pertinentes pour la reconnaissance de locuteurs et de parole La d couverte des principes psycho acoustiques qui gouvernent l audition humaine a conduit les chercheurs vers des strat gies d extraction bas es sur un certain mim tisme du syst me auditif humain PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE VI APPROCHE AUTOMATIQUE 123 La r solution spectrale de l oreille humaine permet la diff renciation d environ 140 degr s de hauteur entre 0 et 500 Hz et d environ 480 degr s de hauteur entre 500 Hz et 16 KHz qui croissent proportionnellement a la fr quence Les propri t s de cette sensibilit r sultent de la structure de la membrane basilaire large et flasque au sommet du limacon et troite et rigide sa base qui effectue une analyse fr quentielle m canique tonotopique Comme la relation entre la tonie et le lieu d excitation principale de la membrane basilaire est lin aire la r solution spectrale du systeme auditif humain decroit avec la fr quence elle est d crite par l chelle psycho acoustique Mel gradu e de 0 a 2400 Mel Dans le domaine de la perception artificielle la meilleure approximation de ce m canisme est donn e par un banc de filtres dont les bandes appel es bandes critiques chevauchent e
373. ment illimit et ne peut tre restreint que par des informations concernant la langue parl e et le sexe K NZEL 1994A En fait la classification ne peut se concevoir dans un ensemble ferm de locuteurs car la d cision de l exhaustivit des personnes mises en cause qui forment la population potentielle n est pas du ressort de l expert mais appartient la cour De plus il semble particuli rement arbitraire de r v ler seulement le r sultat concernant le meilleur candidat sans fournir celui obtenu par les autres comme le montre notamment l exemple de WALSH dans le domaine de l interpr tation du verre Dans un cas de cambriolage une fen tre est bris e par l auteur deux personnes sont mises en cause apr s que des petits fragments de verre ont t retrouv s sur leurs v tements respectifs Une analyse de l indice de r fraction du verre montre une concordance des indices avec la fen tre bris e Dans un cadre d interpr tation faisant appel une approche continue des donn es la probabilit de co ncidence fortuite entre le verre de la vitrine et l indice est estim e 1 1100 pour la premi re personne mise en cause et 1 900 pour la seconde Concevoir l identification forensique comme une classification en ensemble ferm revient d clarer la premi re personne comme identifi e et focaliser injustement l l ment de preuve sur cette derni re En effet l l ment de preuve ne favorise pas de fa on viden
374. mier projet de couverture totale par satellite Iridium de Motorola montre qu elle ne satisfait pas le consommateur En effet outre un prix prohibitif et un appareil lourd et encombrant la mauvaise qualit de transmission est le principal grief adress par les utilisateurs l gard de ce syst me 22 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 2 3 6 Influence du syst me d enregistrement Dans la proc dure de collecte de l indice mat riel la qualit du syst me d enregistrement est le seul maillon de la cha ne qu il est possible d influencer mais c est malheureusement souvent le plus faible BOLT ET AL 1979 2 3 6 1 Enregistrement dans le cadre d une mesure de surveillance Dans le cadre d une mesure officielle de surveillance t l phonique les enregistrements sont confi s aux prestataires de services de t l communication sur demande du service f d ral de la surveillance de la Poste et des t l communications La qualit de ces enregistrements pourrait tre optimale dans les limites des caract ristiques de la prise de son et du canal de transmission si des syst mes ad quats taient mis en uvre ce qui n est encore que tr s partiellement le cas en Suisse Ceci n cessiterait d une part un enregistrement direct de l information num rique sans compression du signal et d autre part la s paration des signaux provenant des diff rents interlocu
375. mineur Dans de nombreux cas l identification par la voix correspond une partie de la preuve totale et la connaissance des autres preuves peut influencer m me inconsciemment le point de vue de l examinateur 5 3 2 Conclusion du rapport du Conseil National des Sciences Le principe de l identification par la voix repose sur l hypoth se que la variabilit intralocuteur est inf rieure la variabilit interlocuteur Cependant pour l instant cette hypoth se n est confirm e ni par une th orie ni par des donn es scientifiques Le comit conclut que les incertitudes techniques de la pr sente m thode d identification par la voix sont si grandes que son application forensique ne doit tre approch e qu avec grande prudence Le comit ne prend pas position pour ou contre l utilisation forensique auditive et visuelle d identification par la voix mais recommande que s il en est fait usage en cour les limitations de la m thode soient clairement et enti rement expliqu es au juge ou aux jur s BOLT ET AL 1979 Suivant les r sultats de l tude qu il avait command e le FBI a confirm sa position prise au d but des ann es septante de ne pas proposer en cour de t moignages d experts bas s sur la People v Jackson 1973 No CR 9138 Vol 40 Super Ct Riverside County Cal supra 5 2 1 5 Prise de position du Federal Bureau of Investigations FBI 106 RECONNAISSANCE DE LOCUTEURS EN SCIE
376. mparaison de la fr quence fondamentale et sur l analyse des trois premiers formants des cinq voyelles a e i o et u Le module d acquisition du signal permet de num riser les signaux audio dans les formats informatiques habituels FALCONE ET DE SARIO 1994 Ce syst me est utilis en Italie pour la r solution de cas r els seul ou conjointement avec d autres m thodes propres a chaque expert Une coute et un examen pr liminaire compos s de la mesure du rapport signal sur bruit et du calcul du spectre de puissance long terme permet l op rateur d valuer la qualit du signal numerise Une dur e minimale de 15 s de parole est n cessaire pour une expertise de reconnaissance de locuteurs La segmentation est r alis e manuellement par l op rateur partir de la forme d onde et d une repr sentation spectrographique afin de s parer les nonc s des interlocuteurs en cas de dialogue et d extraire les voyelles et des portions stables du signal de parole L analyse repose sur une extraction manuelle de la fr quence fondamentale et des fr quences formantiques des voyelles partir d une repr sentation graphique du spectre et du cepstre calcul s par transform e de Fourier rapide FALCONE ET AL 1995 La comparaison et la d cision d identification reposent sur une mesure de la variabilit intralocuteur et interlocuteur des param tres analys s l aide de matrices de covariance et par l appli
377. mplacer le standard de Frye par trois Federal Rules of Evidence FRE en 1961 Les Federal Rules of Evidence 701 702 et 703 qui ne sont devenues effectives qu en 1975 autorisent l expert noncer son t moignage bas sur une connaissance technique ou scientifique particuli re par exemple sous la forme d une opinion Elles permettent ces t moignages de reposer sur des ou dire ou sur des preuves non admissibles selon le standard de Frye si elles sont reconnues par les scientifiques du domaine pertinent LOEVINGER 1995 Ces r gles g n rales n tant pas satisfaisantes la cour Supr me des tats Unis a d cid en 1992 que la validit scientifique pour une application n est pas forc ment valable pour d autres infra Annexe IV Extraits des Federal Rules of Evidence 14 Frye v United States 1923 54 App DC 46 293 F 1013 34 ALR 145 5 infra Annexe IV Extraits des Federal Rules of Evidence 32 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE applications du m me domaine Par cons quent la d termination de la recevabilit d une telle preuve requiert l analyse des probl mes scientifiques dans les circonstances du cas l analyse des indices scientifiques de validit de la preuve et la d termination de la pertinence entre les probl mes et la preuve Dans l arr t Daubert v Merrel Dow Pharmaceuticals et plus compl tement dans l arr t Conde v V
378. n contemporains 87 95 Q3 Les spectrogrammes du m me locuteur disant les m mes mots sont ils suffisamment diff rents des spectrogrammes de n importe qui d autre R3 La comparaison de spectrogrammes contemporains dans un ensemble ferm occasionne une erreur d identification de 3 05 alors que la comparaison de spectrogrammes non contemporains provoque une erreur d identification de 7 99 Dans un ensemble ouvert les erreurs d identification sont respectivement de 8 99 et de 22 57 Q4 Le nombre d nonc s du m me mot utilis pour l identification de locuteurs alt re t il la proportion d identification correcte Si oui dans quelle mesure R4 Aucune diff rence significative entre les pourcentages d identification correcte ne peut tre attribu e uniquement au nombre d nonc s prononc s Les pourcentages mis en vidence sont de 91 29 pour un nonc 90 96 pour deux nonc s et 92 49 pour trois nonc s Q5 Le nombre d chantillons de locuteurs diff rents pr sents dans l ensemble de r f rence alt re t il la proportion d identification correcte Si oui dans quelle mesure R5 Les r sultats indiquent une diff rence significative en termes d identification correcte lorsque le nombre de locuteurs pr sents dans l ensemble de r f rence augmente Lorsque cet ensemble contient dix locuteurs le pourcentage d identification correcte est de 93 30 lorsque
379. n laboratoire par des analyses ad quates Dans l environnement du proc s p nal les r sultats devraient donc aussi tre pr sent s sous forme de rapports de vraisemblance des hypoth ses concurrentes de mani re que la cour puisse les discuter lors des d lib rations et prendre une d cision de culpabilit ou d innocence sur la base du bilan des connaissances ce moment l L adoption de cette m thode d inf rence de l identit permet ensuite d analyser Yaptitude des diff rentes m thodes propos es pour la reconnaissance de locuteurs en sciences forensiques a fournir des rapports de vraisemblance D une part cette approche n est pas nouvelle en sciences forensiques puisqu elle avait d ja t consid r e comme l approche de choix par Poincar dans l affaire Francis Dreyfus TARONI ET AL 1998 D autre part son utilisation en sciences forensiques a t reconnue comme conforme a de nombreuses reprises tant d un point de vue logique que l gal LEWIS 1984 EVETT 1990 ROBERTSON ET VIGNAUX 1995 Pour reprendre l observation de CHAMPOD dans le domaine de la dactyloscopie les personnes en charge d une expertise en reconnaissance de locuteurs ne devraient jamais oublier qu elles apportent la cour un l ment de preuve dont les principes d interpr tation sont quivalents ceux de tout autre indice mat riel exploit en sciences forensiques CHAMPOD 1996 Comme tout processus inductif
380. nal suisse CP La personne mise sous surveillance est soup onn e en raison de faits d termin s d avoir commis l infraction ou d avoir particip sa perp tration d faut de surveillance les investigations n cessaires taient notablement plus difficiles mener ou d autres actes d instruction n ont pas permis d obtenir de r sultat GAUTHIER 1984 En droit p nal l enregistrement non autoris d une conversation non publique est un d lit poursuivi sur plainte et passible de l emprisonnement ou de l amende selon l art 179tr al 1 CP La surveillance officielle est justifi e par l art 179 tes al 1 CP L coute et l enregistrement par des particuliers peuvent l tre pour la l gitime d fense ou l tat de n cessit respectivement art 33 et art 34 CP STRATENWERTH 1983 La plupart des lois ne d finissent pas les modes de preuve et laissent le juge du fait libre de former son intime conviction sur tous les l ments apport s par l instruction L enregistrement sonore clandestin des paroles d autrui par un particulier n est donc pas en soi inapte servir de reuve s il est d montr qu il est fid le et qu il n a pas t modifi Les circonstances dans P infra Annexe I Fxtraits de la Constitution f d rale de la Conf d ration suisse 3 infra Annexe II Extraits du Code p nal suisse PARTIE I APPROCHE THEORIQUE CHAPITRE II LA VOIX COMME INDICE MATER
381. nation et d identification de locuteurs 55 4 2 Les m thodes de reconnaissance auditive 56 4 3 Proc dure de reconnaissance par des profanes 56 4 3 1 Approche descriptive 57 4 3 2 Limites de l approche descriptive 60 4 3 3 Approche exp rimentale 61 4 34 Limites de la proc dure de reconnaissance par des profanes 73 44 Proc dure de reconnaissance par des experts 74 4 4 1 L approche auditive perceptive 74 4 4 2 L approche phon tique acoustique 77 44 3 Limites des approches auditive perceptive et phon tique acoustique 83 V Approche spectrographique 85 5 1 Le spectrographe sonore 85 5 1 1 La technologie 85 5 1 2 L application la reconnaissance de locuteurs 85 5 2 L application forensique 86 5 2 1 La m thode de KERSTA 86 5 2 2 Tentative de validation de la m thode de KERSTA l tude de TOSI 91 5 2 3 Recevabilit de la m thode spectrographique 100 5 3 Rapport du Conseil National des Sciences 103 5 3 1 Position du rapport sur les diff rents l ments de controverse 103 5 3 2 Conclusion du rapport du Conseil National des Sciences 105 5 4 Apr s le rapport du Conseil National des Sciences 106 5 4 1 La dissolution de l IAVI 106 5 4 2 L tude du FBI 106 5 4 3 Les standards de I IAI 107 5 4 4 L arr t Daubert 108 5 5 La m thode spectrographique dans le reste du monde 110 VI RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 5 6 Conclusion
382. nce celui ci peut tre consid r comme un ensemble fini de N chantillons de r f rence et la d cision prendre est en 1 sur N Figure II 2 CORSI 1982 FURUI 1994 Cette tache de classification ne peut tre entach e que d un seul type d erreur la fausse identification Elle appara t lorsque l chantillon de r f rence dont la distance l chantillon de parole inconnue est minimale ne correspond pas l chantillon de r f rence du locuteur authentique La probabilit d erreur augmente avec la taille de l ensemble de r f rence et a chaque comparaison est associ e une probabilit d erreur finie et non nulle CORSI 1982 BIMBOT ET AL 1994 40 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Mesure de distance Echantillon de parole de r f rence 1 M d Echantillon de Analyse de dines Etablissement R sultat de parole inconnue l chantillon du classement l identification Echantillon de parole de r f rence 2 Mesure de distance Echantillon de parole de r f rence N Figure III 2 Structure du syst me d identification en ensemble ferm FURUI 1994 3 5 2 1 2 Classification en ensemble ouvert open set Lorsqu il n est pas possible de d terminer a priori s il existe un enregistrement de comparaison appartenant au locuteur test dans l ensemble de r f rence celui ci doit tre consid r comme un ensemble ou
383. nce durant une ann e apr s la lev e de celle ci Les autorit s qui ordonnent et approuvent la surveillance peuvent charger le service de a trier les communications enregistr es b mettre en place des mesures de protection lorsque sont surveill s des tiers des cabines t l phoniques publiques ou des personnes qui selon le droit proc dural applicable peuvent refuser de t moigner car elles sont tenues au secret professionnel Dans la mesure de ses capacit s en personnel et en moyens techniques le service peut galement tre charg des t ches suivantes a enregistrer les communications effectu es sur les raccordements directs b transcrire ces enregistrements c traduire les transcriptions r dig es en langues trang res ANNEXES ANNEXE III ORDONNANCE SUR LE SERVICE DE SURVEILLANCE DE LA CORRESPONDANCE 223 d fournir des conseils techniques aux autorit s et aux fournisseurs de services de t l communication Le service demande aux fournisseurs de services les informations n cessaires la mise en uvre de la surveillance Art 7 Obligations des fournisseurs de services de t l communication 1A la demande du service les fournisseurs de services de t l communication sont tenus de lui transmettre les communications de la personne surveill e et les relev s de service ainsi que les informations n cessaires la mise en uvre de la surveillance Ils fournissent dans les meilleurs d
384. nd de la composition fr quentielle du signal DE COULON 1990 2 3 1 2 3 Codage Le codage est r alis par des m thodes temporelles param triques ou hybrides Les m thodes de codage temporelles cherchent approximer le signal de parole en tant que forme 16 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE d onde et sont utilis es avec une quantification uniforme lorsqu une haute fid lit de restitution du signal est n cessaire Les m thodes param triques cherchent plut t a mod liser le processus de production de la parole et a extraire les param tres pertinents qui sont transmis au d codeur Ceux ci permettent de reconstruire une forme d onde souvent loign e de la forme du signal initial mais qui produit un son subjectivement proche de l original L utilisation de m thodes purement param triques est actuellement tr s limit e car elles entra nent une d gradation trop importante du naturel de la voix et une sensibilit excessive l influence de l environnement de la prise de son Seules les m thodes hybrides qui font intervenir la fois les m thodes temporelles et les m thodes param triques sont actuellement capables de fournir des r sultats satisfaisants dans des applications n cessitant de fortes r ductions de d bit 2 3 2 Mesure de la qualit de la parole La mesure de la qualit de la parole transmise par un syst me technique est d lic
385. ndantes du locuteur comme la taille du tractus vocal et la forme des r sonateurs la strat gie d articulation et les effets de la coarticulation et de la diphtongaison le dialecte et l accent ou la mani re de parler SAMBUR 1975 INGRAM 1995 De plus la trajectoire des deux ou trois premiers formants est relativement robuste aux diff rents bruits JANKOWSKI ET AL 1994 4 4 2 1 3 Mesure d nergie Les habitudes et les pratiques d articulation des consonnes et des voyelles d un locuteur peuvent tre valu es par la distribution de l nergie de certains segments dans le domaine spectral HIRSON ET DUCKWORTH 1993 Dans l ensemble des consonnes par exemple la variabilit interlocuteur du s semble sup rieure sa variabilit intralocuteur FRENCH 1994 4 4 2 2 Caract ristiques segmentales temporelles 4 4 2 2 1 L indice de r gularit m lodique ou jitter Le jitter est la mesure de la variation cycle a cycle de la p riode vibratoire du larynx Cet indice s exprime en pourcentage de la fr quence fondamentale Plusieurs modes de calcul ont t 80 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE propos s mais le quotient de perturbation de la fr quence fondamentale ou Pitch Perturbation Quotient PPQ a t retenu par la plupart des auteurs KOIKE 1973 DAVIS 1976 i N IFo Foi il 100 gt i N m 1 F 0 moyenne 4 1 PPQ Cette
386. nder normal stress and disguised speaking conditions J Phonetics no 10 pp 139 148 HOLLIEN H MARTIN C A 1996 Conducting research on the effects of intoxication on speech Forensic Linguistics vol 3 no 1 pp 107 129 HOLLIEN H MCGLONE R E 1976 The effects of disguise on voiceprint identification Journal of Criminal Defense no 2 pp 117 130 HOLLIEN H SHIPP F T 1972 Speaking fundamental frequency and chronological age in males J Speech Hearing Res vol 15 pp 155 159 HOMAYOUNPOUR M M CHOLLET G 1995 A study of intra and inter speaker variability in voices of twins for speaker verification Proceedings of the XIIth International Congress of Phonetic Sciences Stockholm vol 3 pp 298 301 HOMAYOUNPOUR M M GOLDMAN J P CHOLLET G 1993 Machine vs human speaker verification IAFP Conference Trier HORI Y 1975 Some statistical characteristics of voice fundamental frequency J Speech Hearing Res vol 18 pp 192 201 HORI Y RYAN W 1981 Fundamental frequency characteristics and perceived age of adult male speakers Folia Phoniatrica vol 33 pp 227 233 BIBLIOGRAPHIE 259 HUNT A K 1991 New commercial applications of telephone network based speech recognition and speaker verification Eurospeech 91 pp 431 433 HUNT M 1983
387. ne de la reconnaissance automatique de locuteurs ind pendante du texte et dont la structure permet une inf rence de l identit bas e sur une valuation de rapports de vraisemblance 1 Trad Une machine devrait elle tre construite pour montrer qu partir d un ensemble de locuteurs elle r alise l identification de locuteurs mieux que les auditeurs humains Clairement pour faire une telle comparaison il est n cessaire de d finir quantitativement ce qui est entendu par meilleure performance tant pour l homme que pour la machine PARTIE I APPROCHE THEORIQUE CHAPITRE I INTRODUCTION 9 L enregistrement d une base de donn es en langue francaise r pondant aux criteres forensiques Malgr sa taille modeste sa structure a t d finie de mani re a b n ficier de la synergie d une base de donn es de grande taille existante pour l valuation de la variabilit interlocuteur Son contenu est sp cialement adapte a une utilisation forensique avec la pr sence de locuteurs ayant des voix auditivement proches et de simulations d indices mat riels qui peuvent tre rencontr es en cas d abus de t l phone ou de mesure de surveillance La mise au point d un programme d valuation du systeme de reconnaissance d velopp premi rement pour circonscrire au mieux la procedure necessaire a l obtention d une evaluation r aliste de la variabilit intralocuteur et interlocuteur dans le con
388. ne suspicion nourrie l encontre de certains locuteurs suspects par la mise en vidence de diff rences d accent cons quentes entre l chantillon inconnu et celui de comparaison De plus il semble improbable qu un locuteur dans une volont de d guisement conjugue coh rence et exhaustivit dans l accent qu il adopte NOLAN 1990 Par contre l utilisation de cette m thode dans une proc dure d identification n cessite soit que le processus de caract risation aboutisse une sp cificit plut t qu la s lection d un groupe soit que l analyse auditive seule incluant l analyse segmentale et les observations globales de la qualit et de la hauteur de la voix permette l identification Or aucune exp rience contr l e n a t men e pour d terminer s il existe des individus dont la qualit et la hauteur de la voix ainsi que l accent sont si proches qu ils ne peuvent tre discrimin s par l analyse auditive des variables segmentales Le nombre des variables consid r es d pend d ailleurs aussi de la taille de l chantillon de parole inconnue Si l hypoth se th orique qu aucun tre humain ne prononce d nonc de parole de mani re identique demeure l absence d une d monstration grande chelle emp che l extension de l observation de cette idiosyncrasie un ensemble homog ne de locuteurs Dans ces conditions le concept d idiolecte semble de peu d utilit dans la discrimination de lo
389. neuf mots cibles 1a a t PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE V APPROCHE SPECTROGRAPHIQUE 93 242 r alis par les 29 examinateurs alors que le second cycle a partir de six mots cibles 1b n a t r alis que par les 15 examinateurs les plus motiv s et les plus dou s TOSI ET AL 1972A 5 2 2 1 3 R sultats Variable tudi e Contexte ler cycle 1a 2 me cycle 1b Ens fini Ensemble infini Ens fini Ensemble infini Er type I Er type II Er type I Er type I Er type II Er type I 2a Un nonc inconnu 8 71 10 29 2b Deux nonc s inconnu 9 04 8 38 2c Trois nonc s inconnu 7 61 7 51 3a Haute fid lit inconnu 7 58 8 59 3b Env t l calme inconnu 8 69 7 80 3c Env t l bruit inconnu 8 98 8 90 5a 10 locuteurs inconnu 6 97 6 17 5b 20 locuteurs inconnu 8 13 8 32 5c 40 locuteurs inconnu 10 42 11 80 6a Contemporain m isol s 4a 0 51 0 36 1 23 0 62 0 52 1 70 c fixe 4b 1 03 149 155 1 34 1 09 2 31 c libre 4c 7 51 4 01 8 28 6 38 1 96 10 34 6b Noncontemp m isol s 4a 2 47 2 37 7 25 5 66 4 22 9 01 c fixe 4b 9 67 4 22 10 13 9 88 4 27 12 68 c libre 4c 11 83 6 43 11 83 10 39 4 81 10 29 7a Connaissance inconnu 5 52 5 69 7b Non connais inconnu 9 86 10 29
390. nnaissance de locuteurs BROEDERS 1996 La reconnaissance auditive de locuteurs ne d pend donc pas seulement des caract ristiques individuelles de chacun des locuteurs mais aussi de celles des locuteurs de l ensemble de r f rence et de la taille de cet ensemble WILLIAMS 1964 Une tude comparative de HOLLIEN confirme ces r sultats Les performances des auditeurs familiers des locuteurs sont sup rieures celles des auditeurs non familiers 98 contre 40 et elles diminuent encore 27 lorsque les auditeurs non familiers ne comprennent pas la langue des locuteurs HOLLIEN ET AL 1982 Comme plusieurs autres travaux cette tude met en vidence la grande variabilit des performances individuelles des auditeurs STEVENS ET AL 1968 ROSENBERG 1973 SCHMIDT NIELSEN ET STERN 1985 ATWOOD ET HOLLIEN ont cependant montr qu en moyenne les auditeurs sous le coup d une motion reconnaissent mieux les locuteurs que les autres contrairement ce que pensait LOCARD LOCARD 1932 ATWOOD ET HOLLIEN 1986 II ne semble pas qu un entra nement sp cifique permette d am liorer les performances des auditeurs mais CLIFFORD a tout de m me mis en vidence que les performances d auditeurs aveugles sont en moyenne de 25 sup rieures celles d auditeurs jouissant de la vue CLIFFORD ET AL 1981 Lors de la commission d une infraction l auditeur victime ou t moin a la plupart du temps son attention perturb e et ne
391. nregistrements de comparaison pour la mod lisation de la variabilit intralocuteur des personnes mises en cause L indice mat riel est toujours consid r comme enregistrement de test notamment par le fait que la ma trise de ses caract ristiques n est que tr s partielle lors de la collecte de l l ment de preuve La mesure de similarit calcul e par la m thode GMM est la probabilit conditionnelle des caract ristiques de l enregistrement de test sachant celles du mod le REYNOLDS ET ROSE 1995 Ce r sultat est un nombre r el et repr sente l l ment de preuve E utilis pour l valuation du rapport de vraisemblance 7 2 2 Architecture du syst me L architecture du syst me repose sur quatre modules logiciels SILREM PLP GMM et GMM evaluate impl ment s en langage C par Monsieur Mounir El MALIKI doctorant au laboratoire de traitement des signaux LTS de l cole Polytechnique F d rale de Lausanne EPFL Le syst me ainsi constitu remplit deux fonctions distinctes durant la phase d entra nement il permet de constituer des mod les statistiques de la voix des locuteurs avec le module GMM partir de donn es d entra nement Figure VIL1 Durant la phase de test il permet de comparer les modeles r alis s 4 des enregistrements de test avec le module GMM evaluate Phase d entrainement Phase de test E ist t i nregistrement Enregistrement de t
392. nt de parole inconnue et un enregistrement de comparaison et prendre une d cision binaire d acceptation ou de rejet en comparant cette distance un seuil tabli a priori Figure III 1 O SHAUGNESSY 1986 THEVENAZ nomme cette t che v rification de locuteurs par acceptation qu il distingue de la v rification de locuteurs par rejet o l enregistrement de parole inconnue est compar tous les enregistrements de comparaison connus THEVENAZ 1990 Tous les 2 infra 4 4 Proc dure de reconnaissance par des experts infra 3 5 3 Quantification des taux d erreur de type I et de type II 38 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE x enregistrements de comparaison doivent en principe tre rejet s a l exception de celui dont le locuteur revendique l identit La d cision finale combinaison des d cisions partielles est binaire acceptation ou rejet Echantillon de Analyse de Mesure de D cision d acceptation parole inconnue l chantillon distance ou de rejet Echantillon de parole de r f rence Figure III 1 Structure du syst me de v rification de locuteurs FURUI 1994 La discrimination am ne deux types d erreurs le faux rejet faux n gatif ou erreur de type I lorsque le locuteur authentique n est pas accept comme tel et la fausse acceptation faux positif ou erreur de type II lorsqu un imposteur est pris pour le locuteur q
393. nt d crit par RIBAUX dans le domaine de l analyse criminelle est confirm par l absence d int r t de la part des services f d raux consult s dans le but d tablir des contacts sur la question de la reconnaissance de locuteurs en sciences forensiques ils sont pourtant r guli rement touch s par ce probl me RIBAUX 1997 X CONCLUSION Une machine devrait elle tre construite pour montrer qu a partir d un ensemble de locuteurs elle r alise l identification de locuteurs mieux que les auditeurs humains LEWIS 1984 La question est courte mais la r ponse ne l est pas comme le montre l etude des diff rentes approches envisag es pour y r pondre Nous pensons avoir contribu a d finir quantitativement les performances de l tre humain et de la machine et pouvoir ainsi r pondre la question de LEWIS Sur un plan th orique la d marche par valuation de rapports de vraisemblance est conforme d un point de vue logique et elle permet l interpr tation des r sultats obtenus tant par des m thodes subjectives qu objectives N anmoins seule l approche automatique poss de actuellement la capacit d appr hender la question sous un angle r ellement statistique Sur un plan pratique l approche automatique est toujours consid r e comme exp rimentale dans la plupart des pays Les r sultats de cette recherche montrent que les rapports de vraisemblance d gag s sont encore modestes mais i
394. nt du texte par contre l information apport e par les transitions entre tats n am liore pas les performances de reconnaissance de locuteurs et dans ces conditions les m thodes de reconnaissance bas es sur des modeles de Markov ne concurrencent pas les performances des m thodes bas es sur GMM m me si elles les approchent parfois DE VETH ET BOURLARD 1995 LAMEL ET GAUVAIN 1998 D s lors la complexit du mod le de Markov ne se justifie pas face l quivalent non s quentiel que repr sente le mod le par m lange de fonctions de densit gaussiennes cette modelisation est aussi d finie comme un modele de Markov continu ot la distribution conditionnelle dans chaque tat est un m lange de fonctions de densit gaussiennes Les mesures de performance d identification en mode ind pendant du texte obtenues dans les m mes conditions que celles utilis es pour la quantification vectorielle et la mod lisation par m lange de fonctions de densit gaussiennes illustrent cette r alit En effet les r sultats obtenus sont nettement inf rieurs ceux obtenus avec les m thodes bas es sur VO et GMM Ils s chelonnent entre 74 7 et 88 3 d identification correcte selon la vitesse d locution le nombre d tats et la taille du dictionnaire Les performances maximales sont obtenues pour la vitesse d locution normale avec un mod le 4 tats et un dictionnaire de 256 vecteurs MATSUI ET FURUI 1992 6 3 2 5 Autr
395. nt la variabilit intralocuteur par l limination du facteur li au canal de transmission Dans le cas o le t l phone utilis pour l enregistrement de l indice est connu et accessible il est alors possible d utiliser ce m me et unique t l phone pour effectuer toutes les s ances d enregistrement de toutes les personnes mises en cause Cette situation est id ale car elle permet une am lioration potentielle du r sultat en liminant le facteur de variabilit li au t l phone et la ligne t l phonique 8 6 3 Influence du type d locution dans les enregistrements de comparaison 8 6 3 1 Proc dure La qualit de l valuation de l intravariabilit d un locuteur est susceptible d tre influenc e par le type d locution dans les enregistrements de comparaison utilis s cet effet L influence de ce param tre est valu e l aide de deux types d enregistrement de comparaison les enregistrements nomm s Simulation de dialogues dans lequel le locuteur joue des dialogues et les enregistrements nomm s Lecture d guis e dans lequel le locuteur lit un texte avec un crayon dans la bouche Chaque type d enregistrement a t s par en deux groupes le premier contient les nonc s de parole d une dur e de 0 4s ou de 0 8s et le second les nonc s de parole de plus de 4 s ou de plus de 8 s Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat pour
396. nte les valeurs attendues des caract ristiques analys es alors que la matrice de covariance rend compte des corr lations et de la variabilit de ces caract ristiques CAPPE 1995 REYNOLDS 1995A REYNOLDS 1995B L tude de la structure des fonctions de densit de probabilit gaussienne composant le m lange a souvent conduit les chercheurs la simplifier en consid rant qu elles poss dent toutes une matrice de covariance diagonale MATSUI ET FURUI 1992 TSENG ET AL 1992 REYNOLDS 1994 La justification de cette simplification r side d une part dans la difficult d estimation compl te des matrices de covariance et d autre part dans la faible corr lation des caract ristiques cepstrales et de pr diction lin aire analys es a l heure actuelle Cette approximation contribue cependant une l g re d gradation des performances de reconnaissance TSENG ET AL 1992 Cette m thode de mod lisation connue dans le domaine de la reconnaissance de formes est fond e sur l hypoth se que les caract ristiques d pendantes du locuteur appartiennent un ensemble de classes diff rentes avec une probabilit d appartenance propre chaque classe Le mod le GMM consid re le cas particulier dans lequel la distribution des donn es suit une loi gaussienne l int rieur de chaque classe Ce choix tient essentiellement au fait que la loi gaussienne appartient la famille des lois de distribution exponentielles p
397. ntifique propre tromper le jury et le profane par THOMAS ne plaide pas en faveur de sa clart et de sa 71 United States v Smith 1989 869 F 2d 348 7th Cir 72 People v Jackson 1973 No CR 9138 Vol 40 Super Ct Riverside County Cal 110 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE compr hension par le profane mais t moigne plut t de la part d obscurantisme qui l entoure THOMAS 1981 GIANELLI ET IMWINKELRIED 1986 TRUBY 1976 IN HOLLIEN 1990 5 5 La m thode spectrographique dans le reste du monde En Europe l annonce de l existence de la m thode de KERSTA soul ve un enthousiasme beat dans un premier temps Aucun essai n est r alis en Europe puisqu aucun spectrographe sonore n est disponible Quelques auteurs dont les comp tences dans le domaine particulier de l identification de locuteurs sont discutables se contentent de r p ter sans aucun sens critique les propos de KERSTA certains d avoir affaire a une d couverte majeure dans le domaine des sciences forensiques MARTIN 1967 ROTHER 1967 HABERSBRUNNER ET AL 1968 Cependant en Allemagne a lieu une tentative infructueuse de v rification des hypoth ses de KERSTA par ENDRESS Ceci souleve une vague de scepticisme notamment en France de la part du docteur Tomatis fondateur de l Institut qui porte son nom du professeur Vallancien responsable de l Institut fran ais
398. ntionne que la production de la parole est le r sultat des deux fonctions m caniques de base que sont la phonation et l articulation et comme BERTILLON fait la distinction entre analyse de la voix et analyse du langage Sa description de la voix est beaucoup plus fouill e que celle de BERTILLON car elle fait r f rence a de nombreuses connaissances m dicales qui rappellent l origine professionnelle d OTTOLENGHI De la voix il faut consid rer le volume ou la force la hauteur du son ou le ton la qualit du son ou le timbre l agilit le type et l intonation Selon la force la voix peut tre forte moyenne ou faible Elle peut dans des cas exceptionnellement morbides tre tr s forte tr s faible ou manquer pseudo mutisme ou aphonie L aphonie peut tre temporaire c est le cas des hyst riques qui peuvent tout coup perdre la voix Selon la hauteur ou le ton la voix peut tre plus ou moins haute ou plus ou moins basse Selon le son on distingue la voix ordinaire la voix nasale et la voix gutturale un peu rauque Certaines voix ont le caract re de v ritables marques personnelles car elles contiennent des sons sp ciaux qui d pendent de diff rentes causes par exemple la voix stridente des tuberculeux qui ont des processus maladifs a la muqueuse du larynx la voix toute sp ciale presque aphone de ceux qui ont le bec de li vre la gorge de loup la paralysie du v lus palatal pendant des maladies ou des
399. ntit plus importante de parole spontan e que de parole lue alors que le mod le issu de la Session Polyphone 1 est constitu en majorit de parole lue Comme il s agit d une comparaison directe des performances lorsque deux mod les diff rents sont utilis s seule la situation o l hypoth se H est v rifi e a t prise en compte dans cette exp rience Les l ments de preuve E sont le r sultat de la comparaison des enregistrements de test Test 2 Test 5 de chacun des 32 locuteurs de la base de donn es Polyphone IPSC soit avec les mod les Session Comparaison soit avec les mod les Session Polyphone 1 Les rapports de vraisemblance de ces l ments de preuve sont calcul s de la mani re suivante le num rateur quivaut la densit de probabilit de l l ment de preuve E dans la distribution de la variabilit intralocuteur du locuteur dont provient l enregistrement de test Le d nominateur du rapport de vraisemblance quivaut la densit de probabilit de l l ment de preuve E dans la distribution interlocuteur de l enregistrement de test 172 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 8 6 1 2 R sultats Pour chaque locutrice et chaque locuteur deux s ries de quatre l ments de preuve et dela deux series de quatre rapports de vraisemblance ont t calcul es Les r sultats sont d abord pr sent s
400. nymes prof rer sans d guisement de la voix ou avec un crayon dans la bouche Pour chaque personne l enregistrement a eu lieu le jour J sans pr paration de mani re laisser une large place la spontan it voire la surprise Mis a part les deux premieres minutes de cette session qui ont t utilis es pour constituer le septieme mod le de la voix de chacun des 32 participants l enregistrement a t segment manuellement en nonc s de 1 30 s de 12 43 nonc s selon la loquacit des personnes Annexe VI 3a b c et d 8 2 3 Estimation de la variabilit interlocuteur Comme la constitution d une base de donn es de grande taille est tres on reuse et demande beaucoup de temps un moyen consiste a rechercher et a acqu rir une base de donn es existante et r pondant aux crit res mis en vidence dans l indice aupr s d un organisme comme ELRA European Language Resources Association en Europe ou LDC Linguistic Data Consortium aux Etats Unis Ce choix souffre cependant d une restriction la possibilit de proc der a des sessions d enregistrement dont la qualit technique est strictement comparable celles pr sentes dans la supra 2 3 3 3 R seau t l phonique cellulaire 10 supra 2 3 3 2 R seau t l phonique public commut RTPC PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VIII EVALUATION DU SYSTEME 165 base de donn es choisie avec la personne mise en cau
401. obabilit ot 02 05 1 ae 10 20 so LR sup rieur a 114 13000 e H1 0 8s N H2 038s N HI plus de 8 s N 126 H2 plus de 8 s N 24000 Locutrices Probabilit 01 02 05 1 Fre 10 20 50 LR sup rieur e H1 0 8s N 138 H2 0 8 s N 23000 HI plus de 8 s N 138 Hz plus de 8 s N 22000 Locutrices PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VIII EVALUATION DU SYSTEME 177 z z Z Z a a ear 10 20 40 LR sup rieur LR sup rieur e H1 0 8s N 150 HI plus de 8 s N 114 e H1 0 8s N 102 HI plus de 8 s N 96 e H2 0 8 s N 25000 H2 plus de 8 s N 19000 e H2 0 8 s N 20000 H2 plus de 8 s N 15000 Locuteurs Locuteurs Figure VIII 6 Resultat de l valuation globale des rapports de vraisemblance lorsque les enregistrements de comparaison sont compos s de lecture avec la voix d guis e 8 6 3 3 Discussion des r sultats L influence de la qualit des donn es qui constituent les enregistrements de comparaison est importante En effet lorsque le style de l locution est particulier que ce soit des dialogues simul s Figure VII 5 ou de la lecture d guis e avec un crayon dans la bouche Figure VIIL6 les r sultats sont inf rieurs ceux obtenus avec des enregistrements de p
402. ocuteur a conduit au d veloppement de trois cat gories d algorithmes les analyses court terme temporelles spectrales et spectro temporelles les m thodes fond es sur la d convolution source conduit homomorphiques ou bas es sur la pr diction lin aire ainsi que les m thodes fond es sur un mod le d audition comme les bancs de filtres Les m thodes d analyse court terme temporelles spectrales ou spectro temporelles reposent sur une description math matique rigoureuse mais ne se r f rent pas toujours un mod le de production ou de perception Les m thodes fond es sur la d convolution source conduit n ont pas ce d faut mais reposent sur un mod le de production souvent impr cis Finalement les m thodes fond es sur un mod le d audition ne garantissent pas d ad quation entre ce qui est per u et les r sultats de l analyse du fait de l imbrication chez l humain des niveaux d interpr tation acoustique et linguistique DRYGAJLO 1999 6 2 2 Approches primaires 6 2 2 1 Analyse temporelle Les analyses les plus simples consistent mesurer l nergie le taux de passage par z ro et la fonction d autocorr lation court terme du signal 6 2 2 1 1 Energie L volution court terme de l nergie du signal indique la succession des voyelles tr s nerg tiques et des consonnes de moindre nergie LUMMIS a utilis la valeur absolue de la diff rence entre les nergies de deux
403. ocuteurs Finalement cette mesure emp cherait la contamination d une piste par un bruit de fond ventuel pr sent sur l autre 9 3 3 Aspects juridiques Les enregistrements effectu s durant des proc dures d coute t l phonique seraient une excellente source pour la constitution des bases de donn es pour des langues inexistantes sur le march Cependant cette solution passe par un contr le du respect des lois et plus particuli rement de l art 13 al 1 de la Constitution F d rale CF du 18 d cembre 1998 et de la loi sur la protection des donn es L information essentielle fournir pour qu une d cision favorable puisse tre obtenue consiste expliquer et d montrer aux autorit s de surveillance que pour chaque locuteur seuls les param tres utiles pour la reconnaissance extraits des enregistrements de r f rence sont conserv s et non l enregistrement Par analogie dans le domaine de l analyse g n tique seul le r sultat concernant les loci analys s et non tout le patrimoine g n tique est conserv dans la base de donn es de r f rence De cette mani re les donn es sensibles ne feraient que transiter par la machine le temps de l analyse mais ne seraient pas stock es 212 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 9 3 4 Aspects d organisation Notre exp rience laisse supposer l existence d un chiffre noir important du nombre de
404. od le RTPC Test RTPC N 361 Hl Mod le GSM Test RTPC N 361 e H1 Mod le RTPC Test RTPC N 314 Hl Mod le GSM Test RTPC N 314 H2 Mod le RTPC Test RTPC N 361000 H2 Mod le RTPC Test RTPC N 314000 Locutrices Locuteurs Figure VIII 12 R sultat de l valuation globale des rapports de vraisemblance lorsque le r seau t l phonique utilis pour l enregistrement des mod les est de type RTPC 8 8 3 2 2 Mod le GSM Test RTPC GSM Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat pour chaque personne de la base de donn es Polyphone IPSC de la comparaison du mod le calcul a partir de la session Session Polyphone Cellulaire avec les enregistrements de test nomm s Test 1 et Test cellulaire Pour chaque locutrice et chaque locuteur de la base de donn es Polyphone IPSC ces deux enregistrements ont t effectu s le m me jour mais de mani re ind pendante environ une demi heure d intervalle Comme la base de donn es Polyphone Suisse Romande ne contient pas de session enregistr e avec un t l phone cellulaire les enregistrements de test n ont pas pu tre compar s des mod les de la base de donn es enregistr s partir d un t l phone cellulaire Les rapports de vraisemblance de ces l ments de preuve sont calcul s de la mani re suivante le num rateur quivaut l
405. oefficients de pr diction lin aire des coefficients cepstraux en chelle Mel ainsi qu une repr sentation spectrographique Le module de d cision est enti rement subjectif l examinateur se forge une opinion sur la base des ressemblances et des diff rences qu il observe entre les diff rents param tres analys s et fournit PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE VI APPROCHE AUTOMATIQUE 143 une conclusion sur le mod le de l chelle de conclusions pr conis e par le Voice Identification and Acoustic Analysis Subcommittee VIAAS de l International Association for Identification IAI 6 5 Conclusion La reconnaissance automatique de locuteurs suscite l int r t des chercheurs des industriels et des criminalistes depuis presque quarante ans Un certain consensus existe autour des caract ristiques d pendantes du locuteur et des classificateurs les plus efficaces notamment gr ce au test d valuation mis au point annuellement depuis 1995 par le National Institute of STandards nord am ricain NIST FURUI 1997 PRZYBOCKI ET MARTIN 1998 Les r sultats de ce test indiquent de toute vidence que la technologie n a pas encore atteint un niveau de maturit permettant son utilisation large chelle ni dans le domaine commercial ni dans le domaine forensique malgr des progr s constants et significatifs PRZYBOCKI ET MARTIN 1998 BOVES 1998 De plus la recherche fondamentale semble un peu d laiss e
406. ographic speaker identification J Acoust Soc Am vol 54 pp 650 660 HECKER M H L 1971 Speaker recognition an interpretive survey of the literature ASHA Monographs vol 16 HECKER M H L STEVENS K VON BISMARK G WILLIAMS C 1968 Manifestations of task induced stress in the acoustic speech signal J Acoustic Soc Am vol 44 pp 993 1001 HENNEBERT J 1998 Hidden Markov models and artificial neural networks for speech and speaker recognition th se de doctorat n 1860 Ecole Polytechnique F d rale de Lausanne HENNESSY J J ROMIG C H A 1971A A review of the experiments involving voiceprint identification J Forensic Sci vol 16 no 2 pp 183 198 HENNESSY J J ROMIG C H A 1971B Sound speech phonetics and voiceprint identification J Forensic Sci vol 16 no 4 pp 438 454 HERMANSKY H 1990 Perceptual linear predictive PLP analysis of speech J Acoust Soc Am pp 1738 1752 258 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE HERMANSKY H MORGAN N 1994 RASTA Processing of speech IEEE Trans ASSP no 2 pp 578 589 HERZOG H 1933 Stimme und Pers nlichkeit J Psychol vol 130 pp 300 379 HILLER S LAVER J MACKENZIE J 1984 Duational aspects of long term m
407. oix normale N 9000 H2 Voix d guis e N 9000 Locutrices Probabilit Probabilit 0 2 os 1 E RS LR sup rieur H1 Voix normale N 63 Hl Voix d guis e N 63 H2 Voix normale N 9000 H2 Voix d guis e N 9000 Locuteurs 10 20 so 100 200 500 1000 o 01 5 10 20 so 100 200 500 1000 LR sup rieur H1 Voix normale N 49 Hl Voix d guis e N 49 H2 Voix normale N 7000 H2 Voix d guis e N 7000 Locuteurs Figure VIII 8 R sultat de l valuation globale des rapports de vraisemblance lorsqu il y a absence ou pr sence d un d guisement de la voix dans l indice PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VII EVALUATION DU SYSTEME 181 8 7 2 3 Strategie de deguisement Type de deguisement Locutrices Locuteurs Nez bouch 5 31 25 2 12 5 Accent tranger ou imitation 0 6 37 5 Objet g nant l locution 5 31 25 1 6 25 locution lente 1 6 25 1 6 25 Elevation deF 1 6 25 2 Abaissement de F 1 6 25 0 Mouchoir devant le microphone 1 6 25 1 6 25 Col re 1 6 25 0 Elocution lente objet g nant l locution 1 6 25 0 Abaissement de F voix rauque 0 2 12 5 Nez bouch voix rauque 0 1 6 25 Tableau VIIL5 Type de d guisement adopt par les participants la base de donn es Polyphone IPSC
408. oke au Canada en association avec France Telecom et l algorithme Conjugate Structure Code Excited Linear Prediction Coder propos par Nippon Telephone amp Telegraph NTT au Japon KONDOZ 1994 DRYGAJLO 1999 2 3 3 3 R seau t l phonique cellulaire En Europe la norme Global System for Mobile communication GSM a t d finie en 1989 et la norme Cellular Telecommunication Industry Association CTIA IS 54 a t d finie pour l Am rique du Nord en 1990 La premiere g n ration de syst mes de codage Full Rate fait appel des techniques d acc s multiples par division de temps TDMA et un codeur de source 13 kbits s Regular Pulse Excitation Long Term Prediction RPE LTP pour l Europe et Vector Sum Excited Linear Prediction VSELP 8 kbits s pour I Am rique du Nord Tous les d bits mentionn s font r f rence au codage de source le codage du canal utilise approximativement le m me d bit ce qui porte le d bit total 22 8 kbits s pour le GSM Cette premi re g n ration ne permet qu une multiplication par trois environ des capacit s de ce r seau par rapport au r seau analogique Pour permettre une multiplication par dix ou plus l European Telecommunication Standard Institute ETSI en Europe et la CTIA en Am rique du Nord choisissent actuellement les standards de la deuxi me g n ration Le nouveau syst me de codage GSM Half Rate HR est bas sur un algorithme de type Code Excited Linear Predic
409. ol 47 pp 66 WOLF J 1972 Efficient acoustic parameters for speaker recognition J Acoust Soc Am vol 51 pp 2044 2055 YEGNANARAYANA B MADHUKUMAR A S RAMACHANDRAN V R 1992 Robust features for applications in speech and speaker recognition Proceedings of the ESCA workshop Cannes pp 97 101 YOUNG M A CAMPBELL R A 1967 Effects of context on talker recognition J Acoust Soc Am no 42 pp 1250 1254
410. omparer diff rentes m thodes entre elles Toutefois ce caract re empirique limite l interpr tation et le domaine de validit des r sultats aux enregistrements de qualit comparable celle des enregistrements utilis s dans la phase d valuation PARTIE I APPROCHE THEORIQUE CHAPITRE III MERTHODOLOGIE 51 3 6 4 Choix d une m thode d valuation L valuation empirique d une m thode de reconnaissance automatique de locuteurs en vue de son application forensique se r v le particuli rement difficile puisque la ma trise des param tres qui conditionnent la qualit des enregistrements pr sent s comme indices est inexistante l exception de ceux concernant le syst me d enregistrement Elle constitue n anmoins le meilleur moyen d estimer les performances du syst me d velopp dans le cadre de cette recherche 3 6 4 1 Crit res de s lection des bases de donn es Une proc dure de reconnaissance automatique de locuteurs n cessite la constitution de deux bases de donn es La premi re sert estimer la variabilit interlocuteur l int rieur de la population des locuteurs qui sont potentiellement l origine de l enregistrement consid r comme indice La seconde de plus petite taille permet l estimation de la variabilit intralocuteur de la ou des personne s suspect e s d tre la source de l indice En sciences forensiques ces concepts d intravariabilit et d intervariabilit ont t
411. omparer les timbres Bien que de tels montages soient le plus souvent r alis s au profit de l expert ils sont parfois produits au tribunal pour d montrer la m thode de comparaison des timbres utilis e par le phon ticien ou pour illustrer les diff rences ou les ressemblances Certains phon ticiens se sont prononc s contre cet usage car il peut d tourner l attention de la cour qui substituera peut tre de mani re inconsciente son propre jugement celui de l expert FRENCH 1994 4 4 1 3 Approche syst matique Par analogie la m thode graphoscopique de LOCARD et dans un but de classification des chantillons de parole inconnue FAHRMANN a propos une syst matisation de cette approche articul e en trois l ments LOCARD 1959 FAHRMANN 1966A FAHRMANN 1966B A L analyse de la structure du texte qui comprend l tude du contenu de la conversation la pr dominance de l accent les d fauts du langage et l habilet du langage B L analyse de la voix et du langage qui int gre l impression d ensemble du g n ral au particulier l tude de la forme compos e de l analyse de la construction de la phrase du choix des mots de la qualit des mots de la diction du texte du style de langage et de sa dynamique C L analyse des particularit s de la voix qui englobe l analyse de la hauteur du son de sa force de la pl nitude de la voix du timbre du tempo du rythme des mots et des phrases du d
412. on fausse et abusive de la part de TOSI THOMAS souligne aussi l absence de tout commentaire de la part de TOSI sur le taux de non conclusion de plus de 56 des examinateurs dans les conditions forensiques r elles d a la pi tre qualit de l information THOMAS 1981 supra 5 2 1 4 Rapport du Technical Committee on Speech Communication of the Acoustical Society of America BOLT I 100 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Finalement vouloir d montrer la fiabilit de la m thode dans le domaine forensique par le fait que les d cisions d identification par comparaison visuelle de spectrogrammes ont toujours t corrobor es par les autres l ments de l enqu te rel ve de l interpretation fallacieuse Sans se prononcer sur la recevabilit d une preuve obtenue par cette m thode les auteurs de BOLT I concluent qu il n est scientifiquement pas possible d valuer la fiabilit de la m thode dans des conditions r elles BOLT ET AL 1973 En r ponse une seconde lettre l diteur incluant dans ses auteurs TOSI et NASH tente de d finir la communaut scientifique pertinente dans ce domaine incluant tous les praticiens de cette nouvelle technique et excluant tous les scientifiques pourtant respect s ayant moins de pratique mais plus d objectivit scientifique BLACK ET AL 1974 5 2 3 Recevabilit de la m thode spectrographique
413. ons de densit gaussiennes est la plus efficace ce nombre de gaussiennes a donc t retenu 0 04 0 03 0 02 0 01 0 6 0 6 Figure VII 3 Histogramme simul de la distribution d un seul param tre PLP 0 04 0 03 0 02 0 01 0 L S m a 6 0 6 Figure VII 4 Exemple de modelisation de la distribution par un m lange de sept fonctions de densit gaussiennes Le module logiciel GMM permet d estimer les param tres du mod le 6 de mani re ce qu il corresponde le mieux possible aux donn es d entra nement Plusieurs techniques ont t d velopp es pour l entra nement du mod le GMM mais la plus utilis e est l estimation de la vraisemblance maximale maximum likelihood ML REYNOLDS ET ROSE 1995 Son but est de determiner les param tres qui maximisent la vraisemblance du modele sur la base d une sequence den vecteurs d entra nement Z Z Z Comme cette maximisation ne peut pas tre calcul e directement la mod lisation est r alis e de mani re it rative par l algorithme Expectation Maximisation Elle d bute avec un mod le initial 8 qui est utilis pour estimer un nouveau mod le 5 de mani re ce que p Z 8 gt p Z 1 8 Le nouveau mod le devient le mod le initial pour l it ration suivante et la proc dure est r p t e jusqu a ce que le seuil de convergence d sir soit atteint Cette proc dure est similaire a la technique u
414. ont ensuite test es en laboratoire par des analyses ad quates Dans l environnement hospitalier les r sultats sont pr sent s sous forme de rapports de vraisemblance des hypoth ses concurrentes discut s lors d un colloque quotidien qui rassemble l ensemble des m decins sp cialistes Suite la discussion ceux ci d cident d un traitement jamais d finitif mais tabli sur la base du bilan des connaissances ce moment l 202 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Dans le domaine forensique l valuation de rapports de vraisemblance est d j pratiqu e dans les autres domaines de l identification biom trique que sont l analyse g n tique EVETT ET BUCKLETON 1996 et la dactyloscopie CHAMPOD 1996 mais aussi dans certains domaines des microtraces comme le verre CURRAN ET AL 1998 et les fibres ROUX 1997 Par analogie le travail du criminaliste devrait aussi consister dans le domaine de la reconnaissance de locuteurs mettre en concurrence la probabilit d observer les caract ristiques de l indice mat riel X dans Vhypoth se o il provient d une source Y et la probabilit d observer les m mes caract ristiques dans l hypoth se o l indice mat riel provient d une source alternative potentielle Les hypoth ses les plus pertinentes sont ou devraient tre d gag es au cours de l enqu te et sont ou devraient tre test es ensuite e
415. open set sont remplies lorsqu il n y a pas de connaissance a priori de caract ristiques g n riques du locuteur comme la langue qu il parle et que les conditions du closed set sont remplies lorsque des caract ristiques de ce type sont connues Comme cette divergence de terminologie peut amener des confusions la terminologie originale de BOLT est pr f r e en attendant qu une terminologie ad quate soit trouv e pour d finir les qualifications d crites par KWAN qui sont diff rentes 3 5 2 2 Analyse forensique KUNZEL consid re que l inf rence de l identit du locuteur ne peut tre assimil e une discrimination car selon lui un syst me fonctionnant sur la base d un seuil tabli 4 priori n est pas concevable Comme la variation du seuil permet d optimiser les taux de faux rejet ou de fausse acceptation ces taux ne sont jamais simultan ment nuls Cette probabilit d acquittement d un coupable ou de condamnation d un innocent lui appara t comme inconcevable du point de vue thique Cette question ne peut pas non plus tre assimil e une classification en ensemble ferm puisqu il n est pas possible de d terminer a priori si le locuteur inconnu se trouve dans l ensemble des locuteurs suspects Il conclut donc que l inf rence de l identit du locuteur en sciences forensiques doit tre envisag e sous l angle de la classification en ensemble ouvert car l ensemble des locuteurs potentiels est pratique
416. or recognition of speakers in forensic applications the aural approach the spectrographic approach and automatic speaker recognition Our experimental section describes the development of an automatic system for speaker recognition and establishes a model following a mixture of Gaussian density functions Gaussian Mixture models GMM We use a continuous approach in calculating probability ratios particularly as regards kernel density estimation KDE The system proposed is then tested under several conditions typically encountered in forensics such as influence of quality and quantity of data influence of attempts to disguise the voice influence of the telephone line and handset background noise recording system and consideration of voices which appear to share aural proximity The results of our investigation and the question of practical use in forensic science in recognising speakers are set forth in our general discussion and conclusion where we attempt a synthesis PARTIE 1 IL IL PARTIE 2 VI PARTIE3 VII VII PARTIE 4 IX Annexes SOMMAIRE APPROCHE THEORIQUE Introduction La voix comme indice mat riel M thodologie RECHERCHE BIBLIOGRAPHIQUE Approche auditive Approche spectrographique Approche automatique RECHERCHE EXPERIMENTALE D veloppement d un syst me automatique de reconnaissance de locuteurs valuation du syst me SYNTHESE Discussion g n rale Conclusion Bibliogr
417. os O NASH E W 1973 Voiceprint identification Rules for evidence Trial vol 9 no 1 pp 44 48 Tosi O OYER H LASHBROOK W PEDREY C NICHOL J NASH E W 1972A Experiment on voice identification J Acoust Soc Am vol 51 pp 2030 2043 BIBLIOGRAPHIE 271 Tos O OYER H LASHBROOK W PEDREY C NICOL J RIGGS D 1972B Michigan state university voice identification project IN Voice Identification Research U S Department of Justice Law Enforcement Assistance Administration National Institute of Law Enforcement and Criminal Justice pp 35 60 TSENG B L SOONG F K ROSENBERG A E 1992 Continuous probabilistic acoustic map for speaker recognition ICASSP pp II 161 II 164 TURNER R F RICH V ROMIG C H A HENNESSY J J 1972 Some guidelines for the use of voiceprint identification technique IN Voice Identification Research U S Department of Justice Law Enforcement Assistance Administration National Institute of Law Enforcement and Criminal Justice pp 61 69 TUTHILL H 1994 Individualization Principles and Procedures in Criminalistics Lightning Powder Company Inc Salem Oregon USA VAN DOMMELEN W A 1987 The contribution of speech rhythm and pitch to speaker recognition Language and Speech vol 30 pp 325 338 VAN DOMMELEN W A
418. otale objectivit de ce genre nouveau d expertise criminalistique Actuellement il est tr s difficile de conna tre le degr d utilisation de la comparaison de spectrogrammes vocaux en Europe La repr sentation spectrographique fait partie de la m thode phon tique acoustique d velopp e par les experts phon ticiens mais la question de son application des buts de comparaison telle qu elle est pratiqu e aux tats Unis n est pas r solue puisqu aucun consensus n existe entre les experts et qu en cons quence aucune m thodologie commune et explicite n a t publi e En l absence d une telle publication et cause de la discr tion des experts sur cette question tout laisse penser que son utilisation d pend de la m thodologie propre l expert et des circonstances du cas 5 6 Conclusion D un point de vue scientifique il semble aujourd hui acquis que la m thode d identification de locuteurs par comparaison visuelle de spectrogrammes vocaux ne peut pas tre consid r e comme valide et qu elle n est pas utilisable dans le domaine forensique L int r t principal de l tude de l approche spectrographique r side dans le fait que la controverse suscit e depuis 1962 a forc les diff rents acteurs du monde judiciaire nord am ricain r fl chir la notion de validit scientifique et expliciter les crit res de recevabilit de la preuve scientifique Elle a aussi contribu faire prendre
419. otrice est tr s int ressante l individu veut commencer parler spontan ment ou r p ter des mots dits par autrui mais il ne peut que partiellement ou pas du tout s exprimer Il intervertit une syllabe ou un mot car le m canisme d vocation des images motrices de la parole est d fectueux Parfois ce d faut est limit quelques mots par exemple aux noms Il se peut que la formation de la parole soit tr s simple par cons quent elle est mise impulsivement avec pr cipitation et on aura le contraire de l aphasie c est dire la loquacit exag r e qui s appelle soliloque ou logorrh e On peut avoir la r p tition insistante de certains mots ce qui s appelle cholalie ou de certains noms onomatop e ou de nombres arithmomanie OTTOLENGHI 1910 4 3 2 Limites de l approche descriptive Dans Les Preuves de l Identit Edmond LOCARD reprend les caract risations tablies par OTTOLENGHI mais souligne que toute description d une perception auditive est entach e par la subjectivit La m thode est terriblement incertaine Il faut tenir compte des conditions dans lesquelles le t moin coute Or ces conditions ne sont pas pr cis ment excellentes D une part les voix entendues risquent de ne pas tre leur diapason normal Un homme qui menace ou qui frappe un autre qu on gorge ne parle pas sur le ton de comm rage quotidien ni sur celui d une discussion d une soci t savante D autre
420. our lesquelles le 132 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE probl me de l identification des composantes du m lange se trouve simplifi REDNER ET WALKER 1984 CAPPE 1995 Cette approche semble adapt e aux caract ristiques du signal de parole et se rapproche de la caracterisation fournie par la quantification vectorielle Elle differe de cette derni re par la description de la distribution des caract ristiques autour de certains points d accumulation alors que la quantification vectorielle se contente de les mettre en vidence L estimation des classes du mod le est par nature tr s complexe DUDA ET HART 1973 Elle est r alis e par l algorithme Expectation Maximisation EM qui par un processus it ratif de pr vision et de maximisation non supervis recherche les classes du mod le qui permettent de maximiser la distribution des caract ristiques analys es Cependant l algorithme EM est susceptible de fournir de multiples solutions et de plus avec une convergence lente simplifi e REDNER ET WALKER 1984 Plusieurs m thodes d initialisation de l algorithme d apprentissage ont donc t propos es soit de mani re simple par partitions arbitraires MATSUI ET FURUI 1992 soit de mani re plus labor e l aide d une d termination initiale des param tres par une proc dure de quantification vectorielle ROSE ET AL 1991 La mesure de similarit calc
421. ournal vol 50 pp 1427 1454 BRICKER P P RUZANSKY S 1976 Speaker recognition IN Contemporary Issues in Experimental Phonetics ed Lass N J New York Academic Press pp 295 326 BROEDERS A P A 1995 The role of automatic speaker recognition techniques in forensic investigations Proceedings of the XIIth International Congress of Phonetic Sciences Stockholm vol 3 pp 154 161 BROEDERS A P A 1996 Earwitness identification common grounds disputed territory and uncharted areas Forensic Linguistics vol 3 no 1 pp 3 13 BROWN B L 1974 An experimental study of the relative importance of acoustic parameters for auditory speaker recognition Language and Speech vol 24 pp 295 310 252 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE BROWN R 1981 An experimental study of the relative importance of acoustic parameters for auditory speaker recognition Language and Speech vol 24 pp 295 310 BROWN B L STRONG W J RENCHER A C 1974 Fifty four voices from two The effects of simultaneous manipulations of rate mean fundamental frequency and variance of fundamental frequency on ratings of personality from speech J Acoustic Soc Am vol 55 pp 313 318 BROWN P LEVINSON S 1979 Social structure groups and interactions
422. ours de cette recherche l aide de plusieurs types d enregistrements utilis s pour la mod lisation le calcul de l intravariabilit et de l intervariabilit ainsi que pour les tests donnent une premi re image des conditions n cessaires l obtention d une r ponse fiable de la part du systeme automatique d velopp Les r sultats montrent clairement que Vaccession un degr de fiabilit acceptable implique pour l instant certaines restrictions d utilisation l am nagement de dispositions techniques pr alables et l acceptation de la mise en vidence de rapports de vraisemblance modestes manifestation des limites de la technologie actuelle Finalement l approche automatique et statistique de la reconnaissance de locuteurs est limit e la prise en compte de l information du signal de parole et cantonn e l op rationnalisation et l analyse de descripteurs objectivement mesurables Elle ne peut esp rer sauvegarder la richesse d une analyse subjective qui prend aussi en compte l information de types linguistique phon tique et dialectologique 9 2 2 1 3 Comp tences n cessaires l utilisation d une m thode automatique Comme le rel ve pertinemment K NZEL le plus sophistiqu des syst mes n cessite l interaction d un expert de nombreuses reprises en commen ant par la s lection d nonc s de paroles ad quats K NZEL 1994A La m thode d velopp e dans cette recherche tend cependant
423. outils utilis s sont des outils math matiques l informatique permettant une tude statistique des constantes du signal vocal tudi Cette m thode a fait l objet d une classification en CONFIDENTIEL DEFENSE et fait suite 4 une tude d cid e par le minist re de l Int rieur en 1989 Il convient de pr ciser que cette approche suscite le plus grand int r t chez les industriels A la fin de l ann e 1997 le GFCP a r it r sa motion de 1990 suite une expertise controvers e d identification de locuteurs effectu e notamment par le laboratoire d analyse et de traitement de signal de la Police Nationale fran aise BO 1998 La seule mani re de rendre l utilisation du logiciel REVAO acceptable d un point de vue scientifique est de proposer un protocole d valuation de cette m thode admis par tous les partenaires 6 4 7 Approches r centes Dans son rapport Voice Analysis pr sent au congr s de l Interpol en 1998 BRAUN mentionne la tendance actuelle a concentrer les efforts sur des proc dures plus objectives et moins gourmandes en temps de travail BRAUN 1998 Cette tendance s observe par une activit de publication dans le domaine de la reconnaissance automatique de locuteurs en sciences forensiques en forte progression depuis 1997 D une part plusieurs systemes de reconnaissance automatique ou semi automatique en activit provenant surtout d Europe de l Est ont t d c
424. personne mise en cause Y est effectivement auteur de l enregistrement pr sent comme indice X soit v rifi e avant l analyse de x et y Represente la probabilit que l hypoth se la personne mise en cause n est pas auteur de l enregistrement pr sent comme indice X soit v rifi e avant l analyse de x et y Repr sente le rapport de probabilit a priori posteriori ou chances a priori des deux hypoth ses comp titives H et Hz avant l analyse de x et y Repr sente l estimation de la densit de probabilit de l l ment de preuve E lorsque l hypoth se que la personne mise en cause Y est la source de l enregistrement pr sent comme indice X H est v rifi e Repr sente l estimation de la densit de probabilit de l l ment de preuve E lorsque l hypoth se que la personne mise en cause Y n est pas la source de l enregistrement pr sent comme indice X H est v rifi e Repr sente l estimation du rapport de probabilit a posteriori ou chances a posteriori des deux hypoth ses comp titives H et Hy apr s l analyse de x et y Repr sente l estimation du rapport de vraisemblance likelihood ratio LR mis en vidence entre le rapport de probabilit a priori et le rapport de probabilit a posteriori Pr rogative de la cour Pr rogative du scientifique Pr rogative de la cour Rapport de probabilit a priori H multipli par LR 2 Hi E H P H E iK 2 P
425. perturbations de la perception des voix semblent sp cifiques car elles ne sont pas corr l es a d autres d ficits dans les diff rents tests propos s Une analyse tomographique a permis de mettre en vidence que les patients pr sentant un d ficit de l identification des voix famili res sont atteints de l sions pari tales droites alors que les 56 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE patients atteints de troubles de la discrimination de voix non famili res sont atteints de l sions touchant le lobe temporal droit ou gauche VAN LANCKER ET AL 1988 Ces r sultats peuvent tre interpr t s comme une diff rence de strat gie entre la tache de discrimination et la tache d identification de locuteurs La tache de discrimination semble tre principalement l uvre d une strat gie m thodologique de comparaison fond e sur l analyse de caract ristiques et de param tres acoustiques de base centr s dans la m moire court terme comparable l analyse acoustique phon tique cat gorielle VAN LANCKER ET AL 1987 VAN LANCKER ET AL 1989 La t che d identification par contre proc derait d une strat gie cognitive de reconnaissance de formes bas e sur l appariement de structures holistiques r sidant dans la m moire long terme rapprocher de l analyse s mantique Un mod le actuel de la sp cialisation des h misph res c r braux assoc
426. phone Polyphone 1 Polyphone 2 Polyphone 3 Polyphone 4 Polyphone5 Comparaison cellulaire 00 GSM 70 RTPC 17 RTPC 17 DECT 17 DECT 17 DECT 17 RTPC 17 01 GSM 70 RTPC 17 RTPC 17 RTPC 17 RTPC 17 RTPC 17 RTPC 17 04 GSM 70 RTPC 28 RTPC 28 RTPC 28 RTPC 28 RTPC 28 RTPC 28 05 GSM 70 RTPC 08 RTPC 08 RTPC 16 RTPC 08 RTPC 08 RTPC 08 06 GSM 70 RTPC 11 RTPC 11 RTPC 11 RTPC 11 RTPC 11 RTPC 11 07 GSM 70 DECT 67 DECT 67 DECT 67 RTPC 67 DECT 67 DECT 67 08 GSM 70 DECT 81 RTPC 81 RTPC 81 RTPC 81 RTPC 81 DECT 81 09 GSM 70 DECT 01 DECT 00 DECT 00 DECT 00 DECT 00 DECT 01 32 GSM 70 RTPC 32 RTPC 32 RTPC 32 RTPC 32 RTPC 32 RTPC 32 33 GSM 70 DECT 01 DECT 01 DECT 01 DECT 01 DECT 01 DECT 01 44 GSM 70 RTPC 32 RTPC 32 RTPC 32 RTPC 32 RTPC 32 RTPC 32 49 GSM 70 RTPC 28 RTPC 16 RTPC 16 RTPC 32 RTPC 21 RTPC 28 54 GSM 70 RTPC 38 RTPC 38 RTPC 38 RTPC 38 RTPC 38 RTPC 38 55 GSM 70 RTPC 38 RTPC 16 RTPC 16 RTPC 16 RTPC 16 RTPC 38 58 GSM 70 RTPC 75 RTPC 75 RTPC 75 RTPC 75 RTPC 09 RTPC 75 59 GSM 70 RTPC 09 RTPC 09 RTPC 09 RTPC 09 RTPC 09 RTPC 09 236 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE
427. plexit ou par confiance exag r e en une sophistication technologique et statistique toujours plus grande laisse ceux qui recommandent une application pratique des projets de reconnaissance du locuteur ouverts une s rieuse critique th orique NOLAN 1983 En 1995 NOLAN pr cise sa pens e et ouvre de nouvelles voies de recherche en indiquant que l analyse de la prosodie est g n ralement consid r e comme accessoire ignor e la plupart du temps et trait e non comme un aspect du systeme phonologique mais purement comme un aspect non structur du signal de parole en termes de param tres tels que la fr quence fondamentale per ue Certains concepts et repr sentations phonologiques sont ostensiblement absents de la 210 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE reconnaissance de locuteurs alors qu un mod le phonologique de l intonation permettrait la mise en vidence de ph nom nes potentiellement sp cifiques au locuteur NOLAN 1995 L enjeu des questions de FURUI et des propositions de NOLAN d passe largement la probl matique abord e ici laquelle montre l importance de la recherche fondamentale dans la qu te de la compr hension des m canismes de production et de perception de la parole qui restent encore en grande partie d couvrir La lev e de ces incertitudes serait en tout cas d une grande utilit pour fonder l assise th orique de la p
428. plique que l expert tienne pour vrai une probabilit a priori de 0 5 Dans le domaine de la recherche en paternit cette pratique a m me t qualifi e de neutre puisque si la personne suspect e est hors de cause une seule autre personne est concern e HUMMEL 1984 IN TARONI ET AITKEN 1996 Cette vision est cependant arbitraire comme toute autre qui vise ala determination de la valeur de la probabilit a priori par l expert car ce point rel ve de la comp tence du juge et du jury EVETT 1983 TARONI ET AITKEN 1996 3 5 4 Evaluation de rapports de vraisemblance L analyse des m thodes pr c dentes montre que l inf rence de l identit d un locuteur partir d un l ment de preuve fourni par l analyse de la voix ne peut tre envisag e d un point de vue d terministe par l expert en termes de culpabilit ou d innocence Le r le du scientifique se borne tablir la vraisemblance de l l ment de preuve en cas d identit ou de non identit de la personne mise en cause 3 5 4 1 D finition Cette approche par valuation des rapports de vraisemblance prend sa source dans le th or me de Bayes Par rapport la statistique classique le point de vue bay sien se distingue notamment par la prise en consid ration des probabilit s a priori des hypoth ses v rifi es Ainsi le niveau de signification la probabilit du premier type d erreur fix habituellement une valeur faible cinq ou
429. pp 85 108 JONES W R 1973A Danger Voiceprint ahead Amer crim Law Rev vol 11 no 3 pp 549 573 JONES W R 1973B Evidence vel non The nonsense of voiceprint identification Kentucky Law J vol 62 no 2 pp 301 326 KAISER L 1939 1944 Biological and statistical research concerning the speech of 216 Dutch students I V Archives n erlandaises de phon tique exp rimentale no 15 16 17 18 KACZMAREK Z KRZYSZKO M 1973 An attempt to use Anderson and Bahadur s separating hyperplane to identify a population among many normal populations IN Speech analysis and synthesis ed Jassem W Polish Academy of sciences Warsaw vol 3 pp 159 169 Kao Y H BARRAS J S RAJASEKARAN P K 1993 Robustness study of free text speaker identification and verification ICASSP pp 1 379 11 382 Kaye D H 1979 The Laws of Probability and the Law of the Land The University of Chicago Law Review no 47 pp 34 56 KELLER E 1994 Signalyze analyse du signal pour la parole et le son manuel d utilisation Network Technology Corporation Charlestown KERSTA L G 1962A Voiceprint identification Nature no 4861 pp 1253 1257 KERSTA L G 1962B Voiceprint identification J Acoust Soc Am vol 34 p 725 A KERSTA L G 1973 L identification des
430. pproches actuelles PARTIE I APPROCHE THEORIQUE CHAPITRE III MERTHODOLOGIE 35 consid r e comme objective par rapport la SRL cause de sa relative ind pendance de la d cision humaine subjective NOLAN 1983 La reconnaissance de locuteurs par spectrogrammes Speaker Recognition by Spectrograms SRS consiste en la prise de d cision sur l identit ou la non identit du locuteur sur la base de la comparaison visuelle de spectrogrammes vocaux par des observateurs entra n s Ces spectrogrammes sont aussi appel s vocogrammes KERSTA 1973 ou sonagrammes NOLAN 1983 3 4 3 1 2 Aspects forensiques Les trois approches sont actuellement pratiqu es en sciences forensiques La reconnaissance de locuteurs par audition est pratiqu e soit par des experts phon ticiens ou sp cialistes des sciences de la parole soit par des profanes principalement les victimes ou les t moins d une infraction La reconnaissance de locuteurs par spectrogrammes en tant que m thode part enti re est surtout pratiqu e aux tats Unis par des examinateurs de spectrogrammes alors que la reconnaissance de locuteurs par machine commence tre utilis e sous forme de syst mes semi automatiques ou de syst mes assist s par ordinateur K NZEL 1994A FALCONE ET DE SARIO 1994 3 4 3 2 Selon le type d approche subjective ou objective 3 4 3 2 1 D finition Une autre classification bipartite a t propos e par LEWIS 1984 et
431. prozess Kriminalistik pp 511 518 MASTHOFF H 1996 A report on a voice disguise experiment Forensic Linguistics vol 3 no 1 pp 160 168 MATALON B 1967 Epist mologie des Probabilit s IN Encyclop die de la Pl iade Logique et connaissance scientifique d Piaget J Gallimard Dijon France vol XXII pp 526 553 MATHYER J 1990 Lettre Mesdames et Messieurs les magistrats de l ordre judiciaire Revue Int Crim Pol Tech vol XLIII no 1 90 pp 98 100 MATSUI T F URUI S 1991 A text independent speaker recognition method robust against utterance variations ICASSP vol 1 pp 377 380 MATSUI T FURUI S 1992 Comparison of text independent speaker recognition methods using vector quantization distortion and discrete and continuous HMMs ICASSP vol A pp I 157 II 160 MCDADE T 1968 The voiceprint The Criminologist vol 3 no 7 pp 52 70 MCGEHEE F 1937 The reliability of the identification of human voice J Gen Psychol vol 17 pp 249 271 MCGEHEE F 1944 An experimental study of voice recognition J Gen Psychol vol 31 pp 53 65 MCGONEGAL C ROSENBERG A RABINER L 1978 Speaker verification by human listeners over several speech transmission systems Bell Sys Tech Journal vol 57 no 8 pp 2887 2900
432. ps lexicaux utilis s est en g n ral restreinte cause de la bri vet de l nonc et les th mes sont limit s menaces injures propos obsc nes th mes propres aux pathologies psychiatriques FAHRMAN 1966A S il n y a pas d change entre les interlocuteurs il est possible que le message provienne lui m me d un enregistrement et qu il ait t volontairement modifi au cours de cette proc dure soit par un filtrage soit par un montage BOLT ET AL 1979 2 3 7 3 Enregistrement dans le cadre d une mesure de surveillance Si le message est enregistr dans le cadre d une mesure officielle de surveillance t l phonique au sens de l art 1790cties CP sa dur e n est pas limit e et le cumul des enregistrements peut atteindre des centaines d heures La s lection des chantillons est effectu e en infra Annexe IL Extraits du Code p nal suisse 10 infra Annexe II Extraits du Code p nal suisse 24 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE fonction du rapport de leur contenu l infraction pour laquelle la surveillance a t octroy e La taille des champs lexicaux utilis s est en g n ral tendue car le discours est construit mais les themes se rapportent aux domaines des infractions consid r es Certaines organisations ou groupements vitent tout vocabulaire compromettant en utilisant des codes internes NATARAJAN ET AL 1995 2 3
433. que dynamique R gularit du d bit Vitesse d locution Tonalit Intensit Timbre Rythme Pl nitude Figure II 6 Comparaison de la difficult de modification de diff rentes caract ristiques de l locution FAHRMANN 1966A Lorsque la strat gie de d guisement est laiss e au libre choix du locuteur on voit que si la modification porte sur un seul param tre il s agit d un param tre de la voix dans 30 des cas et si elle porte sur plusieurs param tres la proportion qu un param tre de la voix soit modifi s l ve 60 Dans 42 des cas un ou plusieurs param tres de la parole sont modifi s mais le contenu n est affect que dans 22 des cas Dans 10 des cas des moyens de filtrage lectroniques compl tent les modifications intrins ques GFROERER 1994 IN MASTHOFF 1996 Un moyen de d guisement Contenu Articulation Phonation Deux moyens de d guisement Parole et contenu Voix et contenu Voix et parole 0 10 20 30 40 50 60 Figure II 7 Distribution des moyens de d guisements utilis s MASTHOFF 1996 26 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE MASTHOFF confirme ces r sultats il montre que lorsque le contenu est court une seule phrase le locuteur opte pour la modification d un seul param tre dans 55 des cas Le mode de phonation param tre li la voix est modifi dans 3
434. quelques exemples provenant de locuteurs de la base de donn es Polyphone IPSC Figure VII 6 Dans un deuxi me temps l estimation a t r alis e de mani re plus pr cise par kernel density estimation infra 8 2 2 2 Composition de la base de donn es Polyphone ISPC PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VII DEVELOPPEMENT D UN SYSTEME AUTOMATIQUE 153 Histogramme de la variabilit intralocuteur donn es A Histogramme de la variabilit interlocuteur donn es B dans un chantillon de 1000 personnes Occurences Occurences TSMMOKMHH HHHNKHHHMH HHT OHH HH HHH OH HHE HH YO 3 a Score Score Pour la locutrice Y Pour la locutrice Y a II o le oon 00 ll I ae ee aan Ae RT Oe ere ed thet ee Pour le locuteur Z Pour le locuteur Z Figure VII 6 Distribution des indices de proximit calcules par le classificateur GMM 7 3 3 Estimation de la distribution par kernel density estimation Une id e peu r pandue consiste consid rer les donn es elles m mes comme source de la fonction de densit de probabilit AITKEN 1995 L estimation de cette densit de probabilit n est pas trop difficile si la distribution des donn es est suffisamment lisse En sciences forensiques AITKEN a propos l application de l
435. r Il n est pas suffisant d entendre il faut former le mot et le prononcer La formation de la parole est un m canisme qui se met en place gr ce la participation du centre psychomoteur de Broca qui se trouve la base de la troisi me circonvolution frontale et des zones psychomotrices adjacentes Il s agit de l vocation des images verbales sensorielles accumul es dans les centres psychosensoriels en particulier dans le centre auditif et dans la formation des images motrices relatives La parole form e dans le centre cortical est transform e en acte moteur travers les syst mes centraux et p riph riques qui sont responsables de la coordination des mouvements phonatoires Cette transmission se fait au moyen du syst me nerveux moteur localis entre les centres corticaux et les muscles destin s l articulation de la parole Il s ensuit la formation et l mission des sons dans les syst mes phonatoires externes larynx pharynx bouche et nez Pour tudier les fonctions essentiellement motrices il faut s occuper seulement du m canisme intrins que de la parole c est dire de la mani re avec laquelle l individu met des sons vocaux phonation de celle dont il prononce les mots et de celle dont il les articule articulation On s occupera des autres fonctions du langage dans les examens psychologiques OTTOLENGHI 1910 PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE IV APPROCHE AUDITIVE 59 L auteur me
436. r re Grande proximit 15 fran aise 35 14 Fr re au t l phone N 16 fran aise 23 17 Fils Grande proximit 17 fran aise 56 16 P re au t l phone O 18 fran aise 33 19 Fr re jumeau Grande proximit 19 fran aise 33 18 Fr re jumeau au t l phone P 22 fran aise 77 39 P re Proximit moyenne 39 fran aise 49 22 Fils au t l phone Tableau VIII 2 Les locuteurs de la base de donn es Polyphone IPSC PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VIII EVALUATION DU SYSTEME 163 8 2 2 1 Acquisition des signaux de parole 8 2 2 1 1 Syst me d enregistrement En Suisse les transmissions entre les centraux t l phoniques sont presque exclusivement num riques Par contre la police et les fournisseurs d acc s aux t l communications r alisent encore souvent leurs enregistrements depuis le r seau t l phonique l aide d quipements analogiques de mauvaise qualit L enregistrement num rique des conversations t l phoniques est techniquement possible en Suisse mais cette volution technologique d pend surtout d une volont politique de fournir les moyens n cessaires l obtention d une qualit d enregistrement ad quate Pour cette raison l acquisition des signaux t l phoniques utilis s dans cette recherche a t r alis e directement depuis le r seau t l phonique num rique sur une plate forme informatique par l interm diaire d une ligne de type RNIS et d un
437. r sente l l ment de preuve qui peut exprimer soit une probabilit de co ncidence fortuite soit une opinion subjective de la fr quence des caract ristiques analys es 3 4 3 Classification des m thodes de reconnaissance 3 4 3 1 Selon le type de m thode 3 4 3 1 1 D finition Sous le titre g n ral de reconnaissance de locuteurs il est n cessaire de distinguer un certain nombre de domaines d tude distincts HECKER reconna t trois divisions majeures la reconnaissance de locuteurs par audition par machine et par comparaison visuelle de spectrogrammes HECKER 1971 La reconnaissance de locuteurs par audition Speaker Recognition by Listening SRL est constitu e P P 5 y par l tude de la mani re dont les auditeurs humains r alisent la t che d association d une voix particuli re un individu particulier ou un groupe et notamment dans quelles circonstances une telle t che peut tre remplie NOLAN 1983 La reconnaissance de locuteurs par machine Speaker Recognition by Machine SRM HECKER 1971 ou reconnaissance automatique de locuteurs Automatic Speaker Recognition ASR O SHAUGNESSY 1986 est l tude de la capacit de l outil informatique proc der la t che de reconnaissance de locuteurs sur la base de m thodes exploitant la th orie de l information la reconnaissance automatique de formes et l intelligence artificielle perceptive BUNGE 1991 Elle est souvent 9 infra 6 2 3 A
438. r 18 Locuteur 19 Locuteur 20 Locuteur 22 Locuteur 39 Locuteur40 Locuteur 41 Locuteur 56 Messages anonymes L18 c ad 09 5 L19 c ad 07 1 L20 c ad 08 5 L22 c ad 08 0 L39 c ad 12 2 L40 c ad13 3 L41 c ad 06 4 L56 c ad 10 7 L18 c an 09 1 L19 c an 06 6 L20 c an 09 7 L22 c an 07 8 L39 c ad 30 2 L40 c an12 2 L41 c an 06 1 L56 c an 08 1 L39 c an 10 4 L41 c an 08 6 Simulation de dialogues L18 c d1 01 3 L19 c d1 01 2 L20 c d1 01 5 L22 c d1 01 7 L39 c d1 02 0 L40 c d1 01 4 L41 c d1 01 3 L56 c d1 01 4 L18 c d1 01 4 L19 c d1 01 4 L20 c d1 02 0 L22 c d1 01 3 L39 c d1 02 1 L40 c d1 01 8 L41 c d1 01 4 L56 c d1 01 5 L18 c d1 01 7 L19 c d1 01 8 L20 c d1 02 1 L22 c d1 01 9 L39 c d1 03 0 L40 c d1 02 2 L41 c d1 01 5 L56 c d1 01 8 L18 c d1 02 1 L19 c d1 02 0 L20 c d1 02 5 L22 c d1 02 4 L39 c d1 03 2 L40 c d1 02 4 L41 c d1 02 1 L56 c d1 04 2 L18 c d1 05 3 L19 c d2 00 8 L20 c d2 01 3 L22 c d2 01 0 L39 c d2 01 4 L40 c d2 01 3 L41 c d1 02 4 L56 c d2 01 9 L18 c d2 02 1 L19 c d2 01 8 L20 c d2 02 2 L22 c d2 01 8 L39 c d2 02 5 L40 c d2 02 7 L41 c d2 02 1 L56 c d2 02 2 L18 c d2 02 2 L19 c d2 01 9 L20 c d2 02 5 L22 c d2 02 5 L39 c d2 04 0 L40 c d2 03 3 L41 c d2 02 3 L56 c d2 02 5 L18 c d2 02 4 L19 c d2 04 6 L20 c d2 04 5 L22 c d2 05 1 L39 c d2 06 5 L40 c d2 05 9 L41 c d2 05 8 L56 c d2 02 7 Lecture d guis e L18 c ld 05 0 L19 c 1d 03 4 L20 c ld 04 6 L22 c ld 02 9 L39 c ld 11 0 L40 c 1d05 2 L41 c ld 03 6 L56 c 1d 03 9 L18 c ld 06 9 L19 c 1d 04 7 L20 c 1d 06 8 L22 c 1d 04 2 L39 c
439. r l onde temporelle tout en permettant une extraction pr cise des caract ristiques significatives pour la reconnaissance de la parole ou de locuteurs Cette analyse s appuie soit sur l extraction et la reconnaissance automatique d v nements acoustiques correspondant aux l ments phon tiques soit sur la variabilit implicite du signal de parole en fonction du locuteur ROSENBERG 1976B MELLA 1992 Les principaux probl mes pos s en traitement automatique de la parole proviennent de la dualit source conduit de l appareil phonatoire et de la grande dynamique et de la vari t des VOIX 6 2 1 1 Analyse phon tique acoustique Les premi res recherches se sont concentr es sur une analyse phon tique acoustique du signal de parole dans le but de d couvrir les caract ristiques temporelles et spectrales les plus d pendantes du locuteur L extraction de caract ristiques phon tiques acoustiques de mani re auditive comme celle pratiqu e par les experts phon ticiens est ais e car l oreille humaine est excellente dans la discrimination des signaux de parole pertinents dans des milieux fortement bruit s plus particuli rement lorsque ce bruit est compos de parole Cet effet appel cocktail party effect pose par contre beaucoup de difficult s aux algorithmes utilis s pour l analyse automatique du signal de parole difficult s de segmentation automatique des phon mes dans les applications d pendantes du texte et
440. re du signal de parole les coefficients de pr diction sont estim s sur une courte dur e du signal L approche la plus courante consiste choisir les coefficients qui minimisent l nergie de pr diction 6 2 3 1 3 M thodes Deux algorithmes permettent de minimiser l erreur moyenne quadratique de pr diction la m thode de covariance et la m thode d autocorr lation Pour obtenir les coefficients de pr diction la m thode de covariance cherche minimiser l erreur moyenne quadratique de pr diction sur un court segment de la forme d onde Cette m thode a t pr sent e par ATAL en 1971 et doit son nom la similarit entre la matrice utilis e et la matrice de covariance ATAL 1971 IN SCHAFER ET RABINER 1975 Deux m thodes ont t propos es pour le calcul de la fonction d autocorr lation court terme la m thode par vraisemblance maximale d velopp e par ITAKURA ET SAITO en 1970 et la m thode par filtrage inverse mise au point par MARKEL en 1972 La diff rence principale entre les deux approches est que la m thode d autocorr lation n cessite l utilisation d un fen trage explicite contrairement la m thode de covariance ce qui a pour cons quence la difficult de mesure pr cise de la largeur des formants avec la m thode d autocorr lation MARKEL 1972 IN SCHAFER ET RABINER 1975 6 2 3 1 4 Estimation des fr quences formantiques Les coefficients de pr diction lin aire permetten
441. re prot g e contre l emploi abusif des donn es qui la concernent ANNEXE II EXTRAITS DU CODE PENAL SUISSE RS 311 0 du 21 d cembre 1937 Etat le 10 novembre 1998 Livre premier Dispositions g n rales Premiere partie Des crimes et des d lits Titre deuxieme Conditions de la r pression Art 33 L gitime d fense Celui qui est attaqu sans droit ou menac sans droit d une attaque imminente a le droit de repousser l attaque par des moyens proportionn s aux circonstances le m me droit appartient aux tiers Si celui qui repousse une attaque a exc d les bornes de la l gitime d fense le juge att nuera librement la peine art 66 si cet exc s provient d un tat excusable d excitation ou de saisissement caus par l attaque aucune peine ne sera encourue Art 34 tat de n cessit Lorsqu un acte aura t commis pour pr server d un danger imminent et impossible d tourner autrement un bien appartenant l auteur de l acte notamment la vie l int grit corporelle la libert l honneur le patrimoine cet acte ne sera pas punissable si le danger n tait pas imputable une faute de son auteur et si dans les circonstances o l acte a t commis le sacrifice du bien menac ne pouvait tre raisonnablement exig de l auteur de l acte Si le danger tait imputable une faute de ce dernier ou si dans les circonstances o l acte a t commis le sacrifice du bien m
442. registrements de comparaison utilis s cet effet L influence de ce param tre est valu e l aide des enregistrements de comparaison nomm s Parole spontan e des 32 participants la base de donn es Polyphone IPSC Ces enregistrements ont t s par s en deux groupes le premier contient les nonc s de parole d une dur e de 0 4 et le second les nonc s de parole de plus de 4 s Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat pour chaque personne de la base de donn es Polyphone IPSC de la comparaison des enregistrements de comparaison nomm s Parole spontan e avec six mod les de sa propre voix Session Polyphone Cellulaire et Session Polyphone 1 Session Polyphone 5 Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat de la comparaison de ces m mes enregistrements de comparaison nomm s Parole spontan e avec les mod les de la voix des 1000 locutrices et des 1000 locuteurs de la base de donn es Polyphone Suisse Romande Les rapports de vraisemblance de ces l ments de preuve sont calcul s de la mani re suivante le num rateur quivaut la densit de probabilit de l l ment de preuve E dans la distribution de la variabilit intralocuteur du locuteur dont provient l enregistrement de comparaison Le d nominateur du rapport de vraisemblance quivaut
443. rencier une cinquantaine de locuteurs masculins partir d chantillons de 10 50 s de texte lu mais JASSEM conclut qu en cas d application forensique une telle m thode est plus indiqu e pour une classification pr liminaire des suspects que pour leur identification STEFFEN BATOG ET AL 1970 JASSEM ET AL 1973 Si la valeur de la fr quence fondamentale est moyenn e sur une p riode de temps suffisamment longue elle est relativement constante dans le temps et ind pendante du contexte linguistique HORU 1975 Grace a la fonction d autocorr lation ATKINSON a montr de grandes diff rences entre la fr quence fondamentale des enfants des femmes et des hommes qui est pergue de mani re correcte auditivement mais il a aussi mis en vidence que les variations interlocuteur et intralocuteur de F sont malheureusement concurrentes ATKINSON 1976 L observation de la sup riorit des caract ristiques spectrales a r duit l inter amp t des chercheurs pour les caract ristiques temporelles comme la fr quence fondamentale la dur e de phonation le d bit de parole ou le d veloppement de fonctions temporelles statistiques pourtant potentiellement porteuses d informations d pendantes du locuteur GROSJEAN ET DESCHAMPS 1972 DODDINGTON 1985 O SHAUGNESSY 1986 6 2 2 2 Analyse spectrale Les m thodes spectrales sont fond es sur une d composition fr quentielle du signal sans connaissance a priori de sa str
444. rensique Les param tres analys s sont des coefficients cepstraux en chelle Mel MFCC et la mesure de similarit est assur e par un classificateur par m langes de fonctions de densit gaussiennes GMM Les auteurs reportent des taux d erreur de 8 5 lorsque les mod les et les tests proviennent de sessions diff rentes et sont constitu s de parole spontan e ORTEGA GARCIA ET AL 1998 Le choix d une m thode enti rement automatique est aussi op r par d autres laboratoires de police Le laboratoire de police scientifique de Tokyo a d velopp un syst me d identification en ensemble ouvert l aide d un r seau neuromim tique exploitant des fr quences formantiques extraites de la parole continue Il mentionne un taux d identification correcte sur une base de donn es de 50 locuteurs BRAUN 1998 En collaboration avec le minist re des affaires int rieures d Ukraine l Acad mie des Sciences d Ukraine d veloppe le systeme Crime detection Automatic Speaker Verification and Identification CASVI Les auteurs ne d taillent pas la m thode mais reportent des taux d identification de 90 sur la base de signaux dont le rapport signal sur bruit est de 12 dB GORBAN ET AL 1999 Le laboratoire national des forces de gendarmerie turques d veloppe depuis 1994 un syst me d identification de locuteurs semi automatique nomm KASIS Il permet l extraction de param tres tels que F les fr quences formantiques des c
445. rits pour la premi re fois dans la litt rature internationale et d autre part plusieurs laboratoires acad miques ou de police d crivent l avancement de leurs recherches dans la mise au point de syst mes automatiques ou semi automatiques en vue d une application forensique Le systeme semi automatique DIALECT mis au point par le laboratoire forensique du service de s curit f d ral d ex Union Sovi tique est actuellement utilis par les minist res de l Int rieur de Russie et d Ukraine Il est compos d un module d analyse ind pendant du texte bas sur un vecteur de 378 param tres d un module d analyse des caract ristiques de la fr quence fondamentale bas sur un vecteur de 123 param tres et d un module d analyse des quatre voyelles russes les plus fr quentes analys es sur la base d un vecteur de 144 param tres Le module de decision statistique s appuie sur la determination de seuils par l estimation exp rimentale des fonctions de distribution des param tres dans la variabilit intralocuteur et interlocuteur TIMOFEEV ET SIMAKOV 1998 BRAUN 1998 142 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Le d partement d examen phonoscopique de l Institut d expertises forensiques de Lithuanie d crit le systeme Speaker Identification by the Voice SIVE bas sur des coefficients de pr diction lin aire et des coefficients cepstraux e
446. rmale Id indique un texte lu avec un crayon dans la bouche d1 et d2 indiquent la simulation de dialogues s indique de la parole spontan e Le nombre plac en dernier indique la dur e en secondes A VI 3 a Enregistrements de comparaison des locutrices L00 L09 Locutrice 00 Locutrice 01 Locutrice 04 Locutrice 05 Locutrice 06 Locutrice 07 Locutrice 08 Locutrice 09 Simulation de messages anonymes L00 c ad 08 3 L01 c ad 12 3 L04 c ad 07 7 L05 c ad 09 2 L06 c ad 09 9 L07 c ad 12 0 L09 c ad 10 3 L00 c an 07 7 LO1 c an 13 1 L04 c an 08 9 L05 c an 07 8 L06 c an 09 9 L07 c ad 12 1 L09 c an 10 0 L07 c an 10 7 Simulation de dialogues L00 c d1 1 4 L01 c d1 01 3 L04 c d1 01 4 L05 c d1 01 6 L06 c d1 01 6 L07 c d1 01 9 L08 c d1 01 3 L09 c d1 01 4 L00 c d1 1 6 L01 c d1 02 5 L04 c d1 01 6 L05 c d1 01 7 L06 c d1 02 0 L07 c d1 02 0 L08 c d1 02 1 L09 c d1 01 8 L00 c d1 2 5 L01 c d1 03 6 L04 c d1 02 0 L05 c d1 02 1 L06 c d1 02 1 L07 c d1 02 2 L08 c d1 02 2 L09 c d1 01 9 L00 c d1 2 6 L01 c d1 1 5 L04 c d1 03 4 L05 c d1 02 3 L06 c d1 02 7 L07 c d1 02 4 L08 c d1 02 3 L09 c d1 05 8 L00 c d2 1 6 L01 c d2 03 1 L04 c d2 01 2 L05 c d2 0 08 L06 c d2 01 4 L07 c d2 01 4 L08 c d2 01 2 L09 c d2 01 9 L00 c d2 2 2 L01 c d2 04 0 L04 c d2 02 2 L05 c d2 01 5 L06 c d2 02 5 L07 c d2 02 4 L08 c d2 02 1 L09 c d2 02 0 L00 c d2 3 0 L01 c d2 07 0 L04 c d2 03
447. rminologie utilis e de facon interne dans les laboratoires Bell par analogie aux empreintes digitales GRAY ET KOPP 1944 IN TOSI ET AL 1972B Fort de cette analogie fallacieuse il propose l utilisation des spectrogrammes vocaux en sciences forensiques et leur pr te PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE V APPROCHE SPECTROGRAPHIQUE 87 les caract ristiques d individualit des empreintes digitales par le fait que d une part l anatomie des cavit s vocales et les points d articulation varient chez chaque tre humain et que d autre part leur contr le par le syst me nerveux diff re d un individu l autre LADEFOGED ET VANDERSLICE 1967 BOLT ET AL 1970 Il reprend son compte l hypoth se th orique de la parole invariante d velopp e par les phon ticiens FANT et LADEFOGED qui pr sume que la variabilit intralocuteur des caract ristiques spectrales de la parole est inf rieure la variabilit interlocuteur et KERSTA tente de d montrer cette hypoth se par une tude sur une population de 12 locuteurs FANT 1960 LADEFOGED 1962 KERSTA 1962A Par analogie encore KERSTA attribue aux empreintes vocales la probabilit de co ncidence fortuite estim e pour les empreintes digitales et la possibilit d identification formelle qui en d coule Il effectue des analyses uniquement visuelles avec dix mots cibles tr s courants 4 and I is it me on the to et you enregistr
448. rs en cas d utilisation de t l phones diff rents Figure VIII 9 D un point de vue forensique cette variabilit introduite par la ligne t l phonique et le t l phone indique qu il est n cessaire de proc der l enregistrement des mod les l aide de plusieurs t l phones diff rents de celui utilis pour l enregistrement de comparaison sous peine de sous valuer artificiellement la variabilit intralocuteur 8 8 2 Influence du t l phone et de la ligne t l phonique utilis s pour les enregistrements de test 8 8 2 1 Proc dure Le t l phone et la ligne t l phonique utilis s pour les enregistrements de test sont susceptibles d influencer les performances de la reconnaissance s ils sont diff rents de ceux utilis s pour la mod lisation L influence de ce param tre est valu l aide des enregistrements de test Test 1 Test 5 Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat pour chaque personne de la base de donn es Polyphone IPSC de la comparaison des enregistrements de test Test 1 Test 5 avec les cinq mod les Session Polyphone 1 Session Polyphone 5 Les r sultats provenant des comparaisons Session Polyphone 1 Test 1 Session Polyphone 2 Test 2 etc n ont pas t pris en compte car le mod le et l indice proviennent dans ce cas de la m me session d enregistrement
449. rts que le citoyen peut entretenir avec l autorit polici re ou judiciaire les r les d finis intrins quement li s ces relations et l image de soi m me qui peut vouloir tre pr sent e dans de telles circonstances permettent d estimer l tendue des differences entre une conversation se d roulant dans le cadre d un interrogatoire ou d une s ance d enregistrement de comparaison et une conversation t l phonique priv e 2 4 Conclusion La plupart des l ments qui influencent n gativement la qualit finale de l indice mat riel enregistr comme la r ponse en fr quence du transducteur ou l tat psychologique du locuteur ne peuvent tre am lior s dans le cadre de la proc dure de collecte de cet indice L effort doit donc tre concentr autour du seul l ment sur lequel il est possible d influer le syst me d enregistrement Or comme le relevait d j BOLT en 1979 c est malheureusement souvent le maillon le plus faible BOLT 1979 Les forces de police de Suisse sont encore largement quip es de mat riel d enregistrement analogique obsol te mais le moment est judicieux pour un passage a une strat gie d enregistrement num rique avec comme base des standards de qualit et des protocoles d acquisition communs dans tout le pays 28 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE L avenement de l re de la transmission num rique de l inform
450. s Polyphone IPSC s expliquent de deux mani res Premi rement les 18 supra 3 5 2 1 1 Classification en ensemble ferm closed set PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VIII EVALUATION DU SYSTEME 169 enregistrements de test sont compar s 500 mod les dans le premier cas et mille mod les dans le second deuxi mement les personnes formant la base de donn es Polyphone Suisse Romande sont a priori non li es entre elles alors que les personnes formant la base de donn es Polyphone IPSC sont a priori li es deux par deux Les valeurs d erreur obtenues dans la premi re valuation peuvent tre consid r es comme pr cises puisqu elles r sultent de 458 009 tests mettant en jeu 957 personnes L impr cision qui frappe les valeurs mises en vidence dans la seconde valuation est par contre beaucoup plus importante puisqu elles proviennent de 96 000 tests mettant en jeu seulement 32 locuteurs a priori li s deux par deux Par exemple les six erreurs sont concentr es sur la locutrice L05 dans l valuation des locutrices et pour les locuteurs quatre des cinq erreurs sont concentr es sur le locuteur L39 Cette constatation met aussi en vidence l h t rog n it des performances de reconnaissance parmi les locuteurs d une population et laisse a penser que les participants L05 et L39 sont des personnes sp cialement difficiles a reconnaitre alors que les autres personnes de la bas
451. s Dixon N R amp Martin T B John Wiley amp Sons New York pp 403 409 SAPIR E 1927 Speech as a personality trait Amer J Soc vol 32 pp 892 895 SASLOVE H YARMEY A D 1980 Long term auditory memory Speaker identification Journal of Applied Psychology no 65 pp 111 116 SAVAGE L J 1972 The Foundations of Statistics Dover New York Savic M GUPTA S K 1990 Variable parameter in speaker verification system based on hidden Markov modeling IEEE ICASSP 90 pp 281 284 SCHAFER R W RABINER L R 1975 Digital representations of speech signals Proc IEEE vol 63 pp 662 677 SCHERER K R 1981 Speech and emotional states IN Speech evaluation in psychiatry ed Darby J K Grune amp Stratton New York pp 189 220 SCHMIDT NIELSEN A STERN K R 1985 Identification of known voices as a function of familiarity and narrow band coding J Acoustic Soc Am pp 658 663 SCHULTZ H 1971 Der Strafrechtliche Schutz der Geheimsph re Revue Suisse de Jurisprudence vol 67 pp 301 308 SCHWARTZ M F 1968 Identification of speaker sex from isolated voiceless fricatives J Acoustic Soc Am vol 43 pp 1178 1179 SCHWARTZ M RINE H 1968 Identification of speaker sex from isolated whispered vowels J Acoustic Soc
452. s 21 1 L49 c s 21 4 L49 c s 22 0 L49 c s 23 1 L49 c s 23 8 ANNEXES ANNEXE VI BASE DE DONNEES Polyphone IPSC 241 A VI 3 c Enregistrements de comparaison des locuteurs L10 L17 Locuteur 10 Locuteur 11 Locuteur 12 Locuteur 13 Locuteur 14 Locuteur 15 Locuteur 16 Locuteur 17 Simulation de messages anonymes L10 c ad 12 1 L11 c ad 05 2 L12 c ad 08 1 L13 c ad 07 9 L14 c ad 07 5 L15 c an 07 7 L16 c ad 07 7 L17 c ad 09 6 L10 c an 10 6 L11 c ad 07 2 L12 c an 06 8 L13 c an 08 2 L14 c an 07 0 L16 c an 06 9 L17 c an 09 4 L11 c an 06 6 Simulation de dialogues L10 c d1 01 5 L11 c d1 01 3 L12 c d1 00 7 L13 c d1 01 5 L14 c d1 01 3 L15 c d1 01 3 L16 c d1 01 3 L17 c d1 01 6 L10 c d1 01 9 L11 c d1 01 6 L12 c d1 01 0 L13 c d1 01 6 L14 c d1 01 4 L15 c d1 01 4 L16 c d1 01 4 L17 c d1 01 7 L10 c d1 02 2 L11 c d1 01 8 L12 c d1 01 6 L13 c d1 02 3 L14 c d1 01 7 L15 c d1 01 7 L16 c d1 01 7 L17 c d1 02 6 L10 c d1 02 4 L11 c d1 02 1 L12 c d1 01 8 L13 c d1 03 0 L14 c d1 02 5 L15 c d1 02 6 L16 c d1 02 1 L17 c d1 02 7 L10 c d2 01 7 L11 c d2 00 9 L12 c d2 00 9 L13 c d1 06 1 L14 c d2 01 2 L15 c d2 01 1 L16 c d2 01 0 L17 c d2 01 0 L10 c d2 01 8 L11 c d2 01 4 L12 c d2 01 2 L13 c d2 00 9 L14 c d2 02 0 L15 c d2 01 9 L16 c d2 01 9 L17 c d2 01 9 L10 c d2 03 5 L11 c d2
453. s d pendantes du locuteur et celles qui procedent des autres fonctions du langage voluent dans les m mes dimensions et leur variabilit r sulte d un grand nombre d influences D s lors l aptitude mesurer une diff rence acoustique isol e n implique pas forc ment la capacit d valuer sa signification du point de vue de l identification et une interpr tation avertie s av re n cessaire NOLAN 1991 4 4 3 Limites des approches auditive et phon tique acoustique L hypoth se de l unicit de la voix humaine r side dans la possibilit de caract riser chaque individu dans un domaine de variation unique d un espace multidimensionnel lorsque l on consid re un nombre de dimensions suffisant Pourtant cette hypoth se ne peut pas tre consid r e comme un fait ni en g n ral ni dans le cadre de la t che d identification de locuteurs en sciences forensiques NOLAN 1991 Les phon ticiens sont capables de livrer une analyse structur e d une grande qualit mais m me leur grand savoir faire n assure pas de garantie HOLLIEN 1990 De m me FRENCH reconnait que personne ne peut tablir l identit d un locuteur avec une certitude scientifique absolue Malgr l amelioration constante de la technologie utilis e par les phon ticiens dans leurs analyses forensiques les conclusions auxquelles ils parviennent demeurent du niveau de l opinion et devraient tre utilis es de fa on corroborative FRENC
454. s v Williams continuent cependant a l admettre en vertu du principe de pertinence nonc dans les Federal Rules of Evidence REYNOLDS ET WEBER 1979 MOENSSENS ET AL 1986 5 3 Rapport du Conseil National des Sciences En mars 1976 le FBI demande l Acad mie Nationale des Sciences des Etats Unis NAS d entreprendre une valuation de la m thode d identification de locuteurs par comparaison visuelle de spectrogrammes Un comit de huit experts ind pendants est form Il est compos de trois des auteurs de BOLT I et Il BOLT COOPER et PICKETT de TOSI et de quatre autres scientifiques actifs dans le domaine de la parole ou de la physique GREEN HAMLET MCKNIGHT et UNDERWOOD GIANELLI et IMWINKELRIED remarquent a juste titre que contrairement aux autres TOSI ne doit pas tre consid r comme impartial et ind pendant GIANELLI ET IMWINKELRIED 1986 Ce comit recoit pour mission de d terminer la validit de la technologie et sa recevabilit en cour afin d annihiler une controverse vieille de quinze ans qui a abouti a une position contradictoire des cours de justice de tous niveaux vis a vis de cette m thode Apres avoir proc d une revue bibliographique extensive du domaine le comit synth tise l information sous forme d un rapport final comportant toutefois de nombreuses d finitions et analyses nouvelles BOLT ET AL 1979 5 3 1 Position du rapport sur les diff rents l ments de controvers
455. sance automatique de locuteurs d velopp dans le cadre de la recherche th orique et exp rimentale PARTIE 2 RECHERCHE BIBLIOGRAPHIQUE IV APPROCHE AUDITIVE 4 1 La perception de la voix et de la parole 4 1 1 Principes de la perception L anatomie et la physiologie de l oreille humaine sont en premier lieu adapt es a la perception de la voix humaine La perception de la parole est g n ralement d crite comme un processus comprenant plusieurs tages d analyse dans la transformation de la parole en message STUDDERT KENNEDY 1974 STUDDERT KENNEDY 1976 Bien que la nature exacte de chacun des tages d crits et leurs interactions ne soient encore que suppos s ils sont justifiables d un point de vue linguistique Sur la base des tudes de STUDDERT KENNEDY PISONI ET LUCE proposent cinq tages conceptuels d analyse analyse auditive p riph rique l analyse auditive centrale l analyse acoustique phon tique l analyse phonologique et les analyses d ordre plus lev lexicale syntaxique et s mantique STUDDERT KENNEDY 1974 PISONI ET LUCE 1987 4 1 2 Le processus de discrimination et d identification de locuteurs Les processus de discrimination et d identification de locuteurs par l tre humain sont souvent pr sent s comme des variantes d un processus cognitif unique HECKER 1971 BRICKER ET PRUZANSKY 1976 Cependant l tude des performances de patients atteints de troubles de
456. scrite Sur la base de ces crit res d valuation l examinateur doit premi rement estimer un rapport de vraisemblance de l identification par rapport la non identification et deuxi mement d terminer son seuil de d cision Toutefois selon THOMAS les partisans de la m thode spectrographique ont admis que le processus est un art analogue l expertise de l criture manuscrite apr s avoir longtemps pr tendu qu il s agissait d une science et proposent sa recevabilit par analogie l expertise de l criture manuscrite THOMAS 1981 Or cette analogie est fallacieuse car l expertise d criture peut tre d montr e par l expert et comprise par le profane qui peut valuer la validit des conclusions sur la base de l interpr tation des ressemblances et des divergences mises en vidence par l expert sur les manuscrits Par contre la m thode spectrographique est accompagn e d un verbiage pseudo PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE V APPROCHE SPECTROGRAPHIQUE 105 scientifique propre tromper le jury et le profane qui ne peuvent ni discerner les ressemblances et les divergences sur les spectrogrammes ni valuer l interpr tation de l expert et ses conclusions l image de la r ponse de NASH dans People v Jackson Je ne peux pas vous dire la barre quels points de ressemblance m ont en fait permis de conclure que c tait la m me voix Je ne sais pas ce que sont ces points de ressemblance m
457. se Romande A Monsieur Philippe Schucany chef du Service d identification de la Police Cantonale de Neuch tel pour avoir ouvert les portes de son service mes exp riences et m avoir accord sa confiance dans plusieurs affaires criminelles A Monsieur le Professeur Fran ois Grosjean Professeur de phon tique l Universit de Neuchatel pour m avoir accueilli dans son cours de phon tique acoustique Monsieur le Professeur Eric Keller Professeur d informatique et m thodes math matiques l Universit de Lausanne pour m avoir gracieusement mis disposition son logiciel ae x Signalyze A Monsieur Jean Pierre Rosset responsable de la partie audio du centre audiovisuel de l Universit de Lausanne pour ses conseils et son aide pr cieuse dans la num risation d enregistrements sonores A Monsieur le Docteur Tony Cantu responsable de la recherche scientifique de la Forensic Services Division of the United States Secret Service qui avec enthousiasme m a assur de pr cieux contacts aux Etats Unis et procur la litt rature nord am ricaine pertinente A Monsieur Steve Lewis du Home Office de Grande Bretagne que je n ai pas la chance de connaitre mais dont la r flexion philosophique sur la reconnaissance de locuteurs est a la base de ce travail A toutes les personnes qui uvrent dans les biblioth ques des Universit s et des coles Polytechniques F d rales de Su
458. se Comme toutes les personnes cit es supra proviennent de Suisse Romande et s expriment en francais l estimation de la variabilit interlocuteur a t mesur e sur une base de donn es qui mod lise cette population la base de donn es Polyphone Suisse Romande 8 2 3 1 S lection de la base de donn es Polyphone Suisse Romande 8 2 3 1 1 Crit re de choix de la base de donn es La base de donn es Polyphone Suisse Romande a t gracieusement mise disposition par le laboratoire R amp D Digital Signal Processing de l entreprise Swisscom Cette base de donn es comprend les nonc s de 2500 locutrices et 2500 locuteurs la base de donn es Polyphone est disponible chez ELRA European Language Resources Association en plusieurs autres langues a savoir l allemand l anglais le hollandais et depuis peu le suisse allemand Pour la constituer les locuteurs ont t choisis au hasard en Suisse Romande par l entreprise Swisscom Chaque personne enregistr e a effectu une session d enregistrement depuis son t l phone priv professionnel ou cellulaire Les sessions ont t enregistr es par l interm diaire d une ligne t l phonique num rique RNIS au format G 711 elles ont une dur e de 90 a 150 secondes selon les personnes et sont principalement constitu es de texte lu et de parole spontan e sous forme d une demande de renseignement t l phonique 8 2 3 1 2 Dimensionnement de la ba
459. se de donn es La population de la Suisse Romande comprend moins de 2 millions de personnes Pour des raisons de taille des donn es de temps de modelisation et de comparaison deux sous ensembles de cette base de donn es ont t s lectionn s pour repr senter la population de Suisse Romande 1000 locutrices n 0001 1000 et 1000 locuteurs n 4001 5000 Ces deux sous ensembles permettent de constituer non seulement une bonne image de la variabilit des locutrices et des locuteurs de cette r gion mais aussi de la variabilit du r seau t l phonique public commut et cellulaire de Suisse Romande L utilisation du t l phone cellulaire tait cependant moins r pandue en 1995 qu elle ne l est aujourd hui 8 2 3 1 3 Enonc s consid r s pour la mod lisation et pour l valuation des limites th oriques du systeme Pour chaque locuteur de cette base de donn es l nonc contenant la demande de renseignement t l phonique qui dure une dizaine de secondes a t s par des autres nonc s Il a t utilis comme enregistrement de test pour valuer les limites th oriques du systeme de reconnaissance Les 80 140 secondes restantes ont t utilis es comme donn es d entrainement pour calculer les modeles statistiques de la voix des 1000 locutrices et 1000 locuteurs s lectionn s 10 infra 8 4 Limites th oriques du syst me 166 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES
460. se en reconnaissance de locuteurs est souvent consid r e comme une ultima ratio lorsque toutes les autres voies d investigation ont t puis es ou lorsque la voix enregistr e repr sente le seul lien entre l auteur et l infraction L observation de FRENCH semble aussi ignorer les contraintes de l instruction p nale qui obligent le magistrat rechercher des preuves rapides et faciles obtenir comme les t moignages ou les aveux GALLUSSER 1998 D s lors une proc dure d expertise en reconnaissance de locuteurs est d cid e par le magistrat dans le but non pas d obtenir une preuve corroborative mais une preuve centrale pour son dossier de renvoi devant un tribunal L impression que ce type de preuve est utilis e de mani re centrale est corrobor e par la pol mique qui a entour l tude du FBI de 1986 Sur 2000 cas d identification de la voix r partis sur une p riode d une quinzaine d ann e KOENIG pr tend qu une seule fausse identification 0 05 a t comptabilis e avec la m thode spectrographique KOENIG 1986A Or sa m thodologie a t s v rement critiqu e par SHIPP qui rel ve principalement que la supposition qu une d cision d identification est correcte lorsqu elle est compatible avec l issue du cas est fausse SHIPP ET AL 1987 Les auteurs affirment avec raison qu un crit re tel qu une d cision de culpabilit ou d innocence n est pas suffisant pour tablir la rectitude d
461. sement de la voix dans les enregistrements de comparai son 8 7 1 1 Proc dure La qualit de l valuation de l intravariabilit d un locuteur est susceptible d tre influenc e par la pr sence d un d guisement de la voix dans les enregistrements de comparaison utilis s cet 178 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE effet L influence de ce param tre est valu e l aide d enregistrements de comparaison nomm s Simulation de messages anonymes compos s de messages anonymes simul s et prononc s avec une voix normale ou d guis e par la pr sence d un crayon dans la bouche lors de l locution Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat pour chaque personne de la base de donn es Polyphone IPSC de la comparaison des enregistrements de comparaison nomm s Simulation de messages anonymes avec les six mod les de sa propre voix Session Polyphone Cellulaire et Session Polyphone 1 Session Polyphone 5 Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat de la comparaison de ces m mes enregistrements de comparaison nomm s Simulation de messages anonymes avec les mod les de la voix des 1000 locutrices et des 1000 locuteurs de la base de donn es Polyphone Suisse Romande Les rapports de vraisemblance de ces l men
462. soit derri re A soit derri re B Que le joueur change ou non de rideau ses chances de gain restent identiques il n y a donc aucun int r t changer lors du deuxi me choix EVETT 1992 PARTIE I APPROCHE THEORIQUE CHAPITRE I INTRODUCTION 7 En r alit le calcul des probabilit s statistiques et la pratique r p t e du jeu ont d montr que le joueur double ses chances de gain s il change de rideau lors du deuxi me choix Ce jeu t l vis a suscit un large d bat parmi les math maticiens la majorit d entre eux tombant dans le pi ge de l intuition La solution correcte fut pr sent e par un profane TIERNY 1991 ENGEL ET VENETOULIAS 1991 1 3 3 Limites de l approche statistique L approche statistique est limit e l op rationnalisation de variables objectivement mesurables et ne peut esp rer sauvegarder la richesse de l information analys e dans une proc dure de reconnaissance ordinaire ou savante DODDINGTON d finit cette information v hicul e dans la parole humaine comme information de bas niveau DODDINGTON 1985 Pour ces raisons l inference statistique de l identit est g n ralement plus faible que le jugement usuellement exprim par un expert Elle n aboutit en fait que rarement la d monstration de l unicit des caract ristiques d un indice mat riel FINKELSTEIN ET FAIRLEY 1970 Par contre cette approche tablit empiriquement la fr quence relative des carac
463. sonne mise en cause est tr s probablement l auteur de l indice mat riel La reformulation de la conclusion en termes de probabilit s indique que la personne est correctement identifi e dans 99 des cas P ID 0 99 Selon le th or me de Bayes la probabilit a posteriori d pend partiellement du r sultat de l analyse mais aussi de la probabilit a priori de l identit P ID P 1 ID P D N 0 99 P ID P 1ID P ID P 4 IID P D 0 99 P ID 0 01 1 P ID P IDI 3 1 La validit de la conclusion d pend donc s rieusement de la probabilit a priori de l identit Le m me type de d monstration a t pr sent pour l interpr tation de la preuve par analyse d ADN BALDING ET DONNELLY 1994 IN CHAMPOD ET MEUWLY 1998 La repr sentation graphique propos e par BERRY Figure II 5 montre que P ID gt 0 99 si et seulement si P ID gt 0 5 Figure IIL 4 BERRY 1991 IN CHAMPOD ET MEUWLY 1998 0 9 0 8 0 7 0 6 Probabilit a posteriori aw 0 4 0 3 0 2 0 1 0 0 1 02 03 0 4 0 5 0 6 0 7 0 8 0 9 1 Probabilit a priori Figure IIL 5 Evolution de la probabilit a posteriori en fonction de la probabilit a priori 44 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Pour cette raison il est faux de pr tendre que l identit du locuteur est d montr e avec un taux d erreur de 1 car cette conclusion im
464. speaker recognition identification and verification pp 27 30 REYNOLDS D A 1995A Automatic speaker recognition using gaussian mixture speaker models The Lincoln Laboratory Journal vol 8 no 2 pp 173 191 REYNOLDS D A 1995B Speaker identification and verification using gaussian mixture speaker models Speech Communication vol 17 no 1 2 pp 91 108 REYNOLDS D A 1996 The effects of handset variability on speaker recognition performance experiments on the switchboard corpus IEEE Trans ASSP pp 113 116 REYNOLDS D A ROSE R C 1995 Robust text independent speaker identification using Gaussian mixture speaker models IEEE Trans ASSP vol 3 no 1 pp 72 83 REYNOLDS J C WEBER J W 1979 The admissibility of spectrographic voice identification in the state courts J Crim Law amp Criminology vol 70 no 3 pp 349 354 RIBAUX O 1997 La recherche et gestion des liens dans l investigation criminelle le cas particulier du cambriolage th se de doctorat Institut de police scientifique et de criminologie Universit de Lausanne RINGEL R L CHODZKO ZAJKO W J 1987 Vocal indices of biological age Journal of Voice vol 1 pp 31 37 ROBERTSON B VIGNAUX G A 1995 Interpreting Evidence Evaluating Forensic Science in the Courtroom John Wiley amp Sons
465. st plus une consid ration fondamentale ni un motif de rejet Par contre selon l interpr tation de la Federal Rule of Evidence 104 a dans l arr t Daubert la cour doit partir du principe que le raisonnement et la m thodologie qui sous tendent le t moignage sont scientifiquement valides et peuvent tre appliqu s int gralement dans le cas d esp ce Ensuite la cour doit valuer dans quelle mesure la preuve scientifique pr sent e satisfait aux crit res nonc s dans la Federal Rule of Evidence 702 BLACK ET AL 1994 Une exigence pr liminaire stipule que le t moignage doit tre prononc par un expert en sciences forensiques Cependant l absence de definition de cette notion laisse ouvertes tant la question des qualifications requises pour t moigner que la possibilit pour la cour de r cuser l expert comme dans l affaire People v Kelly r gie par l ancien standard de recevabilit supra 3 3 Exigences l gales en mati re de preuve scientifique Daubert v Merell Dow Pharmaceuticals 1993 US 125 L Ed 2 469 7 People v Kelly 1976 17 Cal 3d 24 549 P 2d 1248 1249 Cal Rptr at 152 153 PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE V APPROCHE SPECTROGRAPHIQUE 109 Le premier critere concerne la falsifiabilit de la m thode sa capacit a tre test e et le fait d avoir t test e dans des conditions forensiques r alistes Manifestement la m thode spectrographique ne satisfait pas
466. standard de Frye dans Commonwealth v Topa en r affirmant que la validit de la m thode spectrographique n a pas acquis l acceptation g n rale de la communaut scientifique des sciences acoustiques Du m me point de vue la cour Supr me du Michigan decide dans le cas People v Tobey que la recevabilit de la m thode spectrographique est une erreur puisque sa validit n avait pas t tablie par des experts d sint ress s et impartiaux MOENSSENS ET AL 1986 Si dans un premier temps la m thode spectrographique est accept e dans le cas Reed v State elle montre que la controverse s est install e jusque dans le pr toire en effet trois des sept juges de premiere instance d sapprouvent publiquement la decision de recevabilit prise par la majorit et ne s y rallient que par n cessit de coll gialit La cour d appel interm diaire du Maryland confirme cette decision tout comme la cour d appel en reprenant l argumentation d velopp e dans United States v Baller Sur la base de la critique du standard de Frye par MCCORMICK elle applique le principe de pertinence de l l ment de preuve plut t que le principe 5 Commonwealth v Lykus 1975 367 Mass 191 327 N E 2d 671 People v Kelly 1976 17 Cal 3d 24 549 P 2d 1248 1249 Cal Rptr at 152 153 7 Commonwealth v Topa 1977 471 Pa 223 369 A 2d 1277 Poeple v Tobey 1975 60 Mich App 420 231 NW2d 403 408 5 Reed v State
467. stant son authenticit n a pas t suffisamment tablie ni d montr e pour servir de base fiable au t moignage d un expert et l identification 5 2 2 Tentative de validation de la m thode de KERSTA l tude de TOSI En 1968 cette situation controvers e contraint le Law Enforcement Administration Assistance of the United States Department of Justice LEAA a commander une revue bibliographique complete et ex g tique du domaine de la reconnaissance de locuteurs au Sensory Sciences Research Center of the Stanford Research Institute SRI de Menlo Park Californie sous l gide de l American Speech and Hearing Association ASHA HECKER 1971 Sa parution en janvier 1971 d cide le LEAA allouer un fonds de 300 000 dollars aux recherches sur la reconnaissance de locuteurs Il est accord pour moiti au SRI pour l tude de la reconnaissance automatique de locuteurs et pour la seconde moiti au Department of Michigan State Police afin de proc der la v rification des hypoth ses de KERSTA La validation de la m thode de KERSTA est confi e au professeur TOSI Ce projet inclut une tude de l identification visuelle des spectrogrammes vocaux dans des conditions forensiques r elles dont la responsabilit est confi e au Det Sgt Ernest NASH de la police d Etat du Michigan et technicien en identification de voix form par KERSTA en 1966 Tos ET AL 1972A GRUBER ET POZA 1995 Cette tude est la s
468. straux r side dans leur insensibilit aux variations lin aires du canal de transmission SOONG ET ROSENBERG 1988 Cependant l effet des param tres variationnels n est significatif que dans des applications d pendantes du texte CAPPE 1995 6 2 3 4 Techniques de normalisation Une seconde strat gie consiste 4 att nuer les effets parasites par une normalisation du signal afin d extraire des caract ristiques plus proches de celles pr sentes dans un signal de parole non d grad MAMONNE ET AL 1996 Les techniques de suppression de bruit par normalisation spectrale am liorent souvent l intelligibilit mais rarement les performances de reconnaissance ASSALEH ET MAMONNE 1994 La normalisation spectrale par soustraction du spectre moyen a long terme fait exception cette r gle BOLL 1979 IN MAMONNE ET AL 1996 ROSENBERG ET SOONG 1991 FURUI 1994 Dans le domaine cepstral une op ration de filtrage lin aire se traduit par une modification additive par cons quent la compensation de l effet de ce filtrage est th oriquement plus simple que dans le domaine spectral CAPPE 1995 La soustraction de la moyenne cepstrale a long terme PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE VI APPROCHE AUTOMATIQUE 125 contribue une am lioration des performances lorsque les caract ristiques du canal de transmission des signaux compar s sont diff rents mais diminue ces performances lorsque les caract ristiques du
469. stre ce mode de pr sentation Huit locuteurs ont enregistr chacun six mod les de leur voix et un enregistrement de test consid r comme l indice Pour chaque locuteur la m thode de reconnaissance calcule six indices de proximit en comparant l enregistrement de test aux six modeles de voix ce qui donne globalement 48 valeurs 6 indices de proximit 8 locuteurs Ces valeurs sont les l ments de preuve E lorsque l hypoth se H est v rifi e Pour chacun de ces 48 l ments de preuve E un rapport de vraisemblance est calcul L volution de ces 48 rapports de vraisemblance est illustr e par la courbe grise de la figure VII 13 Ensuite pour chaque locuteur la m thode de reconnaissance compare l enregistrement de test aux 1000 mod les de voix des locuteurs de la base de donn es repr sentant la population potentielle ce qui donne globalement 8000 valeurs 1000 indices de proximit 8 locuteurs Ces valeurs sont les l ments de preuve E lorsque l hypoth se H est v rifi e Pour chacun de ces 8000 l ments de preuve E un rapport de vraisemblance est calcul L volution de ces 8000 rapports de vraisemblance est illustr e par la courbe noire du graphique VII 13 Ce mode de pr sentation illustre de mani re simultan e les performances du syst me lorsque l une ou l autre des deux hypoth ses alternatives H ou H est v rifi e supra 3 6 4 1 Crit res de s lection des bases de donn es 9 supra 7
470. systeme 8 4 1 Evaluation sur la base de donn es Polyphone Suisse Romande 8 4 1 1 Proc dure Cette valuation est r alis e sur une s lection de 500 locutrices n 0001 0500 et de 500 locuteurs n 4001 a 4500 L enregistrement de test est compar au mod le de la voix des 500 personnes de la population potentielle de m me genre n 0001 0500 ou n 4001 4500 et les indices de proximit sont class s par ordre d croissant Ce test est une classification en ensemble ferm puisqu a chaque fois le mod le de l enregistrement test se trouve dans la base de donn es Le calcul d un rapport de vraisemblance n est pas possible dans cette situation en effet il n existe qu un seul enregistrement pour chaque personne de la base de donn es Polyphone Suisse Romande ce qui emp che toute valuation de l intravariabilit 8 4 1 2 R sultats Pour 485 des 500 locutrices un enregistrement de test existe A l issue de la classification en ensemble ferm la locutrice correspondant au plus grand indice de proximit est la vraie locutrice a 466 reprises A 19 reprises ce n tait pas le cas ce qui correspond un taux de fausse identification de 3 9 pour les locutrices Tableau VIII 3 Pour 472 des 500 locuteurs il existe un enregistrement de test A l issue de la classification en ensemble ferm le locuteur correspondant au plus grand indice de proximit est le vrai locuteur a 452 reprises A 2
471. t 1000 o A LR sup rieur a LR sup rieur H1 test analogique N 16 e H1 test num rique N 16 H2 test analogique N 16000 H2 test num rique N 16000 Hl test analogique N 16 eH test num rique N 16 H2 test analogique N 16000 H2 test num rique N 16000 Locutrices Locuteurs Figure VIII 16 R sultat de l valuation globale des rapports de vraisemblance en fonction du syst me utilis pour l enregistrement des indices 192 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 8 10 3 Discussion des r sultats Comme dans tous les domaines des sciences forensiques les r sultats montrent que la qualit de la procedure de r colte de l indice conditionne enti rement les possibilit s d analyse subs quentes Le signal de parole v hicul par le r seau t l phonique contient une information t nue mais utilisable pour la reconnaissance de locuteurs les exp riences pr c dentes le montrent Or cette information est perdue par l effet deletere des systemes d enregistrement analogiques et rien ne permet et ne permettra jamais de la r g n rer En effet l utilisation d un systeme d enregistrement analogique alt re tant le signal de parole que rien ne diff rencie plus les rapports de vraisemblance mis en vidence lorsque l hypoth se H est v rifi e des rapports de vraisemblance mis en vidence
472. t L estimation de l intravariabilit de la source Y est obtenue par la comparaison d un ensemble de mod les de la voix de la personne mise en cause Y avec un ensemble d chantillons de parole de la personne Y enregistr s dans diff rentes conditions Les distances r sultant de ces comparaisons permettent ensuite d estimer la fonction de densit de probabilit de la variabilit intralocuteur L estimation de l intervariabilit de l indice mat riel X est obtenue de mani re analogue par la comparaison de l chantillon de parole inconnue avec les mod les des voix de l ensemble des personnes qui mod lisent la population potentielle des auteurs de l indice mat riel X 3 5 5 1 4 Estimation du rapport de vraisemblance L approche empirique n aboutit qu des estimations de l intravariabilit et de l intervariabilit le rapport de vraisemblance qui est calcul sur la base de ces estimations ne peut donc tre lui m me qu une estimation LR Ce sont la validit des donn es enregistr es pour l valuation de l intravariabilit et de l intervariabilit et la fiabilit de la m thode de PARTIE I APPROCHE THEORIQUE CHAPITRE III MERTHODOLOGIE 49 reconnaissance utilis e qui d terminent l ad quation ou la non ad quation entre le rapport de N vraisemblance estim LR et le vrai rapport de vraisemblance 3 5 5 1 5 Formalisation P H1 Repr sente la probabilit que l hypoth se la
473. t When the relevancy of evidence depends upon the fulfillment of a condition of fact the court shall admit it upon or subject to the introduction of evidence sufficient to support a finding of the fulfillment of the condition c Hearing of jury Hearings on the admissibility of confessions shall in all cases be conducted out of the hearing of the jury Hearings on other preliminary matters shall be so conducted when the interests of justice require or when an accused is a witness and so request d Testimony by accused The accused does not by testifying upon a preliminary matter become subject to cross examination as to other issues in the case e Weight and credibility This rule does not limit the right of a party to introduce before the jury evidence relevant to weight or credibility Article VII Opinions and Expert Testimony Rule 701 Opinion Testimony by Lay Witnesses If the witness is not testifying as an expert the witness testimony in the form of opinions or inferences is limited to those opinions or inferences which are a rationally based on the perception of the witness and b helpful to a clear understanding of the witness testimony or the determination of a fact in issue Rule 702 Testimony by Experts If scientific technical or other specialized knowledge will assist the trier of fact to understand the evidence or to determine a fact in issue a witness qualified as an expert by knowledge skill exper
474. t de l tre humain d crire une voix ainsi que le manque de connaissances th oriques en linguistique et en phon tique Il tente aussi une premiere analyse en distinguant dans le signal de parole les l ments de phon tique acoustique comme le timbre les l ments de phon tique fonctionnelle telle la prononciation et ses d fauts et les l ments de linguistique comme la langue et ses particularit s Le d nuement des caract risations de la voix pr sent es dans la t l graphie chiffr e du portrait bertillonnien d Archibald Rodolphe REIss Le Portrait Parl illustrent d ailleurs ce manque de connaissances th oriques et cette difficult a d crire la voix Tableau IV 1 REISS 1907 gt Hulet s trial 5 Howell s St Trials 1185 1187 1660 58 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 0 87 La voix 0 871 voix grave 0 875 z zaiement 0 872 voix aigu 0 876 chuintement 0 873 voix f minine 0 877 b gaiement 0 874 voix masculine 0 878 accent tranger Tableau IV 1 Les caract risations de la voix dans Le Portrait Parl de REISS Cette inaptitude des locuteurs 4 augmenter par eux m mes le nombre d adjectifs permettant de caract riser les voix a d ailleurs t mise en vidence exp rimentalement VOIERS 1964 4 3 1 2 Le signalement descriptif fonctionnel Dans son Trattato di Polizi
475. t l communications service Art 2 Subordination Le service est rattach administrativement au D partement f d ral de l environnement des transports de l nergie et de la communication d partement Tl ex cute ses t ches de mani re autonome sous la surveillance du d partement Art 3 Collaboration avec les autorit s conc dantes Le service accomplit ses t ches en collaboration avec les autorit s conc dantes et de surveillance actives dans le domaine des postes et des t l communications Section 2 Surveillance de la correspondance postale Art 4 T ches du service En mati re de correspondance postale le service remplit les t ches suivantes a il s assure que la surveillance soit conforme au droit applicable et qu elle ait t ordonn e par une autorit comp tente b il ordonne la Poste d ex cuter la surveillance c il communique imm diatement la lev e de la surveillance l autorit qui l a approuv e d il conserve l ordre de surveillance durant une ann e apr s la lev e de celle ci 222 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE A la demande de l autorit qui a ordonn la surveillance le service peut lui fournir des conseils techniques en la mati re Le service demande la Poste les informations n cessaires la mise en uvre de la surveillance Art 5 Obligations de la Poste La Poste ex cut
476. t ristiques tudi es dans la limite o l chantillon dans lequel elles sont observ es repr sente la population g n rale LEWIS 1984 1 4 Hypoth se de la recherche L hypoth se principale qui sous tend cette recherche pose qu il est possible d extraire et d analyser l information d pendante du locuteur contenue dans la voix dans un but d identification forensique 1 5 Objectifs de la recherche La connaissance de l information d pendante du locuteur est emp ch e par la difficult a d crire symboliquement cette information la proc dure d identification de locuteurs s appuie sur une reconnaissance de cette information sans qu il soit possible de d finir l information elle m me WARFEL 1979 IN THEVENAZ 1993 Selon HECKER la reconnaissance de locuteurs se divise en trois divisions majeures la reconnaissance de locuteurs par audition par comparaison visuelle de spectrogrammes et par machine ou automatique HECKER 1971 Les trois approches sont pratiqu es en sciences forensiques mais leurs performances sont actuellement mal d finies dans le cadre de cette application De plus aucune n obtient l approbation de la communaut scientifique pour une utilisation en sciences forensiques notamment parce que les processus d inf rence de l identit du locuteur mis en uvre ne sont pas satisfaisants Le premier objectif de cette recherche consiste choisir un processus d inf rence de l identit
477. t s peuvent voluer au cours des exp riences Pr dire le futur ou inf rer la connaissance associ e des exp riences personnellement non tent es comme dans la situation forensique s appuie sur le raisonnement inductif et deductif Durant une proc dure d identification il est essentiel de distinguer la part de la d cision qui s appuie sur le raisonnement inductif de celle qui repose sur le raisonnement d ductif La contribution de la science se trouve dans le domaine du raisonnement d ductif mais les r sultats 4 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE obtenus scientifiquement influencent souvent de mani re pr pond rante les conclusions du raisonnement inductif et d terminent fr quemment plusieurs des conditions n cessaires leur obtention Le raisonnement inductif est si intrins quement associ au processus d identification que son r le devrait tre mentionn dans chaque proc dure d identification LEWIS 1984 1 1 2 2 L identification En sciences forensiques le processus d identification vise l individualisation KWAN 1977 TUTHILL 1994 Identifier une personne ou un objet signifie qu il est possible de les distinguer de toutes les autres personnes ou de tous les autres objets de la Terre Ce processus peut tre vu comme un processus de r duction d une population initiale jusqu l unit La taille de la population initiale d pend des
478. t an Telephone cellulaire L10 test L11 test L12 test L13 test L14 test L15 test L16 test L17 test cellulaire cellulaire cellulaire cellulaire cellulaire cellulaire cellulaire cellulaire Tests bruit s L10 test1 0dB L11 test1 0dB L12 test1 0dB L13 test1 0dB L14 test1 0dB L15 test1 0dB L16 test1 0dB L17 test1 0dB L10 test1 3dB L11 test1 3dB L12 test1 3dB L13 test1 3dB L14 test1 3dB L15 test1 3dB L16 test1 3dB L17 test1 3dB L10 test1 6dB L11 test1 6dB L12 test1 6dB L13 test1 6dB L14 test1 6dB L15 test1 6dB L16 test1 6dB L17 test1 6dB L10 test1 9dB L11 test1 9dB L12 test1 9dB L13 test1 9dB L14 test1 9dB L15 test1 9dB L16 test1 9dB L17 test1 9dB L10 test1 12dB L11 test1 12dB L12 test1 12dB L13 test1 12dB L14 test1 12dB L15 test1 12dB L16 test1 12dB L17 test1 12dB L10 test1 18dB L11 test1 18dB L12 test1 18dB L13 test1 18dB L14 test1 18dB L15 test1 18dB L16 test1 18dB L17 test1 18dB L10 test1 24dB L11 test1 24dB L12 test1 24dB L13 test1 24dB L14 test1 24dB L15 test1 24dB L16 test1 24dB L17 test1 24dB L10 test1 30dB L11 test1 30dB L12 test1 30dB L13 test1 30dB L14 test1 30dB L15 test1 30dB L16 test1 30dB L17 test1 30dB Test analogique
479. t ou d autres diff rences pouvant d t riorer notablement les caract ristiques auditives et spectrales Finalement le signal doit poss der une bande passante et un rapport signal sur bruit suffisants Ces crit res d coulent directement des remarques formul es par TURNER dans la conclusion de l tude de Tos TURNER ET AL 1972 Leur faiblesse r sulte du fait que leur valuation est principalement subjective et que certains sont intrins quement incontr lables comme le d guisement D autres ne sont pas maitris s par l examinateur de spectrogrammes comme la qualit d enregistrement La definition de tels crit res va l encontre de la r alit forensique puisque dans l tude de Tos elle m me on a d renoncer toute analyse dans 57 des cas pour cause de qualit insuffisante des chantillons 5 4 4 L arr t Daubert Selon la Federal Rule of Evidence 901 b 5 un t moignage reposant sur l identification d un locuteur est admissible Par contre en tant que preuve scientifique la reconnaissance de locuteurs par comparaison visuelle de spectrogrammes est soumise au nouveau standard dit de validit nonc par la cour Supr me des Etats Unis dans l arr t Daubert Cette d cision repr sente un tournant dans la mani re d aborder un moyen de preuve scientifique nouveau ou controvers Si l acceptation g n rale par la communaut scientifique pertinente demeure un facteur important ce n e
480. t principalement d estimer les formants L estimation des fr quences formantiques passe par la d termination du nombre appropri de coefficients du polyn me de prediction Celui ci d pend du nombre de formants recherch et de la fr quence d chantillonnage du signal analys Une bonne approximation consiste 4 compter une paire de coefficients pour la mod lisation de chaque formant En g n ral lors de l application de cette r gle les fr quences formantiques correspondent aux racines du polyn me de pr diction qui peuvent tre obtenues par factorisation Comme dans toute analyse formantique la difficult consiste attribuer un coefficient le rang correct du formant Plusieurs algorithmes permettent n anmoins d y parvenir SCHAFER ET RABINER 1975 6 2 3 1 5 Estimation de la fr quence fondamentale Cette information peut tre obtenue par la m thode d autocorr lation par filtrage inverse Elle se fonde sur le filtrage inverse du signal et analyse la p riodicit de la source estim e Les coefficients de pr diction du filtre de transfert sont obtenus partir du signal filtr dans la bande de 0 a 900 Hz Le traitement par un filtre inverse du filtre de transfert permet d obtenir une estimation de la source glottique Finalement l amplitude la plus lev e et sup rieure un seuil PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE VI APPROCHE AUTOMATIQUE 121 donn est recherch e dans le r sultat du cal
481. t sont r parties selon la courbe de sensibilit tonotopique de l oreille humaine La simulation du seuil de l audition humaine qui varie de 0 40 dB peut quant elle tre r alis e par un filtre de correction de l intensit Pour une analyse de signaux sonores d intensit mod r e entre 0 et 5 KHz MAKHOUL ET COSELL proposent par exemple une fonction de transfert avec des asymptotes de 12 dB par octave entre 0 et 400 Hz de 0 dB par octave entre 400 et 1200 Hz de 6 dB par octave entre 1200 et 3100 Hz et de 0 dB par octave entre 3100 Hz a la fr quence de Nyquist MAKHOUL ET COSELL 1976 IN HERMANSKY 1990 Finalement la relation psycho acoustique entre la pression acoustique d un son et son intensit percue appel e loi de puissance de l audition n est pas lin aire STEVENS 1957 IN HERMANSKY 1990 Dans le domaine de la perception artificielle l application de cette loi passe par une approximation sous forme de compression de l amplitude du signal en calculant sa racine cubique 6 2 3 3 2 Param tres d riv s de la pr diction lin aire Une des inconsistances du modele autor gressif tout p le utilis pour l analyse par pr diction lin aire r side justement dans le fait qu il approche de mani re quivalente toutes les fr quences de la bande passante analys e Plusieurs pr traitements du signal par des fonctions de distorsion spectrale ont t propos s notamment par MAKHOUL ET COSELL ou STRUBE qui
482. t witnesses with specimens which have been authenticated 4 Distinctive characteristics and the like Appearance contents substance internal patterns or other distinctive characteristics taken in conjunction with circumstances 5 Voice identification Identification of a voice whether heard firsthand or through mechanical or electronic transmission or recording by opinion based upon hearing the voice at any time under circumstances connecting it with the alleged speaker 6 Telephone conversations Telephone conversations by evidence that a call was made to the number assigned at the time by the telephone company to a particular person or business if A in the case of a person circumstances including self identification show the person answering to be the one called or B in the case of a business the call was made to a place of business and the conversation related to business reasonably transacted over the telephone ANNEXES ANNEXE IV FEDERAL RULES OF EVIDENCE 229 7 Public records or reports Evidence that a writing authorized by law to be recorded or filed and in fact recorded or filed in a public office or a purported public record report statement or data compilation in any form is from the public office where items of this nature are kept 8 Ancient documents or data compilation Evidence that a document or data compilation in any form A is in such condition as to create no suspicion concerning
483. tandardisation de la qualit des enregistrements de comparaison que des prises de son effectu es directement par les diff rents services de police dans des conditions non contr l es avec un mat riel disparate 8 2 2 1 3 Conversion et segmentation Pour l analyse les donn es ont t converties du format non lin aire de 8 bits 8 kHz G 711 au format lin aire de 16 bits 8 kHz avec le logiciel Audiotool livr avec le syst me d exploitation Solaris 2 5 Ce logiciel a aussi t utilis pour la segmentation et l dition des fichiers qu il permet de r aliser avec une pr cision de l ordre d un dixi me de seconde supra 2 3 6 Influence du syst me d enregistrement supra 2 3 3 2 R seau t l phonique public commut RTPC supra 2 1 Introduction 164 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE 8 2 2 2 Composition de la base de donn es Polyphone IPSC 8 2 2 2 1 Enregistrements r alis s pour la mod lisation Pour mod liser la voix des 16 locutrices et 16 locuteurs chaque participant a r alis six sessions d enregistrement de donn es d entrainement comparables aux sessions de la base de donn es Polyphone Suisse Romande sur le plan du contenu et de la qualit technique Une premiere session intitul e Session Polyphone cellulaire a t enregistr e avec un t l phone cellulaire GSM mis la disposi
484. tandards J Forensic Ident vol 41 no 5 pp 373 392 VOIERS W D 1964 Perceptual bases of speaker identity J Acoustic Soc Am vol 36 no 6 pp 1065 1073 VOIERS W D 1977A Diagnostic evaluation of speech intelligibility IN Speech intelligibility and speaker recognition ed Hawley M Dowden Hutchinson amp Ross Stroudburg PA USA VOIERS W D 1977B Diagnostic acceptability measure for speech communication systems Proc ICASSP no May pp 204 207 WAGNER I 1995 A new jitter algorithm to quantify hoarseness an exploratory study Forensic Linguistics vol 2 no 1 pp 18 27 272 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE WATROUS R L 1990 Phoneme discrimination using connectionist networks J Acoust Soc Am vol 87 pp 1753 1772 WELCH E J 1973 Voiceprint identification A reliable index Trial vol 9 no 1 pp 45 47 WILLIAMS C E 1964 The effects of selected factors on the aural identification of speakers IN Methods for psychoacoustic evaluation of speech communication systems Dept ESD TDR 65 153 Electronic Systems Division Air Force Systems Command Hanscom Field MA WILLIAMS C E STEVENS K N HECKER M H L 1970 Acoustical manifestation of emotional speech J Acoustic Soc Am v
485. te information convertie est encod e par une m thode de codage analogique ou num rique transmise par un r seau t l phonique et enregistr e dans une m moire de masse Dans un enregistrement analogique la puissance et la forme de l onde sont en relation directe avec l onde acoustique originale Dans un enregistrement num rique l onde est transpos e et chantillonn e ensuite chaque chantillon est converti en un nombre binaire En Suisse la parole est essentiellement transmise de mani re num rique dans les r seaux t l phoniques commut s et cellulaires par contre la technologie d enregistrement mise en uvre par l tat est encore essentiellement analogique Une analyse de tous les l ments de la cha ne conduisant l enregistrement de l indice mat riel du locuteur au syst me d enregistrement infra Annexe III Ordonnance sur le service de surveillance de la correspondance postale et des t l communications PARTIE I APPROCHE THEORIQUE CHAPITRE II LA VOIX COMME INDICE MATERIEL 15 permet de mieux valuer l influence de chaque maillon dans l obtention de la qualit finale de l indice 2 3 1 Description et repr sentation du signal de parole 2 3 1 1 Structure Le signal de parole est un signal r el non stationnaire continu et d nergie finie Sa structure est complexe et variable dans le temps pseudo p riodique pour les sons vois s al atoire pour les sons fricatifs et impulsionne
486. te l hypoth se que l auteur soit la premi re personne mise en cause par rapport l hypoth se que l auteur soit la seconde personne mise en cause WALSH ET AL 1996 IN CHAMPOD ET MEUWLY 1998 Pour surmonter cette carence la classification devrait tre envisag e dans un ensemble ouvert de locuteurs mais ce processus d inf rence de l identit inclut une discrimination finale 42 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE bas e sur un seuil qui lui conf re les m mes inconv nients que la discrimination CHAMPOD ET MEUWLY 1998 3 5 3 Quantification des taux d erreur de type I et de type II 3 5 3 1 D finition Pour mesurer les performances d un processus de d cision impliquant des humains et des instruments de mesure les statisticiens ont souvent recours a des fonctions de co t des erreurs de faux rejet et de fausse acceptation comme la Receiver Operating Characteristic ROC Figure II 4 Cette m thode a t propos e par BOLT pour valuer les performances des examinateurs de spectrogrammes et par PAOLONI pour celle des systemes automatiques de v rification et d identification open set utilis s en sciences forensiques BOLT ET AL 1979 PAOLONI ET AL 1994 Une autre valuation courante consiste a calculer les taux d erreur de type I et de type II du classificateur et de d terminer la valeur pour laquelle l erreur de type I est gale
487. tement aux coefficients cepstraux issus de la fonction de transfert de pr diction lin aire calcul e par la m thode conventionnelle d autocorr lation HERMANSKY ET MORGAN 1994 Toutes les tudes focalis es sur la comparaison de caract ristiques d pendantes du locuteur montrent qu actuellement les coefficients cepstraux en chelle Mel MFCC et les coefficients issus de la pr diction lin aire perceptuelle PLP alli s leurs extensions RASTA et leurs d riv es de premier ordre sont consid r s comme les param tres les plus robustes pour la reconnaissance de locuteurs ind pendante du texte en milieu bruit OPENSHAW ET AL 1993 KAO ET AL 1993 REYNOLDS 1996 VAN VUUREN 1996 FURUI 1997 6 2 4 Conclusion En 1994 FURUI reprend presque la conclusion de ROSENBERG et SOONG de 1991 en constatant que la recherche se focalise actuellement plus sur l am lioration des mesures de similarit que sur la recherche de m thodes d analyse du signal de parole plus efficaces Les progr s r cents obtenus dans le domaine de la reconnaissance de locuteurs sont principalement dus l am lioration des techniques utilis es pour mod liser et d crire les caract ristiques mesur es pour chaque locuteur Ces progr s n ont pas forc ment permis d accro tre ou d am liorer nos connaissances en ce qui concerne les particularit s propres chaque locuteur et la mani re de les extraire du signal de parole ROSENBERG ET S
488. teurs et l enregistrement de chacune des voix sur une piste s par e en cas de dialogue ou de conversation entre plusieurs personnes Cette derni re mesure viterait toute proc dure de s gr gation des locuteurs manuelle ou automatique et faciliterait grandement le travail de retranscription des conversations t l phoniques en permettant une coute ind pendante des intervenants 2 3 6 2 Enregistrement dans le cadre d un abus de t l phone Lorsque les abus de t l phone sont destin s un service officiel dont les communications t l phoniques sont enregistr es en particulier les services du feu de police et de sant les messages sont conserv s sur des bandes magn tiques analogiques dont la vitesse de d filement est tr s lente La dur e d enregistrement obtenue est tr s grande jusqu 24 heures mais la qualit est tr s faible Lorsque les abus de t l phone visent d autres abonn s les enregistrements proviennent en g n ral de r pondeurs t l phoniques seules installations accessoires d enregistrement autoris es par les prestataires de service de t l communication Si le message provient lui m me d un enregistrement la qualit en est encore amoindrie 2 3 6 3 Standard de qualit en mati re d enregistrements t l phoniques Actuellement les syst mes d acquisition et d dition num rique assist s par ordinateur font presque partie des applications grand public Le CD devient un support num r
489. texte forensique et deuxi mement pour cerner les limites d application du syst me dans un contexte forensique r el 1 7 Organisation de la recherche La premiere partie est consacr e l approche th orique de la reconnaissance de locuteurs en sciences forensiques Apr s cette introduction le deuxi me chapitre concerne l tude de la voix comme indice mat riel en sciences forensiques Le troisieme chapitre s attache a d finir le r le de l expert en sciences forensiques d terminer les exigences l gales en mati re de preuve scientifique a d couvrir les diff rentes m thodes de reconnaissance de locuteurs 4 analyser les processus d inf rence d crits pour l identification du locuteur en sciences forensiques et choisir le processus le plus appropri La deuxi me partie a pour objet la recherche bibliographique Le chapitre quatre cherche a d terminer les performances de l tre humain profane ou expert dans la t che de reconnaissance de locuteurs le chapitre cinq tudie la m thode de reconnaissance de locuteurs par comparaison visuelle de spectrogrammes alors que le chapitre six traite de l approche automatique de la reconnaissance de locuteurs La troisieme partie rend compte de la partie exp rimentale de cette recherche sur la base de l approche th orique d velopp e dans la premi re partie Le chapitre sept expose les trois tapes du systeme de reconnaissance automatique d velopp l
490. tilis e pour entra ner les mod les de Markov cach s avec l algorithme de r estimation de Baum Welch BAUM ET AL 1970 IN REYNOLDS ET ROSE 1995 Dans le cadre de supra 6 3 2 3 Mod lisation par m lange de fonctions de densit gaussiennes 5 supra 6 3 2 4 Mod lisation par mod les de Markov cach s PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VII DEVELOPPEMENT D UN SYSTEME AUTOMATIQUE 151 cette recherche chaque mod le a t soumis une proc dure de 30 it rations pour assurer sa convergence sur les donn es 7 2 3 4 Comparaison Le module logiciel GMM evaluate permet de comparer un mod le GMM 8 une s quence de vecteurs de param tres S S S Sr calcul e avec le module PLP partir d un enregistrement de test La comparaison consiste calculer la probabilit conditionnelle des vecteurs sachant le mod le p S 8 dans l hypoth se o les vecteurs s sont ind pendants p Sl Il p s 18 7 2 avec p13 Yn b 6 73 Chaque fonction de densit qui compose le mod le est une fonction gaussienne b exprim e en fonction du vecteur s de dimension D du vecteur de moyennes de la matrice de covariance diagonale et du facteur de pond ration r SER 1 5 u 7 b S T Ven ap 25 avec gt 4 1 7 4 La comparaison consiste 4 mesurer le vecteur s dans chaque fonction de densit de probabilit b du mod le 6 Figure V
491. tion du type d locution adopt dans l enregistrement utilis pour la mod lisation de la voix PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VIII EVALUATION DU SYSTEME 173 8 6 1 3 Discussion des r sultats L influence du contenu et du type d locution adopt pour l enregistrement du mod le n est pas importante ce qui confirme le caract re ind pendant du texte de la m thode GMM En effet les r sultats obtenus a partir d un modele form de parole spontan e sont tr s proches de ceux tir s d un mod le compos d une majeure partie de parole lue ce qui peut tre observ tant de mani re globale Figure VIII 2 que de mani re individuelle Figure VIII 3 Ce r sultat permet de choisir indiff remment une base de donn es compos e de parole lue ou de parole spontan e pour l valuation de la variabilit interlocuteur Par contre les r sultats pr sent s de mani re individuelle Figure VIIL3 mettent encore une fois en vidence la diff rence qui existe entre la majorit des locuteurs dont les tests fournissent des r sultats conformes et une minorit les locuteurs L08 L12 L14 L49 et partiellement L19 dont les r sultats sont contraires aux attentes Figure VIII 2 8 6 2 Influence de la quantit de parole dans les enregistrements de comparaison 8 6 2 1 Proc dure La qualit de l valuation de l intravariabilit d un locuteur est susceptible d tre influenc e par la dur e des en
492. tion Coder CELP de d bit binaire de 5 6 kbits s alors que le systeme GSM Enhanced Full Rate EFR est bas sur un algorithme de type CELP de d bit binaire de 12 2 kbits s Les systemes de communication mobile de troisieme generation dont le d bit devrait atteindre plusieurs Mbits par seconde Universal Mobile Transmission System UMTS en Europe et Future Public Land Mobile Telecommunication System FPLMTS en Am rique du Nord devraient tre bas s sur les techniques d acc s multiples par division de code CDMA Cette technique permettrait entre autres avantages une r alisation naturelle du d bit variable La CTIA a d ailleurs standardis l algorithme Qualcomm Code Excited Linear Prediction Coder QCELP de la soci t Qualcomm IS 95 qui s lectionne dynamiquement toutes les 20 ms un d bit de 8 4 2 ou 1 kbits s le d bit moyen est de l ordre de 4 kbits s KONDOZ 1994 DRYGAJLO 1999 Tableau IL 1 7 infra 6 3 2 2 Repr sentation par quantification vectorielle PARTIE I APPROCHE THEORIQUE CHAPITRE II LA VOIX COMME INDICE MATERIEL 19 2 3 3 4 Communications s curis es et communications par satellite Pour les r seaux de communication par satellite les communications militaires comme celles de l Organisation du Trait de l Atlantique Nord OTAN et les communications intergouvernementales s curis es les d bits binaires sont encore plus faibles Le choix du maintien de l intelligi
493. tion de l approche spectrographique 9 2 4 R flexion sur les r sultats 9 2 5 Voies de recherche 9 3 Utilisation dans la r alit de l approche automatique d velopp e 9 3 1 Aspects m thodologiques 9 3 2 Aspects techniques 9 3 3 Aspects juridiques 9 3 4 Aspects d organisation X Conclusion 184 187 188 188 189 190 191 191 191 192 192 192 194 195 197 199 201 201 201 201 203 207 208 209 210 210 211 211 212 213 TABLE DES MATIERES IX Annexes 215 Annexe I Extraits de la Constitution f d rale de la Conf d ration suisse RS 101 217 Chapitre premier Dispositions g n rales 217 Titre 2 Droits fondamentaux citoyennet et buts sociaux 217 Chapitre premier Droits fondamentaux 217 Annexe II Extraits du Code p nal suisse RS 311 0 219 Livre premier Dispositions g n rales 219 Premiere partie Des crimes et des d lits 219 Livre deuxi me Dispositions sp ciales 220 Titre troisi me Infractions contre l honneur et contre le domaine secret ou le domaine priv 220 Annexe III Ordonnance sur le service de surveillance de la correspondance postale et des t l com munications RS 780 11 221 Section 1 Organisation 221 Section 2 Surveillance de la correspondance postale 221 Section 3 Surveillance des t l communications 222 Section 4 Renseignements sur les raccordements 223 Section 5 Dispositions communes 224 Section 6 Dispositions fina
494. tion de rapports de vraisemblance sur la base d une pr sentation d taill e de Interpreting Evidence Evaluating Forensic Science in the Courtroom de ROBERTSON ET VIGNAUX lors de la conf rence annuelle de l TAFP Edinbourg en 1997 ROBERTSON ET VIGNAUX 1995 Ce point de vue est parfaitement en accord avec le poster intitul Likelihood ratios for automatic speaker recognition in forensic applications pr sent par MEUWLY ET DRYGAJLO lors de la m me conf rence MEUWLY ET DRYGAJLO 1997 Lors de la discussion qui a suivi la pr sentation de CHAMPOD Avignon en 1998 DODDINGTON a aussi reconsid r son point de vue et admis que l valuation de rapports de vraisemblance est la d marche la plus ad quate de l inf rence de l identit du locuteur en sciences forensiques CHAMPOD ET MEUWLY 1998 3 5 2 Classification 3 5 2 1 D finition La classification aussi appel e identification de locuteurs dans le domaine de la reconnaissance automatique de locuteurs consiste 4 comparer un enregistrement de parole inconnue a chacun des enregistrements de comparaison pr sents dans un ensemble de r f rence et d tablir un classement des enregistrements de comparaison DODDINGTON 1985 O SHAUGNESSY 1986 3 5 2 1 1 Classification en ensemble ferm closed set Lorsqu il est possible de d terminer a priori qu il existe un enregistrement de comparaison appartenant au locuteur test dans l ensemble de r f re
495. tion des participants Les autres sessions ont t intitul es Session Polyphone 1 5 En principe chaque personne les a enregistr es avec son t l phone priv ou professionnel avec fil ou sans fil W Signe des temps certains participants ont d rog a cette r gle en utilisant une ou plusieurs fois leur propre t l phone cellulaire Annexe VI 2 a Ces six enregistrements ont t effectu s sur une p riode de un trois mois selon les participants Annexe VI 1 a Une septi me session d enregistrement intitul e Session Comparaison a t utilis e pour la r alisation d un mod le elle est compos e des deux premi res minutes de la session d enregistrement de comparaison 8 2 2 2 2 Enregistrements de comparaison Ce type d enregistrements vise 4 estimer la variabilit intralocuteur des 16 locutrices et 16 locuteurs dans diff rents styles d locution Pour y parvenir chaque personne a t amen e a commenter la m me session d une cinquantaine de diapositives L enregistrement dure de 5 15 minutes selon les locuteurs Chaque participant a enregistr cette session avec son t l phone priv ou professionnel avec fil ou sans fil Annexe VI 2 b La majorit des diapositives est constitu e d images 4 commenter de mani re spontan e alors qu une plus petite partie est constitu e de quelques questions de lecture avec un crayon dans la bouche de dialogues simuler et de messages ano
496. tion ou additifs avant m me sa transmission dans le r seau t l phonique BOLT ET AL 1979 Microphone electret _ _ Transmission num rique Microphone carbone 2 H a a a s v TD Y g R a D Oo Transmission analogique Frequence Hz Qualite du canal de transmission Figure II 4 Comparaison de la r ponse en fr quen Figure II 5 Comparaison de la qualit de transmission ce deux types de microphones HUNT 1991 de deux types de r seaux t l phoniques cel lulaires JAYANT 1992 2 3 5 Influence du canal de transmission Dans la transmission t l phonique les d gradations d pendent aussi du type de r seau t l phonique fixe ou cellulaire et du syst me de transmission des informations dans ce r seau analogique num rique ou combin Figure II 5 JAYANT 1992 Le r seau t l phonique suisse est desservi plus de 90 par des centraux num riques et cette volution touche tous les pays conomiquement d velopp s BROEDERS 1995 Par contre lors de communications t l phoniques avec des pays dont les r seaux analogiques sont anciens ou de mauvaise qualit la qualit de la voix de l interlocuteur se trouvant dans l un de ces pays peut tre tr s inf rieure celle de l interlocuteur se trouvant dans un pays d velopp La qualit de la transmission d pend aussi du systeme de codage num rique utilis diff rent dans les r seaux commut s et c
497. tituer des l ments susceptibles de s ajouter d autres indices PIQUEREZ 1994 Le juge appr cie librement la preuve qui lui est soumise en faisant appel son raisonnement Cette libre appr ciation n est cependant pas illimit e et l intime conviction ne dispense pas le magistrat d utiliser une m thode logique dans l valuation des preuves qui lui sont pr sent es Lorsque l appr ciation des preuves n cessite des connaissances particuli res que le supra 1 3 Le r le des probabilit s dans l identification PARTIE I APPROCHE THEORIQUE CHAPITRE III MERTHODOLOGIE 31 x juge ne poss de pas il est n cessaire que le magistrat ait recours un homme de l art ou un sp cialiste auquel il demande d apporter sa collaboration la manifestation de la v rit Cet expert judiciaire est nomm par l instruction au contraire de l expert priv nomm unilat ralement par l une des parties au proc s Il se distingue du t moin qui est appel relater ce qu il a vu et entendu sans interpr ter alors que l expert a pour mission d clairer le juge en donnant son appr ciation technique sur certains points pr cis PIQUEREZ 1994 3 3 2 En droit nord am ricain Dans le syst me juridique nord am ricain par contre la libert de la preuve est limit e par le principe de recevabilit des preuves d riv du syst me ancien des preuves l gales L interpr tation de ce principe a permis le
498. tre la forme du tractus vocal et l enveloppe spectrale des voyelles PERKELL ET AL 1986 Les consonnes n ont l origine pas de phase stationnaire elles sont class es en vois es et non vois es et leurs caract ristiques d pendent largement des voyelles adjacentes a cause du ph nom ne de coarticulation FURUI 1989 Toutefois une d pendance certaine existe entre la forme du r sonateur form par les fosses nasales et les caract ristiques des consonnes nasales n et m MELLA 1992 L tude physiologique et acoustique de la valeur des trois premiers formants chez les hommes et les femmes montre que la longueur individuelle des cavit s et donc les valeurs des formants peut changer de facon importante pour une cat gorie d ge et de sexe Comme le larynx est plac plus bas chez les hommes le pharynx est plus long Ceci se traduit par des coefficients d cart diff rents entre les formants selon les voyelles et leur degr d affiliation avec la partie pharyngale du conduit vocal Chez les femmes les valeurs des trois premiers formants sont en moyenne 18 plus lev es que chez les hommes Pour une voyelle neutre la variation de taille de la cavit est proportionnelle a la variation de fr quence des formants FANT 1973 Pour les voyelles arri res F est corr l F par contre il est corr l a F pour les voyelles avant PERKELL ET AL 1986 M me si une d pendance au locuteur dans des voyelles isol
499. ts de preuve sont calcul s de la mani re suivante le num rateur quivaut la densit de probabilit de l l ment de preuve E dans la distribution de la variabilit intralocuteur du locuteur dont provient l enregistrement analys Le d nominateur du rapport de vraisemblance quivaut la densit de probabilit de l l ment de preuve E dans la distribution interlocuteur de l enregistrement de test 8 7 1 2 R sultats Les personnes qui ont toujours utilis le m me t l phone sont valu es ind pendamment de celles qui ont utilis des t l phones ou des lignes de t l phone diff rents pour l enregistrement des mod les Mod les et enregistrements de comparaison Mod les et enregistrements de comparaison enregistr s avec le m me t l phone enregistr s avec des t l phones diff rents Cae 3 3 Eos Bus LR sup rieur a LR sup rieur e H1 Voix normale N 42 HI Voix d guis e N 42 e H1 Voix normale N 48 HI Voix d guis e N 48 e H2 Voix normale N 7000 H2 Voix d guis e N 7000 e H2 Voix normale N 8000 H2 Voix d guis e N 8000 Locutrices Locutrices PARTIE II RECHERCHE EXPERIMENTALE CHAPITRE VIII EVALUATION DU SYSTEME 179 7 1 os 0 9 os 0 8 o7 07 5 R os T 05 2 es Eu Eu 03 0 3 02 02 01 o1 o o o on 02 os 1 2 a 10 20 so 100 200 soo 10
500. u il pr tend tre TosI 1981 DODDINGTON 1985 BIMBOT ET AL 1994 La variation du seuil permet d optimiser le taux de faux rejet ou de fausse acceptation 3 5 1 2 Analyse forensique DODDINGTON a propos la v rification de locuteurs comme processus d inf rence de l identit du locuteur en sciences forensiques mais il pr cise que les d cisions devraient tre bas es sur un mod le statistique valide il reconna t aussi qu un mod le efficace est difficile tablir dans cet environnement cause du manque de contr le sur le signal de parole et de la difficult d appr ciation des conditions acoustiques et de transmission DODDINGTON 1985 Du m me point de vue NOLAN souligne aussi que le processus d inf rence de l identit est plus proche de la discrimination que de la classification puisque deux enregistrements sont compar s et qu un seuil de similarit est appliqu implicitement ou explicitement NOLAN 1990 La decision de discrimination entre l indice mat riel et la personne mise en cause d pend d un seuil qui peut tre qualitatif une opinion subjective au sujet des ressemblances et des diff rences ou quantitative un indice num rique de proximit Ce point de vue conduit a consid rer la discrimination comme une exclusion et la non discrimination comme une identification Or ce concept de l identit ne correspond pas la d finition de l individualisation forensique Si la probabilit de
501. u texte les caract ristiques s lectionn es sont mesur es diff rents instants d termin s L ensemble de ces mesures permet de d crire l volution temporelle dynamique de chacune des caract ristiques consid r es sous forme d un profil contour O SHAUGNESSY 1987 CAPPE 1995 La comparaison de deux profils est r alis e par le calcul d une distance moyenne apr s un alignement temporel servant corriger les d calages temporels pouvant exister entre deux nonc s d un m me texte ROSENBERG 1976B 6 2 2 3 2 Analyse long terme L ind pendance du texte s obtient le plus souvent en s int ressant la densit de probabilit ou la moyenne d une suite de coefficients court terme extraits d une locution dont l estimation se fait sur un temps suffisamment long pour pouvoir mod liser le comportement global du PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE VI APPROCHE AUTOMATIQUE 119 locuteur THEVENAZ 1993 Seules ces informations statistiques 4 long terme sont utilis es pour la reconnaissance de locuteurs dans ce cas 6 2 2 3 3 Mesure d efficacit La mesure d efficacit des caract ristiques le plus souvent d crite est une technique d analyse de variance bas e sur le discriminant de Fischer nomm e F ratio qui permet de s lectionner les caract ristiques dont la variabilit intralocuteur est faible et dont la variabilit interlocuteur est forte BRICKER 1971 ET AL WOLF
502. ucture fine La seule hypoth se mise en jeu concerne le choix des fonctions sur la base desquelles le signal est d compos en fonctions sinuso dales pour la transform e de Fourier en fonctions cr neaux pour la transform e de Walsh Hadamard ou encore par le choix des caract ristiques des filtres pour une analyse en banc de filtres Dans une certaine mesure ce choix peut tre consid r comme d pendant de la structure de la parole PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE VI APPROCHE AUTOMATIQUE 117 6 2 2 2 1 Analyse du spectre court terme par banc de filtres L analyse du spectre de puissance a court terme a d abord t obtenue par le passage de la parole travers des bancs de filtres L nergie la sortie de chaque filtre passe bande fournit une bonne estimation du spectre court terme de la fr quence centrale du filtre ATAL 1976 L extraction de caract ristiques d pendantes du locuteur par ce moyen a t initi e par PRUZANSKI ET MATHEWS ainsi que par L1 PRUZANSKI 1963 PRUZANSKI ET MATHEWS 1964 LI ET AL 1966 BRICKER ET AL 1971 Un syst me de contr le d acc s bas sur un banc de filtres 14 canaux a t d velopp par DODDINGTON pour le centre de calcul de Texas Instruments Il est op rationnel mais il a permis de montrer que la dynamique vocale est facile 4 imiter par un imitateur surtout en cas de r p tition imm diate de l nonc entendu DODDINGTON 1979 6 2
503. uelle n a pu tre d gag e RAMACHANDRAN ET AL 1995 6 2 3 3 3 Param tres d riv s de l analyse homomorphique La simulation de la r solution spectrale de l oreille humaine a aussi t adopt e pour l analyse homomorphique en calculant les coefficients cepstraux partir d un signal pr alablement analys dans un banc de filtres en bandes critiques RABINER ET JUANG 1993 Les param tres obtenus sont appel s coefficients cepstraux en chelle fr quentielle Mel ou Mel Frequency Cepstrum Coefficients MFCC Figure V1 4 Coefficients Analyse Calcul de la puissance Echelle Transform e cepstraux en en bandes Lissage Scarithrnique de Fourier chelle critiques Sous chantillonnage 8 q inverse fr quentielle Mel Coefficients de bancs de filtres Figure VI 4 Coefficients cepstraux en chelle fr quentielle Mel RABINER ET JUANG 1993 Une autre m thode consiste analyser la variation des param tres cepstraux dans des fen tres proches de la fen tre court terme pour extraire du signal des param tres dynamiques appel s A cepstraux FURUI 1981A SOONG ET ROSENBERG 1988 Leur efficacit est nettement inf rieure aux param tres cepstraux lorsqu ils sont utilis s seuls mais conduisent a une substantielle am lioration des performances lorsqu ils sont combin s aux param tres cepstraux instantan s TSENG ET AL 1992 L int r t principal des param tres A cep
504. ues des consonnes fricatives et l nergie entre les formants CORSI 1982 Dans les ann es soixante une version commerciale du spectrographe sonore propos e par Kay Elemetrics Corporation a t largement utilis e dans la recherche phon tique acoustique tandis que Voiceprint Laboratories Corporation proposait une version dot e d un syst me de lecture continue des enregistrements destin e au domaine de l identification PRESTI 1966 Des le d but des ann es 1980 la puissance de calcul offerte par les processeurs et la disponibilit de moniteurs vid o de haute d finition ont rendu possible la r alisation de stations de travail informatiques dot es d une capacit de visualisation spectrographique compl te elles sont maintenant financi rement accessibles et pr sentes dans tous les laboratoires GRUBER ET POZA 1995 5 1 2 L application la reconnaissance de locuteurs La participation des Etats Unis la deuxi me guerre mondiale a donn naissance un projet d application militaire du spectrographe sonore l identification de navires ennemis par l interm diaire de la voix de leurs op rateurs radio A cause de l int r t militaire la publication infra 6 2 2 2 3 Spectrogrammes num riques par transform e de Fourier rapide 86 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE d informations concernant la nature et l avanc e de ce projet a
505. ul e par la m thode GMM est la probabilit conditionnelle des caract ristiques de l enregistrement de test sachant celles du mod le 7 REYNOLDS 1995A REYNOLDS 1995B MOON 1996 L algorithme EM est utilis pour la mod lisation dans des domaines o des facteurs inconnus influencent les r sultats comme l conom trie la m decine clinique et la sociologie Dans le domaine du traitement de signal les premi res applications concernent la reconstruction d images tomographiques et l entra nement des mod les de Markov cach s dans le domaine de la reconnaissance de parole et plus r cemment la reconnaissance de formes et l entra nement des r seaux neuromim tiques la suppression de bruit ou la spectroscopie L algorithme EM est aussi li aux algorithmes utilis s dans la th orie de l information car l tape de pr vision produit un r sultat semblable au calcul de l entropie MOON 1996 Comme le montrent les valuations des m thodes de reconnaissance de locuteurs effectu es par le National Institute of STandards NIST am ricain en 1996 1997 et 1998 la mod lisation par m lange de fonctions de densit gaussiennes repr sente l tat de l art pour la reconnaissance de locuteurs en mode ind pendant du texte lorsque la quantit de donn es n cessaires la constitution du mod le est suffisante PRZYBOCKI ET MARTIN 1998 Lorsque la dur e des nonc s utilis s pour la constitution du mod le est inf ri
506. un locuteur inconnu un auditeur peut interpr ter des caract ristiques de ce locuteur inf r es par le signal comme son sexe sur la base de la hauteur de la fr quence fondamentale NOLAN 1983 3 4 2 Proc dure 3 4 2 1 Extraction des caract ristiques Comme aucune caract ristique sp cifique au locuteur n est actuellement identifi e dans la arole son analyse pr suppose une connaissance des aspects du signal de parole en vue d extraire P 7 yse p PP P 8 P 7 les caract ristiques qui renferment les param tres d pendant le plus manifestement de l identit du locuteur Pour tre id ale la caract ristique extraite devrait satisfaire aux crit res suivants L abondance la caract ristique doit appara tre fr quemment dans la parole et ne pas engendrer de contraintes pour le locuteur L efficacit l efficacit d un param tre pour une distinction des locuteurs est conditionn e par le rapport de sa variabilit intralocuteur sa variabilit interlocuteur La mesurabilit la caract ristique doit pouvoir tre extraite dans un temps microprocesseur raisonnable m me si une extraction en temps r el n est pas une priorit pour les applications forensiques L infaillibilite la caract ristique et sa distribution ne doivent pas pouvoir tre modifi es par un effort conscient du locuteur Elle doit tre telle qu un imposteur ne puisse r ussir une tentative d imitation La p rennit la c
507. un pour cent est en r alit dans l interpr tation bay sienne fonction la fois de la probabilit subjective qu on attribue au premier type d erreur et du co t de l erreur qu on accepte de courir MATALON 1967 3 5 4 2 Exemple Un joueur se demande si son adversaire triche Il ne dispose d aucune preuve parfaitement convaincante mais seulement d un certain nombre d indices l adversaire a l air louche il a gagn huit parties sur dix etc Aucun de ces indices n est suffisant un joueur honn te peut parfaitement avoir de la chance et gagner souvent Quant l air louche c est une question d appr ciation Supposons qu on puisse valuer la probabilit conditionnelle qu un joueur gagne huit parties sur dix s il triche on peut raisonnablement penser qu elle est assez lev e Mais cela ne nous suffit pas pour l accuser ce qu il nous faudrait pour tre en mesure de tirer une conclusion inverse c est la probabilit conditionnelle inverse la probabilit pour qu un individu triche sachant qu il a gagn huit parties sur dix MATALON 1967 3 5 4 3 La notion de probabilit a priori Le probl me a t abord sous cette forme la fin du XVIII si cle par le R v rend Thomas Bayes 702 1752 qui a cherch calculer la probabilit des hypoth ses et le th or me qui porte son nom nous donne cette probabilit Sa d monstration partir des axiomes ne soul ve aucune di
508. ur chaque personne de la base de donn es Polyphone IPSC de la comparaison des enregistrements de test test cellulaire et test 1 au mod le Session Comparaison Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat de la comparaison de ces m mes enregistrements de test test cellulaire et test 1 avec les mod les 188 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE de la voix des 1000 locutrices et des 1000 locuteurs de la base de donn es Polyphone Suisse Romande Les rapports de vraisemblance de ces l ments de preuve sont calcul s de la mani re suivante le num rateur quivaut la densit de probabilit de l l ment de preuve E dans la distribution de la variabilit intralocuteur du locuteur dont provient l enregistrement analys Le d nominateur du rapport de vraisemblance quivaut la densit de probabilit de l l ment de preuve E dans la distribution interlocuteur de l enregistrement de test 8 8 4 2 R sultats Probabilit Probabilit LR sup rieur LR sup rieur H1 Mod le RTC Test RTC N 16 H1 Mod le RTC Test GSM N 16 e H1 Mod le RTC Test RTC N 16 Hl Mod le RTC Test GSM N 16 e H2 Mod le RTC Test RTC N 16000 H2 Mod le RTC Test GSM N 16000 H2 Mod le RTC
509. ur en l absence de connaissance de caract ristiques sp cifiques au locuteur 3 5 5 1 2 Obtention de l l ment de preuve avec une m thode de reconnaissance automatique de locuteurs En g n ral une m thode automatique fournit le r sultat de la comparaison d un mod le de la voix d un locuteur et d un chantillon de parole de test sous forme d un nombre r el qui repr sente une distance math matique ou une proximit statistique calcul e entre le mod le et l chantillon de test L l ment de preuve est obtenu de cette mani re il s agit d un nombre qui d crit une distance math matique ou une proximit statistique r sultant de la comparaison entre les caract ristiques y du mod le de la voix de la personne mise en cause Y et des caract ristiques x de la voix inconnue enregistr e sur l indice mat riel X 3 5 5 1 3 Estimation de l intravariabilite et de l intervariabilit avec une m thode de reconnais sance automatique de locuteurs En pratique ni les enregistrements vocaux ni la m thode de reconnaissance automatique servant d finir l intravariabilit et l intervariabilit ne permettent d obtenir les vraies fonctions de densit de probabilit de la variabilit intralocuteur et interlocuteur puisque les donn es ne sont jamais exhaustives et la m thode jamais parfaite D s lors l approche empirique ne permet par d finition qu une estimation de l intravariabilit et de l intervariabili
510. urs 4 4 2 5 Pathologies La constatation de troubles du comportement vocal peut permettre de d tecter dans une certaine mesure la pr sence de dysfonctionnements organiques ou moteurs Les atteintes pathologiques ou accidentelles des organes de la phonation comme la pr sence de kystes sur les cordes vocales ou une blessure des cordes vocales caus e par intubation peuvent affecter la voix en abaissant la fr quence fondamentale ou lui donner un timbre rauque gringant ou discordant Par contre des l sions du syst me nerveux central ou p riph rique affectent plut t la parole en provoquant des difficult s de l locution ORMEZZANO ET ROCH 1991 BRAUN 1995 La caract risation de ces troubles comportementaux devrait tre effectu e avec l aide d une personne de l art phoniatre orthophoniste ou neuropsychologue PARTIE II RECHERCHE BIBLIOGRAPHIQUE CHAPITRE IV APPROCHE AUDITIVE 83 4 4 2 6 Limites de l approche phon tique acoustique L analyse phon tique acoustique peut apporter une vue quantitative plus d taill e et plus claire de l information contenue dans le signal de parole Les details des dimensions acoustiques qui sous tendent les impressions perceptives comme la fr quence fondamentale les fr quences formantiques et les dur es peuvent tre observ s analytiquement avec une pr cision que les limites du systeme perceptif humain ne permettent pas d atteindre Cependant les caract ristique
511. us lorsque des 96 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE erreurs sont commises le taux de faux n gatifs erreur de type II est plus important que le taux de faux positifs erreur de type I pour un examinateur entrain 5 2 2 3 2 Conclusion de l valuation dans des conditions forensiques r elles TOSI conclut Sur la base des r sultats de la pr sente tude des observations du travail effectu dans des conditions forensiques r elles le D partement de Justice devrait encourager l entrainement q P 8 d experts en identification de voix qui devraient tre soigneusement test s et certifi s avant d tre reconnus comme experts par les Cours des Etats Unis Ce personnel qualifi continuera de fournir un service pr cieux m me si une machine de reconnaissance de voix est d velopp e dans le futur TOSI ET AL 1972B TURNER ajoute six remarques concernant l utilisation de la m thode par la justice criminelle TURNER ET AL 1972 1 2 a b a b c d La technique d identification par empreintes vocales est relativement nouvelle et huit ans est une dur e tr s courte pour aboutir son acceptation devant les tribunaux L tude de TOSI ET AL soigneusement contr l e produit des taux d erreur de 0 51 dans un ensemble ferm D autres exp riences aboutissent des taux d erreur jusqu
512. us s ont avou leur culpabilit ou ont t convaincus de culpabilit sur la base d autres l ments Les autres cas se r partissent en 172 d cisions d limination positive 31 cas d identification ou limination possible et 382 cas d impossibilit de conclure a cause de la faible quantit ou qualit des chantillons TOSI ET AL 1972B 5 2 2 2 2 Extension des r sultats Dans les cas forensiques l ensemble de r f rence des voix peut th oriquement contenir des millions d chantillons Cependant ce n est pas le cas dans les situations pratiques actuelles de la police L ensemble de r f rence est th oriquement infini bien s r mais pratiquement limit un petit nombre de suspects Il semble donc raisonnable de penser que l intravariabilit et l intervariabilit du groupe de suspects ne diff rera pas notablement des variabilit s existantes dans le groupe tr s homog ne des locuteurs exp rimentaux utilis s dans cette tude TOSI ET AL 1972B Dans les cas forensiques l examinateur professionnel peut normalement utiliser le temps n cessaire l obtention d une conclusion et il est conscient de la cons quence d une fausse d cision Il est donc raisonnable de conclure que les diff rences entre examinateurs exp rimentaux et professionnels aident am liorer les performances des seconds TOSI ET AL 1972B Dans les cas forensiques les examinateurs profess
513. us souvent lorsqu une ressemblance auditive frappante est constat e entre la voix d une personne et celle constitutive de l nonc contest ou lorsque la pr somption de d guisement existe sur la base de cette coute L examinateur est donc prioritairement confront aux cas difficiles plut t qu aux cas faciles Dans les conditions forensiques des variations peuvent tre introduites par les circonstances l tat motionnel particulier une fa on de parler formelle ou informelle Une classe sp ciale de variation est introduite lorsqu une personne d guise sa voix ou tente d en imiter une autre La d tection de limitation est plus facile par l observation de spectrogrammes que par l coute Les chantillons de parole inconnue sont g n ralement obtenus lors d enregistrements t l phoniques La voix du locuteur peut tre d grad e de multiples fa ons distordue ou contamin e par du bruit dans la transmission t l phonique et lors de l enregistrement par le syst me d enregistrement 5 3 1 4 T che de l examinateur 5 3 1 4 1 Analyse La t che d identification de locuteurs par comparaison visuelle de spectrogrammes est pratiqu e comme un art par des examinateurs dont la qualification principale est l exp rience Elle consiste observer et interpr ter des diff rences et des ressemblances D une certaine mani re cette t che est analogue la t che de reconnaissance du scripteur par l analyse de son criture manu
514. ut l ment modifiant la morphologie et la physiologie du tractus vocal Ce type d exercice ne devrait pas prendre place dans l enregistrement de comparaison moins de l improbable d monstration que l indice a t r alis dans des conditions similaires 8 7 2 D guisement de la voix dans les enregistrements de test 8 7 2 1 Proc dure La pr sence d un d guisement de la voix dans les enregistrements de test est susceptible d alt rer les performances du syst me de reconnaissance automatique de locuteurs L influence de ce param tre est valu e l aide d enregistrements de test compos s de messages anonymes simul s Messages anonymes et prononc s avec une voix normale ou d guis e Comme le choix du d guisement tait laiss la libert de chaque locutrice et locuteur la strat gie de d guisement a aussi t analys e Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat pour chaque personne de la base de donn es Polyphone IPSC de la comparaison des enregistrements de test Messages anonymes avec les six mod les de sa propre voix Session Polyphone Cellulaire et Session Polyphone 1 Session Polyphone 5 180 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE Dans la situation o l hypoth se H est v rifi e les l ments de preuve E sont le r sultat de la comparaison de ces m m
515. ve E dans la distribution de la variabilit intralocuteur du locuteur dont provient l enregistrement analys Le d nominateur du rapport de vraisemblance quivaut la densit de probabilit de l l ment de preuve E dans la distribution interlocuteur de l enregistrement de test 8 9 2 R sultats Pour des raisons de lisibilit les r sultats des exp riences effectu es avec les enregistrements de test Test 1 OdB Test 1 6dB Test 1 12dB et Test 1 sont pr sent s ind pendamment des r sultats des exp riences effectu es avec les enregistrements de test Test 1 18dB Test 1 24dB Test 1 30dB et Test 1 Probabilit Probabilit 5 10 20 50 100 200 500 1000 LR sup rieur a LR sup rieur a Hl RSB 18db N 16 Hl RSB 24dB N 16 e H1 RSB Odb N 16 e H1 RSB 6dB N 16 Hl RSB 30dB N 16 Hl RSB gt 40dB N 16 Hl RSB 12dB N 16 H1 RSB gt 40dB N 16 H2 RSB 18db N 16000 e H2 RSB 24dB N 16000 e H2 RSB Odb N 16000 e H2 RSB 6dB N 16000 H2 RSB 30dB N 16000 H2 RSB gt 40dB N 16000 H2 RSB 12dB N 16000 H2 RSB gt 40dB N 16000 Locutrices Locutrices 190 RECONNAISSANCE DE LOCUTEURS EN SCIENCES FORENSIQUES L APPORT D UNE APPROCHE AUTOMATIQUE
516. ve sur l avant derni re syllabe si elle est longue ou sur l ant p nulti me si l avant derni re est courte les autres mots suivent l accentuation germanique et les mots tr s longs se comportent comme autant de mots courts DELATTRE 1965 Par contre les r alisations non accentu es et celles situ es dans des mots grammaticaux comme les auxiliaires ou les mots de liaison sont moins robustes Selon MELLA les l ments les plus informatifs et les plus robustes sont en fran ais les voyelles e ce et 5 et plus pr cis ment F3 pour les voyelles arrondies F2 pour les voyelles avant et F1 pour les voyelles ouvertes et centrales MELLA 1994 De plus la comparaison de phon mes situ s dans le m me contexte phon mique syntaxique et s mantique permet de minimiser l influence de la coarticulation MELLA 1994 INGRAM ET AL 1996 PTACEK observe qu avec l ge la valeur maximale du premier formant s abaisse et SUZUKI remarque que la valeur moyenne de F3 et F4 diminue l g rement SUZUKI constate aussi que le vieillissement n am ne aucune modification extr amp me PTACEK ET AL 1966 SUZUKI ET AL 1994 Par contre l motion affecte la position des formants particuli rement dans la premiere syllabe des mots KRAUSE 1976 4 4 2 1 2 Trajectoire des formants La trajectoire des formants englobe des aspects statiques et dynamiques de la parole Elle contient des informations sur des caract ristiques d pe
517. vert de N 1 chantillons La d cision devient binaire acceptation ou rejet car le r sultat de la classification est soumis un seuil tabli a priori La structure de ce syst me correspond la juxtaposition des deux pr c dents Figure II 3 BIMBOT ET AL 1994 Echantillon de Analyse de Mesure de D cision d acceptation parole inconnue l chantillon distance ou de rejet R sultat de l identification Figure III 3 Structure du syst me d identification en ensemble ouvert Dans une classification en ensemble ouvert trois types d erreur sont prendre en compte le faux rejet qui conduit une fausse limination et deux types de fausse acceptation qui conduisent une fausse identification l chantillon de parole inconnue est faussement mis en relation avec un enregistrement de comparaison de l ensemble de r f rence alors que a un autre enregistrement de comparaison de l ensemble de r f rence concorde b aucun enregistrement de l ensemble de r f rence ne concorde PARTIE I APPROCHE THEORIQUE CHAPITRE III MERTHODOLOGIE 41 Dans sa d finition du concept de population potentielle KWAN reprend les qualificatifs de closed set et d open set sur la base des d finitions donn es par BOLT dans le domaine de la reconnaissance de locuteurs BOLT ET AL 1969 KWAN 1977 Curieusement il utilise ces deux qualificatifs dans un autre sens que BOLT en d terminant que les conditions d finissant l
518. vice pr sident Cette organisation a pour but l entra nement la qualification des examinateurs et la certification au rang d expert des membres ayant accompli toutes les tapes de qualification propos es par l association THOMAS 1981 KERSTA ET NASH d veloppent nouveau les arguments d individualit de la voix humaine puisque produite par un tractus vocal de morphologie unique et confirm e par les r sultats de l tude de TOSI et insistent sur la nature objective de l analyse KERSTA ET NASH 1973 NASH 1973 curieusement publi dans le Journal of the Association of the Official Analytical Chemists TOSI ET NASH completent les conclusions de leur tude en montrant les differences entre les conditions exp rimentales de l tude et les conditions rencontr es par les examinateurs dans des cas r els o id alement l examinateur dispose de tout le temps n cessaire pour l analyse il est form de mani re ad quate et est conscient des cons quences de sa d cision et o il lui est possible de rendre des d cisions inconcluantes TOSI ET NASH 1973 Les auteurs pr tendent que le respect de ces conditions permet de diminuer le taux de fausses identifications et que la technique peut tre utilis e des fins d identification si les standards suivants sont respect s L examen doit comporter une comparaison auditive et une partie visuelle L examinateur doit tre qualifi professionnellement dans les domaines
519. xtraits des parties pseudo stationnaires du signal de parole La classification est effectu e soit par un classificateur gaussien soit par quantification vectorielle Ce systeme est utilis depuis 1991 et est aussi en fonction au minist re de l Int rieur de Pologne LIPEIKA ET LIPEIKIENE 1996 BRAUN 1998 L tude de la variabilit intralocuteur est au centre des recherches men es par le d partement d informatique de l Universit d Etat de Caroline du Nord Les buts de cette recherche de grande envergure sont centr s autour de la voix d guis e la d tection automatique du d guisement et l valuation des performances de plusieurs types de classificateurs comme les mod les de Markov cach s la quantification vectorielle ou les r seaux neuromim tiques en fonction du type de d guisement RODMAN 1998 Le d partement acoustique et signal de l Institut de Recherche Criminelle de la Gendarmerie Nationale fran aise IRCGN a conduit une tude visant quantifier l influence des motions dans la variabilit intralocuteur et d velopp une m thode particuli re d extraction robuste du contour de Fy MARESCAL 1999 Pour valuer la variabilit intralocuteur en espagnol castillan la police judiciaire espagnole a enregistr la base de donn es AHUMADA en collaboration avec l Universit Polytechnique de Madrid Ce corpus est test l aide d un syst me de v rification en vue d une application fo
Download Pdf Manuals
Related Search
Related Contents
InFocus SP-LAMP-083 Home Theater System User Manual Techniques alternatives de désherbage et de MELSEC iQ-F FX5-CNV-BUS Hardware Manual Princess 132500 別紙(平成23年1月6日公表)(PDF文書) ELECTRIC GRIPPER USER`S MANUAL Lenoxx ComfortSense 3000 Series User's Manual Manual - B&H Photo Video gebruiksaanwijzing mode d'emploi bedienungsanleitung Lire un extrait ( PDF 471 Ko) Copyright © All rights reserved.
Failed to retrieve file