Home
Utilização da fala para preenchimento de formulários - INESC-ID
Contents
1. 55 TABELA 16 TEMPOS DE EXECU O DA TAREFA 3 E O N MERO DE REPETI ES DE TEXTO FALADO PARA CADA UM DOS CAMPOS EM AN LISE 56 TABELA 17 PERCENTAGEM DO N MERO DE REPETI ES NO PREENCHIMENTO DOS CAMPOS orerar 56 TABELA 18 TEMPOS DISPENDIDOS NA TAREFA 1 USANDO O TECLADO VIRTUAL 57 TABELA 19 TEMPOS DISPENDIDOS NA TAREFA 2 USANDO O TECLADO VIRTUAL 57 TABELA 20 TEMPOS DISPENDIDOS NA TAREFA 3 USANDO O TECLADO VIRTUAL 57 Armando Marques Sofia Valente IX Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 TABELA 21 TEMPOS DISPENDIDOS NA TAREFA 1 USANDO O MODO DE ENTRADA RECONHECEDOR DE LETRAS eeeeeereerereeneeaerererrereeneeananena 57 TABELA 22 TEMPOS DISPENDIDOS NA TAREFA 2 USANDO O MODO DE ENTRADA RECONHECEDOR DE LET RAS aosgunadindpd a dona 58 TABELA 23 TEMPOS DISPENDIDOS NA TAREFA 3 USANDO O MODO DE ENTRADA RECONHECEDOR DE LETRAS Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Lista de Siglas PC Personal computer PDA Personal device assistant XML Extensible Markup Language MFC Microsoft Foundation Classes ASR Automatic Speech Recognition TTS Text to Speech MKL Math Kernel Library Armando Marques Sofia Valente xi Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA
2. Tabela 16 Tempos de execu o da tarefa 3 e o n mero de repeti es de texto falado para cada um dos campos em an lise 0 31 1 17 2 23 29 Tabela 17 Percentagem do n mero de repeti es no preenchimento dos campos Analisando os resultados anteriores verifica se que em 31 dos casos o reconhecedor reconheceu correctamente o que o utilizador disse Em 17 dos casos necess rio repetir uma segunda vez e em 23 dos casos uma terceira vez A partir destes resultados possivel inferir que o reconhecimento de fala fica aqu m das expectativas Em muitos casos necess rio realizar v rias repeti es o que se traduz num acrescimo de tempo dispendido no peenchimento desse campo Em alguns casos frequente que o texto reconhecido contenha palavras a mais em rela o ao que era esperado principalmente quando o ambiente cont m muito ruido Todavia estes resultados s o uma consequ ncia da fraca qualidade do microfone do PDA e de se estar a utilizar um modelo de linguagem gen rico Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 5 3 Fala vs Entradas de dados tradicionais do PDA Nesta sec o pretende se comparar as diferen as de desempenho dos m todos usuais de entrada do PDA com a fala Para isso foram realizadas as tarefas do ponto anterior usando os m todos de entrada de dados do PDA o
3. Resposta quando o tratamento do documento reporta um erro FILE lt tamanhomensagem gt KO lt mensagem de erro gt Resposta ao pedido de um documento sintetizado SINT lt tamanhomensagem gt lt tipo do ficheiro gt lt dados do ficheiro gt Resposta quando o tratamento do pedido do documento sintetizado reporta um erro SINT lt tamanhomensagem gt KO lt mensagem de erro gt Tabela 26 Tabela com a especifica o das mensagens trocadas entre o PDA e o Servidor de Conte dos Armando Marques Sofia Valente 75 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Mensagens trocadas entre o Servidor de Conte dos eo TTS Entidades Tipo de mensagem Forma da mensagem Servidor de Conte dos para TTS Pedido de s ntese de um ficheiro de texto PedidoTts lt caminho do ficheiro de texto gt TTS para Servidor de Conte dos Resposta ao pedido de s ntese de um ficheiro de texto PedidoTts lt n da cama gt lt caminho do ficheiro de texto gt Resposta no caso de ocorrer algum erro PedidoTts lt mensagem de erro gt Tabela 27 Tabela com a especifica o das mensagens trocadas entre o Servidor de Conte dos eo TTS Armando Marques Sofia Valente 76 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Anexo III Armando Marques
4. Figura 31 PDA com o m dulo de expans o O iPAQ tem um microfone incorporado mas muito suscept vel ao ru do Atrav s da tecnologia Bluetooth poss vel utilizar um microfone com melhor qualidade O que permite melhorar o reconhecimento de fala em ambiente com muito ru do de fundo Armando Marques Sofia Valente 83 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Vista detalhada do PDA Indicador Bluetooth Speaker Bot o para Ligar Desligar Figura 32 Vista frontal do PDA Infra Vermelhos ESOM oa Bot es das Aplica es Figura 33 Vista da parte cima e de baixo do PDA Armando Marques Sofia Valente 84 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Anexo V Armando Marques Sofia Valente 85 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Testes de Desempenho PC vs PDA De forma a determinar as diferen as de desempenho entre as arquitecturas PC e PDA em rela o ao reconhecimento de fala foram realizados testes de desempenho O objectivo dos testes avaliar a capacidade de processamento do sistema de ficheiros ao n vel da realiza o de c lculos matem ticos escrita e leitura de ficheiros Estes testes foram baseado em opera es muito comuns no reconhecimento de fala e que representam uma grande fatia d
5. e sil ncios O reconhecedor de fala tamb m necessita de ser configurado relativamente ao dom nio da aplica o O modelo de linguagem do reconhecedor o conjunto limitado das palavras que este consegue reconhecer pelo que tem de ser constru do com base nos voc bulos utilizados na aplica o Por ltimo necess rio adequar o reconhecedor s caracter sticas ac sticas do utilizador Cada utilizador caracterizado no reconhecedor pelo seu modelo ac stico Quanto melhor for a adapta o do modelo ac stico ao utilizador menor ser o tempo de processamento e maior ser o sucesso do reconhecimento A integra o do reconhecimento de fala na aplica o est detalhada no Capitulo 4 Armando Marques Sofia Valente 10 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 2 Comunica o Como foi referido no Cap tulo 1 um dos objectivos deste trabalho usar um meio de comunica o entre o PDA e o servidor externo que n o prejudique a mobilidade do PDA A utiliza o de redes wireless sem fios a solu o que actualmente oferece mais mobilidade s aplica es A escolha de uma rede com fios esteve fora de quest o porque imp em grandes restri es mobilidade No que respeita tecnologia Bluetooth esta mais adequada para ligar dispositivos n o como um meio de comunica o A escolha da rede Wi Fi IEEE 802 11b foi condicionada pelo facto desta sol
6. INTERFACE DA APLICA O ssssseseseseserererererererererererererererererererererererere 4 FIGURA 3 PRIMEIRA ABORDAGEM DO FLUXO DE INFORMA O ENTRE O PDA E O SERVIDOR EXTERNO asi sitasenioi iucainscugssaiaiaatado EEO E EEE sai Ra LETE 5 FIGURA 4 ARQUITECTURA INICIAL DO SISTEMA cccccceereeemenereeeerereeereneneeeeress 6 FIGURA 5 FLUXO FINAL DE INFORMA O TROCADA ENTRE O PDA E OS SERVIDORES nestas noda ici a gd gg 8 FIGURA 6 ARQUITECTURA DA APLICA O sssssssseseseserererererererererererererererererererere 9 FIGURA 7 TESTE COM O FICHEIRO DE 570 KB saacasnte crsaitss ais seria beira diniserauan ca 12 FIGURA 8 TESTE COM O FICHEIRO DE 16 MB snssessssssssssssssesssereessereessssrrsssseese 12 FIGURA 9 ARQUITECTURA DO M DULO DO PDA ossssssssssssssssseesserersserrrssssrreessrress 16 FIGURA 10 EXEMPLO DE UMA JANELA DE DI LOGO ccceeeeeeeeeeeereeenees 18 FIGURA 11 FORMUL RIOS DA APLICA O eeeeererereeseeaeeeerereresraaaeneets 19 FIGURA 12 FLUXO DE MENSAGENS ENTRE O SERVIDOR DE CONTE DOS COM O PDA O SERVIDOR DE DADOS E O TTS rcereemeeenees 23 FIGURA 13 DIAGRAMA DE ESTADOS DO SERVIDOR DE CONTE DOS 24 FIGURA 14 DIAGRAMA DE CLASSES DO SERVIDOR DE DADOS ccceeneess 26 FIGURA 15 DIAGRAMA DE ESTADOS DO SERVIDOR DE DADOS ccceeneess 27 FIGURA 16 EXEMPLO DE UM DOENTE NA BASE DE DADOS 29 FIGURA
7. Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Doente Documento dockey String String nome String path cama String nome Strin sexo Sting Documento idade String SetNome String _nome segsocial String a Gino o sala String i piso String String GetPath doenca String estado String obs String listaDoc ArrayList Doente Doente String cama String nome String sexo String idade String segsocial String sala String piso String doenca String estado String obs List outros setDocKey String key String getDocKey setNome String nome String getNome setCama String nrcama String getCama setSexo String s String getSexo setldade String i String getldade setSegsocial String nr String getSegsocial setSala String s String getSala setPiso String p String getPiso setDoenca String d String getDoenca setEstado String est String getEstado setObs String observacoes String getObs setOutros List fich List getOutros Figura 14 Diagrama de classes do servidor de dados 3 3 2 3 Funcionamento O servidor de dados recebe os pedidos do servidor de conte dos e direcciona o pedido para a ac o adequada Existem quatro ac es que o servidor de dados pode executar ler inserir remover e alterar um doente da base de dados No caso da leitura
8. Armando Marques Sofia Valente T total ms T audimus ms T distribuido ms 3584 1140 2444 52 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 a b Frase 3 Registo T total ms T total ms T audimus ms T distribuido ms l 3988 3751 1140 2611 2 4084 3 3655 4 3796 5 3633 M dia ms 3751 2 Desvio Padr o ms 201 63 Tabela 12 Resultados dos tempos obtidos para a frase Dois Jo o Sousa Masculino Grave Osteoporose com o PDA a 20 m de dist ncia do ponto de acesso Os dados da tabela 12 em compara o com os da tabela 11 revelam que o tempo de processamento distribuido aumenta com o aumento da dist ncia do PDA ao ponto de acesso 5 1 4 Compara o da capacidade de processamento entre o PCeo PDA O objectivo testar e comparar quais as capacidades do PC e do PDA ao n vel das opera es matem ticas e ao n vel do sistema de ficheiros J que toda a aplica o desenvolvida envolve in meras opera es matem ticas especialmente no processamento de fala e acessos a ficheiros implementa o dos pipes Os resultados obtidos neste ponto est o no anexo V 5 1 5 Diferen as de desempenho entre reconhecimento de fala remoto e distribu do Como foi referido no ponto 3 2 a biblioteca de reconhecimento de fala Audimus API pode funcionar de forma distribu da O bloco Audioln executa se na a
9. Uma forma de diminuir o tempo do reconhecimento de fala e diminuir os erros de reconhecimento consiste em adoptar um modelo de linguagem para cada campo Ao diminuir o modelo de linguagem diminuem se os resultados poss veis para o reconhecimento O que se traduz automaticamente num menor tempo de processamento e numa maior probabilidade de sucesso Em rela o ao modelo ac stico este fortemente influenciado pela qualidade do microfone Neste caso o microfone do PDA conduziu a um modelo ac stico pouco robusto Uma poss vel solu o passa pela utiliza o de um outro microfone como por exemplo um microfone Bluetooth Relativamente ao sucesso do reconhecimento com base nos resultados do ponto 5 2 conclui se que o processo de reconhecimento de fala razo vel As raz es que conduziram a este resultado prendem se com a gera o do modelo ac stico e com as caracter sticas do modelo de linguagem O modelo ac stico est muito relacionado com a qualidade do microfone e com as condi es de ru do ambiente Por outro lado um modelo de linguagem gen rico aliado a um modelo ac stico pouco robusto torna mais fal vel o sucesso do reconhecimento Conclui se finalmente que existem um longo caminho a percorrer at que a fala possa ser utilizada num PDA t o facilmente como utilizada num PC Para que esse objectivo seja concretizado existem muitas dificuldades que t m de ser ultrapassadas As caracter sticas peculiares dos dispo
10. demonstrado desde sempre O Armando agradece a toda a sua fam lia e amigos que o t m acompanhado desde sempre Armando Marques Sofia Valente iii Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Armando Marques Sofia Valente iv Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Indice 1 j DNR EL O1 D BK E7 O raia EE E EEEE 1 1 1 ESTADO DA ARTE uestinesecenissesjeltaconaigissce te lcieieaaniss alas aaiaso sintra nedentansacepenseaTamcanssdniui came pessdods 2 1 2 OBJECTIVOS E DESCRI O DO PROBLEMA cccceeteereeeenereeeerererenaenereerererenaenereerereesanta 2 1 3 ABORDAGEM DE RESOLU O DO PROBLEMA ccceeeereeeerererereaeeereeeeeeeeeneeerrereseenaneneees 4 2 COMUNICA O E EE E E E EOE E E 11 3 F a E ES E O E EEE E IEE EE E EE EE EEE 15 3 1 M DULO DO PDA nunna na R E R 15 3d Regu SitOS nane a E a E E E E A 16 3AL2 Interface menea E PRECE PR EA EA E A AO AREE 17 3LF Gest o da infor MA AO rarae ree e e E a a ea e e a ES 19 3 1 4 Acesso a recursos externos ooeeeeeeeeseeeseresereserererererererererererirerererererererererererere 20 3 2 M DULO DO SERVIDOR DE UDIO ittttteeieeee arena renata trrrnrensrn 20 3 3 M DULO DE RECURSOS EXTERNOS ccettnaeeeereeeeeeeeereneeneaereeaeeneeaereneeneeneeracennteeea 20 3 3 1 Servidor de Conteudo S arianna e a aii e a raae a aaa a i EE 21 33 2 Servidord
11. estruturas do pipe estrutura do pipe Figura 26 Representa o esquem tica do algoritmo dos Pipes O primeiro objectivo na manipula o de pipes consegui criar um pipe Para tal elaborou se a fun o pipe A fun o pipe cria o ficheiro que ir armazenar a Armando Marques Sofia Valente 78 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 informa o coloca numa estrutura a informa o deste pipe e armazena a num array com todas as estruturas de pipes criados at ent o pipe var A fun o fdopen abre o ficheiro criado em modo de leitura ou escrita e guarda a sua refer ncia num local que cont m as refer ncias de todos os ficheiros criados Vector de ponteiros Vector de Ponteiros pipe var Escrita1 Leitural pipe1 comparar com p o FILE pointer Escrita2 Leitura pipe2 Escrita3 Leitura3 pipe3 id 2 pipe4 Figura 27 Estruturas usadas na manipula o dos Pipes O pr ximo passo implementar a fun o de escrita no pipe O algoritmo de escrita apresentado esquematicamente na figura 6 A fun o recebe para al m dos dados a escrever a informa o do descritor de ficheiro para onde se ir colocar os dados Com o descritor de ficheiro f cil determinar qual o pipe que est a ser requerido recorrendo s estruturas atr s mencionadas Para realizar a escrita no ficheiro necess rio entrar
12. o com o PDA Entre o PDA e servidor de udio existem 2 liga es descritas na tabela abaixo Canal Descri o Liga o de Fala Usada pelo PDA para enviar dados para o Servidor de Audio Liga o de Resultados Usado pelo Servidor de Audio para enviar resultados para o PDA Tabela 7 Canais de comunica o O PDA envia os dados para o servidor udio atrav s da liga o de fala Estes dados podem ser amostras PCM ou resultados do Rasta caso o PDA esteja a realizar processamento distribu do Os dados s o lidos do socket e copiados para um pipe ligado Audimus API Os resultados do processamento da Audimus API s o expedidos atrav s de uma thread para o PDA atrav s da liga o de Resultados Foi necess rio reescrever algumas fun es da Audimus API para que fosse poss vel realizar o processamento s com dois blocos recebendo os dados do Rasta como entrada Armando Marques Sofia Valente 47 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 M dulo do PDA ES ne Pe Mensagem a Aquisi o de Fala PES Aplica o Interface com o utilizador Gest o e Visualiza o da Informa o Interac o com os Processamento Local Audioln Formul rios Endpoint Acesso a recursos Rasta i externos Buffer L 5 Sf DX 8 E co o U 5 Env
13. 2 503 3 522 4 506 5 509 M dia ms 513 Desvio Padr o ms 9 87 Tabela 9 Resultados dos tempos obtidos para a frase Dois a b Frase 2 Registo T total ms T total ms T audimus ms T distribuido ms l 2499 2476 991 1485 2 2535 3 2541 4 2439 5 2404 M dia ms 2475 6 Desvio Padr o ms 60 30 Tabela 10 Resultados dos tempos obtidos para a frase Dois Armando Salgueiro Masculino Armando Marques Sofia Valente 51 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 a Frase 3 Registo T total ms 1 3590 2 3597 3 3608 4 3570 5 3555 M dia ms 3584 Desvio Padr o ms 21 31 b Tabela 11 Resultados dos tempos obtidos para a frase Dois Jo o Sousa Masculino Grave Osteoporose Atrav s da an lise da tabela 8 verifica se que o tempo gasto pelo reconhecimento de fala 43 do tempo total No caso da tabela 9 este valor de 40 e na tabela 10 de 32 Assim constata se que em rela o ao tempo de total de processamento remoto a transmiss o de dados a opera o que ocupa mais tempo O tempo de transmiss o tamb m inclui as opera es de leitura e envio de blocos do ficheiro 5 1 3 Tempos obtidos com o PDA a 20 m do ponto de acesso A tabela seguinte apresenta os resultados obtidos para o ficheiro tr s com o PDA situado a 20 m de dist ncia do ponto de acesso
14. A figura seguinte ilustra a arquitectura da aplica o PDA Servidor Reconhecedor de Fala Sintetizador de Fala Armazenamento de Informa o dos doentes Figura 1 Primeira abordagem da aplica o Para garantir a interac o da aplica o t m de existir um meio de comunica o entre o PDA e o servidor externo de modo a n o prejudicar a mobilidade do PDA Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 1 3 Abordagem de resolu o do problema Definidos os objectivos come ou se por estudar as funcionalidades e capacidades do PDA Na realiza o deste trabalho foi utilizado um Compaq iPAQ H3870 equipado com um processador StrongARM O sistema operativo deste dispositivo o Microsoft Pocket PC 2000 O PDA est equipado com Bluetooth integrado e com um m dulo de expans o que pode albergar uma placa de rede wireless A especifica o do PDA est no anexo IV A fase seguinte envolveu a escolha do meio de comunica o entre o PDA e o servidor externo A rede wireless Wi Fi apresentou se como sendo a melhor op o porque tem um ritmo de transmiss o m ximo te rico de 11 Mbps e n o restringe a mobilidade Por m a dist ncia entre o PDA e o ponto de acesso rede wireless n o pode exceder os 100 metros De seguida procedeu se defini o do protocolo de comunica o entre o PDA e o servidor externo e poste
15. Eng Rui Maia pelas sempre pacientes explica es fornecidas fundamentais para a compreens o do sistema de reconhecimento de fala desenvolvido no INESC ID Ao Eng Renato Casaca pelo apoio dado na constru o dos mecanismos de suporte gest o de informa o Ao Eng Hugo Meinedo pelo seu esfor o e empenho na resolu o dos nossos problemas relacionados com o modelo ac stico Ao Eng David Matos pelo aux lio na resolu o dos problemas relacionados com a transi o para o sistema AFS Ao INESC ID Instituto de Engenharia de Sistemas e Computadores e ao IST Instituto Superior T cnico Agradecemos Funda o para Ci ncia e a Tecnologia FCT pelo apoio prestado atrav s do projecto POSI 33846 2000 Large vocabulary continuous speech recognition system for the European Portuguese language Aos nossos amigos e colegas de curso Cl udio Oliveira Jo o Fi za e Jos Gomes Pedro Sousa Pedro Rolo e Sandra Conduto por todos os momentos de amizade e pelo apoio bem humorado nas fases mais dif ceis deste curso Um agradecimento muito especial aos nossos pais pelo car cter e determina o que sempre nos transmitiram e que nos permitiram chegar at aqui A Sofia agradece ao Cl udio por todo o apoio est mulo e aten o sobretudo nos per odos mais dif ceis Helena e ao Paulo pela preocupa o e acompanhamento constantes Beatriz Clara e ao Lu s pelo pilar educacional e pelo carinho
16. Escrita do doente foi bem sucedida Envia mensagem de sucesso para o ervidor de Conte dos q O doente n o existe na Base de Dados Envia uma mensagem de erro para o Servidor de resultado da Conte dos o Aguarda Escrita de doente resposta de falhou ar cria o de um Aguarda Figura 15 Diagrama de estados do servidor de dados Armando Marques Sofia Valente pesquisa do doente Envia mensagem de doente insucesso para o Servidor de Conte dos 27 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 3 3 3 HUB O hub um programa que permite a comunica o e a coordena o entre os diversos servidores Trata se de um m dulo de software do projecto Galaxy Communicator No caso espec fico deste trabalho o hub permite a comunica o do servidor de conte dos com o servidor de udio e como TTS O hub respons vel pelo car cter modular do sistema j que encapsula todas as informa es associadas ao tr fego de mensagens A reconfigura o do fluxo de mensagens implica apenas a altera o do ficheiro de configura o associado ao hub n o sendo necess rio qualquer altera o adicional em nenhum dos servidores A nica invariante que estes devem respeitar o nome das mensagens enviadas O nome associado mensagem ser usado pelo hub como selector do destino que lhe ser atribu do 3 3 4 TTS O TTS respons vel por conver
17. Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 HUB O Interpretador de Linguagem analisa o resultado do ASR e distingue se este apenas fala para ser reconhecida ou se um pedido de informa o No primeiro caso a resposta consiste no resultado do ASR e enviada atrav s do HUB para o Servidor de Conte dos No segundo caso o pedido de informa o enviado para o Gestor de Servi os atrav s do HUB O Gestor de Servi os realiza o acesso Base de Dados de forma a obter a resposta ao pedido recebido A resposta do Gestor de Servi os ent o enviada para o Servidor de Conte dos atrav s do HUB Em ambos os casos o Servidor de Conte dos envia a resposta para PDA A resposta recebida no PDA atrav s da Interface de Comunica o e exibida na Interface No entanto esta arquitectura muito abrangente considerando os objectivos do trabalho Em primeiro lugar o preenchimento dos campos do formul rio deve ser realizado quer com os m todos de entrada de dados j existente quer atrav s de fala O reconhecimento de fala apenas ser utilizado no preenchimento dos campos dos formul rios A restante manipula o da interface escolher o campo mudar a sec o do formul rio etc realizada atrav s dos outros m todos de entrada do PDA Deste ponto de vista s importante obter o resultado do reconhecimento e direccion lo para o respectivo
18. PDA a Aguarda N liga o Pedido de liga o do i cliente PDA Cliente PDA desliga se Estabelece a liga o Fecha a liga o com o com cliente PDA cliente PDA SINT E Consulta o ficheiro de n B WRITE Envia dados so doente para A espera de RE Servidor de Dados texto no direct rio pedidos FILE READ Envia pedido de leitura de doente para o Servidor de Dados Consulta ficheiro no direct rio nsulta terminou amp amp N o um ficheiro para sintetizar E Envia resultado para o PDA eo Aguarda A consultar Recebe o ficheiro de Recebe a resposta NE resposta do direct rio som resultado do TTS FREE rge mados Servidor de Encapsula a resposta e Dados Envia o ficheiro de som envia a para o PDA para o PDA E a Pa Aguarda resposta do TTS Ficheiro de texto a sintetizar encontrado g Envia o ficheiro para o TTS Figura 13 Diagrama de estados do servidor de conte dos 24 Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 3 3 2 Servidor de Dados 3 3 2 1 An lise dos Requisitos do Servidor de Dados O servidor de dados recebe e trata os pedidos do servidor de conte dos que envolvem acesso base de dados Os tipos de pedidos poss veis s o os seguintes e Inserir uma nova ficha de um doente o objectivo inserir na base de dados os d
19. RIOS ccccesetteeeereeeeaneeeserreaeereeeeeeneenseereaceneeeerncenaetta 45 4 9 SERVIDOR DE UDIO ccieteeseetaeneeeeeeeaneeeneeraaneeeneeeaaneeenerreaaeeeneeeeaneenseereaaceeeeeaancenaetra 47 RESULTADOS sssiesasissasessossistasconinbesades ines cado CL nd aDaadco na nb Pad so ota dada o EF PD sda das de o SOE EEr oei oas 49 5 1 DESEMPENHO DO RECONHECIMENTO ccceeeeeeeererereeeeneeeerererenaeaeaeerereneaneneeeerereneaneneeea 49 5 1 1 Tempos de reconhecimento de fala isolado eee 50 5 1 2 Tempos obtidos com o PDA a 1 m do ponto de acesso 51 5 1 3 Tempos obtidos com o PDA a 20 m do ponto de acesso 52 5 1 4 Compara o da capacidade de processamento entre o PC e o PDA 53 5 1 5 Diferen as de desempenho entre reconhecimento de fala remoto e distribuido 53 5 2 SUCESSO DO RECONHECIMENTO DE FALA ccceeeeererereeneeereererernaeaeeeerereeeaneaeecerereraanea 54 5 3 FALA VS ENTRADAS DE DADOS TRADICIONAIS DO PDA eeeeeeeeeaeaeaeaeaearanata 57 CONCLUS O serenidade 59 BIBLIOGRA FIA sscscaissiaotrsragasassastinso cosecaga do dede deco dota SNC nadas dano aa do nEsa beco deaa EENE ESE 65 ANEXOS EEEE AE EEOAE EEEE Condo cenas ada code asno 67 Armando Marques Sofia Valente vi Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Lista de Figuras FIGURA 1 PRIMEIRA ABORDAGEM DA APLICA O ccceeeeeeesenesenenenenenenes 3 FIGURA 2
20. Servidor 172 16 100 194 Processamento Distribuido Figura 23 Interface de entrada da aplica o Speech PDA SPDA Armando Marques Sofia Valente 69 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Falar para os campos Para utilizar a fala no preenchimento dos campos ter que realizar os seguintes passos e Seleccionar o campo que deseja preencher e Carregar na direc o inferior para baixo do bot o de navega o do PDA e Iniciar o discurso Quando terminar de falar largue o bot o e aguarde que o texto correspondente ao seu discurso apare a no campo respectivo Ver ocupa o da cama Seleccione o campo N de cama e diga o n mero de cama que pretende ver a ocupa o Quando o n mero que disse aparecer no campo respectivo prima o bot o Ver Ocupa o do menu figura 14 5 26p o Parado N Cama E Figura 24 Interface de opera es da aplica o SPDA Ver e alterar uma ficha de um doente Armando Marques Sofia Valente 70 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Seleccione o campo N de cama e diga o n mero de cama do doente que pretende consultar Quando o n mero que disse aparecer no campo respectivo prima o bot o Consular do menu figura 14 Seguidamente ser lhe apresentado um menu com tr s separadores onde poder encontrar todos os campos da ficha de um doent
21. TIPOS DE MENSAGENS DA APLICA O ccicisereeeeeeaeeeemserereeera 45 TABELA 6 ESTADOS DA APLICA O sssssseseseseserererererererererererererererererererrrrrerere 45 TABELA 7 CANAIS DE COMUNICA O esssssesesesereserererererererererererererererrrerrrererere 47 TABELA 8 TEMPOS DE RECONHECIMENTO DE FALA OBTIDOS PARA CADA UM DOS TR S FICHEIROS USANDO A AUDIMUS API NUM PROGRAMA ISOLADO 50 TABELA 9 RESULTADOS DOS TEMPOS OBTIDOS PARA A FRASE DOIS 51 TABELA 10 RESULTADOS DOS TEMPOS OBTIDOS PARA A FRASE DOIS ARMANDO SALGUEIRO MASCULINO cssuneimis ds iipria do feras dicasin di adidas dada 51 TABELA 11 RESULTADOS DOS TEMPOS OBTIDOS PARA A FRASE DOIS JO O SOUSA MASCULINO GRAVE OSTEOPOROSE ccceeeereereeeereereeeans 52 TABELA 12 RESULTADOS DOS TEMPOS OBTIDOS PARA A FRASE DOIS JO O SOUSA MASCULINO GRAVE OSTEOPOROSE COM O PDA A 20 M DE DIST NCIA DO PONTO DE ACESSO ssjanunbiinitasaonentabingandem iara guaasgadaidad 53 TABELA 13 RESULTADOS DOS TEMPOS OBTIDOS PARA A FRASE 3 COM A AUDIMUS API A EXECUTAR SE DE FORMA DISTRIBU DA ENTRE O PDA E O SERVIDOR DE UDIO casaca and ada ita Gita 54 TABELA 14 TEMPOS DE EXECU O DA TAREFA 1 E O N MERO DE REPETI ES DE TEXTO FALADO PARA CADA UM DOS CAMPOS EM AN LISE 55 TABELA 15 TEMPOS DE EXECU O DA TAREFA 2 E O N MERO DE REPETI ES DE TEXTO FALADO PARA CADA UM DOS CAMPOS EM AN LISE
22. Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Como se pode observar nos gr ficos da figura 7 e 8 a rede Ethernet tem resultados muito superiores aos da rede wireless Wi Fi porque tem um ritmo de transmiss o de 100 Mbps No que diz respeito rede wireless vis vel um decaimento do desempenho da rede com o aumento da dist ncia ao ponto de acesso Por outro lado comparando a utiliza o de rede wireless pelo PDA com o PC verifica se que no PDA o ritmo de envio muito superior ao de recep o o que n o acontece no PC Este facto poder estar relacionado com o suporte da placa de rede do PDA Ap s a escolha do meio de comunica o entre o PDA e o servidor o pr ximo passo escolher o protocolo da camada rede a utilizar Para o transporte de dados de doentes entre o PDA e o m dulo de recursos externos utilizou se o protocolo TCP IP Esta a solu o ideal para o transporte fi vel de informa o em redes IP Na liga o entre o PDA e o servidor de udio tamb m se utilizou o protocolo TCP IP A alternativa seria o protocolo UDP mas esta envolvia a implementa o de um mecanismo de recupera o de pacotes perdidos durante a comunica o Esta opera o seria justificada caso o tempo de transfer ncia de fala tornasse impratic vel a utiliza o do sistema de reconhecimento de fala Armando Marques Sofia Valente 13 Relat rio Final Utiliza o da fala para preenchimento de fo
23. a classe de suporte As fichas de doentes foram concretizadas sobre a forma de formul rios implementados em diversas janelas de di logo Foram utilizados dois tipos de controlos para os campos dos formul rios e Caixas de Texto EDIT BOX para campos que n o possuam valores pr definidos e Caixas de Selec o COMBO BOX para campos com valores pr definidos A figura 11 mostra os formul rios da aplica o Na aplica o existe sempre uma Janela de Di logo activa A Janela de Di logo activa a que est vis vel para o utilizador recebe as mensagens de eventos da manipula o dos controlos pelo utilizador cliques selec es press o de teclas Para al m destas mensagens podem ser definidas outras para fins espec ficos da aplica o Armando Marques Sofia Valente 18 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 ID Dados Clinicos Outros Dados Clinicos ID Outros Dados Clinicos Nome Sala Observa es Z Manuel 515 o doente est sobre medica o Sexo Piso masculino X E 7 Idade Doen a Documentos Seg Social Estado a Traduzir os Relat rios para Fala Est vel 1234567890 cite 3 ver Documento Eliminar da Cache Parado Seg Social Parado Estado Parado Observa es Ej Ej Ej Figura 11 Formul rios da ap
24. ao tempo de processamento remoto O subloco Rasta do bloco Audioln ocupa a maior frac o de processamento da Audimus API no PDA 5 2 Sucesso do reconhecimento de fala Como o objectivo desta aplica o preencher campos do formul rio atrav s da fala torna se imprescind vel analisar a qualidade do reconhecimento de fala A estrat gia utilizada foi a de criar tr s tarefas de dificuldade gradual Cada tarefa compreende o preenchimento de um determinado n mero de campos com frases Armando Marques Sofia Valente 54 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 previamente estabelecidas Para cada tarefa determinado o tempo de execu o e o n mero de falhas de reconhecimento em cada campo A melhor forma de especificar este ltimo par metro a atrav s da contagem do n mero de repeti es da frase falada que o utilizador realiza para cada campo Os resultados obtidos encontram se nas tabelas seguintes Neste teste foi utilizada a configura o de reconhecimento remoto porque a que tem melhor desempenho Tarefa 1 Mudar a doen a do doente de uma cama 12 vez 22 vez 32 vez 4 vez 52 vez Campo Repeti es Repeti es Repeti es Repeti es Repeti es M dia Doen a 0 0 0 2 1 1 Tempo total s 4 4 5 10 5 6 Tabela 14 Tempos de execu o da tarefa 1 e o n mero de repeti es de texto falado para cada u
25. de formul rios num PDA 02 04 2003 S o utilizados tr s tipos de documentos documentos de udio WAV documentos de imagens JPEG e documentos de texto TXT Os documentos de imagens e os documentos de texto s o visualizados com o aux lio de outros programas do Pocket PC PocketWord para os documentos de texto e o Internet Explorer para as imagens 3 1 4 Acesso a recursos externos A sec o de acesso a recursos externos t m como principal fun o servir de intermedi rio entre a aplica o e o m dulo de recursos externos O que permite aceder s informa es da base de dados e s funcionalidades do sintetizador de fala Esta sec o o suporte local das seguintes funcionalidades que se efectuam remotamente e Leitura e escrita das informa es dos formul rios e Acesso aos documentos e S ntese de fala correspondentes a documentos de texto Estas funcionalidades pressup em todo um conjunto de opera es como o envio e recep o de pedidos bem como o envio e leitura de documentos atrav s da rede 3 2 M dulo do Servidor de udio O servidor de udio tem como fun o efectuar o processamento relativo ao reconhecimento de fala O PDA envia a fala para o servidor de udio e recebe como resultado o texto correspondente a essa fala A implementa o do m dulo do servidor de udio est relacionada com reconhecimento de fala Este assunto est detalhado no Capitulo 4 3 3 M dulo de Recursos Ex
26. de um determinado doente e Escrita pedido de inser o de uma nova ficha de doente ou de uma actualiza o de uma ficha j existente e Informa o pedido de um documento associado a um determinado doente e Apagar pedido de remo o de um doente da Base de Dados e Sintetizar pedido para ouvir um exame escrito de um determinado doente Os pedidos agrupam se em tr s conjuntos o primeiro conjunto cont m os pedidos que envolvem o servidor de dados leitura escrita e remo o o segundo conjunto cont m os pedidos de documentos que envolve apenas o servidor de conte dos o terceiro conjunto cont m os pedidos de s ntese para fala de documentos escritos Armando Marques Sofia Valente 21 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 3 3 1 2 Funcionamento O servidor de conte dos trata cada um dos tr s conjuntos de pedidos de forma diferente No caso de pedidos de Leitura Escrita e Remo o de fichas de doentes o procedimento seguido enviar o pedido para o servidor de dados Este ltimo realiza todas as opera es necess rias que envolvem a interac o com a base de dados e devolve a resposta ao servidor de conte dos Por outro lado o tratamento dos pedidos de documentos envolvem retirar o documento de um doente e envi lo para a aplica o do PDA Os documentos associados aos doentes n o est o na Base de Dados porque n o foi poss vel i
27. doenca lt valor gt estado lt valor gt obs lt valor gt outros lt valor gt Apagar um doente remocao cama lt n da cama gt Servidor de dados para Servidor de conte dos Resposta ao pedido de um doente pedido cama lt valor gt nome lt valor gt sexo lt valor gt idade lt valor gt segsocial lt valor gt sala lt valor gt piso lt valor gt doenca lt valor gt estado lt valor gt obs lt valor gt outros lt valor gt Resposta ao pedido de um doente numa situ o de erro pedido lt mensagem de erro gt Resposta ao pedido para adicionar um doente actualizacao OK Resposta quando o adicionar do doente reporta um erro actualiza ao lt mensagem de erro gt Resposta ao pedido de apagar um doente remo o OK Resposta quando o apagar do doente reporta um erro remo o lt mensagem de erro gt Tabela 25 Tabela com a especifica o das mensagens trocadas entre o servidor de conte dos e o servidor de dados Armando Marques Sofia Valente 74 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Mensagens trocadas entre o servidor de conte dos e o PDA Entidades Tipo de mensagem Forma da mensagem PDA para Pedido de um doente READ lt tamanho mensagem gt lt nr cama gt Servidor de Conte dos Adicionar um doente WRITE lt tamanho mensagem gt cama lt valor gt nome lt v
28. em rela o aos computadores pessoais Ao n vel da interac o com o utilizador os m todos de entrada reconhecimento de letras e teclado virtual de dados no PDA s o limitados e pouco pr ticos Uma interface baseada em fala apontada como a solu o ideal para este tipo de dispositivos A fala um meio natural e universal de comunica o que ultrapassa algumas das limita es impostas pelos m todos de entrada de dados baseados na escrita Futuramente com os avan os tecnol gicos no campo dos PDAs ser poss vel que estes possuam as capacidades necess rias para realizarem o reconhecimento e s ntese de fala de uma forma eficiente Com a elimina o destas barreiras tecnol gicas a utiliza o da fala no PDA poder sobrepor se aos m todos de entrada de dados baseados na escrita como o teclado virtual e o reconhecedor de letras Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 1 1 Estado da Arte Apesar dos progressos significativos o reconhecimento autom tico de fala ainda uma rea em desenvolvimento Actualmente as aplica es desenvolvidas nesta rea s o limitadas e aplicadas a dom nios espec ficos As principais limita es prendem se com a dimens o do vocabul rio e a necessidade do utilizador realizar um treino para que o sistema de reconhecimento se adapte sua voz No que diz respeito aos PDAs actualmente existem no
29. entrada reconhecedor de letras Tarefa 3 1 vez 2 vez 32 vez 42 vez 5 vez M dia s T total s 334 318 314 310 270 309 Tabela 23 Tempos dispendidos na reconhecedor de letras tarefa 3 usando o modo de entrada Tempos M dio ms Fala Teclado Virtual Reconhecedor de Letras Tarefa 1 6 67 127 Tarefa 2 132 71 145 Tarefa 3 300 127 309 Tabela 24 Compara o dos tempos m dios dos tr s m todos de entrada de dados em an lise Atrav s da an lise da tabela anterior conclui se que a fala como m todos de entrada de dados apresenta tempos aproximados com o reconhecedor de letras Em compara o com o teclado virtual revela se um processo mais lento No entanto no caso da primeira tarefa como a palavra utilizada facilmente reconhecida a fala revela se um m todo mais r pido em rela o aos restantes Destaca se ainda que a fala um m todo mais f cil de utilizar do que o teclado virtual e o reconhecedor de letras Armando Marques Sofia Valente 58 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 6 Conclus o A utiliza o da fala nos PDAs ainda se encontra na fase inicial de investiga o Falta percorrer um longo caminho at que o reconhecimento de fala e a s ntese de fala no PDA atinjam o mesmo n vel de desenvolvimento e performance em rela o ao que existe actualmente para
30. lt doenca gt Gravidez lt doenca gt lt estado gt Est vel lt estado gt lt obs gt Feto regular e bem formado lt obs gt lt outros gt lt documento gt lt nomefich gt Ecografia lt nomefich gt lt path gt Ecografia wav lt path gt lt documento gt lt outros gt lt doente gt Figura 16 Exemplo de um doente na Base de Dados Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Armando Marques Sofia Valente 30 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 4 Reconhecimento de fala A rea do reconhecimento de fala tem evolu do muito significativamente nos ltimos anos Um dos aspectos da investiga o do L F nesta rea prende se com o desenvolvimento de uma biblioteca de reconhecimento de fala para Portugu s Europeu a Audimus API Com o objectivo de permitir utilizar a fala em diferentes aplica es independentemente do sistema operativo Para conseguir que a aplica o do PDA utilize a fala como m todo de entrada de dados foi necess rio usar a Audimus API Com o intuito de descrever o funcionamento e modo de utiliza o da Audimus API torna se necess rio introduzir conceitos importantes na rea do reconhecimento de fala A base do reconhecimento de fala o sinal de fala sinal ac stico que se propaga no ar atrav s de uma onda sonora Estas
31. numa zona de exclus o m tua para que as escritas e leituras se fa am de modo coerente _fwrite2 aceder estrutura no pipe atrav s do FILE pointer Entrar na Secc o de Exclus o Mutua escrever no ficheiro actualizar a flags desbloquear a leitura se necess rio Entrar na Sec o de Exclus o Mutua FIM Figura 28 Funcionamento da fun o Fwrite2 Armando Marques Sofia Valente 79 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Por ltimo resta a fun o de leitura no pipe O algoritmo de leitura apresentado esquematicamente na figura 7 A fun o de leitura recebe a informa o do descritor de ficheiro de onde se ir ler os dados Para realizar a leitura do ficheiro necess rio entrar numa zona de exclus o m tua e bloquear os acessos de escrita _fread2 aceder estrutura no pipe atrav s do FILE pointer ER I Bloquear a Leitura desbloqueia quando Existem dados no pipe se efectuar uma escrita ap s um timeout ap s o EOF Entrar na Secc o de Exclus o Mutua ler os o ficheiro tamanho min Pedidos Existentes actualizar a flags Entrar na Secc o de Exclus o Mutua Y FIM Figura 29 Funcionamento da fun o Fread2 Armando Marques Sofia Valente 80 Relat rio Final Utiliza o da fala para preenchimen
32. o PC O processamento de fala no PDA est limitado por uma s rie de dificuldades Considerando apenas a fam lia de PDAs para qual este trabalho foi realizado dispositivos com o processador Strong ARM e que utilizam o Pocket PC como sistema operativo Observa se que existem limita es no hardware a n vel do sistema de udio e principalmente na capacidade de processamento Fazendo com que o processamento de fala tenha de ser realizado com o aux lio de computadores externos com maiores capacidades de processamento Em rela o ao sistema operativo Pocket PC 2000 n o existe nenhum suporte para o processamento de fala Por exemplo a biblioteca de suporte ao processamento de fala da Microsoft a MS Speech API ainda n o foi implementada neste sistema operativo de forma a ser utilizada nos PDAs Conclui se ent o que para criar uma aplica o que utilize a fala no PDA como m todo de entrada de dados necess rio implementar todo o processamento de fala a partir de raiz O que se estende desde da aquisi o da fala at ao preenchimento dos campos com resultado do reconhecimento No entanto o uso da fala no preenchimento de formul rios apresenta resultados positivos A utiliza o da fala uma mais valia apesar de estar condicionada por algumas limita es como a utiliza o de um vocabul rio reduzido ou o uso de um modelo ac stico especialmente treinado para o utilizador Comunica o As estruturas de comunica es
33. ondas sonoras podem ser representadas atrav s de um gr fico de amplitude que representa a press o do ar ao longo do tempo Neto 1998 Ap s a aquisi o do sinal de fala o pr ximo passo consiste na extrac o de informa o relevante de uma forma eficiente o processamento de sinal Um outro conceito importante o de reconhecimento de padr es conjunto de algoritmos usados para agrupar dados criar um ou mais padr es de um conjunto de dados e comparar um par de padr es nas bases de medidas caracter sticas dos padr es Para completar esta breve introdu o aos conceitos de reconhecimento de fala define se modelo ac stico e modelo da linguagem Segundo o modelo ac stico existem unidades fon ticas finitas e diferentes na linguagem falada Estas unidades s o amplamente caracterizadas por um conjunto de propriedades que s o manifestadas no sinal da fala ou no seu espectro atrav s do tempo Por modelo da linguagem define se o conjunto de todas as palavras poss veis de serem proferidas e as respectivas possibilidades de repeti o Estes dois modelos t m um papel fundamental no sucesso do reconhecimento de fala Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 O presente cap tulo pretende demonstrar como foi conseguido o objectivo de usar a fala na aplica o desenvolvida No ponto 4 1 procura se explicar os componentes e funcionamento da A
34. rica de transmiss o 54Mbps Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 De forma a avaliar a capacidade da rede wireless realizaram se testes de compara o com a rede Ethernet Tamb m foi comparado o uso da rede wireless quer pelo PDA quer pelo PC de forma a comparar o desempenho das comunica es nestas duas plataformas O teste consiste em enviar um ficheiro do dispositivo PDA e PC para o servidor externo e receber o mesmo ficheiro do servidor O envio e recep o s o opera es disjuntas O tamanho dos ficheiros utilizados foi de 570 Kb e de 16 Mb Os resultados obtidos apresentam se nos seguintes gr ficos com ritmo de transmiss o estimado Ficheiro 570 Kb 3000 2500 2000 1500 DB Envio E Recep o 1000 500 0 um e HH Ethernet 10 100 Wi Fi lt 3m Wi Fi gt 10m Wi Fi lt 3m PC PDA PDA PC Meio de Comunica o Ritmo de Transmiss o Kb seg Figura 7 Teste com o Ficheiro de 570 Kb Ficheiro 16 Mb 6000 5000 4000 3000 2000 1000 H Envio E Recep o Ritmo de Transmiss o Kb seg Ethernet 10 100 Wi Fi lt 3m Wi Fi gt 10m WiFi lt 3m PC PDA PDA PC Meio de Comunica o Figura 8 Teste com o Ficheiro de 16 Mb Armando Marques Sofia Valente 12 Relat rio Final
35. vel do armazenamento de ficheiros o que normal comparando as duas especifica es Em termos de c lculos num ricos a m presta o do PDA tem como origem o processador O StrongARM foi desenhado para sistemas embebidos e n o para efectuar c lculos aritm ticos complexos A grande disparidade de resultados em rela o escrita e leitura de ficheiros pode ser justificada pela frequ ncia interna do processador do PDA ser muito inferior do PC o que torna o acesso mem ria RAM mais demorado 87
36. 02 04 2003 Armando Marques Sofia Valente xii Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 1 Introdu o r A necessidade de informa o uma caracter stica que acompanha os seres humanos desde sempre A informa o um meio para auxiliar a tomada de decis es solucionar problemas ou localizar recursos O acesso a informa o actualizada exacta e num curto espa o de tempo constitui uma exig ncia na sociedade actual De forma a cumprir esta exig ncia necess rio obter informa o em qualquer lugar e em qualquer hora Nesta perspectiva os dispositivos m veis constituem uma solu o tecnol gica ao problema da mobilidade e disponibilidade da informa o Estes dispositivos podem ser desde telem veis agendas electr nicas Personal Device Assistant PDA computadores port teis entre outros Em rela o ao PDA a sua utiliza o tem crescido significativamente nos ltimos anos Este crescimento est associado ao facto deste dispositivo ter as caracter sticas de uma agenda electr nica e herdar muitas das funcionalidades dos computadores pessoais A capacidade do PDA de gerir informa o aliada sua portabilidade torna este dispositivo indispens vel no quotidiano No entanto apesar do PDA ser alvo de uma constante evolu o tecnol gica ainda apresenta muitas limita es ao n vel do armazenamento processamento e interac o com o utilizador
37. 17 REPRESENTA ES DA PALAVRA DOIS A REPRESENTA O ATRAV S DO GR FICO DE AMPLITUDE DO SINAL DE FALA COM O MICROFONE DO PC E B REPRESENTA O DO RESULTADO DO END POINT APLICADO A A COM OS PAR METROS DO PC aussonusiiasnisonisniadiapnda saias sesta asia duda 38 FIGURA 18 REPRESENTA ES DA PALAVRA DOIS A REPRESENTA O ATRAV S DO GR FICO DE AMPLITUDE DO SINAL DE FALA COM O MICROFONE DO PDA E B REPRESENTA O DO RESULTADO DO END POINT APLICADO A A COM OS PAR METROS DO PDA susimasasaizasnaneadoiasnhen maga nando 38 FIGURA 19 PROCESSO DE AQUISI O DE FALA sssssesssesesererererererererererrrerrrererere 43 FIGURA 20 AQUISI O ATRAV S DE TAMP ES cccccseeeereeeeeeremeaeerereaeeeess 44 FIGURA 21 INDICADOR DE CAMPO SELECCIONADO ccccceceeeeeeeereeeeeeeees 46 Armando Marques Sofia Valente vii Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 FIGURA 22 ESQUEMA GERAL DO FUNCIONAMENTO DA APLICA O ossec 48 Armando Marques Sofia Valente viii Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Lista de Tabelas TABELA 1 CAMPOS DO FORMUL RIO ea aeee aaa aten nanda 17 TABELA 2 CAMPOS COM VALORES PR DEFINIDOS E RESPECTIVAS DEFINI ES 17 TABELA 4 PAR METROS DA AMOSTRAGEM ceeeeeeeeneeeereeeeeereneneereeeeaeereeaea 42 TABELA 5
38. A amplitude do ru do no sinal do PDA superior em rela o amplitude do ru do do sinal do PC O que demonstra que o End Point ter que usar valores diferentes nos seus par metros para o PDA Os valores atribu dos aos limiares e intervalos de tempo est o nas tabelas seguintes para o microfone do PC e para o microfone do PDA Microfone do PC Microfone do PDA Par metros Valores Par metros Valores Head Threshold 3 0 db Head Threshold 4 0 db Body Threshold 9 0 db Body Threshold 15 0 db Tail Threshold 5 0 db Tail Threshold 9 0 db Head Max Time 0 1 s Head Max Time 0 04 s Seg Min Time 0 25 s Seg Min Time 0 5 s Seg Extended Time 0 15 s Seg Extended Time 0 04 s Tabela 3 Valores dos par metros de End Point para o microfone do PC Tabela 4 Valores dos par metros de End Point para o microfone do PDA Como se pode observar nas tabelas 3 e 4 existem diferen as entre os valores dos limiares de energia para o sinal de fala produzido pelo microfone do PC e do PDA Os limiares head threshold body threshold e tail threshold t m valores superiores para o PDA porque a energia do sinal produzido pelo microfone do PDA superior em rela o quela que produzida pelo microfone do PC As diferen as de energia entre o microfone do PC e do PDA s o vis veis nos sinais ilustrados nas figuras 18a e 19a A dura o m xima do in cio e do fim do segmento
39. Neste momento n o existe uma vers o destas bibliotecas para Pocket PC Como a implementa o desta biblioteca no Pocket PC est fora do mbito deste trabalho n o foi poss vel colocar o bloco User no PDA Quanto ao bloco Grammar este est codificado na linguagem C os restantes blocos est o em C Contudo existem in meras fun es que a biblioteca de C do Pocket PC n o suporta A resolu o seria implementar cada uma delas o que constituiria tamb m um trabalho demasiado complexo 4 2 4 Revis o das funcionalidades do sistema Devido aos problemas de compila o e execu o da Audimus API no Pocket PC o reconhecimento de fala n o ser totalmente realizado no PDA apenas ser o executados os blocos que funcionam neste dispositivo O bloco Audioln executa se no PDA e o resultado ser enviado para o bloco User que se executa no servidor de udio Por m continua a haver a possibilidade de realizar o reconhecimento de fala de uma forma totalmente remota em que o servidor de udio processa todos os blocos 4 3 Configura o da Audimus API Como foi referido no ponto 4 1 2 o bloco End Point recebe o sinal de som do microfone do PDA e calcula a energia do sinal para decidir se trata de fala ou de sil ncio Para que a decis o entre fala e sil ncio seja a mais acertada poss vel foi necess rio adequar os par metros utilizados no algoritmo do End Point s caracter sticas do sinal de fala produzido no PDA O funcion
40. Relat rio Final do Trabalho Final de Curso LICENCIATURA EM ENGENHARIA INFORM TICA E DE COMPUTADORES LEIC INSTITUTO SUPERIOR Ano Lectivo 2002 2003 T CNICO Departamento de Engenharia Inform tica Trabalho N 61 Utiliza o da fala para preenchimento de formul rios num PDA Professor Orientador Jo o Paulo Neto Co Orientador Lu s Caldas de Oliveira Alunos n 46813 Armando Jorge Cardoso Marques n 46985 Sofia Isabel dos Reis Valente Trabalho realizado no INESC ID Lisboa no mbito do Laborat rio de L ngua Falada L F Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Resumo O objectivo do trabalho usar a fala para preencher formul rios num PDA Como os m todos de entrada de dados neste dispositivo teclado virtual reconhecedor de letras etc s o pouco pr ticos a fala surge como um m todo de entrada de dados mais intuitivo e f cil de utilizar Os formul rios a serem preenchidos atrav s da fala s o formul rios m dicos e correspondem a fichas de doentes Estes formul rios s o implementados numa aplica o que permite preencher ler alterar e apagar fichas de doentes O trabalho compreende uma primeira fase em que se desenvolve uma aplica o de preenchimento de formul rios m dicos ainda sem suporte de fala A interface do formul rio e a aquisi o de dados s o realizadas no PDA No entanto devido s limita es
41. Sofia Valente 71 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Implementa o dos pipes no Pocket PC Para implementar os pipes no Pocket PC foi necess rio realizar as principais fun es que manipulam os pipes definidas na biblioteca pipes h Destacam se as opera es de criar abrir escrever ler e fechar um pipe A ideia base criar o pipe como um ficheiro e tratar esse ficheiro como uma regi o critica em que as leituras e as escritas t m que ser disjuntas No entanto como a Audimus utiliza v rios pipes em simult neo foi necess rio armazenar as refer ncias de todos os ficheiros abertos at ao momento O esquema seguinte ilustra o funcionamento do algoritmo de simula o dos pipes _pipe2 criar a estrututa de contexto do pipe pipe_var criar o ficheiro and Ed id 2 ser eo id 2 Escreverno To Pipe TO TRES Ler no Pipe o o ERES A _fdopen2 _fdopen2 abrir o ficheiro para abrir o ficheiro para escrita y leitura Estruturas regista o ponteiro dos Pipes regista o ponteiro no vector no vector pipe1 FILE FILE y lt _fwrite2 _fread2 aceder estrutura Vector de Ponteiros aceder estrutura do pipe do pipe Escrita1 Leitura1 escrever os dados Escrita2 Leitura2 ler os dados Escrita3 Leitura3 actualizar a actualizar a
42. ado A thread de retorno recebe as amostras do dispositivo e faz o respectivo processamento A comunica o entre a thread de retorno e o dispositivo feita com recurso a tamp es que s o trocados entre as duas partes atrav s de mensagens Durante a aquisi o o dispositivo realiza a amostragem e guarda o resultado num tamp o Quando o tamp o estiver completo enviado para a thread de retorno atrav s de uma mensagem O tamp o recebido pela thread de retorno que faz o respectivo processamento conforme o estado da aplica o No final o tamp o associado novamente ao dispositivo O tamp o fica ent o dispon vel para receber novas amostras do dispositivo A amostragem um processo que n o pode ser interrompido devem portanto ser utilizados no m nimo dois tamp es Quando a thread de retorno estiver a Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 processar um tamp o existe outro dispon vel para o dispositivo gravar as amostras A figura 19 ilustra o processo de aquisi o de fala Aquisi o de Fala Dispositivo de Entrada de udio Sistema Operativo Thread de Retorno Aplica o Figura 19 Processo de aquisi o de fala Na aplica o a aquisi o de fala s efectuada quando se est a preencher um dado campo do formul rio Assim necess ri
43. ados de um novo doente e Ler uma ficha de um doente o objectivo consultar na base de dados os dados de um doente e Retirar uma ficha de um doente o objectivo retirar da base de dados os dados de um doente e Actualizar uma ficha de um doente o objectivo modificar os dados de um doente 3 3 2 2 Organiza o dos Dados O primeiro desafio inerente constru o do servidor de dados foi o de estruturar todos os dados que este ter que lidar A informa o manipulada a dos campos do formul rio de um doente Assim criou se uma classe doente que cont m todos os tipos de informa o associada a um doente n mero da cama nome idade sexo n mero de seguran a social sala piso doen a estado observa es e um campo outros com a refer ncia de todos os documentos associados ao doente O armazenamento dos documentos de cada doente envolve guardar individualmente o nome e local onde estes est o localizados j que estes n o se encontram na base de dados Assim criou se uma classe documento que cont m o nome do documento e o seu local de armazenamento bem como as fun es que permitem manipular estas duas informa es A rela o entre a classe Doente e a classe Documento de agrega o j que um doente tem documentos associados mas tamb m pode n o ter Na figura 14 encontra se o diagrama de classe que serviu a programa o do servidor de dados Armando Marques Sofia Valente Relat rio Final
44. alor gt sexo lt valor gt idade lt valor gt segsocial lt valor gt sala lt valor gt piso lt valor gt doenca lt valor gt estado lt valor gt obs lt valor gt outros lt valor gt Pedido de documento FILE lt tamanho mensagem gt lt nr cama gt lt path gt Apagar um doente KILL lt tamanho mensagem gt lt n da cama gt Pedido de documento escrito sintetizado SINT lt tamanho mensagem gt lt n da cama gt lt path gt Servidor de Conte dos para PDA Resposta ao pedido de um doente READ lt tamanho mensagem gt lt estado gt cama lt valor gt nome lt valor gt sexo lt valor gt idade lt valor gt segsocial lt valor gt sala lt valor gt piso lt valor gt doenca lt valor gt estado lt valor gt obs lt valor gt outros lt valor gt Resposta ao pedido de um doente numa situa o de erro READ lt tamanhomensagem gt KO lt mensagem de erro gt Resposta ao pedido para adicionar um doente WRITE lt tamanhomensagem gt 0K Resposta quando o adicionar do doente reporta um erro WRITE lt tamanhomensagem gt KO lt mensagem de erro gt Resposta ao pedido de apagar um doente KILL lt tamanhomensagem gt OK Resposta quando o apagar do doente reporta um erro KILL lt tamanhomensagem gt KO lt mensagem de erro gt Resposta ao pedido de documento FILE lt tamanhomensagem gt lt tipo do ficheiro gt lt dados do ficheiro gt
45. amento do detector baseia se numa m quina de estados onde o tro o de sinal de fala definido por tr s Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 estados HEAD BODY e TAIL As mudan as de estado s o controladas por limiares de energia thresholds e por intervalos de tempo nos quais a energia ter que permanecer acima dos respectivos limiares Existem tr s limiares de energia head threshold body threshold e tail threshold Quando o sinal de fala atinge o head threshold e permanece acima deste limiar durante um intervalo de tempo denominado por head max time existe a possibilidade de neste intervalo de tempo corresponder a um in cio de uma frase O tro o do sinal est assim no estado HEAD Para que o tro o do sinal seja considerado como frase necess rio que a energia do sinal atinja o limiar body threshold e permane a acima deste limiar durante um intervalo m nimo de tempo denominado por seg min time Neste caso o sinal passa para o estado BODY Para determinar o final da frase necess rio que o sinal de fala fique abaixo de um valor de energia imposto pelo limiar tail threshold durante um intervalo de tempo denominado por seg extended time Nesta situa o o sinal transita para o estado de TAIL Para uma melhor compreens o do trabalho realizado neste ponto conv m analisar as diferen as entre os sinais produzidos pelo microfone d
46. aracteres N o Piso Num rico Sim Doen a Cadeia de Caracteres Sim Estado Cadeia de Caracteres Sim Observa es Cadeia de Caracteres N o Outros Documentos Cadeia de Caracteres Tabela 1 Campos do formul rio Os campos com valores pr definidos podem ter os seguintes valores Sexo Piso n o foi definido n o foi definido Feminino 9 Masculino 8 Estado 7 n o foi definido 6 Est vel 5 Grave 4 Cad ver 3 2 1 0 Tabela 2 Campos com valores pr definidos e respectivas defini es 3 1 2 Interface A interface baseada em janelas de di logo dialog boxes um componente gr fico das MFC As janelas de di logo podem conter controlos bot es caixas de Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 texto caixas de selec o etc que permitem visualizar informa o Um exemplo de uma janela de di logo est na figura 10 Janela de Dialogo xj Exemplo de uma Janela de Di logo Bot o Caixa de Selec o Caixa de Texto Figura 10 Exemplo de uma janela de di logo Uma janela de di logo est sempre associada classe que a implementa Nesta classe poss vel adicionar fun es para manipular e interagir com os componentes da janela de di logo Considerar se uma janela de di logo como sendo a combina o entre os componentes gr ficos e
47. campo do formul rio O uso da fala para dialogar com a aplica o introduz demasiada complexidade para ser abordada neste trabalho Como futuramente pretende se que o reconhecimento de fala ASR possa ser efectuada localmente no PDA houve a necessidade de separar o reconhecimento de fala do processamento dos pedidos relacionados com os doentes Assim foi criado um m dulo espec fico para o reconhecimento de fala o m dulo do servidor de udio O tratamento de pedidos de informa o relacionada com os doentes foi integrado num outro m dulo m dulo de Recursos Externos A s ntese de fala tamb m ficou inserida neste ltimo m dulo porque n o um requisito essencial para a aplica o e independente do reconhecimento de fala A interac o entre as tr s entidades PDA servidor de udio e m dulo de recursos externo est ilustrada na figura 5 O ponto 1 do esquema representa a fluxo de informa o entre o PDA e o servidor de udio Esta informa o compreende um pedido que cont m fala do utilizador para ser reconhecida e uma resposta que consiste do texto resultante desse reconhecimento Em rela o ao ponto 2 do esquema representado o fluxo de informa o entre o PDA e o servidor de conte dos Neste caso a informa o consiste num pedido em texto e a resposta Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 pode ser uma ficha de um
48. de fala head max time e seg extended time para a configura o do PDA inferior em rela o configura o do PC Isto deve se ao facto do sinal produzido pelo microfone do PDA apresentar um ru do de fundo com um maior n vel de energia e com mais varia es em rela o ao que apresentado pelo sinal do PC Armando Marques Sofia Valente 39 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 A dura o m nima de um segmento de fala seg min time maior para o sinal do PDA comparativamente com o do PC Tal justifica se porque para realizar a aquisi o de fala no PDA necess rio carregar num bot o e o respectivo ru do integralmente apanhado pelo microfone do PDA Assim o valor do par metro seg min time corresponde a um intervalo de tempo superior dura o do barulho associado ao clicar do bot o com o objectivo deste ru do ser eliminado A escolha dos valores exactos atribu dos a cada par metro foi determinada experimentalmente e envolveu um elevado n mero de tentativas at encontrar uma configura o adequada A figura 18 b mostra o resultado do End Point usando os valores por n s definidos Verifica se um corte significativo das zonas de ru do do sinal original Verifica se tamb m que a qualidade do microfone do PDA baixa pois o sinal de fala produzido apresenta muito ru do 4 4 Modelo Ac stico Para adaptar o modelo ac stico usado na A
49. deve ser preenchido atrav s de um clique Existe sempre um campo seleccionado as janelas de di logo quando s o iniciadas seleccionam automaticamente um campo e essa selec o s alterada quando outro campo seleccionado A figura seguinte ilustra o indicador de campo seleccionado Em Grava o Me Cama gt Figura 21 Indicador de campo seleccionado No que diz respeito a este trabalho a fala do utilizador utilizada para preencher campos de um formul rio logo os resultados do processamento praticamente n o precisam de ser interpretados salvo algumas tradu es de n meros por extenso para d gitos Neste trabalho o processamento dos resultados do reconhecimento de fala que realizado ao n vel da interface est implementado nas janelas de di logo Isto porque esse processamento est relacionado com os campos da interface que variam de Janela de Di logo para Janela de Di logo Armando Marques Sofia Valente 46 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 4 9 Servidor de udio No caso do reconhecimento distribu do o servidor de udio s realiza o processamento relativo aos ltimos dois blocos da Audimus API User e Grammar No caso de reconhecimento remoto efectua o processamento de todos os blocos O servidor de udio tem uma implementa o muito simples constitu do pela biblioteca Audimus API e pela interface de comunica
50. dia e a camada de sa da correspondente s probabilidades dos fonemas de um idioma O vector de sa da representa as probabilidades de na trama que se encontra ao centro no vector de entrada estarem presentes cada um dos fones da l ngua portuguesa ou o sil ncio Buffer Tamp o Zona de mem ria utilizada para guardar registos de informa o temporariamente 3 E pS Fone Unidade b sica sonora Som Armando Marques Sofia Valente 33 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 o Forward que faz com que o resultado do sistema de reconhecimento seja diferente consoante o utilizador Esta diferencia o devida aos diferentes pesos presentes no perceptr o multi camada que basicamente s o matrizes usadas para o c lculo dos valores da camada interm dia e a de sa da A cada utilizador correspondem pesos espec ficos Grammar Este bloco finaliza o processo de reconhecimento de fala recebendo como entrada as probabilidades dos fones vindo do bloco User e tem como sa da a frase mais prov vel que o orador ter proferido Engine Permite ao utilizador lan ar a execu o de um motor de reconhecimento de fala e manipular o seu estado bem como especificar o comportamento deste motor a n vel de retorno de resultados ResultSet Define um conjunto de fun es que servem de interface entre o programador e o que este pretende obter do motor de rec
51. doente um documento de um doente ou o resultado da s ntese de fala Os dois fluxos de informa o s o independentes poss vel efectuar um pedido ao servidor de conte dos sem utilizar a fala 1 Pedido Fala PDA Servidor udio Resposta o Texto do Reconhecimento Pedido Texto Servidor de PDA Conte dos Resposta Fala Sintetizada Fichas de Doentes Documentos dos Doentes Figura 5 Fluxo final de informa o trocada entre o PDA e os servidores Na figura 6 poss vel visualizar a arquitectura final da aplica o No Capitulo 3 descreve se detalhadamente a implementa o da aplica o Por ltimo foi abordado o problema do reconhecimento de fala Para realizar o reconhecimento de fala foi utilizado um sistema de reconhecimento de fala j existente a Audimus API Application Program Interface A Audimus API foi desenvolvida no Laborat rio de L ngua Falada do INESC ID para realizar o reconhecimento de fala em computadores pessoais Numa primeira fase todo o reconhecimento foi realizado no m dulo do servidor de udio Posteriormente algumas tarefas do reconhecimento foram migradas para o PDA Assim existem duas configura es para o reconhecimento reconhecimento remoto totalmente realizado no servidor de udio e reconhecimento distribu do onde o processamento distribu do entre o PDA e o servidor de udio Armando Marques S
52. e home elka pw edu pl mroj homepage works mroj html audio audio book htm Waveln 2002 Programa Waveln 2002 http www borg com jglatt tech lowaud htm Armando Marques Sofia Valente 65 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Armando Marques Sofia Valente 66 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Anexos Armando Marques Sofia Valente 67 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Anexo l Armando Marques Sofia Valente 68 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Manual do utilizador O texto seguinte tem como objectivo descrever o modo como se utiliza a aplica o desenvolvida no presente trabalho Come ar o programa Para come ar o programa execute as tarefas seguintes e Ligue o Pocket PC carregue em Start e escolha a aplica o SPDA2 Dentro de momentos aparecer o menu de entrada da aplica o SpeechPDA ver figura 13 e No campo Servidor escreva o endere o IP da m quina onde se executa o servidor de udio e o servidor de conte dos e prima Ligar Dentro de momentos aparecer um menu onde poder experimentar todas as funcionalidades da aplica o A utiliza o deste menu explicada no ponto seguinte 5 58p ok Speech PDA
53. e Cada um destes campos cont m discriminada informa o sobre o doente A figura 15 apresenta um exemplo de uma ficha de um doente que ocupa a cama 2 Para alterar algum campo basta seleccionar o campo apagar a informa o que n o quer e dizer a nova informa o Para sair do formul rio ter que carregar em ok no canto superior direito do ecr Se realizou alguma altera o ser pedida a confirma o neste momento 5 28p ok ID l Dados Clinicos l Outros Nome Filipa de Sousa Alves Sexo Idade Seg Social 88896544 Parado Nome Figura 25 Exemplo de formul rio de um doente exibido pela aplica o SPDA Ver documentos de um doente Consulte o ltimo separador do formul rio Neste separador encontra se um campo Documentos que cont m a lista de todos os documentos associados ao doente Seleccione da lista o documento que pretende consultar e prima o bot o Ver Documento No caso de querer ouvir um documento que est na forma escrita ter que depois de seleccionar o documento seleccionar tamb m a op o Traduzir os relat rios para fala e de seguida premir o bot o Ver Documento Dentro de momentos ouvir o relato do relat rio que escolheu Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Criar uma ficha de um doente Seleccione o campo N de cama e diga o n mero de cama onde pretende inser
54. e Dados sis sir ade eree e ea E a e cegas a dana 6 25 33 3 HUD PARAR 7 RPPN RN RT ERR PR ARO a EEA PENA 28 R T O sa viado eras a a dr E dA a a a 28 SIS Basede Pados rerio ie ea ee deedar ebede 28 4 RECONHECIMENTO DE FALA eseesesesessseessessoeesoresoeecsoesoeesersseesseeeoeecoeeeoesooesoesoessersseresese 31 4 1 DESCRI O DA AUDIMUS API uieii nins seoa anian aee EER Ea E EENS 32 Add Vis o geral vismin ennaa aeea aE Ea NN Ea ARA aE 32 Ad Osblocos funcionais osise nesensta ea a da ea Aa Eaa 32 4 2 GERAR A BIBLIOTECA AUDIMUS NO PDA sssssssssssssssssserssssessseosesenssrereesesseresersssssserersesee 34 42 Principais obst culos msza eieaa eie ea Eea E E e LE EEA E 34 4 2 2 Obst culos ulirapassados niisiis i ee e e a e 35 42 3 Obst culos por ultvapassar rasserenatu eai e E 36 4 2 4 Revis o das funcionalidades do sistema 36 4 3 CONFIGURA O DA AUDIMUS ARI is sseseasreneiescresiireciieaceSinensc oa E EETA EES 36 44 MODELO AC STICO sercnca ASS ISIEDAGUSSA PELES Speco ads sSIORISLISUIEACSE asian NE 40 4 5 MODELO DA LINGUAGEM cissssiita sean ie ata pedia tus E 41 4 6 AQUISI O DE FALA NO PDA ieeererereerereeeaaeaereerererenneneneeeerereneaneneeeererenna 41 Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 4 7 SUPORTE AO RECONHECIMENTO DE FALA NO PDA cciccsccsretteeeereeeererereeneeerrereesena 44 4 8 INTERAC O COM OS FORMUL
55. e fala n o teve uma import ncia cr tica e foi tratada como algo mais acess rio As solu es utilizadas neste trabalho para o reconhecimento de fala seguem a mesma orienta o que outras aplica o para esta rea A utiliza o de um servidor externo para realizar o reconhecimento de fala tendo uma rede wireless como meio de comunica o uma solu o que tamb m utilizada pela Microsoft na sua aplica o MiPad O reconhecimento de remoto fala executado num servidor externo uma solu o aceit vel para as situa es em que existe uma rede wireless dispon vel para o PDA Neste caso poss vel adaptar sistemas de reconhecimento de fala j existentes utilizando os motores de reconhecimento de fala sobre a forma de servidores Estes recebem os dados do PDA processam os atrav s dos seus motores de reconhecimento e enviam os resultados para o PDA Por m esta solu o est limitada aos locais abrangidos pelas redes wireless Inicialmente pretendia se transferir a totalidade do reconhecedor de fala para o PDA Por m surgiram dificuldades na migra o da biblioteca de reconhecimento de fala Audimus API para o Pocket PC Adicionalmente o PDA revelou um desempenho decepcionante no processamento de fala j que o tempo de execu o do reconhecimento local dez vezes superior ao tempo de reconhecimento remoto Assim conclui se que n o se pode simplesmente transferir um motor de reconhecimento de fala do PC para
56. e remo o de um doente a chave de indexa o o n mero de cama Armando Marques Sofia Valente 26 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Quando se trata de inserir um novo doente o pedido cont m todos os valores dos campos da ficha desse doente Com base nestes valores ent o constru do um ficheiro em formato XML e enviado para a base de dados No caso de se tratar de uma leitura de um doente o servidor de dados usa o n mero da cama que lhe enviado na mensagem de pedido para consultar a base dados Se o doente existir o resultado da consulta vem em formato XML Este resultado ent o convertido para o formato da mensagem de resposta que o servidor de conte dos aguarda Caso ocorra algum erro o servidor de conte dos informado da situa o Na remo o de um doente retira se o n mero da cama respectivo da mensagem do pedido Este valor permite identificar o doente na base de dados e proceder sua remo o Caso ocorra alguma excep o na remo o tal incoer ncia tamb m reportada ao servidor de conte dos Em s ntese o diagrama de estados do servidor de conte dos encontra se na figura seguinte READ Consulta o doente WRITE atrav s do n da cam Coloca doente na Base de Dados TRS esperade pedidos O doente existe na Base de Dados f Envia os dados do doente para o Servidor de Conteudo
57. e um modelo de linguagem com cerca de 100 palavras que englobam desde nomes apelidos a doen as 4 6 Aquisi o de Fala no PDA A aquisi o da fala realizada atrav s do microfone incorporado no PDA utilizando a Low level Digital Audio como biblioteca de udio As rotinas de Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 aquisi o de udio foram baseadas num programa exemplo o Waveln que efectua a grava o digital de udio usando dois Tamp es Waveln 2002 A amostragem do sinal de udio feita atrav s de PCM Pulse Code Modulation com os par metros da tabela seguinte Vari vel Valor N de canais Mono Stereo 1 N de amostras recolhidas por segundo 16000 N de bits que comp em uma amostra 16 Tabela 4 Par metros da amostragem O processo de aquisi o iniciado atrav s da abertura de um dispositivo de entrada de udio com os seguintes par metros uma estrutura que cont m os valores que definem a amostragem PCM e um apontador para uma thread de retorno N o necess rio indicar qual o dispositivo a utilizar porque a biblioteca de udio faz uma procura por todos os dispositivos de entrada de udio que suportem os par metros de amostragem desejados Apenas o primeiro dispositivo a ser encontrado utilizado mas como o PDA possui apenas um microfone este ser de certo utiliz
58. esenta uma vis o geral da arquitectura do m dulo do PDA Nos pontos seguintes descrevem se os elementos que comp e o m dulo do PDA Armando Marques Sofia Valente 15 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 M dulo do PDA Aplica o Interface com o utilizador Gest o e visualiza o da informa o Acesso a recursos externos Rede Wireless M dulo de recursos externos Figura 9 Arquitectura do m dulo do PDA 3 1 1 Requisitos A interface foi desenvolvida mediante os seguintes requisitos e A interface deve implementar um formul rio m dico O formul rio uma adapta o livre de alguns campos de uma ficha de um doente e Implementa o das opera es de criar alterar e eliminar fichas de doentes e Permitir visualizar documentos referenciados na ficha do doente imagens relat rios grava es udio e Os campos desse formul rio devem poder ser preenchidos atrav s da fala Armando Marques Sofia Valente 16 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Os campos definidos para o formul rio encontram se na tabela seguinte Campo Tipo Valores pr definidos Nome Cadeia de Caracteres N o Sexo Cadeia de Caracteres Sim Idade Num rico N o N Seg Social Num rico N o Sala Cadeia de C
59. io de Dados para o ronda Recep o de Resultados Servidor de Audio pe Rede Wireless M dulo do Servidor de M dulo de recursos udio externos Figura 22 Esquema geral do funcionamento da aplica o Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 5 Resultados Os testes seguintes t m como objectivo avaliar o desempenho do sistema nas suas v rias configura es comparar o uso do novo m todo de preenchimento de formul rios fala com os m todos anteriores Finalmente pretende se tamb m avaliar o sucesso do reconhecimento da fala 5 1 Desempenho do Reconhecimento O uso da aplica o desenvolvida mostra que a ac o de preencher um campo do formul rio n o instant nea Desde o momento que o utilizador fala at aparecer a frase correspondente no campo necess rio um tempo de espera Assim conv m determinar o atraso introduzido pelo tempo de transmiss o na rede wireless e pelo reconhecimento da fala As entidades envolvidas neste teste s o o m dulo do PDA e o servidor de udio No PDA determinado o intervalo de tempo que come a com o envio da fala e acaba na recep o do resultado em texto A este tempo vamos chamar T total Para determinar o tempo dispendido no reconhecimento de fala foi necess rio recorrer a um programa auxiliar Este programa cont m apenas
60. ir o novo doente Quando o n mero que disse aparecer no campo respectivo prima o bot o Inserir do menu figura 14 Apresentar se uma ficha com os campos vazios de informa o Para preencher um campo basta seleccionar o campo e dizer a nova informa o Quando todos os campos tiverem sido preenchidos carregue em ok no canto superior direito do ecr e o novo doente criado Caso contr rio ser lhe mostrado a causa do insucesso da opera o Apagar um doente Seleccione o campo N de cama e diga o n mero de cama que pretende apagar Quando o n mero que disse aparecer no campo respectivo prima o bot o Apagar do menu figura 14 Seguidamente ser notificado do sucesso ou insucesso da opera o Armando Marques Sofia Valente 72 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Anexo Il Armando Marques Sofia Valente 173 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Protocolo de Comunica o Mensagens trocadas entre o servidor de conte dos e o servidor de dados Entidades Tipo de mensagem Forma da mensagem Servidor de conte dos para Servidor de dados Pedido de um doente pedido cama lt nr cama gt Adicionar um doente actualizacao cama lt valor gt nome lt valor gt sexo lt valor gt idade lt valor gt segsocial lt valor gt sala lt valor gt piso lt valor gt
61. la de uma forma transparente e coordenada O processo envolve o envio e recep o de dados descritos nos seguintes pontos e Envio de dados para o servidor de udio Como grande parte do reconhecimento de fala feito remotamente no servidor de udio necess rio enviar os dados do PDA para servidor de udio e Recep o de resultados A recep o de resultados permite ao PDA receber do servidor de udio o resultado do reconhecimento de fala Este resultado recebido palavra a palavra e no final quando se chega ao fim da frase devolvido um indicador Logo ap s a recep o das palavras estas s o enviadas atrav s de mensagens para a aplica o Caso seja um fim de frase enviada uma mensagem indicando que o processamento da frase finalizou Armando Marques Sofia Valente 44 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 4 8 Interac o com os formul rios O formul rio m dico tem os seus campos dispersos por v rias janelas de di logo E da responsabilidade da janelas de di logo activa receber os resultados provenientes da recep o de resultados e actualizar os campos dos formul rios com essa informa o Estas informa es s o enviadas para as janelas de di logo atrav s de mensagens de eventos As janelas de di logo recebem os dois tipos de mensagem ilustrados na tabela seguinte Mensagem Descri o WM RECORD CONTROL Mensagem q
62. lica o 3 1 3 Gest o da informa o As informa es do formul rio s o mantidas numa estrutura de dados visivel a todas as janelas de di logo que contenham campos do formul rio As janelas de di logo quando s o iniciadas l em os dados da estrutura que correspondem aos campos que possuem actualizando o valor dos seus campos com essa informa o Quando as janelas de di logo s o fechadas caso os campos tenham sido alterados essas altera es s o propagadas para a estrutura de dados No que diz respeito aos documentos referenciados nos formul rios campo documentos esses documentos s o guardados temporariamente no PDA de forma a tornar mais r pida a sua visualiza o Esses documentos ao serem lidos da base de dados s o copiados para uma directoria do PDA onde adicionado ao nome do documento o n mero da cama do doente Quando o utilizador estiver a visualizar um documento que esteja no PDA o documento lido a partir da directoria n o havendo necessidade de o requisitar Os documentos de texto podem ser sintetizados para fala permitindo ao utilizador ouvir o seu conte do O documento que resulta da sintese de fala um documento de udio independente do documento de origem O nome do documento sintetizado igual ao nome do documento antigo mais um sufixo para evitar poss veis conflitos com o nome Armando Marques Sofia Valente 19 Relat rio Final Utiliza o da fala para preenchimento
63. m dos campos em an lise Tarefa 2 Alterar o nome para Jo o Carmo a idade para 32 o sexo para masculino e por ltimo a doen a para sarampo 1 vez 22 vez 32 vez 4 vez 53 vez Campo Repeti es Repeti es Repeti es Repeti es Repeti es M dia Nome 2 3 0 0 0 1 Idade 2 4 3 4 0 3 Sexo 0 0 0 0 0 0 Doen a 0 0 5 1 6 2 Tempo total s 148 140 121 181 71 132 Tabela 15 Tempos de execu o da tarefa 2 e o n mero de repeti es de texto falado para cada um dos campos em an lise Tarefa 3 Colocar um novo doente com os seguintes valores nome Pedro Sousa o sexo masculino a idade 65 o n de seguran a social 77777777 a sala Armando Marques Sofia Valente 55 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 a 7 o piso o 4 a doen a sarampo o estado est vel e as observa es s o o doente encontra se em recupera o 1 vez 22 vez 32 vez 4 vez 52 vez Campo Repeti es Repeti es Repeti es Repeti es Repeti es M dia Cama 2 3 1 2 0 2 Nome 0 0 1 0 2 1 Sexo 0 0 0 1 0 0 Idade 0 2 2 4 2 2 Seguran a social 2 6 3 2 4 3 Sala 0 0 2 1 1 1 Piso 5 3 4 2 1 3 Doen a 8 0 1 0 2 2 Estado 0 3 2 0 1 1 Obs 1 3 2 1 2 2 Tempo total s 248 342 328 255 350 300
64. mento de fala O programa tem como entrada um ficheiro de fala e apresenta como sa da o resultado do reconhecimento dessa mesma fala O objectivo determinar o desempenho da Audimus API com um processamento e entradas locais Os dados de fala n o prov m da rede como acontece na aplica o que envolve o PDA Os resultados obtidos para cada uma das frases encontram se na tabela seguinte Tempo Total ms Registo Frase 1 Frase 2 Frase 3 1 251 1202 792 2 121 1251 791 3 220 631 791 4 260 631 1773 5 250 1241 1552 M dia ms 220 4 991 2 1139 8 Desvio Padr o ms 57 6 329 3 483 5 Tabela 8 Tempos de reconhecimento de fala obtidos para cada um dos tr s ficheiros usando a Audimus API num programa isolado Da an lise da tabela 7 verifica se que o tempo de reconhecimento aumenta com o aumento do tamanho dos dados de fala a reconhecer Armando Marques Sofia Valente 50 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 5 1 2 Tempos obtidos com o PDA a 1 m do ponto de acesso As tabelas seguintes apresentam os resultados obtidos para cada um dos ficheiros com o PDA situado a 1 m de dist ncia do ponto de acesso a b Frase 1 Registo T total ms T total ms T audimus ms T distribuido ms i pes 513 220 293
65. mercado in meras aplica es desde de processadores de texto a jogos No entanto o n mero de programas que utilizam a fala como interface reduzido A utiliza o da fala nos PDAs atrav s do seu reconhecimento ou da sua s ntese uma rea que ainda se encontra na fase de investiga o Apesar de despertar o interesse da ind stria inform tica a fala ainda n o se constitui como uma forte aposta no mercado dos PDAs Existem algumas solu es como o MiPad que englobam um grande n mero de funcionalidades No entanto estas aplica es est o em desenvolvimento ou ainda n o ganharam grande import ncia no mundo dos PDAs 1 2 Objectivos e Descri o do Problema O PDA recebeu uma forte aceita o na comunidade m dica devido sua portabilidade e caracter sticas tecnol gicas O PDA utilizado na gest o da sempre crescente quantidade de informa o que os m dicos necessitam de saber ex informa o de f rmacos e para realizar c lculos m dicos Actualmente o PDA come a a ser utilizado como um meio de visualizar e manipular informa es sobre os pacientes no local de presta o de cuidados m dicos O que permite uma diminui o da burocracia e um aumento da qualidade dos servi os prestados aos doentes O objectivo deste trabalho desenvolver uma aplica o para um dispositivo PDA com uma interface de formul rios que poder o ser preenchidos atrav s da fala para al m dos m todos de entrada de dados j exi
66. nserir o conte do de ficheiros na Base de Dados XML Estes documentos encontram se em directorias indexadas pelo n de cama cuja gest o efectuada pelo servidor de conte dos Por ltimo resta o pedido para ouvir um relat rio que est na forma escrita Neste caso o servidor de conte dos vai buscar o respectivo documento de texto do doente envia o para o TTS e aguarda pela resposta Quando esta chega na forma de documento de udio envia a para a aplica o do PDA A figura 12 ilustra o fluxo de informa o trocada entre o servidor de conte dos com o PDA o servidor de dados e o TTS Armando Marques Sofia Valente 22 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 b 1 b 2 4 a 1 a 2 e gt PDA zi Servidor de Servidor de Conte dos Dados c 1 a c 4 c 2 c a Pedido resposta de leitura escrita ou remo o de um doente b Pedido resposta de documentos associada a um doente TTS c Pedido Resposta de s ntese de Figura 12 Fluxo de mensagens entre o servidor de conte dos com o PDA o Em s ntese o diagrama de estados do servidor de conte dos encontra se na figura seguinte servidor de dados eo TTS Armando Marques Sofia Valente documentos escritos 23 02 04 2003 Relat rio Final Utiliza o da fala para preenchimento de formul rios num
67. nt m fala do utilizador ao servidor externo A resposta que este envia ao PDA pode ser o texto resultante do reconhecimento a fala sintetizada fichas de doentes ou documentos Assim o servidor externo recebe a fala do PDA e realiza o reconhecimento da mesma O resultado do reconhecimento interpretado e redireccionado para a ac o correspondente A figura 3 ilustra o fluxo de informa o entre o PDA e o servidor externo Pedido Fala PDA Servidor Externo Resposta Texto do Reconhecimento Fala Sintetizada Fichas de Doentes Documentos dos Doentes Figura 3 Primeira abordagem do fluxo de informa o entre o PDA e o servidor externo Com base neste modelo de interac o definiu se uma primeira arquitectura da aplica o ilustrada na figura 4 O sistema divide se em dois m dulos l gicos principais o PDA e o servidor O m dulo do PDA composto pela aplica o que cont m a interface com o utilizador o sistema de entrada e sa da de fala e a interface de comunica o com o m dulo de servidor A aplica o realiza a aquisi o e reprodu o de fala e cont m uma interface de comunica o para trocar informa o com os dois servidores servidor de conte dos e servidor de udio Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 PDA Servidor Gera o de Linguagem Rede Wireless I
68. nterface de Servidor Comunica o TT P de udio Gestor de Interface l Servi os dy gt Entrada de Fala Servidor de 4 Conte dos Interpretador de Linguagem Gestor de di logo Base de jo lt Sa da de Fala Dados Figura 4 Arquitectura inicial do sistema O m dulo do servidor constitu do pelo servidor de udio e pelo servidor de conte dos O servidor de udio foi baseado na arquitectura de um sistema de processamento de fala e possui os componentes necess rios ao reconhecimento e s ntese de fala Os componentes s o os seguintes e ASR Automatic Speech Recognition realiza o reconhecimento autom tico de fala convertendo fala em texto e TTS Text to Speech realiza a s ntese de fala convertendo texto em fala e Interpretador de Linguagem efectua a an lise sem ntica do resultado do ASR e Gestor de di logo efectua a liga o das ac es do utilizador com os servi os prestados pelo sistema ex base de dados e Gera o de linguagem formula as frases para o TTS O PDA realiza a aquisi o de fala do utilizador atrav s da Entrada de Fala A fala transmitida pela Interface de Comunica o para o Servidor de udio O servidor de udio recebe a fala do PDA e envia a para o ASR onde realizado o reconhecimento de fala O resultado do ASR enviado para o Interpretador de Linguagem atrav s do Armando
69. o PC Como o resultado obtido para o PDA inferior em mais de 10 pontos percentuais em rela o ao obtido para o PC resolveu se adaptar o modelo ac stico usando novamente o programa Neural Network Simulator mas agora partindo de pesos obtidos no modelo ac stico de um Telejornal j que o sinal de fala do Telejornal apresenta muito ru do em situa es de reportagens exteriores Os resultados obtidos foram agora de 77 64 de frases correctas o que constitui um valor mais aproximado do valor percentual obtido pelas frases gravadas com o microfone do PC 4 5 Modelo da linguagem Como os campos do formul rio incluem nomes de pessoas n meros doen as e texto corrente foi necess rio gerar um modelo de linguagem espec fico para a aplica o do PDA Para gerar este modelo existem duas alternativas 1 Gera o de um modelo gen rico que inclua todas as poss veis palavras a serem usadas no formul rio 2 Gera o de quatro modelos de linguagem diferentes n meros nomes patologias e vocabul rio corrente A alternativa que conduzir a melhores resultados a segunda No entanto ser necess rio que a Audimus API permita a troca de modelos de linguagem que at ao momento n o poss vel A alternativa de um modelo gen rico poder degradar o desempenho e sucesso do reconhecimento j que aumenta o n mero de possibilidades de diferentes resultados Optou se pela solu o do modelo gen rico ou seja criou s
70. o PDA necess rio modifica lo adaptando o s caracter sticas tecnol gicas do dispositivo Em rela o a este trabalho a configura o do processamento de fala distribu do reparte o processamento entre o PC e o PDA Esta configura o s ser eficiente se o processamento na parte do PDA for reduzido Uma poss vel solu o http research microsoft com srg mipad aspx Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 consiste em limitar o processamento no lado do PDA a tarefas pouco exigentes em c lculos num ricos como a determina o do fim de uma frase End Point O sucesso da utiliza o de fala nesta aplica o est dependente da adequa o do reconhecedor de fala aplica o e aos seus utilizadores assim como ao ambiente onde esta utilizada O End Point constitui um elemento muito importante no reconhecimento de fala porque a sua configura o tem uma grande influ ncia no tempo de processamento Tendo em conta que neste trabalho o End Point possui uma configura o fixa o ideal seria ter uma configura o que se adequasse automaticamente s condi es de ru do do meio ambiente A utiliza o de um modelo de linguagem gen rico foi influenciada pelas caracter sticas da Audimus API n o permitir outra op o Verificou se que os campos dos formul rios na sua maioria admitem um conjunto limitado de valores
71. o PDA e pelo microfone do PC O sinal de refer ncia o sinal produzido pelo microfone do PC O objectivo conseguir um resultado de End Point para o sinal do PDA o mais aproximado poss vel daquele que apresentado para o microfone do PC As figuras seguintes ilustram as diferen as entre os dois sinais e os resultados da aplica o do End Point a Armando Marques Sofia Valente 37 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 b Figura 17 Representa es da palavra dois a representa o atrav s do gr fico de amplitude do sinal de fala com o microfone do PC e b representa o do resultado do End Point aplicado a a com os par metros do PC a b Figura 18 Representa es da palavra dois a representa o atrav s do gr fico de amplitude do sinal de fala com o microfone do PDA e b representa o do resultado do End Point aplicado a a com os par metros do PDA A frase utilizada para ilustrar as diferen as constitu da apenas pela palavra Dois Na figura 17 a e 18 a encontra se representado o gr fico de amplitude do Armando Marques Sofia Valente 38 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 sinal de fala para a palavra dois produzido com o microfone do PC e produzido com o microfone do PDA As diferentes amplitudes dos dois sinais s o evidentes
72. o limitar a aquisi o a estes per odos de forma a evitar processamento e transmiss es de dados desnecess rias Para tal feita uma selec o na thread de retorno dos tamp es que chegam do dispositivo Essa selec o alterada pelo utilizador quando carrega no bot o de grava o para preencher um campo do formul rio Por m este processo apresenta o inconveniente de ser pouco preciso Porque cada tamp o pode conter uma grande quantidade de amostragens 32 000 Ou seja em casos extremos a fala do utilizador pode ficar cortada no final porque o tamp o que veio do dispositivo chegou pouco tempo depois de o utilizador ter terminado a aquisi o Para remediar este problema no final da aquisi o sempre aceite mais um tamp o A figura 20 ilustra esta situa o Se n o se aceitar o tamp o n 3 na aquisi o de fala fala fica cortada no final Armando Marques Sofia Valente 43 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Tamp o 2 o a o 3 o Tamp o n 1 Tamp o n 2 Tamp o n 3 descartado Figura 20 Aquisi o atrav s de tamp es 4 7 Suporte ao reconhecimento de fala no PDA O reconhecimento de fala realizado quase na sua totalidade de forma remota no servidor de udio Assim foi necess rio criar uma interface entre o m dulo do PDA e o servidor de udio que permitisse realizar o reconhecimento de fa
73. o processamento da Audimus API O tempo aqui obtido domina se por T Audimus Outra alternativa seria no Servidor de udio determinar o tempo total dispendido no reconhecimento da fala recebida No entanto este tempo n o corresponde apenas a reconhecimento tamb m se pode traduzir em esperas de dados a processar devido ao atraso dos pacotes de fala O tempo gasto na transmiss o de dados pelo facto da aplica o ser distribu da T distribuido inclui a soma dos tempos de aquisi o da fala no PDA de transmiss o e propaga o Este valor obtido em termos absolutos atrav s da diferen a do tempo medido PDA com o tempo de processamento do Reconhecimento A estrat gia para realizar este teste foi a seguinte e Criar tr s ficheiros de fala com frases t picas de preenchimento dos campos da aplica o o Frase 1 2 Tamanho 125 Kbytes Armando Marques Sofia Valente 49 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 o Frase 2 2 Armando Salgueiro Masculino Tamanho 500 Kbytes o Frase 3 2 Jo o Sousa Masculino Grave Osteoporose Tamanho 750 Kbytes e Retirar cinco registos dos tempos T total e T Audimus para cada ficheiro e Repetir o teste para um dos ficheiros posicionando o PDA a 20m do ponto de acesso 5 1 1 Tempos de reconhecimento de fala isolado A Audimus API executa se num programa isolado no PC que tem como nica fun o o reconheci
74. o tempo de total de processamento Na tabela abaixo s o apresentadas algumas especifica es da arquitectura PC PDA Processador Pentium III StrongArm SA1110 Velocidade de Processamento 1100 MHz 206 MHz Cache L1 16 Kb Instru es 16 Kb Instru es 16 Kb Dados 8 Kb Dados Cache L2 256 Kb Mem ria Prim ria 256 Mb 64 Mb Tipo SDRAM SDRAM Mem ria Secundaria 10 Gb Foram realizados os seguintes testes A Multiplica o de duas matrizes 16x16 de n meros inteiros com o resultado a ser guardado numa matriz 16x 16 Opera o repetida um milh o de vezes B Divis o de duas matrizes 16x16 de n meros com virgula flutuante com o resultados a ser guardado numa matriz 16x16 Opera o repetida um milh o de vezes C Escrita de um Megabyte 1024 bytes num ficheiro e respectiva leitura D Escrita de 10 Megabyte 10x 1024 bytes num ficheiro e respectiva leitura Armando Marques Sofia Valente 86 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Os resultados dos testes s o apresentados na tabela abaixo Tempo M dio ms A B Cc D PC 7591 12407 230 2174 PDA 31319 241777 12633 128319 Speedup PDA PC 4 19 55 59 Atrav s da an lise dos resultados poss vel chegar s seguintes conclus es Armando Marques Sofia Valente A performance do PC muito superior do PDA especialmente a n
75. ofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 S M dulo de M dulo do Recursos a PDA z5 Externos Entrada de Fala r 5 Servidor de Dados y Sa da de Fala N q J HUB Interface de Interface de Servidor de Dados a icac ade Interface comunica o comunica o Conteudos Rede Wireless A i y TTS No pi Componentes do ASR Interface de comunica o Rede Wireless Interface de comunica o M dulo do Servidor E Audio Restantes Componentes do ASR Figura 6 Arquitectura da aplica o O reconhecedor de fala para produzir resultados satisfat rios t m de ser configurado tendo em conta o dom nio da aplica o e o ambiente onde esta utilizada Torna se necess rio adaptar o mecanismo do reconhecedor de fala que procura detectar os instantes de tempo correspondentes ao in cio e ao fim de uma frase Este mecanismo de denominado de End point e tem que ser adaptado s caracter sticas de ru do ambiente do lugar onde a aplica o utilizada Esta adapta o permite diminuir o tempo de reconhecimento porque evita o processamento de ru dos Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003
76. onhecimento de fala Cassaca e Maia 2002 4 2 Gerar a biblioteca Audimus no PDA De modo a compilar a biblioteca Audimus API no PDA procedeu se compila o sequencial de cada um dos m dulos que a comp em Os blocos foram inseridos de forma gradual de modo a atingir um equil brio entre o desempenho e a independ ncia da aplica o face a processamento externo 4 2 1 Principais obst culos Na tentativa de compilar a Audimus API no Pocket PC verificou se que as bibliotecas do sistema do Pocket PC 2000 apresentam algumas diferen as em rela o s bibliotecas do Windows 32 bits De seguida apresenta se a listagem de problemas que ocorreram na compila o de cada bloco Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Problemas comuns a todos os blocos o O Pocket PC 2000 n o suporta o mecanismo de comunica o entre processos conhecido por pipes O bloco Audioln apresentou os seguintes problemas o N o foram reconhecidos os seguintes cabe alhos process h io h fcntl h pthread h time h sys types h e errno h O bloco User apresentou o seguinte problema o N o poss vel usar as bibliotecas MKL Math Kernel Library da Intel no Pocket PC 2000 O bloco Decoder apresentou o seguinte problema o N o foram reconhecidas v rias fun es e tipos de dados do C 4 2 2 Obst culos ultrapassados Apenas foram ultrapassados
77. os obst culos referentes ao bloco Audioln O que significa que a Audimus API ir funcionar de duas formas distribu do e remoto No caso do processamento distribu do o bloco Audioln executado no PDA e o resultado vai ser enviado para o servidor de udio que cont m os blocos User e Grammar No caso do processamento remoto o reconhecimento efectuado totalmente no servidor de udio Apesar de os cabe alhos mencionados anteriormente n o existirem as fun es encontram se implementadas no Pocket PC No entanto no caso da manipula o de threads houve a necessidade de substituir as fun es de cria o e termina o das mesmas A resolu o do problema dos pipes envolveu a cria o de fun es que simulam o funcionamento dos pipes Para isso foram utilizados os procedimentos de manipula o de ficheiros do Pocket PC Armando Marques Sofia Valente 35 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 4 2 3 Obst culos por ultrapassar Os blocos User e Grammar n o funcionam no Pocket PC No caso do bloco User este precisa de uma conjunto de bibliotecas para realizar opera es matem ticas e optimizadas para o processador Pentium Estas bibliotecas s o da Intel e denominam se por MKL As bibliotecas em causa cont m fun es matem ticas que permitem por exemplo a manipula o de matrizes imprescind veis no reconhecimento de padr es atrav s de redes neuronais
78. plica o do PDA e os restantes blocos executam se no servidor de udio No entanto existe tamb m a possibilidade do reconhecimento ser totalmente realizado remotamente no Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Servidor de udio Assim torna se til analisar a diferen a de desempenho entre o reconhecimento de fala realizado de forma distribu da e remotamente Os testes realizados no ponto anterior usaram o reconhecimento de fala remoto Isto a execu o da Audimus API totalmente realizada no servidor de udio O que significa que s necess rio realizar o teste ao reconhecimento de fala distribu do Para tal utilizou se a frase tr s Os resultados obtidos para o reconhecimento de fala distribu do encontram se na tabela seguinte a Frase 3 Registo T total ms 1 37008 2 36193 3 36190 4 36115 5 33814 M dia ms 35864 Desvio Padr o ms 1202 99 b T_total ms T audimus ms T distribuido ms 35864 1140 24641 Tabela 13 Resultados dos tempos obtidos para a frase 3 com a Audimus API a executar se de forma distribu da entre o PDA e o servidor de udio Como era de esperar tendo em conta a grande diferen a de desempenhos entre o PDA e o PC ver Anexo V o tempo total nesta configura o 10 vezes superior em rela o
79. riormente sua implementa o No Cap tulo 2 analisa se mais detalhadamente a comunica o Definida a estrutura de suporte comunica o chegou a altura de proceder ao desenvolvimento da aplica o Numa primeira fase definiu se os campos do formul rio m dico e os valores que estes podiam conter Com base nesta defini o foi implementada a interface com o utilizador figura 2 Esta tarefa possibilitou o preenchimento e altera o de fichas de doentes recorrendo ao teclado virtual ou o reconhecedor de letras 1 Dados Clinicos Outros Nome Z Manuel Sexo masculino X Idade 79 Seg Social 1234567690 Parado Seg Social Ej Figura 2 Interface da aplica o Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Surge ent o o problema de como e onde guardar as fichas dos doentes Como j foi referido o PDA tem restri es ao n vel do armazenamento de informa o e foi necess rio recorrer a um servidor externo Neste ponto tornou se indispens vel definir a arquitectura do sistema que abrange o PDA e o servidor externo Para al m do armazenamento de fichas de doentes o servidor ter que suportar todos os componentes do processamento de fala Com base neste requisitos surge o seguinte modelo de interac o entre o PDA e o servidor externo O PDA efectua um pedido que co
80. rmul rios num PDA 02 04 2003 Armando Marques Sofia Valente 14 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 3 Aplica o No cap tulo anterior definiram se as estruturas que suportam a comunica o entre o PDA e o m dulo do servidor de udio bem como entre o PDA e o m dulo do servidor de conte dos O presente cap tulo pretende descrever a constru o de todos os m dulos que comp em a aplica o Em primeiro lugar descrito o m dulo do PDA a n vel dos requisitos da aplica o e da interface Seguidamente detalha se a implementa o do servidor de udio ao n vel das suas funcionalidades e interac o com o m dulo do PDA Por ltimo descreve se o m dulo de recursos externos e todos os seus componentes bem como estes interagem entre si e com o PDA 3 1 M dulo do PDA O m dulo da aplica o no PDA o respons vel por toda a interac o com o utilizador pe a fundamental no preenchimento de formul rio atrav s da fala Este m dulo compreende as seguintes funcionalidades aquisi o de fala do utilizador interface com utilizador gest o dos dados dos formul rios e reconhecimento de fala Denota se ainda que a aplica o n o suporta comandos de fala limita se a realizar o preenchimento dos campos A coordena o e independ ncia de todas estas funcionalidades foram aspectos fundamentais na constru o deste m dulo A figura 9 apr
81. rte ao processamento de fala O suporte ao processamento de fala deve ser independente da aplica o de forma a ser utilizado em diferentes dom nios No que diz respeito a este trabalho o suporte ao processamento de fala n o est dependente do dom nio da aplica o de formul rios m dicos pode ser utilizado em aplica es de outros dom nios Para serem utilizadas mais facilmente as fun es e estruturas de suporte ao processamento de fala devem ser agrupadas numa API A gest o distribu da da informa o pretende servir dois prop sitos vencer as limitadas capacidades tecnol gicas do PDA e tornar a informa o dispon vel para v rios utilizadores em qualquer lugar Esta solu o tem ganho cada vez mais import ncia com a crescente necessidade de mobilidade Devem ser equacionados alguns aspectos que n o foram abordados neste trabalho como permitir o acesso informa o a um grande n mero de utilizadores simultaneamente Assim como gerir a coer ncia e integridade da informa o atrav s da aplica o de mecanismos Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 transaccionais que implementem a atomicidade consist ncia isolamento e durabilidade da informa o Reconhecimento de fala Neste trabalho foi dada uma grande nfase ao reconhecimento de fala tarefa vital no preenchimento de formul rios atrav s da fala A s ntese d
82. s o muito importantes porque as transmiss es de dados representam uma grande parte do tempo no preenchimento de formul rios atrav s da fala Podem ser tomadas algumas medidas para optimizar a comunica o Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 como utilizar um protocolo mais adequado a este tipo de dados mais r pido e menos complexo ex UDP A redu o do volume de dados transmitidos atrav s da compress o de dados ou realizando um pr processamento tamb m um factor a ter em conta A utiliza o das redes wireless por dispositivos m veis como o PDA uma solu o que permite ultrapassar algumas das limita es destes dispositivos e que n o restringe a mobilidade dentro da rea de ac o Aplica o A utiliza o da fala como meio de preenchimento de formul rios revelou se como sendo uma boa solu o Atrav s dos resultados dos testes efectuados observa se que est ao n vel dos restantes m todos de entrada de dados do PDA A fala uma forma de interac o natural flex vel f cil de utilizar e que n o precisa de nenhum tipo de aprendizagem por parte do utilizador O preenchimento dos campos atrav s da fala aumenta a usabilidade da aplica o e torna a menos dependente dos outros m todos de entrada de dados A arquitectura de uma aplica o que utilize a fala necessita de fun es e estruturas de supo
83. seguintes Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 e Audio End Point Recebe o sinal de fala vindo da entrada do sistema e calcula a energia do sinal para decidir se trata de fala ou de sil ncio extraindo a fala e eliminando o sil ncio e Rasta Faz a extrac o de caracter sticas de cada bloco de som e representa os na forma compacta Para tal utiliza um algoritmo matem tico de predi o linear neste caso uma Perceptual Linear Prediction PLP de ordem 12 da qual resultam 12 coeficientes mais a energia perfazendo um total de 13 coeficientes Estimando as derivadas temporais destes coeficientes obt m se um total de 26 coeficientes que s o passados ao subloco seguinte o Buffer e Buffer Este subloco tem a fun o de no caso de existir retardamento na ac o do bloco User guardar a informa o recebida para garantir a continuidade da ac o do Audio End Point e do Rasta User Este bloco calcula a probabilidade de cada fone de um determinado idioma no nosso caso 40 fonemas para o Portugu s estar presente em cada bloco analisado composto unicamente pelo subloco Forward e O Forward implementa uma rede neuronal o modelo do perceptr o multi camada tendo tr s n veis principais de informa o Um n vel para entrada para diversas tramas de informa o vindas do bloco anterior uma camada escondida ou interm
84. sitivos m veis introduzem novos paradigmas que levam a repensar as solu es actuais Deve se considerar este Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 trabalho como a etapa inicial de uma longa caminhada onde se avaliam as dificuldades que t m de ser vencidas e onde se tra a o caminho a seguir Armando Marques Sofia Valente 63 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Armando Marques Sofia Valente 64 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 7 Bibliografia Neto 1998 J Neto 1998 Reconhecimento da Fala Continua com aplica o de t cnicas de Adapta o ao Orador Tese de Doutoramento Instituto Superior T cnico da Universidade T cnica de Lisboa Lisboa Portugal Cassaca e Maia 2002 R Cassaca e R Maia 2002 Assistente Electr nica Relat rio do Trabalho Final de Curso Instituto Superior T cnico da Universidade T cnica de Lisboa Lisboa Portugal Shilmover 2002 B Shilmover 2002 War Walking Detecting wireless networks Pocket Pc Magazine vol 5 pp 40 41 Mitchell 2002 D Mitchell 2002 Developer s Corner The Challenges of Pocket PC Development Pocket Pc Magazine vol 5 pp 54 56 R j 2003 M R j 2003 Implementing H 323 Terminal Real Time Protocol based udio Engin
85. stentes Genericamente o programa tem uma interface muito aproximada de um formul rio m dico A aplica o deve http research microsoft com srg mipad aspx Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 permitir o preenchimento consulta altera o e elimina o de formul rios Para al m da informa o dos campos do formul rio este pode conter refer ncias a outros documentos relacionados com o doente tais como radiografias relat rios entre outros Para al m dos m todos tradicionais de entrada de dados oferecida ao utilizador a possibilidade de preencher os campos do formul rio atrav s de fala Adicionalmente o utilizador tem a possibilidade de ouvir documentos escritos associados a um doente O PDA tem recursos limitados no que respeita capacidade de processamento e armazenamento de informa o ver anexo IV A aplica o exige muitos recursos ao n vel do processamento de fala e armazenamento de informa o dos doentes Assim torna se necess rio distribuir a aplica o por um computador designado por servidor externo Esta entidade tem como fun es guardar a informa o dos doentes e realizar o processamento de fala A utiliza o do servidor externo tem como objectivo vencer as limita es do PDA Numa fase posterior pretende se transferir algumas tarefas relacionadas com o processamento de fala do servidor para o PDA
86. teclado virtual e o reconhecedor de letras O objectivo a anotar o tempo dispendido para a realiza o de cada tarefa para cada um dos dois m todos Neste teste foi utilizada a configura o de reconhecimento remoto porque a que tem melhor desempenho Modo de entrada Teclado virtual Tarefa 1 12 vez 2 vez 32 vez 4 vez 52 vez M dia s Ttotal s B6 75 55 60 61 67 Tabela 18 Tempos dispendidos na tarefa 1 usando o teclado virtual Tarefa 2 12 vez 2 vez 32 vez 4 vez 5 vez M dia s Ttotal s 94 80 62 58 59 71 Tabela 19 Tempos dispendidos na tarefa 2 usando o teclado virtual Tarefa 3 12 vez 2 vez 32 vez 4 vez 5 vez M dia s T total s 127 123 126 127 130 127 Tabela 20 Tempos dispendidos na tarefa 3 usando o teclado virtual Modo de entrada Reconhecedor de letras Tarefa 1 12 vez 2 vez 32 vez 4 vez 52 vez M dia s T total s 127 133 129 120 120 127 Tabela 21 Tempos dispendidos na tarefa 1 usando o modo de entrada reconhecedor de letras Armando Marques Sofia Valente 57 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Tarefa 2 12 vez 2 vez 32 vez 4 vez 5 vez M dia s T_total s 150 135 170 148 120 145 Tabela 22 Tempos dispendidos na tarefa 2 usando o modo de
87. tecnol gicas do PDA o armazenamento e gest o de informa o dos doentes realizado num servidor externo Nesta fase dado nfase distribui o de tarefas e ao protocolo de comunica o Numa segunda fase pretende se realizar o reconhecimento e s ntese de fala Come a se por utilizar sistemas j existentes de reconhecimento e de s ntese de fala para Portugu s Europeu colocados num sistema central Seguidamente pretende se transferir um conjunto de tarefas associadas aos sistemas de reconhecimento e s ntese de fala do sistema central para o PDA Evoluindo de um processamento distribu do para um processamento local no dispositivo Palavras chave Reconhecimento de fala em dispositivos m veis processamento autom tico de fala preenchimento de formul rios atrav s da fala Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Armando Marques Sofia Valente ii Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Agradecimentos Em primeiro lugar os nossos agradecimentos s o dirigidos ao nosso orientador Professor Jo o Paulo Neto e ao nosso co orientador Professor Lu s Caldas de Oliveira a quem devemos a oportunidade de trabalhar na rea do reconhecimento de fala Queremos ainda agradecer toda a sua ajuda e colabora o ao longo deste trabalho Gost vamos de agradecer tamb m ao
88. ter as frases texto em ondas sonoras interpretadas como fala pelo utilizador Este programa usa o motor de s ntese de fala Festival com a voz do projecto Dixi em desenvolvimento no Laborat rio de L ngua Falada do INESC ID Quando o servidor de conte dos recebe do PDA um pedido para sintetizar um ficheiro de texto envia o ficheiro para o TTS O TTS converte o ficheiro recebido num ficheiro de udio e envia o para o servidor de conte dos O conte do do ficheiro final corresponde sintetiza o de todas as frases do ficheiro de texto original Por fim o servidor de conte dos envia o ficheiro de som para a aplica o do PDA onde se proceder audi o do ficheiro 3 3 5 Base de Dados A Base de Dados cont m um ficheiro XML para cada doente Cada ficheiro tem um identificador associado que o permite distinguir dos restantes Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 O formato do ficheiro XML de cada doente tem todos os campos do formul rio do doente em tags Um exemplo de um ficheiro XML de um doente encontra se na figura 16 lt xml version 1 0 encoding ISO 8859 1 7 gt lt doente gt lt cama gt 2 lt cama gt lt nome gt Filipa de Sousa Alves lt nome gt lt sexo gt Feminino lt sexo gt lt idade gt 25 lt idade gt lt segsocial gt 88896544 lt segsocial gt lt sala gt 8 lt sala gt lt piso gt 1 lt piso gt
89. ternos O principal objectivo do m dulo de recursos externos receber e responder a pedidos da aplica o do PDA Assim distinguem se tr s opera es fundamentais Armando Marques Sofia Valente 20 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 receber os pedidos obter a resposta inerente ao pedido e envi la para a aplica o do PDA O m dulo de recursos externos cont m tr s componentes o servidor de conte dos o servidor de dados e o TTS A comunica o entre os diversos componentes realiza se atrav s do Hub O servidor de conte dos tem como fun es receber os pedidos do canal de comunica o distinguir e direccionar cada pedido para a ac o adequada O servidor de dados tem como fun o servir os pedidos do servidor de conte dos que envolvam o acesso base de dados e resolver toda a interac o com a base de dados O TTS tem como fun o sintetizar para fala os documentos enviados pelo PDA para tal efeito No anexo II est especificado em aspecto de tabela a forma das mensagens trocadas entre os componentes do m dulo de recursos externos como tamb m com o PDA 3 3 1 Servidor de Conte dos 3 3 1 1 An lise dos Requisitos do Servidor de Conte dos O principal objectivo do servidor de conte dos receber e responder aos pedidos da aplica o do PDA Os tipos de pedidos enviados pelo PDA s o os seguintes e Leitura pedido de um formul rio
90. to de formul rios num PDA 02 04 2003 Anexo IV Armando Marques Sofia Valente 81 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Especifica o do PDA A aplica o do PDA pode ser executada em qualquer PDA que possua um processador StrongARM e utilize como sistema operativo o Pocket PC O PDA utilizado na realiza o deste trabalho foi um Compaq iPAQ H3870 Este modelo do iPAQ ficou conhecido por ser o primeiro a trazer suporte Bluetooth incorporado Figura 30 Fotografias do PDA utilizado neste trabalho Dimens es 8 4 x 13 3 x 1 6 cm Peso 190 g Processador Intel StrongARM SA 1110 206 MHz Mem ria RAM 64 MB Ecru 3 8 in 240 x 320 pixels 16 bits Outros Backlit display Microfone Altifalante Entrada para Auscultadores Porta de Infra vermelhos Slot SD Card Bluetooth Bateria L tio 10 Horas de autonomia Armando Marques Sofia Valente 82 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 Placa de Rede e Microfone Foi adicionado um m dulo de expans o colocado por tr s do iPAQ para utilizar a placa de rede wireless o que tornou o iPAQ mais pesado e menos c modo Futuramente com o desenvolvimento das placas de rede wireless para o slot SD que est incorporado no PDA n o ser necess rio utilizar o m dulo de expans o
91. u o estar dispon vel no LF Uma rede Wi Fi opera apenas com um conjunto pequeno de fronteiras geralmente abrange um edif cio ou uma pequena rea de edif cios A rede Wi Fi apresenta velocidades de transmiss o altas em compara o por exemplo com o GPRS GSM O GPRS General Packet Radio Service uma solu o utilizada por telem veis para permitir o acesso de alto d bito a conte dos da Internet e a outros servi os baseados em transmiss o de pacotes O GSM Global System for Mobile Communications o sistema celular mais utilizado na Europa e na sia e permite a transmiss o de voz e dados O GPRS funciona sobre redes GSM e suporta d bitos de 14 kbps no envio e de 28 64 kbps na recep o de dados A rede Wi Fi IEEE 802 11b usa um espectro de 2 4 GHz tal como os auscultadores sem fios topo de gama A norma Wi Fi capaz de transmitir dados a uma velocidade m xima te rica de 11Mbps em boas condi es de sinal As redes Wi Fi s o as redes wireless mais populares usadas hoje em dia devido ao seu baixo custo relativo e ao seu ritmo de transmiss o razo vel No entanto duas novas normas a IEEE 802 1a e IEEE 802 11g revelam se promissoras A norma 802 11a permite uma velocidade m xima de transmiss o te rica de 54 Mbps e usa um espectro de 5 GHz A norma 802 11g usa o mesmo espectro que o 802 11b mas atrav s de Multiplexagem da Divis o de Frequ ncia Ortogonal OFDM consegue atingir uma velocidade m xima te
92. udimus API fala a um dos elementos executantes deste trabalho foi necess rio criar um novo ficheiro de pesos para a rede neuronal que comp e o bloco User O programa que permitiu realizar esta tarefa foi o Recolha que tem por base o programa Neural Network Simulator A utiliza o do programa Recolha envolve gravar um conjunto de frases ricas foneticamente com um microfone O programa Recolha quando foi utilizado neste trabalho s possu a uma vers o para o Windows NT Como era necess rio adaptar o modelo ac stico ao microfone do PDA e compilar o programa Recolha para o PDA uma tarefa demasiado complexa Foi criado uma aplica o para o PDA que permite efectuar a grava o das frases do programa Recolha e aplicar o algoritmo de End Point nos ficheiros gravados Estas opera es est o dependentes do microfone e do dispositivo e t m de ser feitas no PDA Seguidamente os ficheiros gravados no PDA foram copiados para o programa Recolha de forma a realizar o modelo ac stico do orador As frases do programa Recolha foram gravadas simultaneamente no PDA e no PC de forma a comparar o resultado da adapta o dos dois modelos de linguagem como o mesmo orador Armando Marques Sofia Valente Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 O resultado obtido no final do treino na tarefa de valida o cruzada foi de 60 93 de frases correctas para o PDA e 78 43 de frases correctas para
93. udimus API O estudo do funcionamento da Audimus API justifica se no objectivo de migrar componentes do reconhecimento de fala para o PDA No ponto 4 2 descreve se como se conseguiu incluir a Audimus API no PDA bem como quais os m dulos que se executam no PDA No ponto 4 3 est o explicados e justificados os par metros usados para configurar a biblioteca de reconhecimento O modo de constru o destes modelos encontra se nos pontos 4 4 e 4 5 Por ltimo nos pontos 4 6 4 7 4 8 e 4 9 descreve se como a aplica o do PDA usa as ferramentas de reconhecimento de fala descritas nos pontos anteriores 4 1 Descri o da Audimus API O objectivo deste ponto apresentar uma vis o geral do funcionamento da Audimus API 4 1 1 Vis o geral A Audimus API uma biblioteca de fun es que permitem realizar reconhecimento de fala numa qualquer aplica o que se execute em Windows ou em Linux para processadores Intel x86 O modelo que est na sua base cont m cinco blocos funcionais Audioln User Grammar ResultSet e Engine Os dois ltimos encontram se conceptualmente num n vel mais elevado Originalmente estes blocos estavam isolados e funcionavam de forma independente mas com a implementa o da Audimus API foram unidos de forma a funcionarem de forma homog nea 4 1 2 Os blocos funcionais AudioIn Tem como entrada um sinal de fala e com sa da a representa o do sinal numa forma mais compacta composto pelos sub blocos
94. ue cont m informa es sobre o estado da aplica o Esta mensagem enviada pela Aquisi o de Fala para a Interface WM SPEECH RECON Mensagem com o resultado do reconhecimento Esta mensagem enviada da Recep o de Resultados para a Interface Tabela 5 Tipos de mensagens da aplica o As mensagens de WM RECORD CONTROL indicam janela de di logo qual o estado da aplica o Os estados poss veis encontram se na tabela 6 Mensagem Descri o Parado N o se est a fazer aquisi o de fala e nem se est a efectuar nenhum processamento Em Grava o A aplica o est a fazer aquisi o da fala Processar A aplica o est a processar Tabela 6 Estados da aplica o Armando Marques Sofia Valente 45 Relat rio Final Utiliza o da fala para preenchimento de formul rios num PDA 02 04 2003 As mensagens de WM SPEECH RECON cont m a palavra resultante do reconhecimento A janela de di logo activa pega nessa palavra e actualiza o campo seleccionado pelo utilizador Se o campo uma Caixa de Texto adiciona essa palavra ao texto inserido da caixa Caso seja uma Caixa de Selec o feita uma pesquisa pelos valores dessa caixa O valor a ser seleccionando o que for igual palavra que resultou do reconhecimento caso n o haja nenhum valor igual seleccionado o primeiro valor n o foi definido O utilizador selecciona o campo que
Download Pdf Manuals
Related Search
Related Contents
DASCOM Americas T5040 AC-LS5 停電時におけるガス機器のご使用について Lexmark W812 (4022-xxx) Service Manual Impianti - KIFARUTEK Copyright © All rights reserved.
Failed to retrieve file