Home
Corte e costura no AC/DC: auxiliando a melhoria da
Contents
1. Assim que existir um termo de uma regra que n o verificado o processamento avan a para a pr xima regra A execu o da regra corresponde a actualizar os atributos dos elementos da sequ ncia que fez disparar a regra de acordo com os termos e respectivos ndices especificados no consequente Ou seja se o consequente incluir por exemlo um termo indexado por 3 cujo par atributo valor sema cor quer dizer que o atributo sema do quarto elemento da sequ ncia que fez disparar a regra ser actualizado com o valor cor Por causa de ser poss vel especificar no antecedente termos que emparelham com mais do que um termo no corpo sempre que uma regra aplicada criado um mapa de indexa o entre os ndices presentes no formato interno do antecedente da regra e os ndices finais que ser o usados pelo consequente da regra Caso a regra n o contenha unidades multi palavra de comprimento vari vel o mapa equivalente identidade ou seja n o h altera o dos ndices Regras com unidades multi palavra de comprimento vari vel As regras cujo antecedente inclui unidades multi palavra de comprimento vari vel correspondente sequ ncia de termos lt mwe gt lt mwe gt s o aplicadas de um modo ligeiramente diferente de todas as outras Em parti cular quando o termo encontrado depois de ter sido validado o termo lt mwe gt o programa aceita como estando conforme ao antecedente da regra todos os elementos dessa unidad
2. lt mwe gt lema c lema sangue de boi gt gt c sema cor por sua vez transformada em O lt mwe gt 1 word azul 2 word pr ssia 3 lt mwe gt 4 lema 5 lema sangue de boi gt gt 5 sema cor Neste caso o termo do consequente no formato interno indexado pelo ndice num rico do termo que referido no antecedente por c uma vez que essa a refer ncia do nico termo no consequente Al m disso o termo lt mwe gt do antecedente foi convertido em lt mwe gt para expressar que este termo dever emparelhar com qualquer marcador estrutural lt mwe gt no corpo quaisquer que sejam os seus atributos A seguinte regra que insere uma nova unidade multi palavra a word peito word de b word rola word e c lt mwe gt N d word aurora word boreal lt mwe gt gt gt a sema cor lt mwe lema peito de rola pos N sema cor gt a b lt mwe gt c lt lema aurora boreal sema cor gt d sema cor convertida internamente em O word peito 1 word de 2 word rola 3 word e 4 lt mwe gt 5 word aurora 6 word boreal 7 lt mwe gt gt gt O sema cor O lt mwe gt O lt lema peito de rola gt 0 lt pos N gt O lt sema cor gt 2 lt mwe gt 4 lt lema aurora boreal gt 4 lt sema cor gt 5 sema cor Dado que se trata da inser o de uma multi palavra os termos lt mwe gt e lt mwe gt do conse quente ser o indexados
3. n o regista a representa o interna AVISAR com o valor 1 escreve no ficheiro de registo mensagens de aviso de poss veis conflitos entre as regras Tamb m alerta para a exist ncia de caracteres especiais n o protegidos ver sec o 2 3 4 2 2 Exemplos acdc corte e costura pl r regras txt p 3 corpo txt cat corpo txt acdc corte e costura pl r regras txt p 3 Duas formas diferentes de invocar o mesmo comando produzindo o mesmo resultado Gera um novo corpo por aplica o das regras do ficheiro regras txt ao corpo corpo txt O lema encontra se na posi o 3 de corpo txt As regras que disparam s o mostradas no STDERR indicando a linha do ficheiro original que possibilitou a activa o da regra acdc corte e costura pl r regras txt p 3 l1 log txt corpo txt gt novo txt Cria um ficheiro novo txt que corresponde ao resultado de aplicar as regras representadas em regras txt a corpo txt O registo das regras activadas feito no ficheiro log txt Regras impl citas para delimitar express es multi palavra sema cor pos ADJ amarelo sol azul alentejano sema corpo pos N ab bada de o p ab bada do p l bra o outros armado Regras de correc o word Terroso amp lema terroso gt gt pos PROP amp lema Terroso word Branco amp lema branco gt gt pos PROP amp lema Branco lema cor a lema a o gt gt a pos ADJ Regras de marca o sem ntica
4. pelos ndices num ricos das refer ncias que se encontram delimitadas por esses marcadores respectivamente Indicando que o termo O dever ser antecedido de lt mwe gt e o termo 2 dever ser precedido por lt mwe gt Finalmente com a regra a lt mwe sema cor gt lt mwe gt lema ou lema de d lema p ssego gt gt d sema cor ilustramos a convers o de uma regra cujo antecedente inclui uma multi palavra de comprimento vari vel e que convertida em O lt mwe gt O lt sema cor gt 1 2 lt mwe gt 3 lema ou 4 lema de N 5 lema p ssego gt gt 5 sema cor Dado que no momento em que a regra lida n o se sabe ainda o comprimento da multi palavra o que depende das multi palavras a que se aplicar os termos a seguir a s o normalmente indexados sequencialmente a partir do ndice de No entanto quando se aplica a regra o termo 1 vai emparelhar enquanto n o se encontrar o marcador final lt mwe gt e os ndices dos termos seguintes ter o em conta o comprimento da unidade multi palavra que se encontra no corpo ver sec o 3 1 2 Verifica o do formato das regras Mesmo que uma das regras n o verifique o formato esta belecido o programa continua a ler as regras seguintes at ter lido todas as regras No entanto sempre que o programa encontra uma regra n o v lida produz uma mensagem de erro e no fim de ter lido todas as regras caso tenha sido encontrado alguma regra inv
5. 2006 Itatiaia Brazil May 2006 PROPOR 2006 13 17 de Maio de 2006 p 256 259 5 Susana In cio e Diana Santos Documenta o da anota o morfos sint ctica da parte portuguesa do COMPARA Dezembro de 2008 http www linguateca pt COMPARA DocAnotacaoPortCOMPARA pdf 6 Cristina Mota Anota o de emo es nos corpos do AC DC 2013 http www linguateca pt documentos Mota2013 pdf 7 Cristina Mota e Diana Santos Corte e costura no AC DC au xilando a melhoria da anota o nos corpos Setembro de 2009 http www linguateca pt acesso corte e costura2009 pdf 8 Diana Santos Curso avan ado de estudos contrastivos usando o COMPARA como ferramenta 3 5 Novembro de 2008 http www linguateca pt documentos cursoCOMPARASantosEBRALC2008 pdf 9 Diana Santos Corpos lingu sticos da Linguateca apresenta o 3 de Julho de 2008 http www linguateca pt documentos SantosWorkshopTalC2008 pdf 10 Diana Santos e Eckhard Bick Providing Internet access to Portuguese corpora the AC DC project Em Maria Gavrilidou George Carayannis Stella Markantonatou Stelios Piperidis e Gregory Stainhauer editores Proceedings of the Second International Conference on Lan guage Resources and Evaluation LREC 2000 Athens 31 May 2 June de 2000 p 205 210 11 Diana Santos e Lu s Sarmento O projecto AC DC acesso a corpora disponibiliza o de corpora Em Am lia Mendes e Tiago Freitas editores Actas do XVIII Encontro Naciona
6. Corte e costura no AC DC auxiliando a melhoria da anota o nos corpos Cristina Mota cmotadist utl pt 16 de Abril de 2014 1 Apresenta o Este documento que uma vers o actualizada de 7 descreve o corte e costura um pro grama criado no mbito do projecto AC DC 10 11 2 com o fim de auxiliar a anota o humana dos corpos com informa o referente a campos sem nticos Mais especificamente o programa aplica um conjunto de regras a um corpo previamente ano tado pelo PALAVRAS 1 e transformado no formato AC DC 8 9 As regras estabelecidas pelos anotadores num formato o mais pr ximo poss vel do usado para interrogar os corpos o for mato do IMS CWB modificam eliminam ou acrescentam novos atributos anota o existente no corpo Como j referido as regras foram primordialmente definidas para melhorar a anota o sem ntica ou seja para modificarem os atributos sema e grupo Contudo muitos dos erros a cor rigir da anota o sem ntica autom tica eram provenientes de uma deficiente anota o sint ctica inicial donde o programa corte e costura foi pensado e utilizado para estabelecer tantas cor rec es quantas as que fosse poss vel especificar Por outro lado outras funcionalidades foram sendo acrescentadas aumentando se a expressi vade das regras Assim as regras podem tamb m ser usadas para identificar casos de express es com mais de uma palavra que devam ser consideradas como uma unida
7. ca se o valor do grupo tamb m ficou a 0 Caso n o tenha ficado escrita uma mensagem de aviso no ficheiro de registo 2 3 2 Regras de delimita o de compostos Existem duas formas de delimitar compostos implicitamente e explicitamente De forma impl cita a regra geralmente constitu da apenas pela sequ ncia de lemas que se deseja delimitar Exemplo cor de a car queimado No in cio da lista de palavras correspondente a um campo sem ntico diferente deve ser inclu da uma linha iniciada pelo s mbolo de coment rio seguido dos atributos sema e pos associados aos valores com que se deve anotar no corpo os compostos dessa lista bem como o primeiro constituinte do composto apenas em rela o ao sema Exemplo tt sema cor pos ADJ amarelo can rio amarelo lim o amarelo ouro tt sema roupa pos N fato de macaco chap u de palha tt sema corpo faculdade pos N ouvido musical ouvido absoluto Quando n o se quer atribuir o campo sem ntico definido no in cio da lista de palavras primeira palavra do composto quer por se querer especificar um outro valor para o campo sem ntico quer por se querer atribuir o campo sem ntico a outra ou outras palavras do composto cada palavra qual deva ser associado o campo sem ntico pr definido deve ser seguida por ou por CAMPO SEMANTICO para atribuir um campo diferente do pr definido Caso o campo sem ntico seja o mesmo mas a classe seja mais espec f
8. como sejam nt i L l lt gt x Ee estes devem ser precedidos por Para verificar se o ficheiro de regras cont m caracteres especiais n o protegidos deve se invocar o corte e costura adicionalmente com o argumento opcional a 1 Se forem encontradas regras com caracteres especiais n o protegidos o corte e costura avisa e termina a execu o sem aplicar as regras ao corpo Depois de confirmar que os caracteres n o protegidos est o a ser bem usados o corte e costura deve ser invocado sem a 1 ou com com a 0 3 Documenta o t cnica Nesta pequena sec o indicamos brevemente a forma como o programa foi idealizado quais os requisitos para a sua invoca o problemas poss veis e melhorias que ter o de ficar para o futuro 3 1 Descri o do funcionamento Dado um corpo C e um ficheiro de regras R o programa executado de acordo com o algoritmo inclu do na figura 2 Converter as regras de R num formato interno R Para cada frase F do corpo C aplicar regras R da seguinte forma F lt E Enquanto houver diferen as entre F e F repetir Para cada elemento E de F executar Para cada regra de R verificar ERR Se a regra activada a partir do elemento E ent o executa consequente da regra modificando F sta Sen o passa pr xima regra Apresentar F como resultado Figura 2 Algoritmo de processamento do corpo As regras s o todas lidas uma nica vez do ficheiro de regras se
9. de em termos sem nticos o que corresponde do ponto de vista do formato AC DC marca o do atributo estrutural lt mwe gt e modificar os seus atributos Al m disso tamb m poss vel apagar tanto elementos estruturais como posicionais O primeiro caso a ser considerado e aquele em que a maioria dos exemplos deste texto s o apresentados foi o campo da cor 14 mas o programa foi desenhado para permitir a melhoria da anota o a partir de regras independentemente dos campos a que elas se referem Ser o igualmente dados v rios exemplos referentes a outros campos sem nticos At ao momento o corte e costura foi tamb m usado para anotar vestu rio 12 emo es 6 e partes do corpo 3 A forma como o corte e costura usado na anota o do campo sem ntico em combina o com os programas alinhavo que anota as palavras que partida pertencem sempre ao campo sem ntico que se est a anotar e remate que acrescenta os grupos apresentado em 6 No restante documento apresentamos o manual de utilizador do corte e costura com des cri o detalhada de todas as op es que podem ser usadas na sua chamada e alguma documenta o t cnica 2 Manual do utilizador O corte e costura um programa escrito em Perl que l e aplica regras a um corpo no formato do AC DC e gera um novo corpo no mesmo formato resultante da aplica o das regras Para aplicar um conjunto de regras a um corpo o programa invocado com os s
10. e essa delimita o n o ocorra ou esteja deficiente poss vel que o programa perca partes do corpo O maior problema conhecido o tempo de execu o o programa extremament lento N o foram feitos testes para perceber o que acontece quando n o poss vel escrever mais nos ficheiros de di rio ou no STDOUT Caso os ficheiros n o possam ser criados ou n o existam a execu o do programa termina 3 4 Melhorias Uma melhoria bvia seria aumentar o desempenho em termos de tempo de execu o deste pro grama Tamb m se baseia na informa o r gida da ordem das colunas para tornar o programa mais flex vel poder se ia imaginar que a ordem fosse variada e especificada por corpo ou por invoca o Finalmente a sintaxe de especifica o de regras idealmente seria em tudo semelhante do IMS CWB permitindo assim regras que recorressem a express es como within s ou pos N x Isso facilitaria a escrita das regras ao linguista assim como permitiria uma expressividade muito superior 4 Trabalho futuro Este programa foi desenvolvido no mbito da melhoria do processo de revis o da anota o dos corpos do grupo de projectos relacionados com o AC DC que herdam ou herdaram a maior parte do processo de anota o que j desde a altura da revis o da anota o sint ctica do COMPARA 5 4 sab amos que era um processo moroso complicado e repetitivo O nosso objectivo era produzir mecanismos e processos de uma a
11. e multi palavra no corpo at encontrar o termo lt mwe gt Al m disso o mapeamento dos ndices dos restantes termos do antecedente ser feito tendo em conta o comprimento da unidade multi palavra que foi encontrada recorrendo sequ ncia de termos lt mwe gt lt mwe gt Desta forma se tivermos a regra lt mwe gt lt mwe gt a pos N gt gt a pos ADJ cuja representa o interna O lt mwe gt 1x 2 lt mwe gt 3 pos N gt gt 3 pos ADJ e esta regra for disparada por existir uma unidade multi palavra de comprimento 3 no corpo em vez de ser criado um mapa de indexa o M 0 0 1 1 2 2 3 3 ser criado o mapa M 0 0 1 1 2 4 3 5 Dessa forma quando o consequente executado o elemento que ser actualizado na sequ ncia n o ser o quarto dado pelo ndice 3 original mas sim o sexto dado pelo ndice correspondente a 3 no mapa ou seja 5 Regras de inser o de unidades multi palavra A inser o de novas unidades multi palavra expressa no consequente escrevendo a sequ ncia de termos lt mwe ATRIBUTO VALOR gt REF1 REF2 lt mwe gt cuja representa o interna i lt mwe gt i lt ATRIBUTO VALOR gt j lt mwe gt em que i e j s o os ndices correspondentes s refer ncias REF1 e REF2 no antecedente Quando o consequente executado se n o existir ainda uma unidade multi palavra na sequ ncia que fez disparar a regra que coincida com a unidade
12. eguintes argumentos acdc corte e costura pl r REGRAS p POSI O 1 LOG i RECURS O d DEPURAR a AVISAR CORPO O novo corpo que resulta da aplica o das regras escrito no STDOUT Caso se deseje ver uma breve descri o do programa e dos seus par metros terminando a sua execu o em seguida o mesmo dever ser invocado da seguinte forma acdc corte e costura pl h 2 1 Descri o dos argumentos Com excep o do CORPO que quando dado tem sempre de ser o ltimo argumento todos os outros argumentos podem ser usados por qualquer ordem apenas r e p s o obrigat rios REGRAS o nome do ficheiro que cont m as regras que v o ser aplicadas ao corpo CORPO o nome do ficheiro com o corpo a que v o ser aplicadas as regras caso CORPO n o seja dado este lido do STDIN POSI O o ndice da coluna onde se encontra o lema Por exemplo 5 para o CONDIV e 1 para o ENPCPUB LOG o nome do ficheiro para escrever um registo de aplica o das regras caso este p rametro n o seja dado o registo feito no STDERR RECURS O toma o valor 0 ou 1 com valor 1 repete a aplica o das regras frase at n o haver diferen as antes e depois da aplica o das regras com 0 ou omitindo o par metro aplica as regras a cada frase apenas uma vez DEPURAR com o valor 1 escreve no ficheiro de registo o formato interno de todas as regras que foram lidas do ficheiro de regras se for O ou estiver omitido
13. ica antecede se o CAMPO SEMANTICO por Ilustram se os v rios casos a seguir tt sema corpo pos N dor de cotovelo ter ouvido faculdade cabelo branco cor Finalmente quando o lema que se deseja atribuir ao composto diferente do lema que est anotado no corpo explicita se o novo lema a seguir ao lema que dever estar no corpo separando um do outro por Exemplo segundo m o segunda m o Isto indica que os lemas a procurar no corpo s o segundo m o mas o lema do composto dever ser segunda m o A regra seguinte exemplifica uma regra expl cita sem contexto que equivalente definida mais acima implicitamente para cor de a car queimado a lema cor lema de lema a car b lema queimado gt gt a sema cor lt mwe lema cor de a car queimado pos ADJ sema cor gt a b lt mwe gt regra seguinte exemplifica uma regra expl cita com contexto lema m scara a lema cor lema de b lema laranja gt gt a sema cor lt mwe gt a b lt mwe gt Como se mostra nos dois ltimos exemplos quando a delimita o dos compostos feita de forma expl cita o primeiro e o ltimo constituinte do composto devem ser precedidos no antece dente por uma refer ncia Desse modo ser poss vel indicar no consequente que se deve colocar o marcadores estruturais lt mwe gt e lt mwe gt respectivamente antes e depois desses constituin
14. l da Associa o Portuguesa de Lingu stica APL 2002 Porto Portugal 2 4 de Outubro de 2002 de 2003 p 705 717 12 Diana Santos Augusto Soares da Silva e Cristina Mota Guarda fatos no tas sobre a anota o do campo sem ntico do vestu rio em portugu s 2009 http www linguateca pt acesso GuardaFatos pdf 13 Augusto Soares da Silva O corpus CONDIV e o estudo da converg ncia e diverg ncia entre variedades do portugu s Em Lu s Costa Diana Santos e Nuno Cardoso editores Perspectivas sobre a Linguateca Actas do encontro Linguateca 10 anos Linguateca 11 de Setembro de 2008 p 25 28 http www linguateca pt LivroL10 Cap04 Costaetal2008 Silva pdf 14 Ros rio Silva e Diana Santos Arco ris notas sobre a anota o do campo sem ntico da cor em portugu s 25 de Junho de 2009 http www linguateca pt acesso ArcoIris pdf
15. lema cor lema de z lema laranja lema e b lema amarelo gt gt z sema cor b sema cor lema m scara a lema cor lema de b lema laranja gt gt lt mwe lema cor de laranja sema cor gt a b lt mwe gt a sema cor Figura 1 Exemplo de ficheiro de regras 2 3 Formato do ficheiro de regras O ficheiro de regras constitu do por uma regra em cada linha podendo haver uma ou mais linhas de separa o vazias entre as regras ver figura 1 Qualquer linha come ada por amp considerada um coment rio e consequentemente ignorada pelo programa A nica excep o quando a linha iniciada por e inclui logo a seguir os campos sema e pos como se pode ver na figura 1 O valor dos atributos usado para auxiliar a anota o de express es multi palavra quando estas s o fornecidas em formato de lista de palavras sendo obrigat rio nesse caso que o ficheiro inclua pelo menos uma linha deste tipo imediatamente antes de uma lista de palavras a sec o 2 3 2 descreve com maior detalhe o formato desta lista de palavras Cada regra constitu da por um antecedente e um consequente separados por gt gt Deve existir pelo menos um espa o antes e depois do separador gt gt Tanto o antecedente como o consequente s o constitu dos por um ou mais termos poss vel omitir o consequente quando se trata de uma regra para delimitar novas express es multi palavra sem usa
16. lida a execu o do programa interrompida As regras nas seguintes condi es tamb m ser o consideradas inv lidas e uma mensagem de erro a indic lo ser produzida e Repita o de refer ncias no antecedente e Uso de refer ncias no consequente que n o existem no antecedente 3 1 2 Aplica o das regras As regras s o aplicadas sequencialmente frase a frase pela ordem em que se encontram no ficheiro de regras Em cada itera o apenas uma frase se encontra em mem ria sendo esta representada por um vector de unidades desde lt s gt at lt s gt Cada regra aplicada desde o in cio da frase a cada elemento da mesma Uma regra s activada e consequentemente executada se existir pelo menos uma sequ ncia que comece no elemento que est a ser nesse momento processado e em que cada um dos seus elementos satisfa a um a um cada um dos termos do antecedente da regra Uma regra pode ser activada mais do que uma vez para a mesma frase numa mesma itera o se existir mais do que uma sequ ncia na frase que satisfa a as restri es expressas no antecedente da regra assim como pode existir mais do que uma regra a ser activada numa mesma itera o para sequ ncias diferentes Sempre que uma regra activada executada de imediato Isso quer dizer que uma regra pode tanto fornecer a altera o necess ria para que uma outra regra possa ser por sua vez activada como impedir que uma regra posterior possa ser activada
17. multi palavra que se est a tentar inserir O marcador inicial var ser concatenado ao nicio do elemento dessa sequ ncia e o marcador final vai ser concatenado ao fim do elemento j dessa sequ ncia caso a unidade multi palavra j esteja marcada no corpo ent o em vez de inserir novamente os marcadores os atributos do marcador inicial s o actualizados com os valores que estiverem especificados no marcador inicial presente no consequente Isto quer dizer que depois de ser inserida a unidade multi palavra o comprimento da frase representada em mem ria por um vector de unidades posicionais e estruturais continua o mesmo Com a representa o actual da frase em vector a inser o idealmente em termos de repre senta o do problema mas talvez n o em termos de efici ncia computacional num programa que j de si lento deveria aumentar o tamanho do vector e inserir dois novos elementos N o tent mos no entanto esta abordagem 3 2 Requisitos t cnicos Este programa escrito em Perl foi testado com Perl v5 8 5 e v5 8 8 em sistema operativo Linux e Mac OS X Tanto os corpos como as regras estavam codificados em IS0 8859 1 As vers es dos corpos do AC DC eram as de Setembro de 2009 3 3 Problemas Embora v rios testes tenham sido levados a cabo poss vel que configura es inesperadas dos atributos de novos corpos produzam problemas O programa aplica as regras a unidades delimitadas por lt s gt Se houver casos em qu
18. ndo guardadas em mem ria durante a execu o do programa Cada regra convertida num formato interno em que os antecedentes s o guardados num vector e os consequentes noutro vector Este formato interno semelhante ao formato em que as regras s o escritas mas facilita a aplica o das regras Se existir alguma regra que ap s convertida para o formato interno tem o mesmo antecedente de uma regra lida anteriormente o programa alerta que foi encontrada uma regra nessas condi es mas apenas no caso de o argumento a 1 ter sido especificado 3 1 1 Formato interno das regras Cada termo do antecedente e do consequente convertido em um ou mais termos indexados por um algarismo que indica a sua posi o na sequ ncia de termos que constitui o antecedente Assim uma regra como word Marinho amp lema marinho gt gt pos PROP amp 1lema Marinho convertida no seguinte formato interno O word Marinho O lema marinho gt gt O pos PROP O lema Marinho Isto quer dizer que cada atributo de um mesmo termo no antecedente da regra original ir constituir um novo termo no antecedente da regra no formato interno e ser indexado pelo mesmo algarismo Esse algarismo representa a posi o do termo original no antecedente Uma vez que s existe um termo no antecedente e no consequente o termo do consequente igualmente indexado pelo algarismo 0 A regra seguinte lt mwe gt word azul word pr ssia
19. nota o sem ntica semi autom tica que produzissem bons resultados em pouco tempo e inici mos essa tentativa pelo campo da cor seguido pelos da roupa este ltimo inspirado pelo ConDiv 13 das emo es e das partes do corpo Finalmente n o de excluir a hip tese de que uma reimplementa o deste programa venha a ser levada a cabo com o formalismo da CG em que o PALAVRAS foi escrito se se considerar que a anota o sem ntica e a sua correc o sejam mais naturalmente levadas a cabo nesse ambiente Refer ncias 1 Eckhard Bick The Parsing System Palavras Automatic Grammatical Analysis of Por tuguese in a Constraint Grammar Framework Tese de doutoramento Aarhus University Aarhus University Press Novembro de 2000 2 Lu s Costa Diana Santos e Paulo Alexandre Rocha Estudando o portugu s tal como usado o servi o AC DC Em The th Brazilian Symposium in Information and Human Language Technology STIL 2009 S o Carlos Brasil 8 11 de Setembro de 2009 3 Cl udia Freitas Esqueleto anota o das palavras do corpo humano 15 de novembro de 2013 http www linguateca pt acesso Esqueleto pdf 4 Susana In cio e Diana Santos Syntactical Annotation of COMPARA Workflow and First Results Em Renata Vieira Paulo Quaresma Maria da Gra a Volpes Nunes Nuno J Ma mede Cl udia Oliveira e Maria Carmelita Dias editores Computational Processing of the Portuguese Language th International Workshop PROPOR
20. or ver sec o 2 3 2 A refer ncia pode ser omitida em cada uma das seguintes situa es e existe apenas um termo em cada lado da regra Exemplo word Marinho amp lema marinho gt gt pos PROP amp lema Marinho e no antecedente quando o termo n o modificado pelo consequente Exemplo lema cor a lema a o gt gt a pos ADJ e no consequente quando os termos estruturais s o usados para indicar os limites de novas express es multi palavra Exemplo a lema azul b lema marinho gt gt lt mwe lema azul marinho gt A a b lt mwe gt ATRIBUTO Qualquer dos atributos previstos para o formato usado no AC DC VALOR Valor do atributo no corpo caso no consequente tenha o valor O e o atributo seja sema ent o verifica se o atributo grupo tamb m fica a 0 pois caso n o fique escreve uma mensagem de aviso no ficheiro de registo Ver sec o 2 3 4 para informa es sobre a utiliza o de caracteres especiais nesta var avel PALAVRA Palavra de um composto Quando se usa uma sequ ncia de palavras para expressar o antecedente esta n o pode ser usada em combina o com mais nenhum tipo de termo e n o pode existir consequente A sec o 2 3 2 explica em maior detalhe alguns par metros que podem ser usados quando se especifica listas de multi palavras Termo usado no antecedente para especificar express es multi palavra com comprimento vari vel E obrigat rio que seja especificado ent
21. r contexto Nesse caso o antecedente limita se a ser constitu do pela ex press o multi palavra que se pretende anotar Exemplo cor de rosa Formato dos termos v lidos em ambos os lados da regra REFER NCIA ATRIBUTO VALOR amp ATRIBUTO VALOR REFER NCIA lt mwe ATRIBUTO VALOR gt lt mwe ATRIBUTO VALOR gt lt mwe gt Formato dos termos v lidos apenas do lado do antecedente ATRIBUTO VALOR amp ATRIBUTO VALOR x PALAVRA PALAVRA Apenas se n o tiver consequente ou seja em regras impl citas Formato dos termos v lidos apenas do lado do consequente REFER NCIA REFER NCIA APAGAR Formato dos termos v lidos apenas em regras impl citas PALAVRA SEMA SEMA J PALAVRA SEMA SEMA J PALAVRA SEMA SEMA J PALAVRA SEMA SEMA PALAVRA PALAVRA Descri o das vari veis REFER NCIA Qualquer letra min scula de a a z usada para nomear um termo no antecedente de modo a que se possa referenciar esse termo no consequente com o fim de modificar a sua anota o A refer ncia tem de ser nica no antecedente e pode ser usada mais do que uma vez no consequente Tanto no antecedente como no consequente as refer ncias podem ser usadas por qualquer ordem e n o precisam ser sequenciais Caso o consequente sirva para delimitar express es multi palavra ent o a refer ncia deve ser usada sem especificar o par atributo val
22. re marcadores estruturais tal como se ilustra nos seguintos exemplos lt mwe gt lt mwe gt lt mwe pos N gt lt mwe gt 2 3 1 Regras para modificar os atributos de unidades As regras para modificar atributos de unidades existentes no corpo s o sempre constitu das por antecedente e consequente Existem dois tipos de unidades nos corpos do AC DC posicionais e estruturais Tanto o antecedente como o consequente da regra podem ser formados combinando termos de ambos os tipos o que permite alterar atributos de ambos os tipos ao mesmo tempo Exemplos a lema camisa b lema salm o amp pos N gt gt a sema roupa b pos ADJ amp gen F amp sema cor Neste exemplo o programa adiciona ou substitui se j existir o atributo sema do termo referido por a camisa com o valor roupa e os atributos pos gen e sema do termo referido por b salm o com os respectivos valores indicados no consequente pos N a lt mwe pos N gt b lema cor lema de lema laranja lt mwe gt gt gt N a lt pos ADJ gt b sema cor Este exemplo modifica o atributo pos do marcador estrutural que delimita a express o multi palavra cor de laranja e al m disso adiciona ou modifica o atributo sema do primeiro elemento do composto cor Se o atributo a modificar for sema e o novo valor for O ent o al m de actualizar o atributo no corpo com esse valor o programa verifi
23. tes Se a express o multi palavra que se pretende anotar j existir no corpo ent o o programa em vez de adicionar os marcardores estruturais faz a fus o das propriedades existentes na express o no corpo com as especificadas no consequente da regra substitui os valores dos atributos que j existiam e adiciona os novos que ainda n o existirem Ao mesmo tempo que se adiciona os marcadores tamb m poss vel modificar qualquer outro termo presente no antecedente No exemplo anterior o primeiro elemento do composto recebe o campo sem ntico cor 2 3 3 Regras para eliminar elementos estruturais ou posicionais Qualquer elemento seja estrutural ou posicional pode ser eliminado usando o termo APAGAR a seguir refer ncia desse elemento no consequente Exemplo a lt mwe gt lema cor lema de lema laranja b lt mwe gt gt gt a APAGAR b APAGAR a lema cor b lema de c lema laranja gt gt a word cor de laranja amp lema cor de laranja b APAGAR c APAGAR No primeiro caso a delimita o da express o multi palavra ser eliminada do corpo No P P P segundo caso s o eliminadas as unidades cujos lemas s o de e laranja e adicionalmente a forma cor transformada em cor de laranja bem como o seu lema 2 3 4 Protec o de s mbolos especiais no valor de atributos Caso seja necess rio incluir caracteres com significado especial para o corte e costura ou para o IMS CWB
Download Pdf Manuals
Related Search
Related Contents
34-DSC-98PS - Star Racing Toastmaster T2200 User's Manual はじめまして 頼もしい6年生(始業準備) Copyright © All rights reserved.
Failed to retrieve file