Home

Guia del Administrador de Aracne

image

Contents

1. 1 1 2 6 2 USO DE LOS SCRIPTS IMPORT EXPORT PARA BACKUP Los scripts import y export se encuentran disponibles en el directorio tool1s arn index de la plataforma Se ofrecen en dos versiones import sh y export sh para sistemas Linux y import bat y export bat para sistemas Windows El script export permite exportar todos los metadatos y la configuraci n de un servidor ARN Indexer a un fichero zip Los metadatos exportados son los mismos que cuando se utilizan las opciones equivalentes de la herramienta de administraci n ver secci n 4 3 1 El formato de invocaci n del script es el siguiente export h host p port 1 login P password f outputFilename donde h host indica el nombre o direcci n de la m quina en la que est lanzado el servidor p port indica el n mero de puerto en el que est lanzado el servidor 1 login indica el nombre de usuario con el que se realizar la conexi n al servidor P password indica la contrase a con la que se realizar la conexi n al servidor f outputFilename indica el nombre del fichero zip al que se exportar n los metadatos A continuaci n se muestra un ejemplo de ejecuci n del comando export export h localhost p 9000 1 admin P admin f backup zip Ap ndices 21 ne denodo technologies Aracne 4 5 Gu a del Administrador Este comando exporta los metadatos completos del servidor ARN Indexer que se est ejecutando en la m quina local
2. 14 6 APENDICES ia 17 6 1 SINTAXIS DE B SQUEDA DE APACHE 17 E ON 17 2 A 17 6 1 3 Moditicadores de t rmiNOS iii 18 6 1 4 Operadores 19 61 5 ES A 21 6 1 6 Agrupamiento 21 6 17 Escapar caracteres especiales a da dba a date 21 6 2 USO DE LOS SCRIPTS IMPORT EXPORT PARA 21 BIBLIOGRAF A 23 ne denodo 1 4 5 Gu a del Administrador NDICE DE FIGURAS Figura 1 ArquitecturadeDenodO Aia is 2 Figura 2 Pantalla de 5 Figura 3 Pantalla deconfig raci n general died tdi 6 Figura 4 Configuraci n de E 7 Figura 5 Pantalla del motor de b squeda issuri esaa coronarias 10 Figura 6 Resultados de b squeda para la consulta denod0 cooocicoccidionociccononcononncnrncnnrnonornnnnrororrnrnrnororancnnoss 11 w denodo technologies Aracne 4 5 Gu a del Administrador PREFACIO ALCANCE Este documento presenta el siste
3. El s mbolo sustituye el por un nico car cter en la palabra Por ejemplo si se desea buscar pato palo se introducir a el siguiente t rmino Pa o El s mbolo sustituye el por 0 o m s caracteres Por ejemplo si se desea buscar informaci n 0 inform tica se introducir a el siguiente t rmino inform Este ltimo comod n puede aparecer tambi n en el medio de t rmino te t Nota No est permitido usar los s mbolos y 2 como primer car cter de una b squeda e B squedas difusas Fuzzy Searches Lucene permite b squedas difusas basadas en la Distancia Levenshtein o algoritmo de Distancia de Edici n Para realizar b squedas difusas es necesario usar el s mbolo al final de un t rmino simple Por ejemplo para buscar t rminos que se escriban de forma similar a votar se usar a la siguiente b squeda difusa votar Esta b squeda encontrar a t rminos como botar Se puede a adir un par metro opcional que especifique la similitud requerida Es un valor entre 0 y 1 con valores cercanos a 1 s lo los t rminos con un alto grado de similitud ser n recuperados Por ejemplo votar 0 8 Si el par metro no se especifica su valor por defecto es 0 5 e B squedas por proximidad Lucene permite buscar t rminos entre los que haya cierta cercan a espacial Para realizarla se utiliza el s mbolo al final de una Frase Por ejemplo
4. en el puerto 9000 El acceso al servidor se realiza con el usuario admin con password admin El resultado de la exportaci n se guarda en un fichero llamado backup zip El script import permite importar los metadatos contenidos en un fichero zip obtenido mediante la utilidad export del servidor ARN Indexer El formato de invocaci n del script es el siguiente import h host p port l login P password f inputFilename replace donde h host indica el nombre o direcci n IP de la m quina en la que est lanzado el servidor p port indica el n mero de puerto en el que est lanzado el servidor 1 login indica el nombre de usuario con el que se realizar la conexi n al servidor P password indica la contrase a con la que se realizar la conexi n al servidor f inputFilename indica el nombre del fichero zip que contiene los metadatos a importar replace es un argumento opcional que especifica si se desean reemplazar los elementos existentes por los incluidos en el fichero que se est importando en el caso de que ya existan Por ejemplo import h localhost p 9000 1 admin P admin f backup zip replace importa los metadatos contenidos en backup zip en el servidor que se est ejecutando en la m quina local en el puerto 9000 El acceso al servidor se realiza con el usuario admin con password admin Los mensajes de informaci n y o advertencia que devuelve el servidor como resultado de la importaci n se escriben por
5. para buscar apache y jakarta con una distancia de hasta 10 palabras en el mismo documento se utilizar a la b squeda jakarta apache 10 e B squedas por rango Las b squedas por rango permiten recuperar documentos cuyo s campo s se encuentren entre un rango espec fico de valores El rango especificado puede incluir los l mites inferior y superior o no La clasificaci n se lleva a cabo siguiendo el orden lexicogr fico Ap ndices 18 ne tech JIes Aracne 4 5 Gu a del Administrador mod_date 20020101 TO 20030101 Esta consulta encuentra los documentos cuyo campo mod_date posee valores entre 20020101 y 20030101 inclusive La b squeda por rango no est limitada a los campos que contengan fechas como valor titulo Aida TO Carmen Esta consulta recupera todos los documentos cuyos t tulos se encuentren entre Aida y Carmen no inclusive Los rangos inclusivos se especifican mediante corchetes y los exclusivos mediante llaves e Aumento del nivel de relevancia de un t rmino Lucene proporciona el nivel de relevancia de los documentos recuperados en funci n de los t rminos de la consulta Para aumentar el nivel de relevancia de un t rmino se utiliza el s mbolo con un factor de incremento un n mero al final del t rmino de b squeda Cuanto m s alto sea ese factor m s relevante ser ese t rmino en la b squeda Esto permite controlar la relevancia de un
6. Lucene soporta b squedas sobre los distintos campos de un ndice Al realizar una b squeda se puede especificar un campo concreto o usar el campo por defecto Los nombres de los campos y el campo por defecto es dependiente de la implementaci n utilizada Para buscar sobre campo determinado es necesario especificar el nombre del campo seguido de dos puntos y el t rmino que se desea buscar Por ejemplo asumiendo que un ndice Lucene contiene dos campos t tulo y texto y texto es el campo por defecto si se desea encontrar un documento titulado E1 Proyecto Jakarta que contiene el texto lucene entonces se puede escribir titulo El Proyecto Jakarta AND texto lucene titulo El Proyecto Jakarta AND lucene No es necesario indicar el campo ya que texto es el campo por defecto Nota El campo afecta nicamente al t rmino que aparece a continuaci n por lo tanto la consulta titulo jakarta lucene nicamente encontrar jakarta el campo t tulo Encontrar Lucene el campo por defecto en este caso el campo texto Ap ndices 17 ne denodo technologies Aracne 4 5 Gu a del Administrador 6 1 3 Modificadores de t rminos Lucene admite el uso de modificadores en los t rminos de una consulta de manera que permite un amplio rango de opciones de b squeda e Comodines de b squeda Lucene permite el empleo de caracteres comodines en los t rminos de b squeda
7. campos se almacenan en el ndice pero opcionalmente puede especificarse que alguno no se almacene o se almacene comprimido Los valores posibles son o COMPRESS Almacena el valor del campo el ndice en un formato comprimido NO No almacena el valor del campo en el ndice o YES Almacena el valor original del campo en el ndice e Boost Especifica la relevancia por defecto del campo en las b squedas Es un valor positivo Al subir este valor se dar m s importancia en las b squedas a los documentos que contengan ocurrencias de las palabras buscadas en este campo e Search Especifica si se desea que el contenido del campo se almacene en el Default search field para que sea incluido en las b squedas globales cuando no se especifica ning n campo del esquema Administraci n 9 ne denodo tec Aracne 4 5 Gu a del Administrador En general todos los campos no binarios del documento enviado al servidor de indexaci n ser n almacenados en el ndice Store YES dividido en palabras Index TOKENIZED con relevancia 1 Boost 1 y su contenido se incluye en el campo Default search field El esquema de ndices por defecto standard define como clave primaria el campo identifier y como campo de b squeda por defecto searchableContent Tambi n define los campos path y mimetype para que no se tokenizen Index UN_TOKENIZED y se almacenen en el ndice Store YES Todos los campos se incluye
8. de Instalaci n de la Plataforma Denodo DENINST Para conectarse a la herramienta de administraci n es necesario utilizar el usuario admin con contrase a inicial admin El URL de acceso por defecto a la herramienta de administraci n web desde una m quina local es http localhost 9090 webadmin denodo aracne admin Como alternativa se proporcionan scripts en la ruta SDENODO_HOME bin Para cada servidor existe un script servername_startup sh servername_startup bat y servername_startup exe en Windows para arrancarlo y un script servername_shutdown sh servername_shutdown bat y servername_shutdown exe en Windows para detenerlo Por ejemplo para el servidor ARN CRAWLER los scripts reciben el nombre arn_startup sh y arn_shutdown sh Para arrancar y detener la herramienta de administraci n web existen los scripts arn_webadmin_startup sh y arn_webadmin_shutdown sh respectivamente larn_webadmin_startup bat y arn_webadmin_shutdown bat en Windows En el caso de m quinas Windows se incluyen scripts para instalar los servidores como servicio Los scripts reciben el nombre servernameservice bat e g arnservice bat Instalaci n y Ejecuci n 4 ne denodo tec Aracne 4 5 Gu a del Administrador 4 ADMINISTRACI N La Gu a de Instalaci n de la Plataforma Denodo DENINST proporciona informaci n detallada sobre las tareas de configuraci n que es necesario realizar antes de ejecutar Aracne En la siguiente secci n se describe
9. proporcionada por el administrador de Denodo Aracne Este tipo de robot permite la construcci n ad hoc de un crawler para una fuente espec fica La configuraci n de cada tipo de crawler concreto se describe en detalle en la Gu a de Administrador de Denodo Scheduler SCHED que es d nde se crean las tareas de extracci n ARN Lo mismo es aplicable a las acciones de mantenimiento de ARN Indexer El motor de consulta ver Figura 1 recibe consultas de los usuarios a trav s de la interfaz web o de la Aracne de b squeda recupera los resultados relevantes a esa consulta utilizando la informaci n contenida en el ndice y muestra la respuesta obtenida al usuario en forma de listado de documentos El m dulo de indexaci n y b squeda permite A trav s de Denodo Scheduler indexar documentos en diversos formatos HTML PDF Ms Word Excel PowerPoint RSS versiones 0 91 0 92 1 0 y 2 0 EML etc Realizar indexaciones y b squedas de documentos con mayor fiabilidad al no limitarse a b squedas de palabras exactas sino que las asociaciones pueden ser realizadas en base al lema ra z de las mismas Representar y realizar consultas sobre las diversas partes de un documento t tulo resumen cuerpo etc Tener varios ndices lo que posibilita la creaci n de distintos buscadores tem ticos Ordenaci n de resultados por relevancia basada en el algoritmo TFIDF B squedas avanzadas con operadores AND OR b squeda por s
10. 1 J0 denodo technologies DENODO ARACNE 4 5 GU A DEL ADMINISTRADOR Update 2 18 Dic 2008 C Alejandro Rodr guez 32 C Real 223 530 Lytton Avenue Suite 302 28039 MADRID 15003 A CORU A Palo Alto CA 94301 USA Telf 34 912 77 58 55 Telf 34 981 10 02 00 Phone 650 566 8833 Fax 34 912 77 58 60 Fax 34 981 10 02 05 Fax 650 566 8836 www denodo com ne denodo technologies Aracne 4 5 Gu a del Administrador NOTA Este documento es confidencial y propiedad de denodo technologies en adelante denodo Ninguna de las partes del documento puede ser copiada fotografiada fotocopiada transmitida electr nicamente almacenada en un sistema de gesti n documental o reproducida mediante cualquier otro mecanismo sin la autorizaci n previa o por escrito de denodo copyright O 2008 Queda prohibida la reproducci n total o parcial de este documento sin la autorizaci n por escrito de denodo technologies ne denodo Aracne 4 5 Gu a del Administrador NDICE von QUI N DEBER A USAR ESTE RESUMEN DE CONTENIDOS oococconicciniionicnonononicno nono crec rr rr l 1 INTRODUCCI N A 1 2 ARQUITECTURA GENERA L o cococicnociconacionionionenenonn conocer cer cnc 2 3 INSTALACI N Y EJECUCl N occccccocconoso
11. A and other countries All registered trademarks are properties of their respective owners Demodo Technologies S L relinquishes any interest in trademark property and names of others Copyright 2007 Denodo Technologies S L SUMMARY Denodo Technologies is a registered trademark in USA and other countries All registered trademarks are properties of their respective owners Denodo Technologies S L relinquishes any interest in trademark property and names of others Copyright 2007 Denodo Technologies S L _ URIERRORS 0 INDEXSCORE 0 29722592 2 URL http www denodo com english resources index3 php PATH denodo_4 www denodo comUMw3wQAYWNTHI7bofnPnHQ php TITLE Denodo Technologies ANCHORTEXT Web Automation MIMETYPE text html _ JOB 4 _ JOB_PROJECT default _ 3 _ J30B_START_TIME 1225294150532 J0B_RETRY_START_TIME 2008 10 29 16 29 10 _ J30B_RETRY_COUNT 0 IDENTIFIER http www denodo com english resources index3 php _ URIERRORS 0 INDEXSCORE 0 2547651 Figura 6 Resultados de b squeda para la consulta denodo Desde la pantalla de resultados de la b squeda es posible eliminar cualquier documento del ndice Para ello cada documento del resultado aparece asociado a un checkbox y al seleccionar uno o varios documentos y pulsar en el bot n Remove estos resultados ser n eliminados del ndice Existe adem s la posibilidad de eliminar todos los documentos resultado de una b s
12. a serie de crawlers para diferentes fuentes de informaci n no estructurada e Aracne Search Index Engine Server ARN INDEXER El m dulo de indexaci n y b squeda sobre ndices permite almacenar documentos para permitir realizar posteriormente b squedas sobre ellos Denodo Aracne tambi n incluye una herramienta de administraci n de configuraci n y de gesti n y b squeda sobre ndices La forma de utilizaci n normal de Denodo Aracne es a trav s del planificador de tareas de la Plataforma Denodo Denodo Scheduler SCHED En particular definiendo tareas de tipo ARN para cualquiera de los motores de crawling implementados por Denodo Aracne o tareas ARN Index para operaciones de mantenimiento autom tico sobre los ndices de ARN Indexer como eliminaci n de documentos antiguos obsoletos no accesibles etc Por otra parte el servidor de ndices puede tambi n utilizarse en la definici n de cualquier tipo de tarea de extracci n de Denodo Scheduler para exportar las tuplas obtenidas como documentos en un ndice de tal forma que se puedan realizar posteriormente complejas b squedas booleanas por palabra clave sobre ellos En la Figura 1 se muestra la arquitectura de Denodo Aracne con sus dos servidores de crawling indexaci n b squeda y su relaci n con Denodo Scheduler Adicionalmente Denodo Aracne posee su propia API de indexaci n consulta ver secci n 5 1 SCHED ARN CRAWLER WebBot PeR lECrawler Tareas Servido
13. arameters CExpression GetParameter int 1 que permiten obtener los par metros de la funci n en forma de CExpression y su n mero para facilitar la implementaci n de nuevas funciones La nueva clase debe exportar las siguientes funciones extern _ declspec dllexport void GetPlugin CFunctionExpression ppFunctionExpression ppFunctionExpression new NewFunction extern _ declspec dllexport void FreePlugin CFunctionExpression ppFunctionExpression delete ppFunctionExpression que permiten acceder a la nueva clase y liberarla desde el lECrawler API Denodo Aracne 15 w denodo technologies Aracne 4 5 Gu a del Administrador La DLL creada debe seguir la siguiente convenci n de nombrado nombre de la funci n seguido del sufijo FunctionExpression Continuando con el ejemplo de NewFunction la DLL deber a llamarse NewFunctionFunctionExpression dll Para que las nuevas DLLs puedan ser utilizadas por Denodo Aracne deben a adirse al directorio DENODO_HOMENd11laracne donde DENODO_HOME denota el directorio ra z de instalaci n de Aracne Para m s informaci n sobre la creaci n de nuevas funciones su compilaci n y vinculaci n consultar el fichero README DENODO_HOME samples aracne iecrawler api el proyecto de ejemplo en DENODO_HOME samples aracne iecrawler api Project y las declaraciones de los tipos necesarios para construir nuevas implem
14. as generales que pueden admitir ciertas excepciones Esto quiere decir que en algunos casos raros el sistema puede identificar err neamente las ra ces l xicas de algunas palabras Denodo Aracne incluye tres analizadores diferentes o standard Considera lista de palabras de parada en ingl s pero no usa stemming o english Considera lista de palabras de parada y stemming para el idioma ingl s spanish Considera lista de palabras de parada y stemming para el idioma ingl s e Schema El esquema del ndice permite especificar qu campos ser n incluidos en el ndice y con qu propiedades En la secci n 4 3 3 se describe c mo administrar esquemas de ndices y la configuraci n del esquema incluido por defecto con Denodo Aracne standard La pantalla de administraci n de ndices tambi n permite borrar el contenido de un ndice enlace Delete Index Content NOTA La distribuci n de Denodo Aracne incluye pre creado el ndice default que utiliza el analizador Standard y el esquema Standard 4 3 3 Administraci n de Esquemas de ndices Denodo Aracne permite configurar qu campos va a tener un ndice y las caracter sticas de indexaci n de los mismos Para ello es posible crear diferentes esquemas que ser n utilizados en la configuraci n de los ndices Aunque habitualmente no es necesario a trav s de la herramienta de administraci n de Aracne es posible crear editar o eliminar configuraciones de esqu
15. cat 109 Contiene informaci n relacionada con el arranque instalaci n parada de la herramienta de administraci n en el servidor web La configuraci n og de los procesos de crawling realizados con lECrawler se encuentra DENODO_HOME conf arn iecrawler Se crean los siguientes ficheros de log la ruta DENODO_HOME 1logs arn iecrawler cada tipo de log almacena hasta 10 ficheros de respaldo como m ximo con un tama o de 10MB cada uno e nombre 1 9 Fichero que contiene el flujo de eventos del crawling Es posible especificar un nombre de fichero en lugar de un directorio para el elemento ROLLINGFTILE filedefault en el fichero de configuraci n de logs Log xml En este caso un nico fichero de og contendr a el flujo de eventos de todas las tareas IECrawler que se ejecuten en el sistema en lugar de un fichero por tarea configuraci n por defecto e access_url log Contiene el listado de URLs a los que ha accedido el crawler e accept_url log Contiene el listado de URLs que el crawler ha aceptado para procesar e reject_url log Contiene el listado de URLs que han sido descartados por el crawler indicando el motivo e error_url log Contiene el listado de URLs que han producido un error al acceder a ellos por ejemplo errores HTTP 404 que no est n capturados por el servidor La configuraci n de og de los procesos de crawling realizados ExchangeMailCrawler se encuentra e
16. consola Ap ndices 22 ne denodo technologies Aracne 4 5 Gu a del Administrador BIBLIOGRAF A DENINST Gu a de Instalaci n de la Plataforma Denodo Denodo Technologies 2008 LUCE Apache Lucene http lucene apache org LOG4J Log4j http logging apache org log4j docs MSEX Microsoft Exchange Server http www microsoft com exchange SCHED Gu a del Administrador de Denodo Scheduler Denodo Technologies 2008 SLF Salesforce com On demand Customer Relationship Management http www salesforce com Ap ndices 23
17. contengan jakarta apache s lo jakarta se utilizar a la siguiente consulta Ap ndices 19 ne tech JIES Aracne 4 5 Gu a del Administrador jakarta apache jakarta jakarta apache OR Jakarta e AND El operador AND recupera documentos en los aparezcan los dos t rminos de la consulta en cualquier parte del texto del documento Su comportamiento es equivalente a la intersecci n de conjuntos Se puede utilizar el s mbolo s en lugar de la palabra AND Para buscar documentos que contengan jakarta apache y Jakarta lucene se utilizar a la consulta jakarta apache AND jakarta lucene El operador exige que el t rmino que aparece a continuaci n exista en alguno de los campos del documento Para buscar documentos que contengan el t rmino jakarta y que puedan contener Lucene la consulta ser a jakarta lucene e NOT El operador NOT excluye de la b squeda los documentos que contienen el t rmino que aparece a continuaci n del NOT Este comportamiento es equivalente la diferencia de conjuntos El s mbolo puede ser utilizado en lugar de NOT Para buscar documentos que contienen Jakarta apache pero no Jakarta lucene habr a que utilizar la consulta jakarta apache NOT jakarta lucene Nota El operador NOT no puede ser utilizado con un nico t rmino Por ejemplo la siguiente b squeda no devolver a n
18. documento aumentando el nivel de relevancia de sus t rminos Por ejemplo si se desea buscar Jakarta apache y se desea que el t rmino jakarta sea m s relevante se utilizar a el s mbolo con un factor de aumento del nivel de relevancia al lado del t rmino jakarta 4 apache Con esto se consigue que los documentos en los que aparece el t rmino jakarta resulten m s relevantes para la b squeda Esta t cnica tambi n se puede utilizar con frases no s lo con t rminos individuales jakarta 4 Jakarta lucene El factor de relevancia por defecto es 1 Debe ser un n mero positivo pero puede ser menor que 1 por ejemplo 0 2 6 1 4 Operadores Booleanos Los operadores Booleanos permiten combinar t rminos mediante operadores l gicos Lucene admite los siguientes operadores Booleanos AND OR NOT y Nota Los operadores Booleanos deben escribirse en may sculas OR El operador OR es el operador conjunci n y es el operador Booleano por defecto Esto es si no aparece ning n operador Booleano entre dos t rminos de una consulta se utiliza el operador OR El operador OR act a sobre dos t rminos y recupera un documento si alguno de los dos t rminos especificados aparece en el documento Su comportamiento es equivalente a la uni n de dos conjuntos El s mbolo tiene el mismo significado y se puede usar en lugar de la palabra OR Para buscar documentos que
19. e objetos de la clase Document que encapsula a cada documento devuelto por una consulta sobre un manejador de ndice La clase Document constituye la representaci n interna de un documento del ndice con una serie de campos variables entradas de un mapa En caso de realizar una b squeda en base a una expresi n de consulta la clase Document tambi n incluye el campo resumen destacado Este campo se puede mostrar entre marcas especiales para lo cual se debe activar el highlight Los m todos de b squeda find pueden recibir los siguientes par metros e index indica el nombre del manejador de ndice sobre el que realizar la b squeda Identifica el nombre del ndice el analizador y las extensiones del esquema de ndice utilizadas para la creaci n del mismo e startIndex indica el n mero del primer resultado que se quiere obtener e count indica el n mero de resultados que se desea obtener con la consulta API Denodo Aracne 13 w denodo technologies Aracne 4 5 Gu a del Administrador e query indica la consulta que ha introducido el usuario e mainTermsConfiguration indica la configuraci n necesaria para obtener los t rminos m s relevantes de los campos del ndice deseados ver secci n 5 1 1 e enableHighlight permite activar la aparici n de palabras entre marcas en los resultados de una consulta e highlightConfig permite especificar la configuraci n de las marcas para las palabras resaltadas Para m s infor
20. emas de ndices Para crear un nuevo esquema de ndices es necesario especificar los siguientes par metros e Schema name El nombre del esquema que ser utilizado para referenciarlo desde las pantallas de creaci n edici n de ndices e Unique key Indica el nombre del campo del esquema que representa la clave primaria e Default search field Especifica el nombre del campo del esquema el que se realizar n las b squedas sobre el ndice cuando no se especifica un campo en la consulta de forma expl cita De forma adicional es posible especificar informaci n espec fica para determinados campos del esquema Para especificar propiedades de indexaci n espec ficas para un campo es necesario a adir una entrada en la secci n Customized fields permitiendo configurar las siguientes propiedades e Name Nombre del campo al que se aplican las propiedades especificadas a continuaci n e Index Permite especificar si se pueden realizar b squedas por un campo y su tipo Los valores posibles son o No indexar el campo es decir no permitir b squedas por este o TOKENIZED Indexa el valor del campo en base al analizador especificado en el ndice de modo que puedan realizar b squedas por l o UN_TOKENIZED Indexa el valor del campo pero sin utilizar el analizador Permite igualmente realizar b squedas por ese campo e Store Permite especificar si el campo se almacena en el ndice Por defecto todos los
21. entaciones de funciones en DENODO_HOME samples aracne iecrawler api Libs Include NOTA IMPORTANTE Para que Aracne funcione correctamente si se crea una nueva funci n para el m dulo lECrawler debe implementarse la misma funci n el mismo nombre y los mismos par metros para el m dulo WebBot API Denodo Aracne 16 ne tech jies Aracne 4 5 Gu a del Administrador 6 AP NDICES 6 1 SINTAXIS DE B SQUEDA DE APACHE LUCENE Lucene LUCE adem s de posibilitar la creaci n de consultas a trav s de su API proporciona un lenguaje de consultas a trav s del QueryParser Este ap ndice proporciona la sintaxis del QueryParser de Lucene un analizador l xico que traduce una cadena de caracteres a una Query representaci n interna de una consulta en Lucene usando JavaCC 6 1 1 T rminos Una consulta se compone de t rminos y operadores Existen dos tipos de t rminos t rminos individuales y frases Un t rmino individual es una nica palabra como hola prueba Una frase es un grupo de palabras entre comillas dobles como hola mundo Los t rminos pueden combinarse entre s mediante el uso de operadores Booleanos para formar consultas complejas v ase m s abajo Nota El analizador utilizado en la creaci n del ndice ser el que se utilice sobre los t rminos y frases de la consulta ver apartado 4 3 2 para la configuraci n del analizador 6 1 2 Campos
22. ente puede verse el valor esperado en el cuadro de di logo de autenticaci n mostrado por el proxy Administraci n 6 ne denodo tec Aracne 4 5 Gu a del Administrador D Online Documentation e Logout Crawler Configuration Change Proxy Configuration Host Port Login Password Realm NTLM domain Accept Cancel No Proxy Figura 4 Configuraci n de proxy En lECrawler para un acceso v a proxy es necesario configurar los browsers de lECrawler para que utilicen Proxy la configuraci n se realiza de la misma forma que en Microsoft Internet Explorer 4 2 2 Hilos de Ejecuci n El servidor Aracne utiliza un pool de threads reutilizables para gestionar la ejecuci n de las m ltiples consultas que puede generar una misma tarea Los par metros que es posible configurar son los siguientes e Normal number of threads Representa el n mero de threads el pool a partir del cual se reutilizan los threads inactivos por defecto 20 Mientras en el pool haya menos de este n mero de threads se seguir n creando nuevos threads Cuando se solicite un thread y el n mero de threads en el pool iguale o supere este valor se devolver n threads inactivos si existen en caso contrario se seguir n creando nuevos threads hasta llegar al valor establecido por el siguiente par metro intuitivamente este par metro indica el n mero de threads que el sistema deber a de tener activos simult neamente en condiciones normales de ca
23. ex z Figura 5 Pantalla del motor de b squeda Una vez realizada una consulta de cualquiera de los tipos anteriores se muestra el resultado de la b squeda ver Figura 6 Administraci n 10 ne denodo tec jies Aracne 4 5 Gu a del Administrador Si el n mero de resultados es mayor que el n mero especificado en la b squeda los resultados aparecen paginados con lo que es necesario navegar por los enlaces de paginaci n previous y next para examinar todos los resultados obtenidos Para cada resultado se muestran sus campos que dependen del tipo de documentos indexados y del esquema de ndice considerado D Aracne 2 Online Documentation Logout Indexer Configuration Indexes Admin Schemas Admin Search Engine Denodo ARN Search Engine Search results 25 document s found a Search by keyword a Search all Index default Remove selected documents Remove Select All None Remove all documents matching the submitted query Remove All Fl 1 URL http www denodo com english copyright html PATH denodo_4 www denodo com YEXYUOEnTmegwuLX nkW5zg html TITLE Denodo Technologies ANCHORTEXT Copyright MIMETYPE text html _ JOB 4 _ JOB_PROJECT default _ 3 _ _ JOB_START_TIME 1225294150532 J0B_RETRY_START_TIME 2008 10 29 16 29 10 _ J0OB_RETRY_COUNT 0 IDENTIFIER http www denodo comfenglishfcopyright html CONTENT Denodo Technologies is a registered trademark in US
24. imilitud de palabras fuzzy b squedas por proximidad configurable de los t rminos etc Arquitectura General 3 ne tech JIes Aracne 4 5 Gu a del Administrador 3 INSTALACI N Y EJECUCI N La Gu a de Instalaci n de la Plataforma Denodo DENINST proporciona toda la informaci n necesaria para instalar Denodo Aracne incluyendo los requisitos m nimos de hardware y software e instrucciones para la utilizaci n de la herramienta de instalaci n y para la configuraci n inicial del sistema El servidor de Denodo Aracne consta de tres procesos servidores e Servidor de crawling ARN CRAWLER Este servidor se encarga de la ejecuci n de las tareas de crawling e Servidor de indexaci n b squeda ARN INDEXER Este servidor se encarga de las labores de indexaci n de informaci n en el repositorio Tambi n es capaz de ejecutar consultas de la misma forma que el servidor de b squeda e Servidor de crawling MS Exchange El crawler de MS Exchange requiere de un servidor propio que haga de Proxy contra el servidor MS Exchange El crawler MS Exchange se comunica con este servidor para realizar las peticiones de correos electr nicos y obtenerlos e Servidor de administraci n web Servidor que da soporte a la herramienta de administraci n web de los servidores de crawling y de indexaci n de Denodo Aracne Los servidores pueden arrancarse y detenerse utilizando la herramienta Denodo Platform Control Center ver Gu a
25. ing n resultado NOT jakarta apache e El operador excluye de la b squeda los documentos que contienen el t rmino que aparece despu s del s mbolo Para buscar documentos que contengan jakarta apache pero no jakarta lucene habr a que utilizar la siguiente consulta jakarta apache jakarta lucene Ap ndices 20 ne denodo technologies Aracne 4 5 Gu a del Administrador 6 1 5 Agrupaciones Lucene permite el uso de par ntesis para agrupar oraciones para formar subconsultas Esto es muy til para controlar la l gica Booleana de una consulta Para buscar jakarta 0 apache y web se usar a la consulta Jakarta OR apache AND web Esto evita confusiones y asegura que apache pueden existir web debe existir y cualquiera de los dos t rminos jakarta o 6 1 6 Agrupamiento por campo Lucene permite el uso de par ntesis para agrupar varias expresiones de b squeda para un nico campo Para buscar un t tulo que contenga la palabra retorno y la frase pantera rosa se utilizar a la consulta titulo retorno pantera rosa 6 1 7 Escapar caracteres especiales Lucene permite escapar caracteres especiales que forman parte de la sintaxis de consulta La lista de caracteres especiales es A DI A T ank e N Para escapar estos caracteres se utiliza antes del car cter Por ejemplo para buscar 1 1 2 se utilizar a la consulta
26. izado tales como art culos pronombres etc com nmente llamadas stopwords son ya eliminadas por Denodo Aracne Adem s la clase MainTermsConfig permite especificar tambi n una lista de palabras usuales comunes a todos los campos del ndice para los que se deseen obtener los t rminos m s relevantes Nuevamente no es necesario preocuparse de especificar palabras usuales del lenguaje utilizado tales como art culos pronombres etc com nmente llamadas stopwords El objeto que representa cada uno de los resultados de la b squeda com denodo commons Document proporciona m todos que permiten obtener la lista de t rminos relevantes para cada campo del documento como objetos MainTerms ya que en el campo MAINTERMS del Document se almacenar an los objetos MainTerms 5 2 EXTENSIONES 5 2 1 Creaci n de Nuevas Funciones para Expresiones Regulares Para dotar de m s potencia al lenguaje de expresiones regulares utilizado en los URLs iniciales los filtros de enlaces y de reescritura en los m dulos de crawling WebBot e lECrawler es posible crear nuevas funciones al estilo de DateFormat ver Gu a del Administrador de Scheduler SCHED Para crear nuevas funciones en WebBot implementado en Java es necesario extender la clase com denodo aracne webbot util processors function FunctionExpression implementando sus dos m todos abstractos API Denodo Aracne 14 ne denodo technologies Aracne 4 5 Gu a del Administ
27. ma de crawling indexaci n y b squeda Denodo Aracne QUI N DEBER A USAR ESTE MANUAL Este documento est dirigido a administradores que pretendan instalar configurar y o utilizar Denodo Aracne en aplicaciones de crawling o indexaci n y b squeda de informaci n procedente de la Web sistemas de ficheros servidores de correo electr nico etc RESUMEN DE CONTENIDOS M s concretamente en este documento se describen e Los procedimientos de instalaci n del Software Denodo Aracne e Configuraci n del sistema para su posterior utilizaci n e Operaci n del sistema utilizando su herramienta de administraci n Web e Construcci n de buscadores sobre la informaci n recolectada y extensi n de las funcionalidades del sistema utilizando la API Denodo Aracne Prefacio w denodo technologies Aracne 4 5 Gu a del Administrador INTRODUCCI N La suite de productos de Denodo Technologies proporciona funcionalidades avanzadas para la integraci n de informaci n procedente de fuentes dispersas heterog neas y que posiblemente presentan un bajo nivel de estructuraci n Denodo Aracne permite el crawling indexaci n y consulta de informaci n no estructurada en una amplia variedad de formatos Entre las principales caracter sticas de Denodo Aracne se encuentran e Crawling web avanzado capaz de tratar p ginas web de cualquier nivel de complejidad que incluyan caracter sticas como JavaScript HTML din mico autenticaci n redi
28. maci n consultar la documentaci n Javadoc de Denodo Aracne y los ejemplos en DENODO_HOME samples arn arn index api 5 1 1 T rminos m s relevantes de un documento Denodo Aracne es capaz de generar autom ticamente las palabras m s relevantes de un documento o de un campo del mismo de acuerdo a la medida de relevancia TFIDF Term Frequency Inverse Document Frequency Estos t rminos pueden ser obtenidos como parte del resultado de una b squeda efectuada sobre un ndice Aracne En el proceso de b squeda es posible especificar de qu campos se desea obtener los t rminos m s relevantes utilizando una instancia de la clase com denodo arn index client MainTermsConfig Este objeto contendr una instancia de la clase MainTermsFieldConfig para cada campo para el que se desee obtener t rminos relevantes especificando e N mero m ximo de t rminos relevantes del campo que se incluir n para cada documento resultado de la b squeda e Lista de t rminos relevantes a descartar opcional Lista de palabras usuales separadas por comas que no deben aparecer entre los t rminos m s relevantes de este campo Si Aracne generase entre los t rminos m s relevantes del contenido del campo alguno que apareciese en dicha lista ser a eliminado de la lista de t rminos relevantes Es importante darse cuenta de que aqu es necesario especificar solamente palabras usuales espec ficas de la aplicaci n Las palabras usuales del lenguaje util
29. n DENODO_HOME conf arn exchangecrawler El crawling genera un fichero de log en la ruta DENODO_HOME 1logs arn exchangecrawler almacena hasta 10 ficheros de respaldo como m ximo con un tama o de 10MB cada e 1 1 109 Fichero que contiene el flujo de eventos del crawling Administraci n 12 ne denodo technologies Aracne 4 5 Gu a del Administrador 5 5 1 CLIENTE B SQUEDA INDEXACI N Adem s de proporcionar una interfaz Web ya construida para realizar b squedas sobre la informaci n descargada e indexada Denodo Aracne tambi n permite implementar un buscador propio acorde a necesidades m s concretas Para ello la plataforma posee una fachada com denodo arn index client IndexManager que permite las siguientes funcionalidades e find obtiene los documentos del ndice paginando en base a un ndice de inicio y un n mero de documentos Este m todo presenta diversas firmas si se le pasa una consulta devuelve s lo los documentos obtenidos en base a esa query en caso contrario devuelve todos los documentos del ndice Tambi n permite activar el la funcionalidad de highlighting de modo que las palabras de la consulta aparecen resaltadas con un color diferente en los resultados de la b squeda se puede utilizar la configuraci n por defecto o especificarla en el objeto High1ightConf ig Adem s para el caso de documentos que pr
30. n en el campo de b squeda por defecto 4 3 4 Motor de B squeda La herramienta de administraci n de Denodo Aracne proporciona la posibilidad de realizar b squedas y operaciones de mantenimiento sobre los ndices creados Para ello es necesario seguir el enlace Search Engine de la pantalla inicial de la herramienta de administraci n del servidor de ndices En la pantalla del motor de b squeda ver Figura 5 se proporcionan dos posibilidades de b squeda sobre el ndice e B squeda por palabra clave Es necesario introducir los siguientes par metros o Keywords Las palabras clave necesarias para la b squeda en el ap ndice 6 1 puede consultarse la sintaxis de b squeda o Results per page Indica el n mero de resultados que se desea por p gina El valor por defecto es 10 o Index Especifica el nombre del ndice sobre el que se desee realizar la b squeda En este caso ser default e Obtenci n de la lista de todos los documentos del ndice o En esta modalidad de b squeda s lo es necesario modificar si se desea el n mero de resultados a mostrar por p gina Results per page que tomar como valor por defecto 10 o Adem s es necesario indicar el nombre del ndice Index sobre el que realizar la b squeda a Online Documentation Logout Indexer Configuration Indexes Admin Schemas Admin Search Engine Denodo ARN Search Engine Search by TE a Search all Keywords Results per page al Ind
31. n las opciones de configuraci n del servidor y los logs del sistema 4 1 AUTENTICACI N Al acceder a la herramienta de administraci n de Denodo Aracne se muestra una pantalla inicial de autenticaci n ver Figura 2 en la que el usuario deber introducir la contrase a de administraci n El usuario tambi n debe especificar a qu servidor desea conectarse al servidor de crawling Aracne Server o al servidor de indexaci n b squeda Aracne Search Index Engine Server Tambi n proporciona la posibilidad de recordar la contrase a para futuras autenticaciones En la misma pantalla se permite la opci n de modificar el servidor Denodo Aracne nombre del servidor y puerto del proceso de administraci n contra el que se conectar la herramienta D Aracne Login admin Password Server Aracne Server X Remember password Host Login Figura 2 Pantalla de autenticaci n 4 2 ADMINISTRACI N DEL SERVIDOR ARACNE ARN CRAWLER Una vez autenticado en la herramienta de administraci n del servidor de crawling el usuario puede acceder a la pesta a de configuraci n d nde se le presentan las siguientes posibilidades ver Figura 3 e Modificar la contrase a de administraci n e Cambiar la configuraci n de acceso a trav s de Proxy del crawler WebBot y del servidor Aracne ver secci n 4 2 1 e Indicar otro servidor de administraci n Aracne al que conectarse Para ello debe utilizarse la opci n Change Current Admin Serve
32. nfiguraci n de los ndices existentes o borrarlos Para crear o editar un ndice es necesario especificar la siguiente informaci n Administraci n Index name El nombre del ndice Index path La ruta en el sistema de ficheros en la que se almacenar f sicamente la metainformaci n y datos del ndice Analyzer type El tipo de analizador especifica qu tokens de un texto son considerados en el momento de resolver una consulta El analizador a utilizar debe escogerse en funci n del idioma esperado para los documentos a indexar y de si se desea o no aplicar t cnicas de stemming y eliminaci n de tokens muy habituales lista de palabras de parada Los analizadores que utilizan stemming tratan de eliminar las terminaciones morfol gicas m s comunes de las palabras de un documento antes de que ste sea indexado El objetivo es conseguir que una b squeda por una determinada palabra clave devuelva tambi n los documentos que contienen otras palabras con la misma ra z l xica Por ejemplo si se busca la palabra comercio se devolver n tambi n los documentos que contengan palabras tales como comerciar comercios o comerciando Dependiendo del uso que vaya a recibir la aplicaci n las t cnicas de stemming pueden ser convenientes o no Tambi n es necesario tener en cuenta que las t cnicas de stemming se basan en ne tech JIes Aracne 4 5 Gu a del Administrador una serie de regl
33. ooosrsmserrrrsemmsrrrrssmsrrremssss 4 4 ADMINISTRACI N coococcnonnonosscnnssorroere enseres seres 5 41 AUTENTICACI N 4 2 ADMINISTRACI N DEL SERVIDOR ARACNE 5 4 21 Configuraci n a a 6 422 Milos de EJECUCI N ari id 7 43 ADMINISTRACI N DEL SERVIDOR DE B SQUEDA INDEXACI N ARN INDEXER 1 4 3 1 Configuraci n del 8 4 3 2 Administraci n de 1 pio 8 4 3 3 Administraci n de Esquemas de 9 UA MOI FEB A e a 10 4 4 CONFIGURACI N DE 1068 12 5 rr rr 13 5 1 API CLIENTE B SQUEDA INDEXACl N occcnncccoccononoooooosssosorrsssesrorrsnserrsrrseserrsrrsseses 13 5 1 1 T rminos m s relevantes de un documento o coocccncnccncnccnnnnnnnrnnoncnnnnnoranoornnnornnonro ron rorannoronarrarnonananoans 14 5 2 EXTENSIONES las 14 5 2 1 Creaci n de Nuevas Funciones para Expresiones
34. os utilizados por el servidor opci n Configure Server Ports La modificaci n tendr validez la pr xima vez que se arranque el servidor Exportar la metainformaci n de ndices y esquemas del servidor opci n Export Esta funcionalidad es especialmente til para prop sitos de respaldo backup y o migraci n a otras instalaciones de ARN Indexer Para ello se genera un fichero comprimido con Zip conteniendo toda la informaci n necesaria para restablecer la metainformaci n del servidor al estado de ese momento incluye tambi n el fichero de configuraci n del servidor La plataforma proporciona scripts para este mismo prop sito ver ap ndice 6 2 Importar la configuraci n ndices y esquemas de ndices a partir de un fichero que contiene el estado de un servidor en un determinado momento opci n Es posible especificar si se desea reemplazar elementos existentes por los incluidos en el fichero que se est importando en el caso de que ya exista un ndice o esquema de ndices con el mismo nombre Esta funcionalidad es especialmente til para prop sitos de migraci n ARN Indexer incluye scripts para este mismo prop sito ver ap ndice 6 2 4 32 Administraci n de ndices El servidor de indexaci n gestiona un conjunto de ndices en los que se pueden almacenar documentos o sobre los que se pueden realizar consultas La pantalla de administraci n de ndices permite crear nuevos ndices editar la co
35. ovengan de extracciones contra VDP se puede utilizar el objeto MainTermsConfig que crea un nuevo campo con los datos m s relevantes de los campos del documento e getFields obtiene una lista de todos los campos nicos que existen en el ndice e listIndices obtiene la lista de manejadores de resultados de Aracne que permiten la realizaci n de b squedas Cada uno de estos manejadores IndexEngineMetadata incluye la lista de campos del esquema de ndice que representan Adicionalmente pueden incluir una lista de campos generados tras una b squeda como por ejemplo la relevancia de un documento en una b squeda realizada e addDocument a ade un documento a un ndice e addDocument s a ade documentos a un ndice e addElement crea un nuevo elemento usando la configuraci n que recibe como par metro e changePassword permite los clientes cambiar su password e changeServerPorts permite modificar los n meros de puerto usados por el servidor e CreatelIndex permite crear un nuevo ndice e delete permite borrar un ndice y todos los documentos que contiene e deleteDocuments permite borrar de uno o varios ndices todos los documentos obtenidos como resultado de una consulta e deleteDocuments elimina documentos de un ndice en base a una consulta o a un valor para un campo espec fico del ndice Los m todos de find devuelven un objeto de tipo Document Chunx Esta clase representa una colecci n d
36. queda sobre el ndice pinchando en el bot n Remove All Administraci n 11 ne denodo technologies Aracne 4 5 Gu a del Administrador 44 CONFIGURACI N DE LOGS Denodo Aracne posee la ruta DENODO_ HOME conf arn donde DENODO_HOME se refiere a la ruta base de instalaci n el fichero de configuraci n de log del servidor de crawling y la ruta DENODO_HOME conf arn index el fichero de configuraci n del servidor de indexaci n b squeda Estos ficheros est n basados en 1004 LOG4J Entre otras posibilidades se permite modificar la ruta donde se almacenan los ficheros de og y el nivel de log de las categor as definidas en la aplicaci n Para m s informaci n v ase la documentaci n de 094 El servidor de crawling genera un fichero de nombre arn log en la ruta DENODO_HOME logs arn y el servidor de indexaci n otro de nombre arn index log en la ruta DENODO_HOME logs arn index La herramienta de administraci n web tambi n posee un fichero de configuraci n 10943 xml para establecer el nivel de registro de los eventos generados por esta aplicaci n Este fichero se encuentra en el directorio DENODO_HOME resources apache tomcat webapps webadmin denodo aracn admin WEB INF classes La herramienta de administraci n genera dos ficheros de log e DENODO_HOME logs arn arn admin log Contiene informaci n de ejecuci n la herramienta de administraci n e DENODO_HOME logs apache tomcat denodo tom
37. r de motores POP3 IMAP de crawling MS Exchange Salesforce 99 ARN INDEXER Figura 1 Arquitectura de Denodo Aracne El n cleo de ARN Crawler lo constituyen los robots de crawling e WebBot e lECrawler atraviesan la estructura de hipertexto de la Web partiendo de un conjunto de URLs iniciales y recuperan de forma recursiva todas las p ginas accesibles desde el conjunto de URLs de partida Permiten adem s conectarse a un servidor FTP y obtener la informaci n contenida en todos los ficheros y subdirectorios de un directorio especificado como URL inicial WebBot es capaz adem s de explorar un sistema de ficheros considerando como URL inicial un directorio y extrayendo la informaci n contenida en todos sus ficheros y subdirectorios Arquitectura General 2 3165 4 5 Gu a del Administrador Crawler POP3 IMAP Permite recuperar informaci n de correos electr nicos contenidos en servidores accesibles a trav s de los protocolos POP3 o IMAP Incluye soporte para ficheros adjuntos Crawler MS Exchange Permite recuperar informaci n de correos electr nicos contenidos en servidores MS Exchange MSEX Incluye soporte para ficheros adjuntos Crawler Salesforce com Permite recuperar informaci n contenida en entidades de datos accesibles a trav s de una cuenta en el servicio on line Salesforce com SLF CustomCrawler permite extraer la informaci n de una fuente de datos a trav s de una implementaci n Java
38. r e indicar el nombre de m quina y el puerto de ejecuci n del servidor que se desea pasar a administrar Administraci n 5 ne denodo tec Aracne 4 5 Gu a del Administrador Cambiar los puertos utilizados por el servidor opci n Configure Server Ports La modificaci n tendr validez la pr xima vez que se arranque el servidor Configurar el nivel de concurrencia del servidor ver secci n 4 2 2 o Aracne 2 Online Documentation Logout Crawler Configuration 2 Change Password Change Proxy Configuration Current Admin Server Host localhost Change Current Admin Server Port 11000 Configure Server Ports Configure Threads Pool Figura 3 Pantalla de configuraci n general 4 2 1 Configuraci n de Proxy Cuando los crawlers web deban acceder a la informaci n a trav s de un proxy ser necesario configurar la informaci n del mismo Desde la pesta a de edici n de configuraci n de la herramienta de administraci n es posible configurar un Proxy para el crawler WebBot y el servidor Aracne Para ello debe pulsarse la opci n Change Proxy Configuration y especificar los siguientes par metros ver Figura 4 e Host Nombre o direcci n IP de la m quina que act a como Proxy e Port N mero de puerto en el que est lanzado el servicio de Proxy e Login Identificador de usuario en el Proxy e Password Contrase a del usuario en el Proxy e Realm NTLM Domain Dominio de seguridad del Proxy Normalm
39. rador public abstract void validate que comprueba que los par metros de la funci n son v lidos y en otro caso lanza una ExpressionProcessorException public abstract String doProcess que eval a la funci n y la sustituye por su valor correspondiente En el caso de la funci n DateFormat doProcess Calcula la fecha que se corresponde con una expresi n determinada y la devuelve como un String siguiendo el patr n indicado La clase FunctionExpression proporciona dos m todos utilidad public String getParameter int 1 throws InvalidParameterException public int getNumOfParameters que permiten obtener los par metros de la funci n y su n mero para facilitar la implementaci n de nuevas funciones Para que las nuevas funciones puedan ser utilizadas por Denodo Aracne stas deben pertenecer al paquete com denodo aracne webbot util processors function Para m s informaci n consultar la documentaci n Javadoc de Denodo Aracne y los ejemplos en DENODO_HOME samples aracne webbot api Para crear una nueva funci n lECrawler implementado en C es necesario generar una nueva DLL con una clase por ejemplo NewFunction que extienda la clase CFunctionExpression y que implemente el siguiente m todo CProcessorResult DoProcess que eval a la funci n y devuelve su valor en forma de CProcessorResult Adem s la clase CFunctionExpression proporciona dos m todos utilidad int GetNumOfP
40. recciones complejas men s emergentes etc e Crawling de servidores FTP y de sistemas de ficheros e Posibilidad de recuperar el contenido de mensajes de correo electr nico accesibles v a POP3 o IMAP e Crawling de cuentas de correo de Microsoft Exchange Server e R pida indexaci n una media de 200MB hora e Peque o tama o de ndices aproximadamente el 30 del tama o del texto indexado e Soporte para los formatos m s populares HTML texto XML MS Word RSS versiones 0 91 0 92 1 0 y 2 0 PDF MS Excel MS PowerPoint EML etc e B squedas complejas soporte para operadores AND OR NOT uso de par ntesis uso de comodines b squedas por frase exacta b squedas multicampo t tulo URL e Mantenimiento de ndices mediante la eliminaci n de documentos antiguos obsoletos no accesibles etc La planificaci n y configuraci n de las tareas de crawling ejecutadas por Denodo Aracne se realiza a trav s del m dulo Denodo Scheduler V ase SCHED para informaci n detallada al respecto Introducci n 1 ne denodo technologies Aracne 4 5 Gu a del Administrador 2 ARQUITECTURA GENERAL Denodo Aracne se divide en dos m dulos independientes e Aracne Server ARN CRAWLER El m dulo de crawling constituye una herramienta de recuperaci n autom tica de informaci n no estructurada disponible en la Web sistemas de ficheros servidores de correo electr nico etc ver Figura 1 Denodo Aracne dispone de un
41. rga e Maximum number of threads Representa el n mero m ximo de threads del pool por defecto 60 e Keep alive time ms Especifica el tiempo m ximo en milisegundos que un thread inactivo permanece en el pool si el n mero de threads totales supera el indicado en Normal number of threads por defecto 0 Si el valor es 0 entonces los threads creados por encima de este valor una vez terminada la ejecuci n de su tarea finalizan En caso contrario finalizan aquellos que excedan el tiempo especificado en este par metro 4 3 ADMINISTRACI N DEL SERVIDOR DE B SQUEDA INDEXACI N ARN INDEXER Una vez autenticado en la herramienta de administraci n del servidor de indexaci n b squeda el usuario puede acceder a una de las siguientes funcionalidades Administraci n 7 gies Aracne 4 5 Gu a del Administrador Configuraci n del servidor de indexaci n ver secci n 4 3 1 Administraci n de ndices ver secci n 4 3 2 Administraci n de esquemas de ndices ver secci n 4 3 3 Motor de b squeda ver secci n 4 3 4 4 3 1 Configuraci n del servidor La pesta a de configuraci n del servidor permite las siguientes posibilidades Modificar la contrase a de administraci n Indicar otro servidor de administraci n Aracne al que conectarse Para ello debe utilizarse la opci n Change Current Admin Server e indicar el nombre de m quina y el puerto de ejecuci n del servidor que se desea pasar a administrar Cambiar los puert

Download Pdf Manuals

image

Related Search

Related Contents

comet plunger pump service manual index  Minolta Color PageWorks EX Plus Laser Printer  OM, Gardena, 9807, EasyCut 400/25, Turbotrimmer  PM500 Installation manual  520COM-UM001A-EN-E PowerFlex 525 Embedded EtherNet/IP  Samsung AQ18MSBX User Manual  Información del iPhone  eedes15-200_1_bpmks967a  MYCOAD MYCOAD AZ  Sistema Portafolio de Título Manual de Usuario DUOC UC  

Copyright © All rights reserved.
Failed to retrieve file