Comparativa sobre motores de búsqueda open source
Interesante la comparativa que han hecho Christian Middleton y Ricardo Baeza-Yates sobre motores de búsqueda de códido abierto. He metido este artículo en la categoría de Trovit porque además de hablar de una temática directamente relacionada, hace un tiempo fuimos a ver a Ricardo Baeza a las oficinas de Yahoo! en Barcelona para que nos aconsejara tecnológicamente sobre algunos puntos y nos diera su opinión del proyecto. El hecho de que lo viera como un proyecto interesante nos animó mucho a continuar y desde aquí quiero darle las gracias por el tiempo que nos dedicó.
El artículo habla sobre las principales características de 17 motores de búsqueda y hace una interesante comparación de rendimiento durante el proceso de indexación y recuperación de información con diferentes colecciones de documentos y diferentes tipos de consultas.
Los motores más interesantes son ht://Dig, IXE Toolkit, Indri, Lucene, MG4J, Omega, IBM Omnifind Yahoo! Edition, SWISH-E, SWISH++, Terrier (Terabyte Retriever, jeje), XMLSearch, Zettair. Después habla de Nutch (subproyecto de Lucene muy conocido) y de otros más que están paralizados en cuanto a lo que continuidad en el desarrollo se refiere como AspSeek o BBDBot.
Os invito a leer el PDF que no tiene desperdicio. Y después este post sobre Lucene donde se comenta que la nueva version de Lucene (v. 2.3) es 5 veces más rápida indexando que la release actual gracias al nuevo código de indexación de Michael McCandless. ¡Estoy deseando que salga la release!