Archivo del 01/2008

Apache Tika: Herramientas de análisis y extracción de contenido

De la incubadora de Apache salen proyectos como Tika, un desarrollo en Java que proporciona herramientas de extracción de contenido para diferentes tipos de documentos como HTML, XML, RTF o PDF usando librerías de parseo. Aquí os podeis bajar la última tarball (a día de hoy, la del 7 de Enero). ¡La verdad es que tiene muy buena pinta y vale la pena echarle un ojo!