<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Daniel Gimenez &#187; Lucene</title>
	<atom:link href="http://www.danielgimenez.net/category/lucene/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.danielgimenez.net</link>
	<description>"Dime y lo olvido, enséñame y lo recuerdo, involúcrame y lo aprendo"</description>
	<lastBuildDate>Wed, 01 Sep 2010 12:18:09 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>Preparando la &#8220;training class&#8221; sobre tomcat</title>
		<link>http://www.danielgimenez.net/2009/03/23/preparando-la-training-class-sobre-tomcat/</link>
		<comments>http://www.danielgimenez.net/2009/03/23/preparando-la-training-class-sobre-tomcat/#comments</comments>
		<pubDate>Mon, 23 Mar 2009 03:23:49 +0000</pubDate>
		<dc:creator>Daniel Giménez</dc:creator>
				<category><![CDATA[Java]]></category>
		<category><![CDATA[Lucene]]></category>
		<category><![CDATA[Trovit]]></category>
		<category><![CDATA[Web]]></category>
		<category><![CDATA[hackaton]]></category>
		<category><![CDATA[hadoop]]></category>
		<category><![CDATA[tomcat]]></category>

		<guid isPermaLink="false">http://www.danielgimenez.net/?p=505</guid>
		<description><![CDATA[&#8220;Everything Tomcat &#8211; Administering, Tuning, Troubleshooting and Developing&#8220; es el título del training al que asisto mañana y pasado mañana en el mismo hotel en el que estamos alojados. He acabado ahora mismo de preparar unas cuantas instancias de Tomcat con diferentes configuraciones para poder aprovechar al máximo las clases y no perder tiempo con [...]]]></description>
			<content:encoded><![CDATA[<p><span class="session-name">&#8220;<em><strong>Everything Tomcat &#8211; Administering, Tuning, Troubleshooting and Developing</strong></em>&#8220;</span> es el título del training al que asisto mañana y pasado mañana en el mismo hotel en el que estamos alojados. He acabado ahora mismo de preparar unas cuantas instancias de Tomcat con diferentes configuraciones para poder aprovechar al máximo las clases y no perder tiempo con problemas de configuración que no aportan nada. Ya me he informado sobre el ponente y algunos de los asistentes. Internet es maravilloso: puedes sacar información de los sitios más inesperados.</p>
<p><strong>Raimon Bosch</strong> también empezará mañana con su <em>training</em> sobre Hadoop  en otro de los cursos: &#8220;<em><strong>Hadoop Tools and Tricks for Data Processing Pipelines</strong></em>&#8220;. Creo que en <a title="Trovit" href="http://www,trovit.es" target="_blank">Trovit</a> vamos a empezar a sacarle partido a Hadoop en algunas de las áreas más conflictivas.</p>
<p>Por último, <a title="Marc Sturlese" href="http://www.marcsturlese.com/" target="_blank"><strong>Marc Sturlese</strong></a> acudirá a <span id="more-505"></span> las <strong><em>Hackaton</em></strong>. Aquí tendrá la posibilidad de conocer a muchos desarrolladores de la Apache Software Foundation y podrá hablar directamente con la gente que escribe el código de las aplicaciones que utilizamos cada día. Por supuesto, ya tiene un buen listado de temas a consultar y discutir con los desarrolladores <img src='http://www.danielgimenez.net/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
<p>Otro tema importante es coger buena nota de todo para poder traspasar el conocimiento a todo el equipo que no ha venido a las conferencias. En dos semanas tocará presentar todo lo aprendido en una <strong><em>masterclass</em> en Barcelona</strong> en las oficinas de <a title="Trovit" href="http://www.trovit.es" target="_blank">Trovit</a>.</p>
<p>Aunque parezca mentira, hoy <strong>lo hemos estado preparando todo para que mañana sea un día lo más productivo posible</strong> <img src='http://www.danielgimenez.net/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' />  ¡No sólo hay fiesta en Amsterdam!</p>
]]></content:encoded>
			<wfw:commentRss>http://www.danielgimenez.net/2009/03/23/preparando-la-training-class-sobre-tomcat/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Lucene 2.4.0 disponible</title>
		<link>http://www.danielgimenez.net/2008/10/20/lucene-240-disponible/</link>
		<comments>http://www.danielgimenez.net/2008/10/20/lucene-240-disponible/#comments</comments>
		<pubDate>Mon, 20 Oct 2008 10:45:34 +0000</pubDate>
		<dc:creator>Daniel Giménez</dc:creator>
				<category><![CDATA[Java]]></category>
		<category><![CDATA[Lucene]]></category>
		<category><![CDATA[lucene 2.4.0]]></category>

		<guid isPermaLink="false">http://www.danielgimenez.net/?p=203</guid>
		<description><![CDATA[Desde el dia 8 de octubre está disponible la nueva release de Java Lucene v. 2.4.0 con mejoras y varios fixed bugs respecto de su version anterior. Entre ellos cabe destacar:
- El autoCommit a true en el indexWriter por fin comite, hasta ahora debiamos hacer un commit() explícito. Por contra, en la nueva versión los flush() [...]]]></description>
			<content:encoded><![CDATA[<p>Desde el dia 8 de octubre está disponible la nueva release de <em><strong>Java Lucene v. 2.4.0</strong></em> con <strong>mejoras</strong> y varios <em><strong>fixed bugs</strong></em> respecto de su version anterior. Entre ellos cabe destacar:</p>
<p>- El <em><strong>autoCommit</strong></em> a true en el <em>indexWriter</em> por fin comite, hasta ahora debiamos hacer un <em>commit()</em> explícito. Por contra, en la nueva versión los <em>flush()</em> (que en versiones anteriores hacian commits) ahora quedan desfasados. Hemos de tener cuidado con esto si actualizamos la versión en nuestros indexadores.</p>
<p>- Ahora podemos especificar el <strong>tamaño máximo de un <em>Field</em></strong> directamente en el <em>IndexWriter</em>.</p>
<p>- El índice guarda cadenas de texto en bytes <strong>UTF-8</strong> directamente. Hasta ahora era JAVA el que se encargaba de hacer la transformación.</p>
<p>- <em>org.apache.lucene.search.Hits</em>, <em>Hit</em> y <em>HitIterator</em> quedan desfasados.</p>
<p>- Varias mejoras en el <strong>SpellChecker</strong>, en el <strong>IndexDictionary</strong> y en el <strong>ISOLatin1AccentFilter</strong>. Otra cosa importante: ahora podemos crear una clase específica de Similarity para utilizarla en el <em>MoreLikeThis</em>. La función <em>retrieveTerms(int)</em> pasa a ser pública para recoger términos parecidos a uno dado.</p>
<p>- Curiosidad: desaparece el <strong><em>deleteDocuments(Query) </em></strong>del <em>IndexReader</em> para pasar a formar parte del <em>IndexWriter</em>. Esto si que era raro&#8230; aunque seguro que quién lo puso ahí tuvo sus razones.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.danielgimenez.net/2008/10/20/lucene-240-disponible/feed/</wfw:commentRss>
		<slash:comments>11</slash:comments>
		</item>
		<item>
		<title>Trovit en la PHPConference de Barcelona</title>
		<link>http://www.danielgimenez.net/2008/09/30/trovit-en-la-phpconference-de-barcelona/</link>
		<comments>http://www.danielgimenez.net/2008/09/30/trovit-en-la-phpconference-de-barcelona/#comments</comments>
		<pubDate>Tue, 30 Sep 2008 22:23:53 +0000</pubDate>
		<dc:creator>Daniel Giménez</dc:creator>
				<category><![CDATA[Java]]></category>
		<category><![CDATA[Lucene]]></category>
		<category><![CDATA[Trovit]]></category>
		<category><![CDATA[Web]]></category>
		<category><![CDATA[phpconference]]></category>
		<category><![CDATA[sharedance]]></category>

		<guid isPermaLink="false">http://www.danielgimenez.net/?p=110</guid>
		<description><![CDATA[Aquí os dejo el enlace a las fotos del equipo de Trovit en la PHPConference en el Citilab de Cornellà. La verdad es que me pareció un evento super interesante.
En especial me gustó la conferencia sobre &#8220;Emails in PHP&#8221; de Marcus Bointon que según creo es una de las personas que mantienen PHPMailer (por cierto, [...]]]></description>
			<content:encoded><![CDATA[<p>Aquí os dejo el enlace a las <a title="Fotos de Trovit" href="http://www.flickr.com/photos/30939355@N06/" target="_blank">fotos del equipo de Trovit en la PHPConference en el Citilab de Cornellà</a>. La verdad es que me pareció un evento super interesante.</p>
<p>En especial me gustó la conferencia sobre &#8220;Emails in PHP&#8221; de Marcus Bointon que según creo es una de las personas que mantienen <a title="PHPMailer" href="http://sourceforge.net/projects/phpmailer" target="_blank">PHPMailer</a> (por cierto, creo que tiene algún bug al trabajar con UTF-8). Me hubiese gustado que hablara un poco sobre la problemática del envío de emails al utilizar diferentes codificaciones (que es un mundo aparte) pero no pudo ser. ¡Otra vez será!</p>
<p>Otra conferencia interesante fué la de <a title="Softonic" href="http://www.softonic.com" target="_blank">Softonic</a>. Concretamente habló <a title="Jens Bierkandt" href="http://www.bierkandt.org/" target="_blank">Jens Bierkandt</a> y me gustó la explicación que dió sobre como trabajan con sesiones mediante <a title="Sharedance" href="http://sharedance.pureftpd.org/project/sharedance" target="_blank">Sharedance</a>. No conocía este producto: básicamente se trata de mantener una caché de las sesiones de usuario y se basa en la misma idea que memcached pero resolviendo el problema de la persistencia de datos guardando la información en disco. Realmente interesante para la distribución de sesiones cuando tienes muchos frontales y quieres evitar utilizar la base de datos. Os puedo asegurar que es una solución realmente buena: el utilizar la base de datos para el mantenimiento de sesiones acaba significando o hacer fragmentación horizontal en las tablas involucradas (que a mi entender es una solución muy válida) o comprar una máquina más potente (cosa que no os aconsejo para nada, ¡una de las claves del éxito de un negocio en internet es pensar siempre en distribuido!).</p>
<p>Por otro lado, curiosa la presentación de <a title="Zoë Slattery" href="http://www.linkedin.com/pub/4/614/4a4" target="_blank">Zoë Slattery</a> sobre &#8220;Text indexing and search libraries for PHP&#8221;. No es normal que en una conferencia sobre PHP se muestren unos benchmarks favoreciendo a JAVA pero lo cierto es que hay que mostrar la realidad y la realidad es la que mostró Zoë (en <a title="Trovit" href="http://www.trovit.es" target="_blank">Trovit</a> lo tenemos más que comprobado). JAVA es mucho más rápido cuando trabajamos con la API de Lucene tanto a la hora de indexar como a la hora de buscar. En esta conferencia me faltó un poco de comparativa para el proceso de búsqueda.</p>
<p>Enhorabuena a todas las personas que hicieron posible las conferencias: ¡muy buena organización!</p>
]]></content:encoded>
			<wfw:commentRss>http://www.danielgimenez.net/2008/09/30/trovit-en-la-phpconference-de-barcelona/feed/</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>Fix en la clase CheckIndex</title>
		<link>http://www.danielgimenez.net/2007/11/28/fix-en-la-clase-checkindex/</link>
		<comments>http://www.danielgimenez.net/2007/11/28/fix-en-la-clase-checkindex/#comments</comments>
		<pubDate>Tue, 27 Nov 2007 23:48:46 +0000</pubDate>
		<dc:creator>Daniel Giménez</dc:creator>
				<category><![CDATA[Lucene]]></category>

		<guid isPermaLink="false">http://www.danielgimenez.net/2007/11/28/fix-en-la-clase-checkindex/</guid>
		<description><![CDATA[Hace 3 días escribía sobre un update en la clase CheckIndex que permitía arreglar índices de Lucene corruptos. Pues bien, justo hoy a raíz de un post sobre un bug que detectaba segmentos con documentos eliminados como erróneos, Michael McCandless ha vuelto a actualizar la clase. Os la dejo aquí de nuevo con el fix.
]]></description>
			<content:encoded><![CDATA[<p>Hace 3 días escribía sobre un <a href="http://www.danielgimenez.net/2007/11/24/restauracion-de-un-indice-de-lucene-corrupto/" title="Restauración de un índice de Lucene corrupto ">update en la clase CheckIndex</a> que permitía arreglar índices de Lucene corruptos. Pues bien, justo hoy a raíz de un post sobre un bug que detectaba segmentos con documentos eliminados como erróneos, Michael McCandless ha vuelto a actualizar la clase. Os la dejo <a target="_blank" href="http://www.danielgimenez.net/wp-content/uploads/2007/11/lucene-1069.patch" title="Fix en CheckIndex">aquí</a> de nuevo con el fix.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.danielgimenez.net/2007/11/28/fix-en-la-clase-checkindex/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Restauración de un índice de Lucene corrupto</title>
		<link>http://www.danielgimenez.net/2007/11/24/restauracion-de-un-indice-de-lucene-corrupto/</link>
		<comments>http://www.danielgimenez.net/2007/11/24/restauracion-de-un-indice-de-lucene-corrupto/#comments</comments>
		<pubDate>Sat, 24 Nov 2007 12:32:30 +0000</pubDate>
		<dc:creator>Daniel Giménez</dc:creator>
				<category><![CDATA[Lucene]]></category>
		<category><![CDATA[CheckIndex]]></category>
		<category><![CDATA[Java]]></category>
		<category><![CDATA[jvm]]></category>
		<category><![CDATA[Michael McCandless]]></category>

		<guid isPermaLink="false">http://www.danielgimenez.net/2007/11/24/restauracion-de-un-indice-de-lucene-corrupto/</guid>
		<description><![CDATA[Aunque es muy difícil que un índice de Lucene acabe corrompiéndose puesto que el sistema de Index Managing está preparado para soportar caídas de la JVM ya sean provocadas (p.e. con un &#8216;kill -9&#8242;. Y siempre pienso ¿no sería mejor añadir un poquito de lógica a la aplicación para poder cerrarla bien en cualquier momento? Pero sólo se [...]]]></description>
			<content:encoded><![CDATA[<p>Aunque es muy difícil que un índice de Lucene acabe corrompiéndose puesto que el sistema de <em>Index Managing está</em> preparado para soportar caídas de la JVM ya sean provocadas (p.e. con un &#8216;kill -9&#8242;. Y siempre pienso ¿no sería mejor añadir un poquito de lógica a la aplicación para poder cerrarla bien en cualquier momento? Pero sólo se queda en es eso&#8230; en un pensamiento) o imprevistas, podemos encontrarnos con situaciones poco deseables si, por ejemplo, se nos cae la máquina con la que estamos indexando en medio del proceso.</p>
<p>Aunque parece que el equipo de Lucene está trabajando en su versión 2.3 entre otras cosas para evitar este tipo de problemas y así mantener en todo momento la consistencia del índice, existe la posibilidad de chequear y recuperar ajustando un poco la clase CheckIndex con este <a href="http://www.danielgimenez.net/wp-content/uploads/2007/11/lucene-1020take2.patch" title="parche desarrollado por Michael McCandless">parche desarrollado por Michael McCandless</a>. Sólo tendremos que lanzar el proceso con el parámetro &#8220;-fix&#8221; y se recorrerá todo el índice arreglando las inconsistencias que pueda haber.</p>
<p>¡Mejor que nunca lo necesiteis!</p>
]]></content:encoded>
			<wfw:commentRss>http://www.danielgimenez.net/2007/11/24/restauracion-de-un-indice-de-lucene-corrupto/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
