XML: ¿Puente Entre Dos Mundos?

XML no agrega nada nuevo a una discusión muy vieja.
Alon Halevy (Washinton Univ., USA), Budapest, Mayo de 2003.


 

Vengo llegando de la conferencia mundial de la Web en Budapest, donde moderé, junto a Yoelle Maarek de IBM Israel, un panel titulado: ¿Buscar y recuperar XML cerrará la brecha entre bases de datos relacionales y las máquinas de búsqueda? Esta pregunta intentaba motivar el choque entre dos mundos: el estructurado contra el desordenado. En estas líneas veremos las ideas más interesantes presentadas durante el panel.

Los panelistas fueron: Andrei Broder de IBM Research T.J. Watson, USA (hasta muy recientemente el CTO de Altavista); Oren Etzioni, Univ. of Washington, USA; Ramanathan Guha, IBM Research Almaden, USA; Prabhakar Raghavan, CTO de Verity Inc., USA; y Ross Wilkinson, CSIRO, Australia.

Posiciones

Broder planteó una taxonomía de necesidades de búsqueda: privada (Intranet) o pública, y a su vez sobre contenido público o propietario, dando ejemplos de cada caso. Su análisis indica que buscar dentro del contexto de una empresa parece ser más difícil que buscar en la Web. Para el mundo de la recuperación de información (RI), una consulta debe entregar los documentos más relevantes. Por otro lado, para la gente de bases de datos, una consulta debe ser mucho más precisa y además permite manipularla. Por lo tanto la pregunta es si necesitamos unificar ambos conceptos. Tal vez podemos resolver el 90% de las necesidades usando mejores métodos de búsqueda.

Oren estaba preocupado de como se generará el XML. Las personas no tienen la motivación necesaria para hacerlo, y luego modificar lo que han hecho. Por lo tanto se debería focalizar el problema en creación y mantención de datos en XML.

Guha recordo que XML es para los programas mientras que el texto es para personas. Por lo tanto XML no cerrará la brecha. Para que tenga sentido recuperar XML debemos ir más allá de recuperación de documentos, sino que deberíamos poder recuperar pedazos de XML. En un mundo de muchos pedazos de XML pequeños el problema real no es de integración, sino de los distintos esquemas y vocabularios a manejar. Es decir, la parte más complicada es la Torre de Babel asociada a XML.

Prabakhar mostró como, aunque la cantidad de datos estructurados es mucho menos que los sin estructura, el valor del mercado relacional eran decenas de veces más grande que el de los sistemas de RI. Su sueño sería poder contestar preguntas complejas como ¿Donde puedo ir de vacaciones gastando menos de cierto dinero y donde haya una playa tropical?

Finalmente, Ross planteó los distintos tipos de XML e indicó que lo importante era focalizarse en las necesidades de los usuarios y no en las consultas y su sintaxis. También recalcó la importancia de sistemas RI que vendrán integrados dentro de sistemas más genéricos.

Discusión

Entre los comentarios de la audiencia, los más importantes fueron acerca de la complejidad inherente de XML o lenguajes de consulta asociados, la utilidad de XML para clasificación y agrupación de documentos, y si había realmente una aplicación en la Web que necesitara todo esto.

Al final no hubo una respuesta concluyente y todos los problemas propuestos parecen ser interesantes. En el futuro veremos cuanto ayuda la estructura para poder buscar mejores documentos. A mi modo de ver el cuello de botella no es la tecnología ni los datos. Somos nosotros mismos, que somos poco estructurados. ¿Podemos cambiar esto?


Si tiene preguntas o sugerencias, envíe e-mail a rbaeza@dcc.uchile.cl