25 DE OCTUBRE, DÍA DE INTERNET

El inmenso océano del Internet profundo

La Red oculta alberga unas 500 veces más información de la que es posible encontrar a través de una búsqueda simple - La mayoría de las bases de datos dinámicas han de rastrearse desde su propio sitio

20 oct 2005 - 00:00CEST

Más de 60 millones de sitios web y más de 1.000 millones de páginas. Éste es el océano de información en el que tienen que bucear los internautas en busca de los datos que necesitan. A veces, cuando son peticiones muy generales, suelen encontrarse fácilmente. Otras, puede convertirse en una ardua tarea. Los buscadores generalistas más conocidos, como Google, Yahoo! y MSN, se han convertido en los guías vitales cuando no se conoce una dirección web específica. Y éstos, grandes conocedores del terreno en el que se mueven, realizan su cometido... aunque dentro de sus aún limitadas posibilidades.

Incluso los buscadores más famosos que nos abruman cada poco tiempo con la presentación de revolucionarias técnicas de localización tienen su punto débil. Este talón de Aquiles deja inaccesibles, para aquellos usuarios que únicamente utilicen estos buscadores, una inmensidad de datos que llega a superar hasta 500 veces el volumen de información que tienen registrado las herramientas de búsqueda generalistas, según un informe de la consultora Bright Planet. Es la llamada Red profunda.

Las arañas

Para entender esta carencia es necesario conocer el funcionamiento actual de la mayoría de los buscadores. Cuando una persona realiza una consulta, el buscador no recorre la totalidad de Internet en busca de las posibles respuestas, lo cual supondría una capacidad de reacción bastante lenta. Lo que hace es buscar en su propia base de datos, que ha sido generada e indizada previamente. En sus labores de búsqueda, indización y catalogación, utilizan las llamadas "arañas" o robots inteligentes que van saltando de una página web a otra siguiendo los enlaces de hipertexto y registran la información allí disponible.

El problema aparece cuando la información requerida se encuentra en una página que carece de enlaces. En este caso, la única forma que tiene de ser registrada en un buscador es que su autor la incluya manualmente rellenando un formulario. En caso contrario, esta web resultará invisible para todos aquellos usuarios de Internet que no conozcan la URL o dirección concreta.

Sin embargo, el que una página carezca de enlaces no es la única causa que puede llevar a una web a permanecer en las profundidades, invisible a los buscadores generalistas. Éstos suelen indexar páginas estáticas que incluyen textos simples y que están programadas en HTML, el lenguaje de programación más común. Ésta es la información que, sin ninguna duda, un usuario encontraría en la llamada Red superficial utilizando los buscadores más comunes, y buena parte del resto pasa a formar parte de la Red profunda.

Actualmente, la posibilidad de buscar e indexar cierto tipo de archivos no textuales, como imágenes, audio, vídeo, archivos PDF o Postscript, programas ejecutables o archivos comprimidos, se ha convertido en un reto para los motores de búsqueda más generales. Técnicamente la mayoría de estos formatos pueden ser indexados, pero muchos buscadores eligen no hacerlo por razones de negocio. En primer lugar, hay mucha menos demanda de este tipo de formatos que de textos HTML y, además, estos formatos son más difíciles de archivar y organizar, por lo que requieren más recursos del servidor y sobre todo un mayor coste económico. Sin embargo, la demanda se está imponiendo y los grandes buscadores ya recogen entre sus opciones la posibilidad de localizar imágenes, PDF e incluso vídeos. Y su lucha por robar terreno a la Red profunda continúa.

La información que se genera dinámicamente también forma parte de esta área más profunda de Internet. La mayoría de estas páginas están generadas en HTML, por lo que en teoría son fácilmente indexables. El motivo más frecuente alegado por los buscadores para no hacerlo es que se han dado bastantes casos de rastreadores que se han visto atrapados en las llamadas trampas de araña, un sitio con miles o millones de páginas diseñadas sólo para bloquear los motores de búsqueda.

También los datos que se generan en tiempo real, como pueden ser valores de Bolsa, información del tiempo, horarios de trenes, etcétera, suelen formar parte de la Red profunda. Aunque éstos, con un motivo bien fundamentado: su inmenso volumen y, principalmente, la gran rapidez con la que varía dicha información hacen bastante inservible para el usuario que un buscador generalista indexe un contenido tan fugaz. Por lo tanto, la mayoría eligen no hacerlo, aunque técnicamente sea posible.

Bases de datos

Toda esta información oculta hasta ahora citada es tan sólo una mínima parte de la Red profunda. La mayoría está compuesta por las bases de datos disponibles a través de Internet. Normalmente ellas mismas tienen sus propias herramientas de búsqueda personalizadas, que sólo presentan dinamismo en respuesta a una pregunta directa, cosa que hasta el momento sólo es capaz de hacer el propio usuario y en ningún caso los programas araña que usan los buscadores en sus tareas de catalogación. Si el usuario pretende realizar una búsqueda en ellas, debe usar las propias herramientas que la base de datos ofrece . El inconveniente está en que es necesario encontrar la base de datos en primer lugar, tarea en la que a veces los motores de búsqueda generales ayudan y otras no.

Actualmente hay en Internet de 200.000 a 500.000 bases de datos de acceso gratuito que contienen información de alta calidad para el usuario, así como otro gran número que requieren algún pago por sus contenidos. Estas inmensas fuentes de información, que muchas veces el usuario pasa por alto al no poder acceder con sus herramientas de búsqueda habituales, normalmente están organizadas por temas y catalogadas manualmente con un rigor de calidad, actualidad y fiabilidad del que suelen carecer muchos de los documentos que se encuentran sueltos en el ciberespacio. La mayor base de datos existente es la de la Biblioteca del Congreso de EE UU (www.loc.gov ), que contiene más de 26 millones de referencias.

La Red profunda es, por tanto, un recurso que deben tener muy en cuenta los internautas que buscan en Internet algo más que generalidades. El hecho de que Google o Yahoo! no encuentren una consulta no tiene por qué significar que la respuesta no esté en Internet. Tan sólo hay que bucear algo más para encontrar este mar de información muchas veces desconocido por los usuarios que se limitan al uso de los buscadores más comunes.

Buscadores en el fondo

Muchos recursos disponibles en la Web profunda pueden ser localizados a través de directorios temáticos y buscadores especializados, Aunque normalmente no sea a través de buscadores generalistas. Éstos son algunos: