Google: Cómo funciona por dentro

El motor de indexación de Google esta implementado en C/C++ por razones de eficiencia y puede correr tanto sobre Solaris como sobre Linux.

Componentes de Google

En Google, el proceso de exploración (descargar las páginas a indexar) es realizado por varios exploradores distribuidos. Existe un proceso URLserver que envía listas de URLs a ser descargados a los exploradores.

Las páginas que son descargadas son enviadas luego al storeserver. El storeserver comprime y guarda las páginas en un repositorio. Toda página tiene asociado un ID denominado docID que es asignado cada vez que un nuevo URL es interpretado desde una página.

La función de indexación es llevada a cabo por un proceso indexador y un clasificador:

Estructuras de datos

Las estructuras de datos están optimizadas para poder realizar las búsquedas y recuperar documentos rápidamente.

Ultima modificación: 20 de abril de 2006 por davidf@di.uc3m.es

Páginas del WIKI