Actualmente, es ingente la cantidad de información no estructura que está disponible en Internet, bien en la web pública como en la web “oculta” (intranets, bibliotecas digitales, etc.). Esta información puede ser tanto visual como textual, entendiendo todo tipo de documentos multimedia (vídeo, imágenes, audio, trascripciones de conferencias…). La recuperación de información sobre tan variadas colecciones plantea retos como la fusión o la indexación.