La clase correspondiente como introducción a los sistemas de recuperación de información, tuvo como eje principal la definición de indización y cómo de su correcta elaboración se optimizará la búsqueda. A éste respecto Virginia Fox, en su libro Análisis documental de contenido afirma que la indización consiste en retener una o más nociones que representan el contenido del documento o los conceptos de una búsqueda bibliográfica, también se denomina lenguaje documental mejorando los procesos de búsqueda y recuperación de información. La indización se realizará en el momento de análisis de entrada de documentos en el sistema y la salida o recuperación de información.
Las palabras, frases o cualquier otra representación alfabética o numérica que indique el contenido de un documento se conocen como términos de indización; el número de términos varia, si es alto la exhaustividad en la búsqueda aumentará; si por el contrario es bajo influye en la precisión para la búsqueda de información.
En un lenguaje controlado o de indización los términos se agrupan en dos categorías: términos preferentes o descriptores o términos controlados, son términos que se utilizan de forma conveniente para representar conceptos precisos, y unívocos en el proceso de indización para la búsqueda y recuperación de información. Términos no preferentes o no descriptores, se asignan a los documentos cuando indizamos, pero pueden proporcionar puntos de acceso en los índices o lenguajes impresos y tesauros para dirigir al usuario a la selección de descriptores.
Laureano Gómez, define la indización como el proceso de elaborar índices o estructuras de acceso a los documentos(representación alterna) a partir de las palabras (términos) que contienen; sin embargo los sistemas de recuperación de información (SRI) permiten realizar búsquedas en lo índices almacenados en el sistema, pero puede determinar si usan o no índices para la búsqueda. Los sistemas de recuperación de información tienen un tipo de archivos invertidos, que como se mencionó al inicio, permiten realizar la búsqueda mediante una palabra clave, id de campo o del propio documento, otros sistemas incluyen información sobre la localización del término buscado dentro de un documento, el archivo invertido está compuesto de: vocabulario, ocurrencias.
Google cuenta con su propio sistema de recuperación de información una aplicación desarrollada, diseñada para la búsqueda de información en computadores en varios formatos de archivos, crea un índice de todos los archivos existente en el PC de manera clara y sencilla para la recuperación de información, sin la necesidad de que el usuario tenga que organizar sus archivos, la búsqueda se efectúa semejante a las realizadas por Google.
2 comentarios:
El mundo de Internet se caracteriza por ser dinámico y vertiginosamente cambiante, heterogéneo en cuanto a la variedad de formatos y la poca uniformidad de información almacenada, pues se encuentra en miles de servidores en diferentes partes del mundo
La indización como principio del análisis documental es vital, ya que a futuro influirá directamente para una eficiente búsqueda y recuperación de información contenida en la web, al ser el soporte al cual pasarán los diferentes soportes.
Publicar un comentario