Recuperación de Información.

By Búsqueda y recuperación de información

El impacto de internet sobre la búsqueda y recuperación de información en la actualidad es cada vez mayor, visto en sectores como viajes y turismo, inmobiliario, servicios y especialmente en la sociedad de la información y el conocimiento, al ser notorio cuando los países desarrollados han encontrado en ésta una forma de incrementar el producto interno bruto de cada uno de ellos, incentivando la investigación y su documentación.

Al delimitar la recuperación de información como un espacio relativamente nuevo en los sistemas de recuperación de información, encaminado a la localización de la información, Calvin Mooers, fue el primero en definirlo como la búsqueda de información en un stock de documentos, efectuada a partir de la especificación de un tema ese fue el concepto que emitió para ese momento; sin embargo podría decirse que la recuperación de información abarca aspectos intelectuales de la descripción de información y su especificación para la búsqueda, y también cualquier sistema, técnica o máquina que se utilice para llevar a cabo la operación

En este orden, hace varias décadas atrás el hombre se ha interesado por organizar la información, para hacer una búsqueda efectiva de la misma, es así que el profesional en sistemas de información debe tener un bagaje interdisciplinario altamente específico, pues con su quehacer es el encargado de acceder a información de alta calidad y esté disponible para la persona (usuario) indicada en el momento adecuado.

El advenimiento de las tecnologías de información y comunicación hacen que la información no sea estática, pues se encuentra en constante cambio al ser modificada, actualizada por cualquier persona; es entonces cuando surge una duda ¿qué calidad contiene la información a la cual accesamos en una búsqueda?

Jean Tague- Sutcliffe identifica las siguientes variables o elementos que definen el campo de la recuperación de información:

a. Colección de documentos o bases de datos

b. Representación de la información

c. Usuarios

d. Consultas y frases u oraciones de búsqueda - estrategias de búsqueda

e. Intermediarios de búsqueda

f. Proceso de búsqueda, y

g. Evaluación de la recuperación de información

Tener en cuenta las anteriores variables será necesario para estudiar un caso específico, al apreciar que no se pueden generalizar las necesidades informacionales de un usuario, ya que cada uno solicitará le sea suministrada la mejor información con la más alta calidad, contribuyendo con la adecuada búsqueda y recuperación de información para cada disciplina, profesional, estudiante e investigador.

Las necesidades de cada usuario son diferentes, ya que no pueden ser aplicables las mismas variables a una determinada búsqueda de información. Al catalogar a un usuario de acuerdo a su nivel de experticia en la búsqueda y recuperación de información, se podrá aplicar una o varias de las anteriormente mencionadas.

Así las cosas el profesional en sistemas de información y documentación se enfrenta a un reto en pleno siglo XXI, que consiste en determinar cuáles de esas variables aplicará para cambiar paradigmas existentes en la búsqueda y recuperación de información por lo cual se hace necesario poseer conocimientos genéricos y específicos en tecnologías, aplicadas al manejo de los sistemas de recuperación de información.

En este contexto, y continuando con el proceso de aprendizaje de la asignatura recuperación de información de la Universidad de la Salle, la clase del 14 de febrero de 2011 en el grupo 20, corresponde ésta al conocimiento y análisis de cada una de las colecciones documentales que serán intervenidas en el proyecto de investigación de la materia.

En este orden, se dio inicio a la clase con el reconocimiento de 5 colecciones a las cuáles se les debe realizar posterior análisis reconociendo sistemas de recuperación de información y llevarlo a un documento para obtener conocimiento con respecto a búsqueda y recuperación de información, metadatos y posicionamiento web. Las colecciones son las siguientes y contienen las siguientes características:

1. Académico, dividido en archivística y literatura

2. Archivos fotográficos en extensión jpg, gif y html

3. Correos

4. Biblios archivos en extensión EML

5. Noticias

En cada una de las colecciones anteriormente mencionadas es importante tener en cuenta para una adecuada búsqueda y recuperación de información, conocer las extensiones en las cuales se encontrarán los archivos sometidos al análisis, los observados durante la clase fueron los siguientes:

JPG

Un archivo con extensión jpg es el acrónimo de Joint Photographic Experts Group es el resultado de varios años de trabajo comprendidos entre 1978 a 1980, conocido comúnmente como jpeg, su verdadero nombre corresponde a la norma ISO / IEC IS 10918-1 se abre con el visor de imágenes y fax de Windows al hacer doble click sobre él.

TXT

La extensión .txt (texto plano) dentro de la búsqueda y recuperación de información corresponde a un documento sin formato, por así decirlo es simplemente texto, únicamente caracteres, por ejemplo, el bloc de notas, wordpad e incluso aplicaciones como Word. Txt no tiene ningún tipo de formato y ocupa poco espacio.

HTML

Se trata de un conjunto de etiquetas con el que se definen elementos y el texto de una página web (Alvarez, 2004) lo define como un lenguaje de marcación de elementos para la creación de documentos hipertexto, de carácter multimedia con el que hoy día se crea al web. El nombre de la extensión html proviene de Hyptertext Markup Language, traducido como lenguaje de ampliación de hipertexto, se abrirá con Internet Explorer, Google Chrome o cualquier otro explorador al hacer click derecho sobre el archivo y elegir Editar, se editará con el bloc de notas.

Haciendo el análisis correspondiente a imágenes en extensión HTML, contenidas en algunas de las colecciones a intervenir son visualizadas como una serie de letras, es posibles saber cuál imagen será de acuerdo a la aplicación, la serie de letras corresponde a los archivos adjuntos, en la colección de correos. Cabe aclarar que el correo electrónico es un documento semiestructurado, ya que consta de un encabezado incluye la dirección de correo electrónico del remitente y el destinatario, así como el sujeto, fecha y hora en que el mensaje ha sido enviado, y el contenido es el cuerpo principal del correo electrónico, que de acuerdo al concepto de búsqueda y recuperación de información es conveniente que la estructura corresponda a un documento de tipo semiestruturado, puesto que de esa forma será eficaz la recuperación de información contenida especialmente en esta colección.

EML

Usualmente agrupado a un correo electrónico de Outlook Express. EML es un archivo de texto plano usado para almacenar, enviar y recibir un mensaje de correo electrónico, esencialmente usado por Microsoft Outlook Express, sin embargo la mayoría de los otros clientes de correo electrónico puede importar y leerlos. Éste tipo de archivos se pueden abrir con Microsoft Outlook, así como la mayoría de los otros clientes de correo electrónico, otra característica es que son archivos de texto plano, por lo que también se puede abrir y leer con relativa facilidad usando cualquier editor de texto; están estructurados en el mismo formato que MHT (MIME HTML), lo que significa que también puede ser abierto en los navegadores web como Internet Explorer, Mozilla, Firefox, entre otros.

EAD Encoded Archival Description

Es una estructura de datos normalizada que reproduce en formato digital los instrumentos de descripción archivística. De acuerdo con Nogales Flores (2002) es un estándar para codificar instrumentos de descripción archivística por medio de SGML (Standard Generalized Markup Language, ISO 8879:1986) y XML (eXtensible Markup Language), en colaboración con la Society of American Archivists (EAD Working Group).

Para la búsqueda y recuperación de información, EAD contiene metadatos para análisis de colección y contenidos al ser un metalenguaje normalizado que reproduce en formato digital instrumentos de descripción archivística; reflejando una estructura lógica y jerárquica de instrumentos de descripción de archivos digitales, compatibles con la Norma Internacional General de Descripción Archivística ISAD (G). Mediante una serie de metadatos se puede diseñar una interfaz que permita de forma automática obtener distintas opciones de salida con el mismo conjunto de datos EAD. En búsqueda y recuperación de información es un formato que gracias a su normatividad y tipología resultan ser documentos de tipo estructurado, ya que tiene directa relación con XML.