8
Computación para Ingeniería I y Laboratorio Cap. 2 - Conceptos de Archivos y Bases de Datos Ing. Hermas Herrera Callejas Página: 1 de 8 CAPITULO 2 CONCEPTOS DE ARCHIVOS Y BASES DE DATOS 2.1. Introducción.- El almacenamiento y manejo de grandes cantidades de datos se hace necesario en cualquier empresa para el logro de sus objetivos. Por ejemplo, se necesitan los datos de los empleados, de clientes, de proveedores, de los productos almacenados, etc. Normalmente, la gestión de estos datos se ha venido realizando de forma manual. Se organizaban en forma de fichas, informes o expedientes, colocándolos en carpetas y almacenando éstas en un archivador (Figura 2.1). Por ejemplo, se tiene un archivo de clientes en el que cada ficha contiene todos los datos correspondientes a un cliente. Cuando se necesita consultar o modificar los datos de clientes concretos será preciso realizar toda la operación manualmente. Figura 2.1. Archivo manual. La utilización de las computadoras en la administración de las empresas ha supuesto una revolución respecto al almacenamiento y gestión de sus datos, dando lugar al uso de los denominados archivos informáticos y bases de datos. Para el almacenamiento de los datos se utilizan soportes informáticos principalmente de tipo magnético y óptico (discos, cintas, etc.), y para el tratamiento de los datos grabados en ellos se utilizan las computadoras (Figura 2.2). Figura 2.2. Soportes para el almacenamiento de datos. Las ventajas obtenidas se derivan de las características de los soportes y de las computadoras: - Gran capacidad de almacenamiento en un reducido espacio. - Rapidez en el proceso de los datos. - Precisión de los resultados obtenidos del proceso. Los archivos antes citados se denominan archivos de datos, pero hemos de tener en cuenta que existen otros tipos de archivos, ya que cualquier información permanente que se almacena en una computadora de cualquier forma, se considera igualmente un archivo. Por ejemplo, un archivo fuente contendrá un programa fuente (programa escrito en un lenguaje de programación de alto nivel), un archivo objeto contiene un programa ya compilado, un archivo gráfico, un dibujo, etc. En el presente capítulo nos dedicaremos al estudio de los archivos de datos o conjuntos de informaciones en memoria secundaria relativas a un mismo tema. También estudiaremos las bases de datos como generalización de la estructura de archivo.

Capítulo 2 Conceptos de Archivos y Bases de Datos

Embed Size (px)

DESCRIPTION

Capítulo 2 Conceptos de Archivos y Bases

Citation preview

  • Computacin para Ingeniera I y Laboratorio Cap. 2 - Conceptos de Archivos y Bases de Datos

    Ing. Hermas Herrera Callejas Pgina: 1 de 8

    CAPITULO 2 CONCEPTOS DE ARCHIVOS Y BASES DE DATOS 2.1. Introduccin.- El almacenamiento y manejo de grandes cantidades de datos se hace

    necesario en cualquier empresa para el logro de sus objetivos. Por ejemplo, se necesitan los datos de los empleados, de clientes, de proveedores, de los productos almacenados, etc.

    Normalmente, la gestin de estos datos se ha venido realizando de forma manual. Se

    organizaban en forma de fichas, informes o expedientes, colocndolos en carpetas y

    almacenando stas en un archivador (Figura 2.1). Por ejemplo, se tiene un archivo de

    clientes en el que cada ficha contiene todos los datos correspondientes a un cliente. Cuando

    se necesita consultar o modificar los datos de clientes concretos ser preciso realizar toda la

    operacin manualmente.

    Figura 2.1. Archivo manual.

    La utilizacin de las computadoras en la administracin de las empresas ha supuesto

    una revolucin respecto al almacenamiento y gestin de sus datos, dando lugar al uso de los

    denominados archivos informticos y bases de datos.

    Para el almacenamiento de los datos se utilizan soportes informticos principalmente de

    tipo magntico y ptico (discos, cintas, etc.), y para el tratamiento de los datos grabados en

    ellos se utilizan las computadoras (Figura 2.2).

    Figura 2.2. Soportes para el almacenamiento de datos.

    Las ventajas obtenidas se derivan de las caractersticas de los soportes y de las

    computadoras: - Gran capacidad de almacenamiento en un reducido espacio. - Rapidez en el proceso de los datos. - Precisin de los resultados obtenidos del proceso.

    Los archivos antes citados se denominan archivos de datos, pero hemos de tener en

    cuenta que existen otros tipos de archivos, ya que cualquier informacin permanente que se

    almacena en una computadora de cualquier forma, se considera igualmente un archivo. Por

    ejemplo, un archivo fuente contendr un programa fuente (programa escrito en un lenguaje

    de programacin de alto nivel), un archivo objeto contiene un programa ya compilado, un

    archivo grfico, un dibujo, etc.

    En el presente captulo nos dedicaremos al estudio de los archivos de datos o conjuntos

    de informaciones en memoria secundaria relativas a un mismo tema. Tambin estudiaremos

    las bases de datos como generalizacin de la estructura de archivo.

  • Computacin para Ingeniera I y Laboratorio Cap. 2 - Conceptos de Archivos y Bases de Datos

    Ing. Hermas Herrera Callejas Pgina: 2 de 8

    2.2 Archivos y registros.- Un Archivo o Fichero es una estructura de datos que reside en

    memoria secundaria, consistente en un conjunto de informaciones estructuradas en unidades de acceso denominadas registros, todos del mismo tipo y en nmero indeterminado. 2.2.1 Un registro lgico.- O simplemente registro es cada uno de los componentes del

    archivo, conteniendo el conjunto de informaciones que se acceden y se tratan de manera unitaria. Est constituido por uno o ms elementos denominados campos, que pueden ser de diferentes tipos y que a su vez pueden estar compuestos por subcampos. Un registro puede tener un campo clave, cuyo valor sirve para identificar de forma

    nica el registro y por tanto, dicho valor no puede aparecer repetido en otro registro diferente. Puede suceder que un archivo no tenga campo clave en sus registros, o por el contrario, que tenga varios, denominndose clave primaria a la principal y a las dems secundarias. Si un archivo contiene informacin de un conjunto de individuos u objetos, sus registros contienen informacin de cada uno de ellos y los campos los diferentes datos que componen. Por ejemplo, en el archivo de personal de una empresa, cada registro contiene informacin de un empleado, los campos contienen su nmero de CI, nombre, direccin, fecha de ingreso, etc. La calle en que vive ser un sub-campo y el campo clave puede ser el nmero de CI (Tabla 2.1). NMERO DE CI 2198365 NOMBRE LUIS ORTIZ RUBIO DIRECCIN PS. OLMOS # 16 LOCALIDAD LA PAZ DEPARTAMENTO PRODUCCION CATEGORIA LABORAL TCNICO AUXILIAR FECHA DE INGRESO 15/09/1988 Tabla 2.1. Registro personal. 2.2.2 Un registro fsico.- O bloque corresponde a la cantidad de informacin que se

    transfiere fsicamente en cada operacin de acceso (lectura o escritura) del medio magntico Se debe aclarar los conceptos de registro lgico y registro fsico, diferencindose en que el tamao y formato del registro lgico los define el programador, mientras que el tamao del registro fsico viene dado por las caractersticas fsicas de la computadora utilizada. En general, un bloque tendr capacidad para contener uno o ms registros lgicos, pero tambin puede ocurrir que un registro lgico ocupe ms de un bloque (Figura 2.3). En el primer caso se habla de registros bloqueados, denominndose factor de bloque al nmero de registros lgicos que contiene cada registro fsico, y se denominan registros expandidos a aquellos que ocupan ms de un bloque. La lectura de un archivo con registros bloqueados transfiere a memoria varios registros a la vez, pero para leer un registro expandido ser necesario realizar ms de un acceso.

    Bloque (Factor de bloqueo = 3) Registro 1 Registro 2 Registro 3

    campo 1 campo 2 campo 3 subcampo1 subcampo 2 campo 3

    Figura 2.3. Esquema lgico de un archivo.

  • Computacin para Ingeniera I y Laboratorio Cap. 2 - Conceptos de Archivos y Bases de Datos

    Ing. Hermas Herrera Callejas Pgina: 3 de 8

    2.3 Clasificacin de los Archivos Segn su Uso.- Los archivos se clasifican segn la

    utilizacin que se hace de ellos en tres grupos: 2.3.1 Archivos Permanentes.- Contienen informacin que varia poco a lo largo del tiempo. Pueden ser de. tres clases: 2.3.1.1 Archivos de Constantes.- Su informacin permanece prcticamente inamovible, utilizndose principalmente como archivos de consulta. Un archivo de este tipo puede ser el de la red del metro de una ciudad, que contiene la descripcin, caractersticas, nmero de estaciones, nmero de trenes, etc., de cada lnea. 2.3.1.2 Archivos Maestros.- Tambin denominados Archivos de Situacin, contienen la informacin que refleja el estado o situacin de una empresa, entidad o algn aspecto de ella en un determinado momento. Estos archivos se actualizan peridicamente para adaptarlos a cada nueva situacin. Un ejemplo es el archivo de personal con contrato temporal en una empresa, o tambin el archivo de existencias en almacn. 2.3.1.3 Archivos Histricos.- Se obtienen de los anteriores cuando se dejan fuera de uso para futuros estudios estadsticos o consultas. Ser un archivo histrico el que contiene la informacin de libros adquiridos por una biblioteca en la dcada de los ochenta. 2.3.2 Archivos de Movimientos.- En ellos se almacena la informacin que se utilizar para

    actualizar los archivos maestros. Sus registros, denominados movimientos o transacciones, son de tres clases: altas, bajas y modificaciones. Una vez realizado el proceso de actualizacin de un archivo maestro por medio de un archivo de movimientos, ste pierde su validez y podemos deshacernos de l. Un archivo de este tipo para actualizar el antes mencionado de personal contratado, es el que refleja las nuevas contrataciones, finalizaciones de contratos y modificaciones de los mismos producidas en la empresa durante el mes actual. 2.3.3 Archivos de Trabajo.- Tienen una vida limitada, normalmente igual a la duracin de la ejecucin de un programa y se utilizan como auxiliares de los anteriores (se llaman tambin archivos de maniobra). Por ejemplo, si se desea una lista alfabtica de los nombres del personal contratado, se har por medio de un archivo de trabajo en el que se almacene esta informacin a partir del archivo de personal. Este archivo desaparecer una vez se tenga la lista impresa. 2.4 Organizacin de Archivos.- Al disear un archivo, dependiendo del uso que se va a hacer del mismo y del soporte utilizado, se pueden elegir diferentes maneras de organizar sus registros, siendo las principales organizaciones las siguientes: - Secuencial - Directa o aleatoria - Indexada - Archivos de texto - Archivos binarios 2.4.1. Organizacin Secuencial.- Es aqulla en la cual los registros ocupan posiciones consecutivas de almacenamiento, y solo se puede acceder a ellos de uno en uno a partir del primero (Figura 2.4). En un archivo secuencial no se pueden hacer operaciones de escritura cuando se est leyendo, ni operaciones de lectura cuando se est escribiendo.

  • Computacin para Ingeniera I y Laboratorio Cap. 2 - Conceptos de Archivos y Bases de Datos

    Ing. Hermas Herrera Callejas Pgina: 4 de 8

    Por otro lado, para actualizados es preciso crear nuevos archivos donde se copien registros que vayan a permanecer, modificados o no, junto con los nuevos. Acceso secuencial Registro 1 Registro 2 Registro 3 Registro 4 Registro 5 Figura 2.4. Esquema lgico de un archivo secuencial. 2.4.2 Organizacin Directa o Aleatoria.- En un archivo con esta organizacin, tambin denominada relativa las informaciones se colocan y se acceden aleatoriamente mediante su posicin, es decir, indicando el lugar relativo que ocupan dentro del conjunto de posiciones posibles.

    En esta organizacin se pueden leer y escribir registros, en cualquier orden y en cualquier lugar.

    Presenta el inconveniente de que es tarea del programador establecer la relacin entre la posicin que ocupa un registro y su contenido, adems puede desaprovecharse parte del espacio destinado al archivo, ya que pueden quedar huecos libres entre unos registros y otros.

    Su principal ventaja es la rapidez de acceso a un registro cualquiera, ya que para ello no es preciso pasar por los anteriores (Figura 2.5). Acceso directo

    Registro 2 Registro 3 Registro 1 Registro 4 Registro 8 Registr

    Posiciones 01 02 03 04 05 06 07

    Figura 2.5. Esquema lgico de un archivo directo. 2.4.3 Organizacin Secuencial Indexada.- Un archivo con esta organizacin consta de tres reas: rea de ndices rea de datos o primaria rea de excedentes (Overflow)

    2.4.3.1 El rea de datos o primaria.- Contiene los registros de datos, clasificados en orden ascendente por su campo de clave. 2.4.3.2 El rea de ndices.- Es un archivo secuencial creado por el sistema, en el que cada registro establece una divisin (segmento) en el rea de datos o primaria, y contiene la direccin de comienzo del segmento y la clave ms alta del mismo. De esta manera, el sistema accede de forma directa a un segmento del rea primaria a partir del rea de ndices, de forma similar a la bsqueda de un capitulo de un libro a partir de su ndice. 2.4.3.3 El rea de excedentes.- Es un espacio reservado para aadir nuevos registros que no pueden ser colocados en el rea primaria cuando se produce una actualizacin del archivo (Figura 2.6).

  • Computacin para Ingeniera I y Laboratorio Cap. 2 - Conceptos de Archivos y Bases de Datos

    Ing. Hermas Herrera Callejas Pgina: 5 de 8

    rea de ndices 01 AC 04 FA 07 GK rea de datos AA -- AB -- AC -- BC -- CH -- FA -- GF -- GJ - GK - 01 02 03 04 05 06 07 08

    rea excedentes FM -- AN -- BM -- GA Figura 2.6. Esquema lgico de un archivo secuencial indexado. Esta organizacin presenta la ventaja de un rpido acceso por medio de la clave del registro, y adems el sistema se encarga de relacionar la posicin de cada registro con su contenido por medio del rea d ndices. Tambin es trabajo del sistema, la gestin de las reas de ndices y de excedentes. Los inconvenientes que presenta son la necesidad de espacio adicional para el rea de ndices y el desaprovechamiento de espacio que resulta de quedar huecos intermedios libres despus de sucesivas actualizaciones. 2.5 Mtodos de Acceso.- Se denomina mtodo de acceso a la forma en que el dispositivo que maneja el soporte de informacin que contiene un archivo se posiciona en un determinado lugar del mismo para realizar una operacin de lectura o escritura de un registro.

    El modo de acceso lo decide el programador de la aplicacin en funcin del soporte utilizado y del tipo de organizacin del archivo. Hay 2 mtodos bsicos: secuencial y directo. El acceso secuencial a un registro supone acceder inicialmente al primer registro del archivo y despus, consecutivamente, a todos los sucesivos hasta llegar al registro deseado. Este modo de acceso se puede utilizar con cualquier soporte y organizacin. El acceso directo solamente se puede realizar en los denominados soportes direccionables, como los discos magnticos, y consiste en el posicionamiento sobre cualquier registro sin necesidad de haber accedido antes a los anteriores. En los archivos de organizacin directa, este acceso se consigue proporcionando al dispositivo la posicin del registro que se desea acceder. En ocasiones es conveniente programar una funcin de aleatorizacin o hashing, la cual permita calcular la posicin de cualquier registro a partir del valor de su clave. En los archivos indexados, el acceso directo lo realiza de forma automtica el sistema a partir del valor del campo clave; para ello utiliza, como se ha descrito en el apartado anterior, un conjunto auxiliar de ndices que relacionan las claves con las posicione de los registros. 2.6 Bases de Datos.- La gestin de archivos se ha demostrado insuficiente para cubrir las necesidades de almacenamiento y proceso de datos en la actualidad. Los sistemas de informacin de las empresas son cada vez ms grandes y complejos, y su gestin mediante el uso de archivos presenta algunos inconvenientes, como el hecho de que los datos estn repartidos por distintos departamentos de la empresa, lo que supone tener que desplazarse o solicitarlos cada vez que se necesitan en un lugar diferente de donde se generan. Adems pueden estar repetidos varias veces, con el inconveniente de que su actualizacin dar lugar a inconsistencias si no se realiza simultneamente en todos los

  • Computacin para Ingeniera I y Laboratorio Cap. 2 - Conceptos de Archivos y Bases de Datos

    Ing. Hermas Herrera Callejas Pgina: 6 de 8

    lugares en que se ubican. Las aplicaciones que se creen debern tener en cuenta las distintas estructuraciones de los datos, y los cambios que se realicen tanto en hardware como en software presentarn numerosas complicaciones. Otro problema derivado de la dispersin de los datos radica en la dificultad para establecer sistemas de control y seguridad en los mismos. Los sistemas de bases de datos pretenden dar solucin a los problemas expuestos mediante la integracin de los archivos de datos, de su estructura y de la aplicacin que los maneja. Podemos definir una base de datos como un conjunto integrado de datos interrelacionados, junto con una serie de aplicaciones para su manejo, accesibles simultneamente por diferentes usuarios y programas. Sus principales caractersticas son:

    Control centralizado de los datos.

    Integridad de los datos.

    Minimizacin de las redundancias.

    Independencia de los datos y las aplicaciones.

    Acceso concurrente a los datos.

    Costo mnimo de almacenamiento y mantenimiento.

    Versatilidad para la representacin de relaciones.

    Establecimiento de medidas de seguridad.

    Facilidad para el cambio (hardware y software). 2.6.1 Modelos de Bases de Datos.- El modelo de base de datos hace referencia a la estructura que se utiliza para expresar las relaciones existentes entre las diferentes unidades de datos que la constituyen. De entre las varias posibilidades tiles para ello, son tres los modelos que se han afianzado y estn actualmente en uso: 1. Modelo jerrquico. 2. Modelo en red. 3. Modelo relacional. 2.6.1.1 Modelo Jerrquico.- Utiliza la estructura de rbol para establecer relaciones del tipo 1 : n (uno a muchos). Una base de datos de este tipo consistir en uno o varios rboles que expresarn las distintas agrupaciones entre los datos. Cada rbol tiene un nodo distinguido denominado raz y, a partir de l, se establecen relaciones de sucesin, denominndose nodos hijos a los descendientes de otro. Mientras que un nodo padre slo puede tener una ocurrencia, los nodos hijos pueden tener varias (Figura 2.7). Figura 2.7. Modelo Jerrquico.

    Empleado

    Estudios Experiencia Familia Logros

  • Computacin para Ingeniera I y Laboratorio Cap. 2 - Conceptos de Archivos y Bases de Datos

    Ing. Hermas Herrera Callejas Pgina: 7 de 8

    2.6.1.2 Modelo de Red.- Utiliza la estructura de red o grafo, que permite definir entre todos

    los nodos relaciones n : n (muchos a muchos). Mediante el establecimiento de apuntadores entre nodos se puede relacionar cualquier unidad de datos con cualquiera de las otras (Figura 2.8). Figura 2.8. Modelo de Red. 2.6.1.3 Modelo Relacional.- Se basa en el lgebra Relacional. Las relaciones entre las unidades de datos o entidades se expresan mediante tablas de dos dimensiones. Una base de datos de este tipo estar formada por varias de estas tablas en las que una fila (tupla) contiene una ocurrencia de valores interrelacionados y una columna contiene los diferentes valores posibles de cada entidad (Tabla 2.2). AUTOCAR CONDUCTOR CIUDAD PASAJERO AGENCIA 105 JULIN PREZ LA PAZ ELAS PEINADO TOURISA 105 JULIN PREZ COCHABAMBA ANA MARTORELL PRISA 105 PEDRO ROSALES SANTA CRUZ MARTA SNCHEZ TOURISA 107 JULIN PREZ SUCRE JULIO CARRANZA TOURIZA Tabla 2.2. Modelo relacional 2.6.2 Seguridad y Control de Datos.- La informacin almacenada en un archivo o base de

    datos puede llegar a tener una gran importancia y su prdida o destruccin podra suponer un desastre para sus propietarios. Por ello, ser preciso establecer determinadas medidas de seguridad y control que minimicen o anulen ese riesgo. Asimismo, habr que determinar otras protecciones que garanticen la privacidad y confidencialidad de los datos, con el fin de que stos no puedan ser utilizados para otros propsitos diferentes de los usos correctos para los que se crearon. Distinguiremos dos aspectos diferentes con respecto a la proteccin que se puede establecer sobre los datos: 1. Seguridad contra fallos del sistema o del soporte. Integridad 2. Seguridad contra usos incorrectos o no autorizados. Confidencialidad 2.6.3 Seguridad Contra Fallos del Sistema o del Soporte.- Es preciso proteger no slo los datos, sino tambin las operaciones de actualizacin que se realizan con ellos, de tal manera que si en un momento dado se produce una cada del sistema o la rotura del soporte, se pueda recuperar la informacin segn estaba antes del fallo.

    Estudios

    Empleado

    Logros Familia

    Experiencia

  • Computacin para Ingeniera I y Laboratorio Cap. 2 - Conceptos de Archivos y Bases de Datos

    Ing. Hermas Herrera Callejas Pgina: 8 de 8

    Para ello se emplean las siguientes tcnicas:

    Realizacin de copias de seguridad (back-up) peridicamente, por ejemplo, una vez por semana, guardando estas copias en un lugar seguro hasta que dejen de tener validez al realizar nuevas copias.

    Registro de operaciones que se realicen con los datos, recopilando estos registros peridicamente, por ejemplo, una vez por da.

    Establecimiento de procedimientos de recuperacin capaces de reconstruir la informacin en su estado anterior a producirse el fallo, por medio de la copia de seguridad y de los registros de operaciones.

    RAID = Redundant Array of Inexpensive Disk.- La informacin de archivos o bases de datos creados en un volumen es distribuida de modo automtico en reas especiales de los dems volmenes para su recuperacin automtica en caso de dao del volumen fsico

    De esta forma, cuando se produzca un fallo o avera, una vez subsanada y realizado el procedimiento de recuperacin, se tendr la informacin segn estaba cuando se efectu el ltimo registro de operaciones y slo ser preciso repetir las operaciones que se hicieron sobre el archivo o base de datos desde ese momento hasta el fallo. 2.6.4 Seguridad Contra Usos Incorrectos o no Autorizados.- Una de las principales

    caractersticas de los archivos y de las bases de datos es la posibilidad de acceso a sus datos por parte de diferentes programas y usuarios. Esta caracterstica implica la posibilidad de que los datos puedan ser daados por error o que puedan ser utilizados ilegtimamente por usuarios no autorizados. Para evitarlo, habr que establecer medidas de seguridad al efecto. Fsicamente el acceso a un archivo se protege por medio de etiquetas, cuyas claves estn controladas por el sistema operativo. En algunos casos se puede aumentar an ms esta proteccin por medio del criptografiado de los datos almacenados, consistente en el encubrimiento de la informacin por algn mtodo de cifrado. (Sin embargo hay posibilidad de violar esa seguridad mediante pinchazos a las vas de transmisin mediante sneefers) La proteccin queda establecida mediante diferentes niveles de acceso a los archivos relativos a las operaciones permitidas o prohibidas: lectura, escritura y borrado de registros. A cada usuario se le asigna un nivel de acceso, que es aceptado por el sistema operativo tras el reconocimiento de su clave de usuario (password) y que le restringe el acceso a determinados archivos y a determinadas operaciones sobre ellos. Es conveniente que la clave de usuario se cambie con frecuencia para reforzar la seguridad. Es imposible lograr seguridad en un 100 %, sin embargo toda medida de seguridad implantada disminuye el riesgo contra uso no autorizado o destruccin. Habr que buscar un sano equilibrio entre el costo de implantar medidas de seguridad y el nivel de seguridad alcanzado de modo que corresponda a las polticas de cada institucin.