Arquitectura Paralela
Arquitectura Paralela
Arquitectura Paralela
www.monografias.com
Arquitectura paralela
1. 2. 3. 4. 5. Procesamiento Paralelo Arquitectura Paralela Lnea paralela aritmtica Lnea paralela de instrucciones Arquitectura paralela RISC.
1. PROCESAMIENTO PARALELO El procesamiento paralelo es un trmino que se usa para denotar un grupo de tcnicas significativas que se usan para proporcionar tareas simultneas de procesamiento de datos con el fin de aumentar la velocidad computacional de un sistema de computadoras. En lugar de procesar cada instruccin en forma secuencial como es una computadora convencional, un sistema de procesamiento paralelo puede ejecutar procesamiento concurrente de datos para conseguir un menor tiempo de ejecucin. Por ejemplo, cuando se ejecuta una instruccin en la ALU, puede leerse la siguiente instruccin de la memoria. El sistema puede tener 2 o mas ALUS y ser capaz de ejecutar dos o mas instrucciones al mismo tiempo. Adems, el sistema puede tener dos o ms procesadores operando en forma concurrente. EL propsito del procesamiento paralelo es acelerar las posibilidades de procesamiento de la computadora y aumentar su eficiencia, esto es, la capacidad de procesamiento que puede lograrse durante un cierto intervalo de tiempo. La cantidades de circuitera aumenta con el procesamiento paralelo y, con el, tambin el costo del sistema. Sin embargo, los descubrimientos tecnolgicos han reducido el costo de la circuetera a un punto en donde las tcnicas de procesamiento paralelo son econmicamente factibles. El procesamiento paralelo puede considerarse de diversos niveles de complejidad. En el nivel mas bajo, distinguimos entre operaciones seriales y paralelas mediante el tipo de registros que utilizan. Los registros de corrimiento operan en forma serial un bit a la vez, mientras que los registros con carga paralela operan con todos los bits de la palabra en forma simultnea. Puede obtenerse procesamiento paralelo a un nivel ms alto de complejidad al tener mltiples unidades funcionales que ejecuten operaciones idnticas o diferentes, de manera simultnea. El procesamiento paralelo se establece al distribuir los datos entre las unidades funcionales mltiples. Por ejemplo, las operaciones aritmtiocas, lgicas y de corrimiento pueden separarse en tres unidades y dividirse los operandos a cada una, bajo la supervisin de una unidad de control. Fig. 1 Procesador con unidades funcionales mtliples
Arquitectura Paralela
La Fig. 9-1. muestra una manera posible de separar la unidad de ejecucin en 8 unidades funcionales que operan en paralelo. Los operando en los registros se aplican a una de las unidades, dependiendo de la operacin especificada, mediante la instruccin asociada con los operandos. La operacin ejecutada en cada unidad funcional se indica en cada bloque del diagrama. El sumador y el multiplicador de enteros ejecutan las operaciones aritmticas con nmeros enteros. Las operaciones de punto flotante se separan en tres circuitos que operan en paralelo. Las operaciones lgicas de corrimiento y de incremento pueden ejecutarse en forma concurrente sobre diferentes datos. Todas las unidades son independientes unas de otra, por lo que puede correrse un nmero mientras otro se incrementa. Por lo general, una organizacin multifuncional esta asociada con una unidad de control compleja para coordinar todas las agilidades entre los diferentes componentes. Existen varias maneras de clasificar el procesamiento paralelo. Puede considerarse a partir de la organizacin interna de los procesadores, desde la estructura de interconexin entre los procesadores o desde del flujo d e informacin a travs del sistema. Una clasificacin presenta por M. J. Flynn considera la organizacin de un sistema de computadora mediante la cantidad de instrucciones y unidades de datos que se manipulan en forma simultnea. La operacin normal de una computadora es recuperar instrucciones de la memoria y ejecutarlas en el procesador. La secuencia de instrucciones ledas de la memoria constituye un flujo de instrucciones. Las operaciones ejecutada sobre los datos en el procesador constituyen un flujo de datos. El procesamiento paralelo puede ocurrir en el flujo de instrucciones, en el flujo de datos o en ambos. La clasificacin de Flynn divide a las computadoras en cuatro grupo principales de la manera siguiente: Flujo de instruccin nico, Flujo de datos nico (SISD) Flujo de instruccin nico, Flujo de datos Mltiple (SIMD) Flujo de instruccin Mltiple, Flujo de datos nico (MISD) Flujo de instruccin Mltiple, Flujo de datos Mltiple (MIMD) SISD. Representa la organizacin de una computadora nica que contiene una unidad de control, una unidad de procesador y una unidad de memoria. Las instrucciones se ejecutan en forma secuencial y el sistema puede tener o no tener posibilidades de procesamiento paralelo. En este caso el procesamiento paralelo puede lograrse mediante unidades funcionales mltiples o mediante una arquitectura paralela. SIMD. Representa una organizacin que influye muchas unidades de procesamiento bajo la supervisin de una unidad de control comn. Todos los procesadores reciben la misma instruccin de la unidad de control, pero operan sobre diferentes conjuntos de datos. La unidad de memoria compartida debe de contener mdulos mltiples para que pueda comunicarse con todos los procesadores simultneamente. LA estructura MISD es sola de intereses terico porque no se ha construido ningn sistema prctico utilizando esta organizacin. La organizacin MIMD se refiere a un sistema de computadoras capaz de procesar mltiples programas al mismo tiempo la mayora de los sistemas de multicomputadoras y multiprocesador pueden clasificarse en esta categora. La clasificacin de Flynn depende en la diferencia entre el desempeo de la unidad de control y el de la unidad de procesamiento de datos. Enfatiza las caractersticas de desempeo del sistema de computadoras ms que sus interconexiones estructurales y operacionales. Un tipo de procesamiento paralelo que no entra en la clasificacin flynn es la arquitectura paralela (pipe-line) Las nicas dos categoras utilizadas de esta clasificacin son los procesadores de arreglo SIMD, analizados en la seccin 9-7 y MIMD. El procesamiento por arquitectura paralela es una tcnica de implantacin en donde las suboperaciones aritmticas o las fases de un ciclo de instruccin de computadora se traslapan en su ejecucin el procesamiento de vectores relaciona con los clculos que implican vectores y matrices grandes. Los procesadores de arquitectura paralela ejecutan clculos sobre arreglos de datos grandes.
Arquitectura Paralela
2 Arquitectura Paralela La arquitectura paralela o de lneas paralelas (pipe-line), es una tcnica en la que se descomponen un proceso secuencial en suboperaciones, y cada subproceso se ejecuta en un segmento dedicado especial que opera en forma concurrente con los otros segmentos. Una lnea puede considerarse como un conjunto de segmentos de procesamiento por el que fluye informacin binaria. Cada segmento ejecuta un procesamiento parcial, dictado por la manera en que se divide la tarea. El resultado obtenido del clculo en cada segmento se transfiere al siguiente segmento en la lnea. El resultado final se obtiene despus de que los datos han recorrido todos los segmentos. El nombre lnea implica un flujo reinformacin similar a una lnea de ensamblado industrial. Es caracterstico de las lneas que varios clculos puedan estar en proceso en distintos segmentos, al mismo tiempo. La simultaneidad de los clculos es posible al asociar un registro con cada segmento en la lnea. Los registros proporcionan aislamiento entre cada segmento para que cada uno pueda operar sobre datos distintos en forma simultnea. Tal vez la manera ms simple de apreciar la arquitectura de lneas paralelas es imaginar que cada segmento consta de un registro de entrada seguido de un circuito combinatorio. El registro contiene los datos y el circuito combinatorio ejecuta las suboperacin en el segmento particular. La salida del circuito combinacional es un segmento dado se aplica al registro de entrada del siguiente segmento. Se aplica un reloj a todos los registros despus de que se ha transcurrido un tiempo suficiente para ejecutar toda la actividad del segmento. De esta manera la informacin fluye por la lnea un paso a la vez. La organizacin de la lnea se mostrar mediante un ejemplo: Supongamos que deseamos ejecutar las operaciones multiplicar y sumar combinadas con un flujo de nmeros. Ai * B1 + Ci para i=1,2,3,7
Cada suboperacin se va a implantar en un segmento dentro de la lnea. Cada segmento tiene uno o dos registros y un circuito combinatorio, como se muestra en la figura 9.2. De R1 a R5 son registros que reciben nuestros datos con cada pulso de reloj. El multiplicador y el sumador son circuitos combinatorios. Las suboperaciones ejecutadas en cada segmento del conducto son las siguientes:
R1 Ai R2 Bi Introducir Ai y Bi R3 R1*R2, R4 Ci Multiplicar e introducir Ci Los cinco registros se cargan con datos nuevos en cada pulso de El efecto de cada pulso R5 R3+R4 Sumar Ci reloj. al producto
de reloj se muestra en la tabla 9.-1 El primer pulso de reloj transfiere A1 y B1 dentro de R1 y R2. El segundo pulso de reloj transfiere el producto de R1 y R2 dentro de R3 y C1 dentro de R4. El mismo pulso de reloj transfiere A2 y B2 dentro de R1 y R2. El tercer pulso de reloj opera sobre los tres segmentos en forma simultnea. Coloca a A3 y B3 dentro de R1 y R2, transfiere el producto R1 y R2 dentro de R3, transfiere C2 dentro de R4 y coloca la suma de R3 y R4 dentro de R5. Se necesita tres pulsos de reloj para llenar la lnea y recuperar la primera salida de R5. De ah en adelante, cada ciclo de reloj produce una nueva salida y mueve los datos un paso adelante en la lnea. Estos sucede en tanto fluyan nuevos datos dentro del sistema cuando ya no hay datos de entrada disponibles, el reloj debe continuar hasta que emerge la ltima salida de la lnea GRAFICO 2 Ejemplo de Procesamiento Paralelo
Ai R1 Multiplicador
B1 R2
Ci
Arquitectura Paralela
R3
R4
Sumador R5
Tabla 1 Contenido de registros en el ejemplo de arquitectura paralela Nmero de Pulso de Reloj 1 2 3 4 5 6 7 8 9 Segmento 1 R1 A1 A2 A3 A4 A5 A6 A7 --------Segmento R3 -A1*B1 A2*B2 A3*B3 A4*B4 A5*B5 A6*B6 A7*B7 ----Segmento 3 R5 ------A1*B1+C1 A2*B2+C2 A3*B3+C3 A4*B4+C4 A5*B5+C5 A6*B6+C6 A7*B7+C7
R2 B1 B2 B3 B4 B5 B6 B7 ---------
R4 ----C1 C2 C3 C4 C5 C6 C7 -----
Consideraciones generales Cualquier operacin que pueden descomponerse en una secuencia de suboperaciones de aproximadamente la misma complejidad, puede implementarse mediante un procesador de arquitectura paralela. La tcnica es eficiente para aquellas aplicaciones que necesitan repetir la misma tarea muchas veces con diferentes conjuntos de datos. La estructura general de una lnea de cuatros segmentados se ilustra en la figura 9.3. Los operandos recorren los cuatros segmentos de una secuencia fija. Cada segmento consta de cada circuito combinacional S i Que ejecuta una suboperacin sobre el flujo de datos que fluyen por la lnea. Los segmentos se separan mediante registros Ri Que contienen los resultados intermedios entre las etapas. La informacin fluye entre etapas adyacentes bajo el control de un reloj comn aplicado a todos los registros en forma simultnea definimos una tarea como la operacin total ejecutada cuando se recorren todos los segmentos en la lnea. Figura 3 Lnea paralela de cuatro segmentos
Reloj
Entrada
S1 R1 S2 R2 S3 R3 S4 R4
Arquitectura Paralela
El desempeo de la arquitectura paralela puede ilustrarse mediante un diagrama espaciotiempo. Este es un diagrama que muestra la utilizacin del segmento como una funcin del tiempo. El diagrama espacio-tiempo de un conducto con cuatro segmentos se muestra en la figura 9.4 El eje horizontal muestra el tiempo en ciclos de reloj y el eje vertical proporciona el nmero de segmentos el diagrama muestra seis tareas de la T1 a la T6 ejecutada en cuatros segmentos. Al principio, ala tarea T1 se maneja mediante el segmento. 1.Despus del primer ciclo de reloj, el segmento 2 esta ocupado con T1 mientras que el segmento 1 esta ocupado con la tarea T2. A continuar de esta manera la primera tarea T1 se complementa despus del cuarto ciclo de reloj. De ah en adelante la lnea completa una tarea en cada ciclo de reloj. No importa cuantos segmentos existan en el sistema, una vez que la lnea esta llena, solo se necesita un periodo de reloj para obtener una salida. Ahora consideremos el caso en donde se utiliza una lnea de K de segmentos para ejecutar n tareas con un tiempo de ciclo de reloj Tp, la primera tarea T1 necesita un tiempo igual a KTp para completar su operacin, porque existen K segmentos en la lnea. Las n-1 tareas restantes emergen en la lnea a una velocidad de una tarea por ciclo de reloj y se terminar despus de un tiempo igual (n-1)tp por lo tanto, para completar n tareas una lnea en K segmentos se necesita K+ (n-1) ciclos de reloj. Por ejemplo, el diagrama de la figura 9-4 muestra cuatros segmentos y seis tareas. El tiempo requerido para completar todas las operaciones es 4 + (61)=9 ciclos de reloj segn se indica en el diagrama.
1 Segmento 1 2 3 T1 T2 T1
2 T3 T2 T1
3 T4 T3 T2
4 T5 T4 T3
5 T6 T5 T4
Ciclos de reloj
T6 T5 T6 T6
A continuacin consideremos una unidad de arquitectura no paralela que ejecuta la misma operacin y requiere un tiempo igual a Tn para completar cada tarea. El tiempo total requerido para n tareas es NTn. La aceleracin de un procesamiento por arquitectura paralela sobre un procesamiento no paralelo equivalente se define mediante la relacin: S=
NTn ( K+n-1)Tp
Conforme aumenta la cantidad de tareas, n se vuelve mucho ms grande que K-1, y K+n-1 se aproxima al valor de n. Bajo esta condicin, la aceleracin se convierte en: S=
Tn Tp
Si consideramos que el tiempo que se necesita para procesar una tarea es igual en una arquitectura paralela y en una arquitectura no paralela, tendremos Tn = KTp. Al incluir esta suposicin, la aceleracin se reduce a: S=
KTp Tp =K
Esto muestra que la mxima aceleracin terica que puede proporcionar un conducto es K, en donde K es la cantidad de segmentos en el conducto Para duplicar la ventaja de velocidad terica de un proceso paralelo mediante unidades funcionales mltiples, es necesario construir k segmentos iguale el desempeo de k copias de un circuito de arquitectura no paralela equivalente bajo condiciones de operacin iguales. Esto
Arquitectura Paralela
se ilustra en la figura 9-5, en donde estn conectados en paralelo cuatro circuitos idnticos. Cada circuito P ejecuta la misma tarea de un mismo circuito con arquitectura paralela equivalente. En lugar de operar con los datos de entrada en secuencia, como en una lnea, los circuitos paralelos aceptan cuatro conjuntos de datos de entrada en forma simultnea y ejecutan cuatro tareas al mismo tiempo. En lo que se refiere a la velocidad de operacin esta es equivalente a una lnea con cuatro segmentos. Ntese que el circuito de cuatro unidades de la figura 9-5, constituye una organizacin de instruccin nica, datos mltiples en paralelo.
li
li+1
li+2
li+3
P1
P2
P3
P4
Figura 5 Unidades funcionales mltiples en paralelo Existen varias razones por las que una arquitectura paralela no puede operar a su mxima velocidad terica. Los diferentes segmentos pueden requerir tiempos diferentes para completar su suboperacin. Debe elegirse el ciclo de reloj para iguale el tiempo de retraso del segmento con el mximo tiempo de propagacin. Esto provoca que los otros segmentos desperdicien tiempo mientras esperan el siguiente ciclo de reloj. Adems no siempre es correcto considerar que un circuito de arquitectura tiene el mismo retraso de tiempo que un circuito con arquitectura paralela equivalente. Muchos de los registros intermedios no se necesitarn en un circuito de una sola unidad el cual, por lo general, puede construirse por completo como un circuito combinatorio. No obstante, la tcnica de arquitectura paralela proporciona una operacin mas rpida que una secuencia puramente serial, aunque nunca se logra por completo la mxima velocidad terica. Existen dos reas de diseo de computadoras en las que es aplicable la organizacin paralela. Una lnea aritmtica divide una operacin aritmtica en suboperaciones que se ejecutan en los segmentos de la lnea. Una lnea de instrucciones opera sobre un flujo de instrucciones al sobreponer las fases de recuperacin, decodificacin y ejecucin. En las siguientes secciones se explican los dos tipos de lneas. 3 Lnea paralela aritmtica Por lo general, se encuentran unidades aritmticas de arquitectura paralela en computadoras de gran velocidad. Se usan para implantar operaciones de punto flotante, multiplicacin de nmeros de punto fijo y clculos similares encontrados en problemas cientficos. En esencia, un multiplicador de arquitectura paralela es un arreglo multiplicador como el que se describe en la figura 10-10, con sumadores especiales diseados para minimizar el tiempo de propagacin de acarreo mediante los productos parciales. Las operaciones de punto flotante se descomponen con facilidad en suboperaciones, como se muestra en la seccin 10-5. Ahora mostraremos un ejemplo de una unidad paralela para suma y resta de punto flotante. Las entradas para la lnea sumadora de punto flotante son dos nmeros binarios normalizados de punto flotante. X = A X 2 Y = B X 2b
Arquitectura Paralela
A y B son dos fracciones que representan las mantisas, en tanto que a y b son los exponentes. Puede ejecutarse la suma y resta de punto flotante en cuatro segmentos, como se muestra en la figura 9-6. Los registros etiquetados R se colocan entre los segmentos para almacenar los resultados intermedios. Las suboperaciones que se ejecutan en los cuatro segmentos son: 1. Comparar los exponentes. 2. Alinear las mantisas. 3. Sumar o restar las mantisas. 4. Normalizar el resultado. Esto se apega al procedimiento delineado en el diagrama de flujo de la figura 10-15, pero se usan algunas variaciones para reducir el tiempo de ejecucin de las suboperaciones. Se comparan los exponentes al restarlos para determinar su diferencia. Se escoge el exponente mayor como el exponente del resultado. La diferencia entre exponentes determina cuntas veces debe ejecutarse un corrimiento a la derecha sobre la mantisa asociada con el exponente menor. Esto provoca un alineamiento de las dos mantisas. Debe notarse que el corrimiento debe estar diseado como un circuito combinatorio para reducir el tiempo de corrimiento. Las dos mantisas se suman o restan en el segmento 3. El resultado se normaliza en el segmento 4. Cuando ocurre un sobre flujo, la mantisa de la suma o diferencia se recorre a la derecha y el exponente se incrementa en 1. Si ocurre un sobre flujo, la cantidad de nmeros 0 significativos en la mantisa determina el nmero de corrimientos a la izquierda y la cantidad que debe restarse del exponente. El siguiente ejemplo numrico puede aclarar las suboperaciones que se ejecutan en cada segmento. Por simplicidad utilizamos nmeros binarios. Consideremos los dos nmeros de punto flotante normalizados: X = 0.9504 X 103 Y = 0.8200 X 102 Exponentes
Mantisas B
R R
Segmento 1:
Diferencia R
Segmento 2: Segmento 3:
Elegir exponente
Alinear Mantisas
Segmento 4:
R Ajustar exponente
Normalizar Resultado R
Arquitectura Paralela
Figura 9-6 Arquitectura paralela para suma y resta de punto flotante Se restan los dos exponentes en el primer segmento para obtener 3 2 = 1. Se escoge el exponente ms grande, 3, como el exponente del resultado. El siguiente segmento recorre a la derecha la mantisa de Y para obtener: X = 0.9504 X 103 Y = 0.0820 X 103 Esto alinea las dos mantisas bajo el mismo exponente. La suma de las dos mantisas en el segmento 3 produce la suma: Z = 1.0324 X 103 Se ajusta la suma al normalizar el resultado para que tenga una fraccin con un primer dgito diferente de 0. Esto se hace al recorrer a la derecha una vez la mantisa e incrementar el exponente en 1 para obtener la suma normalizada. Z = 0.10324 X 104 En la lnea paralela de punto flotante se implantan el comparador, corrimiento, sumador, sustractor, incrementador, y decrementador con circuitos combinatorio. Supongamos que los retrasos de tiempo de los 4 segmentos son t 1 = 60 ns, t2 = 70 ns, t3 = 100 ns, t4 = 80 ns y que los registros de interfaz tienen un retraso de t r = 10 ns. Se selecciona el ciclo de reloj para que sea tp = t3 + tr = 110 ns. Un sumador-sustractor de punto flotante equivalente no paralelo, tendr un retraso tn = t1 + t2 + t3 + t4 + tr = 320 ns. En este caso, el sumador paralelo tiene una aceleracin mayor 320/110 = 2.9 que el sumador no paralelo. 4 Lnea paralela de instrucciones El procesamiento por lnea paralela puede ocurrir en el flujo de datos y tambin en el flujo de instrucciones. Una lnea paralela de instrucciones lee instrucciones consecutivas de la memoria mientras, en otros segmentos, se ejecutan instrucciones anteriores. Una posible digresin asociada con tal esquema es que una instruccin puede producir un brinco fuera de secuencia. En tal caso, debe vaciarse la lnea y deben descartarse todas las instrucciones que se han ledo de la memoria despus de la instruccin de brinco. Consideremos una computadora con una unidad de recuperacin y una unidad de ejecucin de instrucciones diseada para proporcionar una lnea de dos segmentos. Puede implantarse el segmento de recuperacin de instrucciones mediante un registro intermedio (buffer) primero en entrar, primero en salir (FIFO). Este es un tipo de unidad que forma una cola en lugar de una pila. Cuando la unidad de ejecucin no esta usando la memoria, el control incrementa el contador de programa y utiliza su valor de direccin para leer instrucciones consecutivas de la memoria. Las instrucciones se insertan en el registro intermedio FIFO para que puedan ejecutarse en un esquema primero en entrar, primero en salir. Por lo tanto, puede colocarse un flujo de instrucciones en una cola, en espera que lo decodifique y procese el segmento de ejecucin. El mecanismo de formacin de colas con flujos de instrucciones proporciona una manera eficiente para reducir el tiempo promedio de acceso a memoria para leer instrucciones. Cuando hay espacio en recuperacin de instrucciones. El registro intermedio acta como una cola de la que el control obtiene las instrucciones para la unidad de ejecucin. Las computadoras con instrucciones complejas requieren otras fases adems de las de recuperacin y ejecucin para procesar por completo una instruccin. En el caso ms general, la computadora necesita procesar cada instruccin con la siguiente secuencia de pasos. 1. Recuperar la instruccin de la memoria 2. Decodificar la instruccin 3. Calcular la direccin efectiva 4. Recuperar los operandos de la memoria 5. Ejecutar la instruccin 6. Almacenar el resultado en el lugar adecuado.
Arquitectura Paralela
Existen ciertas dificultades que evitarn que la lnea paralela de instrucciones funcione a su velocidad mxima. Segmentos diferentes pueden necesitar tiempos diferentes para actuar sobre la informacin que llega. Se saltan algunos segmentos para ciertas operaciones. Por ejemplo, una instruccin de modo de registro no necesita un clculo de direccin efectiva. Dos o ms segmentos pueden requerir el acceso a la memoria al mismo tiempo, provocando que un segmento espere hasta que otro termine su comunicacin. En ocasiones, se resuelven los conflictos de acceso a memoria al usar dos canales de memoria para acceder las instrucciones y los datos en mdulos separados. De esta manera, pueden leerse de forma simultnea una palabra de instruccin y una palabra de datos de dos mdulos diferentes. El diseo de una lnea paralela de instrucciones ser ms eficiente si se divide el ciclo de instrucciones en segmentos de igual duracin. El tiempo que necesita cada paso para terminar su funcin depende de la instruccin y de la manera como se ejecuta. Ejemplo: Lnea paralela de instrucciones de cuatro segmentos Consideremos que pueden combinarse en un segmento de decodificacin de la instruccin y el clculo de la direccin efectiva. Adems, consideremos que la mayora de las instrucciones colocan el resultado en un registro de procesador, para que la ejecucin de la instruccin y el almacenamiento del resultado puedan combinarse en un segmento. Esto reduce la lnea paralela de instrucciones a cuatro segmentos. La figura 9-7 muestra como puede procesarse el ciclo de instrucciones en la CPU con una lnea paralela de cuatro segmentos. Mientras se ejecuta una instruccin en el segmento cuatro, la siguiente instruccin en secuencia se ocupa en recuperar un operando de la memoria en el segmento 3. En un circuito aritmtico separado puede calcularse la direccin efectiva para la tercera instruccin y, cuando est disponible la memoria, pueden recuperarse y colocarse en una localidad del registro intermedio FIFO la cuarta instruccin y todas las subsecuentes. Por lo tanto, pueden traslaparse y estar en proceso hasta cuatro suboperaciones en el ciclo de instrucciones. De vez en cuando, una instruccin en la secuencia puede ser del tipo de control de transferencia del programa que produce un brinco fuera de la secuencia normal. En ese caso, se terminan las operaciones pendientes en los ltimos dos segmentos y se borra toda la informacin almacenada en el registro intermedio de instrucciones. Despus, la lnea paralela y vuelva a iniciar a partir de un nuevo valor de direccin Figura 9-7 Arquitectura paralela de CPU de cuatro segmentos ,
Segmento 1:
No
Recuperar instruccin de Recuperar instruccin de Segmento 3: la Memoria la Memoria Decodificar instruccin Segmento 2: y calcular direccin efectiva
Manejo de interrupcin
Si
Interrumpi r?
No
Si 4:
Actualizar PC
La figura 8 muestra la operacin de la lnea paralela de Lnea Vaca instrucciones. El tiempo en el eje horizontal se divide en pasos de igual duracin. En el diagrama, los cuatro segmentos se representan con un smbolo abreviado. 1. FI es el segmento que recupera una instruccin 2. DA es el segmento que decodifica la instruccin y calcula la direccin efectiva. 3. FO es el segmento que recupera el operando.
Arquitectura Paralela
4. EX es el segmento que ejecuta la instruccin. Figura 8 Temporizacin d lnea paralela de instrucciones. Pas o 1 2 3 4 5 6 7 1 FI 2 DA FI 3 FO DA FI 4 EX FO DA FI 5 6 7 8 9 10 11 12 13
EX FO -
EX -
FI -
DA FI
FO DA FI
EX FO DA FI
EX FO DA
EX FO
EX
Se considera que el procesador tiene memorias de instrucciones y datos separadas, por lo que puede avanzar la operacin en FI y FO, al mismo tiempo. En ausencia de una instruccin de transferencia de control, cada segmento opera sobre instrucciones diferentes. Por lo tanto, en el paso 4, se ejecuta la instruccin en el segmento EX; el operando para la instruccin 2 se recupera en el segmento FO; en el segmento DA se decodifica la instruccin 3 y en el segmento FI se recupera de la memoria la instruccin 4. Supongamos que la instruccin 3 es una instruccin de transferencia de control. Tan pronto como se decodifica esta instruccin en el segmento DA en el paso 4, se detiene la transferencia de FI a DA de las otras instrucciones, hasta que se ejecuta la instruccin de transferencia de control en el paso 6. Si se da la transferencia, se recupera una nueva instruccin en el paso 7. Si no se da la transferencia, puede usarse la instruccin recuperada antes, en el paso 4. Despus, la lnea paralela continua la ejecucin hasta que se encuentra una nueva instruccin de transferencia de control. Puede ocurrir otro retraso en la lnea si el segmento EX necesita almacenar el resultado de la operacin en la memoria de datos mientras el segmento FO necesita recuperar un operando. En ese caso, el segmento FO debe esperar hasta que el segmento EX haya terminado su operacin. En general, existen tres dificultades principales que provocan que una lnea de instrucciones se aparte de su operacin normal. 1. Conflictos de recursos, provocados al accesar la memoria dos segmentos diferentes, al mismo tiempo. Gran parte de estos conflictos pueden resolverse al utilizar memorias de instrucciones y de datos separadas. 2. Surgen conflictos de dependencia de datos cuando una instruccin depende del resultado de una anterior, pero ste todava no esta disponible. 3. Se producen dificultades de transferencia de control a partir de instrucciones que modifican el valor del PC. Dependencia de los datos Una dificultad que puede producir una degradacin del desempeo en una lnea paralela de instrucciones se debe a una posible colisin de datos o direcciones. Ocurre una colisin cuando no puede avanzar una instruccin porque ciertas instrucciones previas no terminan sus operaciones. Ocurre una dependencia de datos cuando una instruccin necesita datos que todava no estn disponibles. Por ejemplo, una instruccin en el segmento FO puede necesitar un operando que se est generando, en ese momento, mediante una instruccin anterior en el segmento EX. Por lo tanto, la segunda instruccin debe esperar a que la primera instruccin le deje disponibles los datos. De igual manera, puede ocurrir una dependencia de direccin, cuando no puede calcularse una direccin de operando porque no esta disponible la informacin que necesita el modelo de direccionamiento. Por ejemplo, una instruccin con modo de direccionamiento indirecto por registro no puede avanzar a recuperar el operando si la instruccin anterior esta cargando la direccin en el registro; Por lo tanto, el acceso del operando en la memoria debe retrasarse hasta que est disponible la direccin requerida. Las computadoras con arquitectura paralela enfrentan tales conflictos de dependencia de datos de diversas maneras. El mtodo ms directo es insertar circuitos verificadores. Un verificador es un circuito que detecta instrucciones cuyos operandos fuentes son destinos de instrucciones que se
10
Arquitectura Paralela
encuentran mas adelante en la lnea. La deteccin de esta situacin hace que la instruccin cuya fuente no esta disponible se retrase suficiente ciclos de reloj para evitar el conflicto. Este enfoque mantiene la secuencia de programa al usar hardware para insertar los retrasos requeridos. Otra tcnica llamada avance de operandos, utiliza hardware especial para detectar un conflicto y despus evitarlo al direccionar los datos mediante trayectorias especiales entre segmentos de la lnea. Por ejemplo en lugar de transferir un resultado de la ALU a un registro destino, la circuiteria comprueba el operando destino y, si se necesita como fuente en la siguiente instruccin, para el resultado directamente a la entrada de la ALU, sin acceder al archivo de registro. Este mtodo necesita trayectoria de hardware adicionales por medio de multiplexores y el, circuito que detecta el conflicto. Un procesamiento empleado en algunas computadoras es proporcionar al compilador que traduce el lenguaje de programacin de alto nivel a un programa de lenguaje de maquina, la responsabilidad para resolver los problemas de conflicto de datos. El compilador para tales computadoras esta diseado para detectar un conflicto de datos y reordenar las instrucciones conforme sea necesario al retrasar la carga de los datos en conflicto por medio de la insercin de instrucciones de no operacin. Este mtodo se denomina carga pospuesta o retardada. En la siguiente seccin se presenta un ejemplo de este procedimiento. Manejo de las instrucciones de transferencia de control Uno de los problemas principales al operar un conjunto de instrucciones es la aparicin de instrucciones de transferencia de control. Una instruccin de transferencia de control puede ser condicional o incondicional. Una transferencia incondicional siempre altera el flujo secuencia del programa al cargar el contador de programa con la direccin objetivo. En una instruccin condicional, el control selecciona la direccin objetivo si se satisface la condicin o la siguiente instruccin secuencial si no se satisface. Como se mencion antes, la instruccin de transferencia de control interrumpe la secuencia normal del flujo de instrucciones, produciendo dificultades en la operacin de la lnea paralela de instrucciones. Las computadoras con arquitectura paralela emplean diferentes tcnicas de hardware para minimizar la degradacin del desempeo provocada por las instrucciones de transferencia de control. Una manera de manejar una transferencia condicional es recuperar con anticipacin La direccin objetivo, adems de la instruccin que sigue a la transferencia. Ambas se guardan hasta que se ejecuta la transferencia. Si la condicin de la transferencia se cumple, la lnea paralela contina a partir de la instruccin objetivo de la transferencia. Una extensin de este procedimiento es continuar la recuperacin de instrucciones de ambos lugares hasta que se tome la decisin de la transferencia. En ese momento, el control selecciona el flujo de instrucciones de la secuencia de programa correcta. Otra posibilidad es usar un registro de ramificacin objetivo (branch target buffer, BTB). El BTB es una memoria asociativa, incluida en el segmento de recuperacin de la lnea. Cada entrada en el BTB consiste en la instruccin de transferencia recuperada con anticipacin y la instruccin objetivo para esa transferencia. Tambin almacena unas cuantas instrucciones que se encuentran despus de la instruccin objetivo de la transferencia. Cuando la lnea decodifica una instruccin de transferencia, busca la memoria asociativa BTB para la direccin de la instruccin. Si est en el BTB, se puede disponer de la instruccin en forma directa y la recuperacin con anticipacin contina a partir de la nueva trayectoria. Si la instruccin no est en el BTB, la lnea paralela cambia a un nuevo ciclo de instrucciones y almacena la instruccin objetivo en el BTB. La ventaja de este esquema es que las instrucciones de transferencia de control que han ocurrido con anticipacin estn disponibles con facilidad en la lnea, sin interrupciones. Una variante del BTB es el registro de ciclo. Este es un pequeo archivo de registros, de muy alta velocidad, que se mantiene en el segmento de recuperacin de instrucciones de la lnea paralela. Cuando se detecta un ciclo de programa, se almacena por completo en el registro de ciclo, incluyendo todas las transferencias. EL ciclo de programa puede ejecutarse en forma directa, sin tener que acceder la memoria hasta que se retira el modo de ciclo con la transferencia de control final. Otro procedimiento que utilizan algunas computadoras es la prediccin de transferencia de control y lnea paralela. Una arquitectura paralela con prediccin de transferencia de control utiliza cierta lgica adicional para predecir el resultado de una instruccin de transferencia condicional antes de que se ejecute. Despus, la lnea paralela empieza a recuperar con
11
Arquitectura Paralela
anticipacin el flujo de instrucciones de la trayectoria predicha. Una prediccin correcta elimina el tiempo perdido causado por el proceso de transferencia de control. Un procedimiento usado en la mayora de los procesadores RISC es la transferencia propuesta o retardad. En este procedimiento, el procesador detecta las instrucciones de transferencia de control y reordena la secuencia de cdigo de lenguaje de mquina al insertar instrucciones tiles que conservan sin interrupciones la operacin de la lnea paralela. Un ejemplo de transferencia retardada es la insercin de una instruccin de no operacin despus de una instruccin de transferencia de control. Eso hace que la computadora recupere la direccin objetivo, durante la ejecucin de la instruccin de no operacin, lo que permite tener un flujo continuo del conducto. 5.-ARQUITECTURA PARALELA RISC. En la seccin 8-8 se presento la computadora en conjunto reducido de instrucciones (Risc).Entre las caractersticas que se le atribuyen a Risc esta la capacidad e usar un conjunto de instrucciones eficientes para implantar una lnea paralela de instrucciones con numero pequeo de operaciones y de cada una se ejecute en un ciclo de reloj. Debido al formato de instrucciones de longitud fija, la descodificacin de la operacin puede ocurrir al mismo tiempo que la seleccin de registros .Todas las instrucciones de manipulacin de datos tiene operacin de datos tiene operaciones registros a registros. Como todos los operandos estn en registros, no es necesario calcular una direccin Efectivas o recuperar operandos de la memoria .por lo tanto , la lnea paralela de instrucciones puede implantarse con dos o tres segmentos .Un segmento recupera la instruccin de la memoria del programa y el otro segmento ejecuta la instruccin en la ALU. Puede usarse un tercer segmento para almacenar el resultado de la operacin de la ALU en un registro destino. En la arquitectura Risc, las instrucciones de transferencia de datos estn limitadas alas instrucciones cargar y almacenar. Estas instrucciones utilizan un direccionamiento, directo por registro .Por lo general, necesita tres o cuatro etapas en el segmento. Para evitar conflictos entre un acceso a memoria con el fin de recuperar una instruccin y cargar y almacenar un operante, gran parte de las maquinas Risc utilizan dos canales separados con dos memoria: Una para almacenar las instrucciones y otra para almacenar los datos .En algn momento, las dos memorias pueden operar ala misma velocidad que el reloj del cpu y se denomina memoria cache. Una de las de las principales ventajas de la Risc es su capacidad para ejecutar instrucciones a una velocidad de una por ciclo de reloj. No es posible que cada instruccin se recupere de la memoria y se ejecute en un ciclo de reloj. En realidad, lo que se hace es empezar cada instruccin con cada ciclo de reloj y mediante su arquitectura paralela el procesador logra el propsito de una ejecucin de instruccin en un solo ciclo. La ventaja de la Risc sobre la CISC (computadora con conjunto de instrucciones complejo ) Es que la Risc Puede tener segmento paralelos , al requerir un solo ciclo de reloj , en tanto la CISC utiliza muchos segmentos en su arquitectura paralela y el segmento mas grande requiere dos o mas ciclo de reloj. Otra caracterstica de la RISC es el soporte Cdigo de Direccin base Direccin base Direccin base operacin Fuente 1 Fuente 2 destino Figura 9-11 Formato de instruccin para procesamiento de vector. Longitud De vector
Tres campos especifican la direccin base de los operandos y un campo adicional proporciona la longitud de los conjuntos de datos en los vectores. Esto considera que los operandos del vector residen en la memoria. Tambin es posible disear el procesador con una gran cantidad de registros antes de la operacin de suma. En ese caso, la direccin base y la longitud en la instruccin del vector especifican un grupo de registros de CPU. Multiplicacin de matriz La multiplicacin de matriz es una de las operaciones computacionales mas intensivas que se ejecutan en las computadoras con procesadores de vector. La multiplicacin de matrices n X n consta de operaciones de n2 productos internos o n3 operaciones multiplicar-sumar. Una matriz n X m de nmeros tiene n renglones y m columnas y puede considerarse que constituye un conjunto de n vectores de rengln o un conjunto de m vectores de columna.
12
Arquitectura Paralela
Consideremos por ejemplo, la multiplicacin de dos matrices 3 X 3 A y B. a11 a21 a31 a12 a22 a32 a13 a23 a33 x b11 b21 b31 b12 b22 b32 b13 b23 b33 = c11 c21 c31 c12 c22 c32 c13 c23 c33
La matriz producto C es unas matriz 3 X 3 cuyos elementos estn relacionados con los elementos de A y B mediante el producto interno:
cif = a ik x bki
k =1
Por ejemplo, el nmero en el primer rengln y la primera columna de la matriz C se calcula con i= 1, j =1, para obtener: C11= a11 b11 + a12 b21 + a13 b31 Esto requiere tres multiplicaciones y (despus de inicializar c11 en 0) tres sumas. La cantidad total de multiplicaciones o sumas requeridas para calcular el producto de la matriz es 9 x 3 = 27. Si consideramos la operacin global de multiplicar sumar c + a x b como una operacin acumulativa, el producto de dos matrices n x n requiere n3 operaciones de multiplicar sumar. El clculo consta de n2 productos internos, en donde cada producto interno requiere n operaciones de multiplicar sumar, considerando que c se inicializa en 0 antes de calcular cada elemento en la matriz producto. En general, el producto interno consta de la suma de k trminos de producto de la forma: C = A1 B1 + A2 B2 + A3 B3 + A4 B4 ++ Ak Bk En la aplicacin tpica k puede ser igual a 100 o incluso a 1000. el calculo de producto interno en un procesador de vector de arquitectura paralela se muestra en la figura 9-12. los valores de A y B estn en la memoria o en registros de procesador. Se considera que la lnea paralela del multiplicador de punto flotante y la lnea paralela del sumador de punto flotante tienen cuatro segmentos cada uno. Todos los registros de segmentos en el multiplicador y en el sumador se inicializan en 0. Por lo tanto, la salida del sumador es 0 para los primeros ocho primeros ciclos, hasta que estn llenas ambas lneas. Los pares A 1 y B1 se introducen y multiplican a una velocidad de un par por ciclo. Despus de los primeros cuatro ciclos, el producto comienza a sumarse a la salida del sumador. Durante los cuatro ciclos siguientes se suma 0 a los productos que entran a la lnea del sumador. Al final del octavo ciclo, los primeros cuatro productos A1, B1 hasta A4 B4 estn en los cuatro segmentos del sumador y los siguientes cuatro productos de A5 B5 a A8 B8 estn en los segmentos de multiplicador. Al comienzo del noveno ciclo, la salida del sumador es A1 B1 y la salida del multiplicador es A5 B5. Por lo tanto, el noveno ciclo comienza la suma A1 B1 + A5 B5 en la lnea sumador. El Dcimo ciclo comienza la suma A2 B2 + A6 B6 y as sucesivamente. Este patrn divide la suma en cuatro secciones de la manera siguiente: C = A1 B1 + A5 B5 + A9 B9 + A13 B13 + A2 B2 + A6 B6+ A10 B10+ A14 B14 + A3 B3 + A7 B7 + A11 B11+ A15 B15 + A4 B4 + A8 B8 + A12 B12+ A16 B16 +
Fuente A
Fuente B
13
Arquitectura Paralela
Cuando ya no hay ms trminos de producto por sumar, el sistema inserta cuatro ceros en la lnea del multiplicador. Entonces la lnea del sumador tendr un producto parcial en cada uno de sus cuatro segmentos, que corresponden a las cuatro sumas que se listan en los cuatro renglones de la ecuacin anterior. Despus se suman las cuatro sumas parciales para formar la suma final. Memoria entrelazada Los procesos de vector y de arquitectura paralela con frecuencia requieren acceso simultane a la memoria desde dos o mas fuentes, una lnea paralela de instruccin y un operador al mismo tiempo desde dos segmentos diferentes. De igual manera, una lnea aritmtica, por lo general, requiere que se introduzca dos o ms operandos en la lnea, al mismo tiempo. En lugar en la lnea, al, mismo tiempo. En lugar de usar dos canales de memoria para acceso simultaneo, puede dividirse la memoria en varios mdulos conectados a canales de direcciones y de datos comunes. Un modulo de memoria es un arreglo de memoria junto con sus propios registros de datos y direcciones. La figura 9-13 muestra una unidad de memoria con cuatro mdulos. Cada arreglo de memoria tiene su propio registro de direccin de un canal de direcciones comn y los registros de datos comunican con un canal de datos bidireccional.
AR
AR
AR
AR
Arreglo de memoria
Arreglo de memoria
Arreglo de memoria
Arreglo de memoria
DR
DR
DR
DR
Pueden utilizarse los dos bits menos significativos de la direccin para diferenciar entre los cuatro mdulos. El sistema modular permite que un mdulo inicie un acceso a memoria mientras otros mdulos estn en proceso de leer o escribir una palabra y cada modulo puede cumplir una solicitud de memoria independiente del estado de los otros mdulos. La ventaja de una memoria modular es que permite la utilizacin de una tcnica llamada entrelazado. En una memoria entrelazada, se asignan diferentes conjuntos de direcciones a diferentes mdulos, las direcciones pares pueden estar en un mdulo y las direcciones impares pueden estar en otro. Cuando las cantidad de mdulos es una potencia de 2, los bits menos significativos de la direcciones seleccionan un modulo de memoria y los bits restantes representan la posicin especifica que se va a accesar dentro del modulo seleccionado. Una memoria modular es til en sistemas con procesamiento de vector y de arquitectura paralela. Un procesador de vector que utiliza una memoria modular es til en sistemas con procesamiento de vector y de arquitectura paralela. Un procesador de vector que utiliza una memoria entrelazada de n canales, puede recuperar n operadores de n mdulos diferentes. Al entrelazar el acceso a la memoria, el tiempo de ciclo de memora efectivo puede reducirse en un factor cercano a la cantidad de mdulos. Una CPU con lnea paralelas de instrucciones puede aprovechar los mdulos de memoria mltiples para que cada segmento en la lnea pueda accesar las memoria en forma independiente del acceso de los otros segmentos. Supercomputadoras.
14
Arquitectura Paralela
A una computadora comercial con instrucciones de vector y operaciones aritmticas de punto flotante de lneas paralelas se le denomina Supercomputadora. Las supercomputadoras son maquinas de alto rendimiento muy poderosas que se usan sobre todo tipo de clculos cientficos. Para acelerar la operacin, los componentes se juntan para minimizar la distancia que tiene que recorrer las seales electrnicas. Las supercomputadoras tambin utilizan tcnicas especiales para evitar el calor en los circuitos y prevenir que se quemen debido a su proximidad. El conjunto de instrucciones de las supercomputadoras contiene las instrucciones de transferencia de datos manipulacin de datos y transferencia de control del programa de las computadoras convencionales. Esto se aumenta mediante instrucciones que procesan vectores y combinaciones de escalares y vectores. Una supercomputadora es un sistema computacional que se reconoce por su alta velocidad de clculo, sus sistemas de memoria grandes y rpidos y un uso amplio de procesamientos paralelo. Esta equipada con unidades funcionales mltiples y cada unidad tiene su propia configuracin de arquitectura paralela. Aunque la supercomputadora maneja aplicaciones de propsito general que se encuentran en todas las otras computadoras, est optimizada especficamente para el tipo de clculos numricos que involucran vectores y matrices de nmeros de punto flotante. Las supercomputadoras no son convenientes para procesamiento cotidiano normal de una instalacin de computadora tpica. Su uso se limita a ciertas aplicaciones cientficas, como prediccin numrica del clima, anlisis de ondas ssmicas e investigacin espacial. Se usan en forma limitada y su mercado tambin es pequeo debido a su alto precio. Una medida utilizada para evaluar computadoras, es su capacidad para ejecutar cierta cantidad de operaciones de un punto flotante por segundo, que se denomina flops. El trmino megaflops se utiliza para representar millones de flops y gigaflops para representar mil millones de flops. Una supercomputadora tpica tiene un tiempo de ciclo bsico de 4 a 20 ns. Si el procesador puede calcular una operacin de punto flotante por lnea paralela cada ciclo, tendr la capacidad de ejecutar de 50 a 250 megaflops. Esta velocidad se sostendra desde el momento en que se produce la primera respuesta y no incluye el tiempo de iniciacin de las lneas paralelas. La primera supercomputadora desarrollada en 1976 es la Cray-1. Utilizada el procesamiento de vector con 12 unidades funcionales distintas en paralelo. Cada unidad funcional esta dividida para procesar los datos de entrada a travs de una lnea paralela. Todas las unidades funcionales pueden operar en forma concurrente con operandos almacenados en una gran cantidad de registros (ms de 150) en la CPU. Puede ejecutarse una operacin de punto flotante sobre dos conjuntos de operandos de 64 bits, durante un ciclo de reloj de 12.5 ns. Esto nos da una velocidad de 80 megaflops durante el tiempo que se procesan los daros a travs de las lneas paralelas. Tienen una capacidad de memoria de cuatro millones de palabras de 64 bits. La memoria se divide en 16 bancos, en donde cada banco tiene un tiempo de acceso de 50 ns. Esto significa que cuando se accedan los 16 bancos en forma simultanea, la velocidad de transferencia de memoria es de 320 millones de palabras por segundo. La investigacin acerca de la Cray amplio su supercomputadora a una configuracin de multiprocesador llamada Cray X-MP y Cray Y-MP. La nueva supercomputadora Cray 2 es doce veces ms poderosa que la Cray 1 en el modo de procesamiento de vector. Otro modelo inicial de supercomputadora es la Fujitsu VP-200. Tiene un procesador escalar y un procesador de vector que pueden operar en forma concurrente. Como en las supercomputadoras Cray, se utilizan una gran cantidad de registros y de unidades funcionales mltiples para habilitar las operaciones de vector de registro a registro. Existen cuatro lneas paralela s de ejecucin en le procesador de vector y cuando operan en forma simultanea, pueden procesar hasta 300 megaflops. La memoria principal tiene 32 millones de palabras conectadas a los registros de vector mediante leneas paralelas de carga y almacenamiento. La VP-200 tiene 83 instrucciones de vector y 195 instrucciones escalares. La mas reciente VP 2600 utiliza un ciclo de reloj de 3.2 ns y se dice que a su mxima capacidad puede procesar cinco gigaflops. Arreglo de procesador SIMD Un arreglo de procesador es un procesador que ejecuta clculos sobre arreglos de datos grandes. El trmino se utiliza para hacer referencia a dos tipos diferentes de procesadores. Un arreglo de procesador conectado es un procesador auxiliar conectado a una computadora de propsito general. Pretende mejorar el desempeo de la computadora anfitrin en tareas de
15
Arquitectura Paralela
clculos numricos especficos. Un arreglo de procesador SIMD (Single Instruccin, mltiple data) es un procesador que tiene una organizacin de instruccin nica, datos mltiples. Manipula instrucciones de vector mediante mltiples unidades funcionales que responden a una instruccin comn. Aunque ambos tipos de procesadores de arreglo manipulan vectores, su organizacin interna es diferente. Arreglo de procesador conectado Un arreglo de procesador conectado esta diseado un perifrico para una computadora anfitriona convencional y su propsito es mejorar el desempeo de la computadora al proporcionar procesamiento de vector para aplicaciones cientficas complejas. Produce un alto rendimiento mediante el procesamiento paralelo con mltiples unidades funcionales. Incluye una unidad aritmtica que contiene uno o ms sumadores y multiplicadores de punto flotante de arquitectura paralela. El usuario puede programar el arreglo de procesador para que de cabida a diversos problemas aritmticos complejos. La figura 9-14 muestra la interconexin de un arreglo de procesador conectado a una computadora anfitriona. La computadora anfitriona es una computadora comercial de propsito general y el procesador conectado es una terminal conectada a una computadora anfitriona. El arreglo de procesador est conectado se trasfieren de la memoria principal a una memoria local mediante un canal de alta velocidad.
Computadora de propsito general Interfaz de Entrada - salida Arreglo del procesador conectado
Memoria principal
Memoria local
La computadora de propsito general sin el procesador conectado atiende a los usuarios que necesitan procesamiento de datos convencional. El sistema con el procesador conectado satisface las necesidades para aplicaciones aritmticas complejas. Algunos fabricantes de procesadores de arreglo conectado ofrecen un modelo que pueden conectarse a diversas computadoras anfitrin. Por ejemplo, cuando se conecta a una computadora VAX11, el FSP-164/MAX de Floating-Point Systems aumenta el poder de clculo de la VAX a 100 megaflops. El objetivo del procesador de arreglo conectado es proporcionar posibilidades de manipulacin de vector a una computadora convencional, a una fraccin del costo de las supercomputadoras. Arreglo de procesador SIMD Un arreglo de procesador sima es una computadora con mltiples unidades de procesamiento que operan en paralelo. Las unidades de procesamiento estn sincronizadas para ejecutar la misma operacin bajo el control de una unidad comn, por lo que proporciona una organizacin de flujo de instrucciones nico, flujo de procesador se muestra en la figura 9-15. Contiene un conjunto de elementos de procesamientos (PE) idnticos, en donde cada uno tiene una memoria local M. Cada elemento del procesador incluye una ALU, una unidad de control maestro dirige las operaciones en los elementos del procesador. La memoria principal se utiliza para almacenamiento del programa. La funcin de la unidad de control maestro es decodificar las instrucciones y determinar como se van a ejecutar.
PE1
PE1
PE2
PE2
PE3
PE3
Memoria principal
PEn PEn
16
Arquitectura Paralela
Las instrucciones de control de programa y escalares se ejecutan directa dentro de la unidad de control maestro. Las instrucciones de vector se transmiten a todos los PE en forma simultnea. Cada PE utiliza operandos almacenados en su memoria local. Los operandos de vector se distribuyen a las memorias locales antes de la ejecucin en paralelo de la instruccin. Por ejemplo, consideramos la suma de vector C = A + B. Primero, la unidad de control maestro almacena los psimos componentes ai y bi de A y B en la memoria local Mi par i= 1, 2, 3, 4 ., n. Despus transmite la instruccin sumar de punto flotante Ci = ai + bi a todos los PE, causando que la suma se realice en forma simultanea. Los componentes de Ci estn almacenados en localidades fijas en cada memoria local. Esto produce la suma del vector deseado en un ciclo de suma. Se usan esquemas de enmascaramiento, con el fin de controlar el estado de cada PE durante la ejecucin de instrucciones de vector. Cada PE tiene una bandera que se activa cuando el PE est activo y se desactiva cuando est inactivo. Esto asegura que slo estn activos durante la ejecucin de la instruccin aquellos PE que necesitan participar. Por ejemplo, supongamos que un arreglo de procesador contiene un conjunto de 64 PE. Si se va a procesar una longitud de vector menor que 64 conjuntos de datos, la unidad de control de selecciona la cantidad correcta de PE que van a estar activos. La unidad control debe dividir los vectores con longitud mayor de 64, en partes de 64 palabras. El procesador de arreglo SIMD ms conocido es la computadora ILLIAC IV, desarrollada en la Universidad de Illinois y fabricada por Burroughs Corp. Esta computadora ya no est en operaron. Los procesadores SIMD son computadoras altamente especializadas. Sobre todo son convenientes para problemas numricos que pueden expresarse en forma de vector o de matriz. Sin embargo, no son muy eficientes en otros tipos de clculos o para trabajar con programas de procesamiento de datos convencionales. Nombre del investigador : Vctor Perales Fabian vperalesf@hotmail.com Estudiante: Facultad Ing. De sistemas Universidad Seor de Sipan Carretera Pimentel , Lambayeque -Per Categora: Computacin E inforrmtica
17