Parallele Programmierung mit MPI

Marc-Oliver Straub

entstanden aus:Parallele Programmierung mit MPI - ein Praktikum

große numerische Probleme (Simulation)optische Bildverarbeitung (Post)große WWW-ServerDatenbanken

Warum Parallelprogrammierung

mehrere kooperierende Prozesse1 Prozess pro ProzessorKommunikation zwischen den Prozessen über Shared Memory oder Nachrichten

Was ist ein paralleles Programm

Bibliothek zur Parallelprogrammierung für nachrichtengekoppelte Rechnerbesteht aus plattformspezifischer User-Library mit plattformübergreifendem Interfacevom Hersteller optimierte Bibliotheken für Cray, IBM SP, ...

Was ist MPI

MPICHhttp://www-unix.mcs.anl.gov/mpi/mpich/

LAM-MPIhttp://www.lam-mpi.org/

Dokumentationhttp://www.mpi-forum.org/

Distributionen

Struktur eines MPI-Programmes:Initialisierung: MPI_Init()Berechnung, KommunikationCleanup: MPI_Finalize()

Grundlagen

Ping Pong#include <mpi.h>MPI_Init();MPI_Comm_size(&procs);MPI_Comm_rank(&myid);if (myid == 0)

MPI_Send(buf, length, MPI_INT, 1, PING);MPI_Recv(buf, length, MPI_INT, 1, PONG, &status);

else if (myid == 1)MPI_Recv(buf, length, MPI_INT, 0, PING, &status);MPI_Send(buf, length, MPI_INT, 0, PONG);

MPI_Finalize();

P2P-Kommunikation

Synchron: MPI_Ssend, MPI_SrecvNichtblockierend: MPI_Isend, MPI_Irecv, MPI_Wait[any], MPI_Test[any]Gepuffert: MPI_Send, MPI_Recv

Synchronisation: MPI_BarrierDatenverteilung: MPI_Broadcast, MPI_ScatterErgebnissammlung: MPI_Gather, MPI_Reduce

Kollektive Operationen

Simulation von ZellularautomatenMatrixmultiplikationSortierenMaster-Worker-Schema

Beispiele

Simulation von ZA

n 0 1 2 3 4 5 6 7 8 9f(n) 0 0 0 0 1 0 1 1 1 1

Major.-regel

1D-Problemzerlegung

1D-AlgorithmusMPI_Comm_size(&procs);MPI_Comm_rank(&myid);int prev = (myid-1) % procs; int next = (myid+1) % procs;

while(...)MPI_Isend(bufline0+1, rowlen, MPI_INT, prev, U_ROW);MPI_Irecv(buflinen+1, rowlen, MPI_INT, next, U_ROW);MPI_Isend(buflinen, rowlen, MPI_INT, next, L_ROW);MPI_Recv(bufline0, rowlen, MPI_INT, prev, L_ROW);compute();

endwhile;

Verdeckung von KommunikationMPI_Comm_size(&procs);MPI_Comm_rank(&myid);int prev = (myid-1) % procs; int next = (myid+1) % procs;

while(...)compute_first_and_last_line();MPI_Isend(bufline0+1, rowlen, MPI_INT, prev, U_ROW);MPI_Isend(buflinen, rowlen, MPI_INT, next, L_ROW);MPI_Irecv(newlinen+1, rowlen, MPI_INT, next, U_ROW, &r1);MPI_Irecv(newline0, rowlen, MPI_INT, prev, L_ROW, &r2);compute_remaining_lines();MPI_Waitall(2, r1, r2); switch_buffers();

endwhile;

Kommunikation ist langsamer als Berechnung -> Kommunikationsaufwand verringern:nicht nur eine Zeile übertragen, sondern k -> Kommunikation nur alle k Schritte2D-Quadratzerlegung -> jeder Prozessor erhält sqrt(n) Elemente

Weitere Optimierungen

Master-Worker Schema

Master - AufgabenverteilungWorker - Rechenknechte

Master-Worker

MasterWorker

Worker

Worker-Codereq_buf = WORK_REQUEST;

while(...)MPI_Sendrecv(req_buf, req_len, MPI_INT, 0, recv_buf, recv_len, MPI_INT, 0);if (recv_buf == GOT_WORK)

process_work(recv_buf, &result_buf);MPI_Send(result_buf, result_len, MPI_INT, 0);

elsebreak;

fi;od;

Master-Codewhile(some_work_left())

MPI_Recv(req_buf, req_len, MPI_INT, MPI_ANY_SOURCE, &sender);if (req_buf == REQUEST_WORK)

find_some_work(&work_buf);MPI_Send(work_buf, len, MPI_INT, sender, WORK_TAG);

else if (req_buf == RESULT)extract_result(req_buf);

fi;od;

Sortieren

N Elemente liegen unsortiert auf den PEsjedes PE hat n=N/P viele ElementeNach dem Sortieren soll jedes PE ≈ n Elemente in sortierter Reihenfolge besitzen

19 7 121 11 1325 4 2

19 7 121 9 1325 4 2

7 13 25 7 13 25 7 13 25

6 7 10 13 17 18 20 21 25

-∞ 10 18 ∞

I0 I1 I21 11 254 12 192 137

I0 I1 I26 17 3010 13 27

11 2216

I0 I1 I23 14 205 18 218 16

Eingangs-daten

Samples

sortierteSamplesPivotelemente

Klassifi-zierung

Algorithmusselect_random_samples();MPI_Gather(sample_buf, sample_count, &recv_buf, 0);if (myid == 0)

sort_locally(recv_buf, &sorted_buf);select_pivot_elements(sorted_buf, pivot_count, &pivot_buf);

fi;MPI_Broadcast(pivot_buf, pivot_count, 0);

sort_according_to_pivots(buf, &pivot_buf, &boundary_indices);broadcast_item_counts(boundary_indices, &recv_counts);MPI_Allgatherv(buf, boundary_indices, &recv_buf, recv_counts, recv_displacements);

Parallele Multiplikation von Matrizen:A * B = CAnfangspermutation der Teilmatrizen, danach einfaches Verschieben

Matrixmultiplikation

Anfangspermutation

Algorithmuspermute_matrices(&A, &B);compute_neighbours(&top, &left, &bot, &right);while(...)

MPI_Isend(A, n, MPI_DOUBLE, left, A_MATRIX);MPI_Isend(B, n, MPI_DOUBLE, top, B_MATRIX);MPI_Irecv(newA, n, MPI_DOUBLE, right, A_MATRIX, &r1);MPI_Irecv(newB, n, MPI_DOUBLE, bot, B_MATRIX, &r2);mat_mult(A, B, C);MPI_Waitall(2, r1, r2);A = newA; B = newB;

od;MPI_Gather(C, n, MPI_DOUBLE, gesamtC, n, 0);

Zusätzliche Funktionen

MPI_Barrier: erst, wenn alle PEs diesen Aufruf getätigt haben, wird das Programm fortgesetzt -> SynchronisationMPI_Reduce: Einsammeln von Werten durch Ausführung einer binären Operation, z.B. Summe, Maximum, ...

Typkonversion in heterogenen NetzenBenutzerdefinierte DatentypenKommunikatorenVirtuelle Topologien

Weiterführende Konzepte

gibts unter der Adresse:http://liinwww.ira.uka.de/~skampi/(Vergleich von IBM-SP, Cray T3E,...)

Interessante Zahlen

Parallele Programmierung mit MPI

Documents

Hochleistungsrechnen und parallele Programmierung: Service ... · Gegenstand sehr spezialisierter Forschung und Entwicklung. Deren Anwendung wieder- ... der „Bull Advanced Server

1 Graphalgorithmen Seminar parallele Programmierung SS 2003 Bernd Kruthoff und Jochen Olejnik

Parallele Programmierung mit C++ SS 2011 · Beispiel:Philosophenproblem 36 GegebenseienfünfPhilosophenP 0,...,P 4, die an einem Tisch sitzen und die auf ih-remTellerbeﬁndlichenSpaghettiverzehren

Parallele Programmierung - mathematik.uni-marburg.detseeger/Parallele_Programmierung/Blank... · 1 Einführung 1.1 Programmieren von parallelen Rechnern Problem ®¶ Paralleler Algorithmus

MPI-75-V-7 · MPI-75-LUS MPI-75-H6 MPI-75-K6 MPI-75-U5 MPI-75-N MPI-75-D MPI-75-B MPI-75-U3 MPI-75-C MPI-75-T6 MPI-75-H MPI-75-V MPI-75-LM MPI-75-T MPI-75-E MPI-75-F MPI-75-K MPI-75-J

Il punto su importazioni parallele, reti di distribuzione ... · Importazioni parallele da paesi extra-UE / SEE - Opponibilità del marchio ... massiccio le esportazioni parallele

Sabine Rathmayer, 16 August 201416 August 2014 1 WWR-Praktikum Parallele Programmierung Sabine Rathmayer sabine.rathmayer@in.tum.de

Grundlagen der Programmierung 2 Parallele Verarbeitungprg2/SS2006/folien/kap7-par-fol.pdf · Grundlagen der Programmierung 2 - 7 - Themen: Nebenläufigkeit, Parallelität, Ressourcenverbrauch

Architetture Parallele

64-149 Praktikum Parallele Programmierung Fabian Besner

Travelling Salesman Problem (TSP) - uni-hamburg.de · Olesja Aleinikau & Timo Dahlbüdding Praktikum „Parallele Programmierung“ Travelling Salesman Problem (TSP) von Ihar Aleinikau

Parallele Programmierung mit C++ SS 2015 - uni-ulm.de · 2015-07-02 · Syllabus 2 Inhalte: •EinführungindieProzessalgebraCSP •ArchitekturenparallelerSysteme •Parallelisierungstechniken:

GWDG – Kurs Parallelrechner-Programmierung mit MPI MPI Kollektive Operationen Oswald Haan ohaan@gwdg.de

Sanders: Parallele Algorithmen Parallele Algorithmenalgo2.iti.kit.edu/sanders/courses/paralg19/vorlesung.pdfSanders: Parallele AlgorithmenNovember 25, 2019 2 Warum Parallelverarbeitung

Verbindungsnetzwerke, Einbettungen, Routing- und Switchingstrategien Seminar „Parallele Programmierung“ Gunnar Thies

PERPENDICOLARI 1 PERPENDICOLARI 1 PERPENDICOLARI 3 PERPENDICOLARI 3 PERPENDICOLARI 4 PERPENDICOLARI 4 PARALLELE 1 PARALLELE 1 PARALLELE 2 PARALLELE 2 DIVISIONE

Praktikum Parallele Programmierungschaefer/Parallel09/aufgaben.pdf · nitionen der Standards MPI-1.1 und MPI-2.0) und frei verf¨ugbaren MPI-Implementierungen (u.a. f¨ur Linux)

Parallele Programmierung und Parallele Algorithmen : Matrix- Vektor - Multiplikation

Parallele Algorithmen zur Matrix Multiplikation Matthias Dohm Parallele Algorithmen zur Matrix Multiplikation Seminar Parallele Programmierung und Parallele

ESkel – edinburgh Skeleton library Parallele Programmierung mit Skeletten Seminararbeit Ingo Dyrbusch Mai 2007