Contributions for Resource and Job Management in High Performance Computing

Yiannis Ioannis Georgiou

Thèse Année : 2010

Contributions for Resource and Job Management in High Performance Computing

Contributions à la Gestion de Ressources et de Tâches pour le Calcul de Haute Performance

(1, 2)

1
2

Yiannis Ioannis Georgiou

Fonction : Auteur
PersonId : 1005239

Laboratoire d'Informatique de Grenoble

Bull SAS

Résumé

High Performance Computing is characterized by the latest technological evolutions in computing architectures and by the increasing needs of applications for computing power. A particular middleware called Resource and Job Management System (RJMS), is responsible for delivering computing power to applications. The RJMS plays an important role in HPC since it has a strategic place in the whole software stack because it stands between the above two layers. However the latest evolutions in hardware and applications layers have provided new levels of complexities to this middleware. Issues like scalability, management of topological constraints, energy efficiency and fault tolerance have to be particularly considered, among others, in order to provide a better system exploitation from both the system and user point of view. This dissertation provides a state of the art upon the fundamental concepts and research issues of Resources and Jobs Management Systems. It provides a multi-level comparison (concepts, functionalities, performance) of some Resource and Jobs Management Systems in High Performance Computing. An important metric to evaluate the work of a RJMS on a platform is the observed system utilization. However studies and logs of production platforms show that HPC systems in general suffer of significant un-utilization rates. Our study deals with these clusters' un-utilization periods by proposing methods to aggregate otherwise un-utilized resources for the benefit of the system or the application. More particularly this thesis explores RJMS level mechanisms: 1) for increasing the jobs valuable computation rates in the high volatile environments of a lightweight grid context, 2) for improving system utilization with malleability techniques and 3) providing energy efficient system management through the exploitation of idle computing machines. The experimentation and evaluation in this type of contexts provide important complexities due to the inter-dependency of multiple parameters that have to be taken into control. In this thesis we have developed a methodology based upon real-scale controlled experimentation with submission of synthetic or real workload traces.

Le domaine du Calcul à Haute Performance (HPC) évolue étroitement avec les dernières avancées technologiques des architectures informatiques et des besoins toujours croissants en demande de puissance de calcul. Cette thèse s'intéresse à l'étude d'un type d'intergiciel particulier appelé gestionnaire de tâches et ressources (RJMS) qui est chargé de distribuer la puissance de calcul aux applications dans les plate-formes pour le HPC. Le RJMS joue un rôle central du fait de sa position dans la pile logicielle. Les dernières évolutions dans les couches matérielles et dans les applications ont largement augmentés le niveau de complexité auquel doit faire face ce type d'intergiciel. Des problématiques telles que le passage à l'échelle, la prise en compte d'un taux d'activité irrégulier, la gestion des contraintes liées à la topologie du matériel, l'efficacité énergétique et la tolérance aux pannes doivent être particulièrement pris en considération, afin, entre autres, de fournir une meilleure exploitation des ressources à la fois du point de vue global du système ainsi que de celui des utilisateurs. La première contribution de cette thèse est un état de l'art sur la gestion des tâches et des ressources ainsi qu'une analyse comparative des principaux intergiciels actuels et des différentes problématiques de recherche associées. Une métrique important pour évaluer l'apport d'un RJMS sur une plate-forme est le niveau d'utilisation de l'ensemble du système. On constate parmi les traces d'activité de plusieurs plate-formes qu'un grand nombre d'entre elles présentent un taux d'utilisation significativement inférieure à une pleine utilisation. Ce constat est la principale motivation des autres contributions de cette thèse qui portent sur les méthodes d'exploitations de ces périodes de sous-utilisation au profit de la gestion globale du système ou des applications en court d'exécution. Plus particulièrement cette thèse explore premièrement, les moyens d'accroître le taux de calculs utiles dans le contexte des grilles légères en présence d'une forte variabilité de la disponibilité des ressources de calcul. Deuxièmement, nous avons étudié le cas des tâches dynamiques et proposé différentes techniques s'intégrant au RJMS OAR et troisièmement nous évalués plusieurs modes d'exploitation des ressources en prenant en compte la consommation énergétique. Finalement, les évaluations de cette thèse reposent sur une approche expérimentale pour laquelle nous avons proposés des outils et une méthodologie permettant d'améliorer significativement la maîtrise et la reproductibilité d'expériences complexes propre à ce domaine d'étude.

Mots clés

High Performance Computing Fault Tolerance Resource and Job Management Parallel Architectures Workload Scheduling Large-scale Distributed Systems Energy Efficiency Workload Modeling and Performance Evaluation

Calcul de Haute Performance Gestion de Ressources et de Tâches Efficacité énergétique Tolérance aux pannes Architectures Paralleles

Domaines

Calcul parallèle, distribué et partagé [cs.DC]

Liste complète des métadonnées

Format du dépôt	Fichier
Type de dépôt	Thèse
Titre	en Contributions for Resource and Job Management in High Performance Computing fr Contributions à la Gestion de Ressources et de Tâches pour le Calcul de Haute Performance
Résumé	en High Performance Computing is characterized by the latest technological evolutions in computing architectures and by the increasing needs of applications for computing power. A particular middleware called Resource and Job Management System (RJMS), is responsible for delivering computing power to applications. The RJMS plays an important role in HPC since it has a strategic place in the whole software stack because it stands between the above two layers. However the latest evolutions in hardware and applications layers have provided new levels of complexities to this middleware. Issues like scalability, management of topological constraints, energy efficiency and fault tolerance have to be particularly considered, among others, in order to provide a better system exploitation from both the system and user point of view. This dissertation provides a state of the art upon the fundamental concepts and research issues of Resources and Jobs Management Systems. It provides a multi-level comparison (concepts, functionalities, performance) of some Resource and Jobs Management Systems in High Performance Computing. An important metric to evaluate the work of a RJMS on a platform is the observed system utilization. However studies and logs of production platforms show that HPC systems in general suffer of significant un-utilization rates. Our study deals with these clusters' un-utilization periods by proposing methods to aggregate otherwise un-utilized resources for the benefit of the system or the application. More particularly this thesis explores RJMS level mechanisms: 1) for increasing the jobs valuable computation rates in the high volatile environments of a lightweight grid context, 2) for improving system utilization with malleability techniques and 3) providing energy efficient system management through the exploitation of idle computing machines. The experimentation and evaluation in this type of contexts provide important complexities due to the inter-dependency of multiple parameters that have to be taken into control. In this thesis we have developed a methodology based upon real-scale controlled experimentation with submission of synthetic or real workload traces. fr Le domaine du Calcul à Haute Performance (HPC) évolue étroitement avec les dernières avancées technologiques des architectures informatiques et des besoins toujours croissants en demande de puissance de calcul. Cette thèse s'intéresse à l'étude d'un type d'intergiciel particulier appelé gestionnaire de tâches et ressources (RJMS) qui est chargé de distribuer la puissance de calcul aux applications dans les plate-formes pour le HPC. Le RJMS joue un rôle central du fait de sa position dans la pile logicielle. Les dernières évolutions dans les couches matérielles et dans les applications ont largement augmentés le niveau de complexité auquel doit faire face ce type d'intergiciel. Des problématiques telles que le passage à l'échelle, la prise en compte d'un taux d'activité irrégulier, la gestion des contraintes liées à la topologie du matériel, l'efficacité énergétique et la tolérance aux pannes doivent être particulièrement pris en considération, afin, entre autres, de fournir une meilleure exploitation des ressources à la fois du point de vue global du système ainsi que de celui des utilisateurs. La première contribution de cette thèse est un état de l'art sur la gestion des tâches et des ressources ainsi qu'une analyse comparative des principaux intergiciels actuels et des différentes problématiques de recherche associées. Une métrique important pour évaluer l'apport d'un RJMS sur une plate-forme est le niveau d'utilisation de l'ensemble du système. On constate parmi les traces d'activité de plusieurs plate-formes qu'un grand nombre d'entre elles présentent un taux d'utilisation significativement inférieure à une pleine utilisation. Ce constat est la principale motivation des autres contributions de cette thèse qui portent sur les méthodes d'exploitations de ces périodes de sous-utilisation au profit de la gestion globale du système ou des applications en court d'exécution. Plus particulièrement cette thèse explore premièrement, les moyens d'accroître le taux de calculs utiles dans le contexte des grilles légères en présence d'une forte variabilité de la disponibilité des ressources de calcul. Deuxièmement, nous avons étudié le cas des tâches dynamiques et proposé différentes techniques s'intégrant au RJMS OAR et troisièmement nous évalués plusieurs modes d'exploitation des ressources en prenant en compte la consommation énergétique. Finalement, les évaluations de cette thèse reposent sur une approche expérimentale pour laquelle nous avons proposés des outils et une méthodologie permettant d'améliorer significativement la maîtrise et la reproductibilité d'expériences complexes propre à ce domaine d'étude.
Auteur(s)	Yiannis Ioannis Georgiou ^{1, 2} 1 LIG - Laboratoire d'Informatique de Grenoble ( 24471 ) - UMR 5217 - Laboratoire LIG - Bâtiment IMAG - 700 avenue Centrale - Domaine Universitaire de Saint-Martin-d’Hères Adresse postale : CS 40700 - 38058 Grenoble cedex 9 - France Tél. : 04 57 42 14 00 - France Université Pierre Mendès France - Grenoble 2 ( 3886 ) ; Université Joseph Fourier - Grenoble 1 ( 51016 ) ; Institut polytechnique de Grenoble - Grenoble Institute of Technology ( 89889 ) ; Institut National Polytechnique de Grenoble ( 300275 ) ; Centre National de la Recherche Scientifique UMR5217 ( 441569 ) 2 Bull - Bull SAS ( 50993 ) - Siège social Bull SAS / Bull Headquarters Rue Jean Jaurès B.P.68 78340 Les Clayes-sous-Bois Tel. 33 (0)1 30 80 70 00 Fax. 33 (0)1 30 80 73 73 - France Bull SAS ( 301799 )
Licence	Domaine public
Langue du document	Anglais
Date de soutenance	2010-11-05
Domaine(s)	Informatique [cs]/Calcul parallèle, distribué et partagé [cs.DC]
Organisme de délivrance	Université de Grenoble
École doctorale	Mathématiques, Sciences et Technologies de l'Information, Informatique
Directeur de thèse	Olivier Richard
Membre du jury	M. Daniel, HAGIMONT Professeur à INPT/ENSEEIHT, France, Président M. Franck, CAPPELLO Directeur de Recherche à INRIA, France, Rapporteur M. William T.C., KRAMER Directeur de Recherche à NCSA, USA, Rapporteur M. Morris, JETTE Informaticien au LLNL, USA, Membre Mme. Pascale, ROSSE-LAURENT Architecte Informatique à BULL, France, Membre M. Jean-Francois, MEHAUT Professeur à l'UJF, France, Membre M. Olivier, RICHARD Maître de Conférence à l'UJF, France, Membre
Financement	ANRT CIFRE entre LIG et BULL
Mots-clés	en High Performance Computing, Fault Tolerance, Resource and Job Management, Parallel Architectures, Workload Scheduling, Large-scale Distributed Systems, Energy Efficiency, Workload Modeling and Performance Evaluation fr Calcul de Haute Performance, Gestion de Ressources et de Tâches, Efficacité énergétique, Tolérance aux pannes, Architectures Paralleles

Fichier principal

thesis_RJMS_final.pdf ( 2.52 Mo )

Yiannis Georgiou : Connectez-vous pour contacter le contributeur

https://auf.hal.science/tel-01499598

Soumis le : vendredi 31 mars 2017 à 16:51:11

Dernière modification le : jeudi 4 avril 2024 à 21:06:00

Archivage à long terme le : samedi 1 juillet 2017 à 15:37:29

Dates et versions

tel-01499598, version 1 (31-03-2017)

Licence

Domaine public

Identifiants

HAL Id : tel-01499598 , version 1

Citer

Yiannis Ioannis Georgiou. Contributions for Resource and Job Management in High Performance Computing. Distributed, Parallel, and Cluster Computing [cs.DC]. Université de Grenoble, 2010. English. ⟨NNT : ⟩. ⟨tel-01499598⟩

Exporter

BibTeX TEI Dublin Core DC Terms EndNote Datacite

Collections

AFRIQ UGA CNRS LIG GRID5000 SILECS LIG_SIDCH

198 Consultations

233 Téléchargements

Dernière date de mise à jour le 20/04/2024

Contributions for Resource and Job Management in High Performance Computing

Contributions à la Gestion de Ressources et de Tâches pour le Calcul de Haute Performance

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Partager