Bücher Wenner
Pierre Jarawan liest aus DIE FRAU IM MOND
03.09.2025 um 19:30 Uhr
Fault-Tolerance Techniques for High-Performance Computing
von Yves Robert, Thomas Herault
Verlag: Springer International Publishing
Reihe: Computer Communications and Networks
Hardcover
ISBN: 978-3-319-35560-3
Auflage: Softcover reprint of the original 1st ed. 2015
Erschienen am 15.10.2016
Sprache: Englisch
Format: 235 mm [H] x 155 mm [B] x 19 mm [T]
Gewicht: 505 Gramm
Umfang: 332 Seiten

Preis: 106,99 €
keine Versandkosten (Inland)


Dieser Titel wird erst bei Bestellung gedruckt. Eintreffen bei uns daher ca. am 18. April.

Der Versand innerhalb der Stadt erfolgt in Regel am gleichen Tag.
Der Versand nach außerhalb dauert mit Post/DHL meistens 1-2 Tage.

klimaneutral
Der Verlag produziert nach eigener Angabe noch nicht klimaneutral bzw. kompensiert die CO2-Emissionen aus der Produktion nicht. Daher übernehmen wir diese Kompensation durch finanzielle Förderung entsprechender Projekte. Mehr Details finden Sie in unserer Klimabilanz.
Klappentext
Inhaltsverzeichnis

This timely text presents a comprehensive overview of fault tolerance techniques for high-performance computing (HPC). The text opens with a detailed introduction to the concepts of checkpoint protocols and scheduling algorithms, prediction, replication, silent error detection and correction, together with some application-specific techniques such as ABFT. Emphasis is placed on analytical performance models. This is then followed by a review of general-purpose techniques, including several checkpoint and rollback recovery protocols. Relevant execution scenarios are also evaluated and compared through quantitative models. Features: provides a survey of resilience methods and performance models; examines the various sources for errors and faults in large-scale systems; reviews the spectrum of techniques that can be applied to design a fault-tolerant MPI; investigates different approaches to replication; discusses the challenge of energy consumption of fault-tolerance methods in extreme-scale systems.



Part I: General Overview.-
Fault-Tolerance Techniques for High-Performance Computing.-
Part II: Technical Contributions.-
Errors and Faults.- Fault-Tolerant MPI.- Using Replication for Resilience on Exascale Systems.- Energy-Aware Check pointing Strategies.


andere Formate
weitere Titel der Reihe