Accelerating Post-Quantum Cryptography Algorithms on the Nvidia Bluefield 3 DPU: An Active Analysis

Mit den Fortschritten bei der Entwicklung leistungsfähiger Quantencomputer wird die Bedrohung der Public-Key-Kryptographie durch den Shor-Algorithmus immer größer. Aus diesem Grund wächst das Interesse an quantensicheren Alternativen, der sogenannten Post-Quantum Cryptography (PQC). Ende 2023 wurden erste Entwürfe von Standards für PQC-Verfahren veröffentlicht, die endgültige Veröffentlichung dieser Standards wird noch im Jahr 2024 erwartet. Dabei spielt nicht nur die Sicherheit eine wichtige Rolle, sondern auch die Effizienz in Bezug auf die Laufzeit der Verfahren. Gerade im Bereich der Rechenzentren, in denen hohe Anforderungen an den Datendurchsatz gestellt werden, muss sichergestellt werden, dass die Anpassung der PQC-Verfahren mit den Anforderungen an die Performance einhergehen kann. Aus diesem Grund beschäftigt sich diese Arbeit mit der Performance der vielversprechendsten PQC-Verfahren, CRYSTALS-Kyber, FrodoKEM, Classic McEliece, CRYSTALS-Dilithium und SPHINCS+, auf einer hochmodernen Nvidia Bluefield 3 Data Processing Unit (DPU). Neben dieser Leistungsbewertung wurden auch mögliche Ansätze zur Beschleunigung der Verfahren auf der DPU als zentrale Forschungsfrage verfolgt. Dazu wurde im ersten Schritt eine tiefgehende theoretische Analyse der PQC-Verfahren durchgeführt, um die mathematische Struktur hinter diesen Verfahren zu verstehen und daraus mögliche Beschleunigungsansätze abzuleiten. Zusätzlich wurde die Hardware der Bluefield 3 genauer analysiert, um mögliche Ansätze zur Beschleunigung von Operationen abzuleiten, die zur Beschleunigung der PQC-Verfahren notwendig sind. Neben der theoretischen Analyse wurde eine umfangreiche experimentelle Leistungsanalyse der PQC-Verfahren auf der DPU durchgeführt. Dabei wurden sowohl Key Encapsulation Mechanisms (KEMs) als auch Signaturverfahren auf Basis der einzelnen Prozesse dieser Verfahren evaluiert. Neben der DPU wurde auch die Performance des Host-Systems und verschiedener Bibliotheken, Liboqs und Botan, evaluiert. Auf der Grundlage der erzielten Ergebnisse konnten mehrere Empfehlungen für den geeigneten Einsatz der diskutierten PQC-Verfahren abgeleitet werden. Schließlich erlaubte der gewonnene Einblick in die PQC-Verfahren und die gegebene Hardware der DPU die Identifizierung möglicher Beschleunigungsansätze, die wir auch mit Hilfe eigener und Literatur-Messdaten abschätzen konnten.

As the development of powerful quantum computers progresses, the threat to public key cryptography posed by the Shor algorithm is becoming increasingly serious. For this reason, there is a growing interest in quantum-safe alternatives, known as Post-Quantum Cryptography (PQC). The first drafts of standards for PQC schemes were published at the end of 2023, and the final publication of these standards is expected in 2024. It is not only security that plays an important role, but also the Efficiency in terms of runtime of the schemes. Especially in the area of data centers, where high demands are placed on data throughput, it must be ensured that the adaptation of PQC schemes can go hand in hand with the Performance requirements. For this reason, this thesis deals with the performance of the most promising PQC schemes, CRYSTALS-Kyber, FrodoKEM, Classic McEliece, CRYSTALS-Dilithium and SPHINCS+, on a state-of-the-art Nvidia Bluefield 3 Data Processing Unit (DPU). In addition to this performance evaluation, possible approaches to accelerate the processes on the DPU were investigated as a central research question. In the first step, an in-Depth theoretical analysis of the PQC schemes was performed in order to learn about the mathematical structure behind these schemes and to derive possible acceleration approaches. Consequently, the hardware of the Bluefield 3 was analyzed in more detail to derive possible approaches for accelerating the operations necessary to accelerate the PQC schemes. In addition to the theoretical analysis, a comprehensive experimental performance analysis of the PQC schemes was performed on the DPU. Both Key Encapsulation Mechanisms (KEMs) and signature schemes were evaluated based on the individual processes of these schemes. In addition to the DPU , the performance of the host system and various libraries, Liboqs and Botan, were also evaluated. Based on the obtained results, several recommendations for the appropriate application of the discussed PQC schemes could be derived. Finally, the insight gained into the PQC schemes and the given hardware of the DPU allowed us to identify possible acceleration approaches, which we were also able to estimate with the help of our own and literature measurement data.

Cite

Citation style:
Could not load citation form.

Rights

Use and reproduction:
All rights reserved