【深堀調査】GPU基礎とNVIDIA製GPUのあれこれ

こんにちは、キクです。

本記事は、僕が日々の情報収集や自己学習の中で「あれ、これちょっと深掘って調べたいかも」と感じたものを調べて整理するシリーズになります。

今回は『GPU関連』について書いていこうと思います。

本記事の内容

それでは、よろしくお願いします。

注意事項

本記事は自己学習としてのアウトプットも目的に含まれています。

そのため、本記事には誤った情報が含まれる可能性もありますが、ご了承ください。

GPUってそもそも？

GPU（Graphics Processing Unit）は、もともと画像処理や3Dグラフィックスの描画に特化したプロセッサ。

近年では「並列計算の鬼」として、AIの学習・推論、科学技術計算、生成AI（LLM）などでも不可欠な計算装置になっている。

特徴的なのは「一度に大量のデータを並列処理できる」ということ。

この点で、少数のコアで複雑な処理を得意とするCPUとは真逆の設計になっている。

GPUは、実は「1個のコアの塊」ではなく、多数の演算ユニットの集合体でできている。

この演算ユニットの基本構成要素が SM（Streaming Multiprocessor） と呼ばれるブロック。

1つのGPUには数十個のSMが含まれており、各SMの中にさらに次のような専用コア群がある。

コアの種類	主な役割
CUDAコア	汎用の数値計算を行う GPUにおける基本のコア
Tensorコア	AI・ディープラーニングの行列演算専用 Volta以降に搭載
RTコア	光の反射・屈折などをリアルに表現するレイトレーシング専用ユニット Turing以降に搭載

さらに各SMにはL1キャッシュやテクスチャユニットも含まれる。

※SMの中の構成や数はアーキテクチャごとに異なる（後述）

項目	数量	補足
SM数	82	Streaming Multiprocessorの数
CUDAコア	10,496基	1SMあたり128コア
Tensorコア	328基	1SMあたり4基（第3世代）
RTコア	82基	1SMあたり1基

つまり、「GPUを1基搭載」と言っても、その中には何千もの演算コア（CUDA）と、数百のAI・RT専用コアが詰まっているということ。

もし「GPUを8基搭載した筐体」があるとしたら、各GPUはそれぞれ独立していて、上記のような構成を8個分持つというイメージでOK。

これらが同時並行で動作可能なのがTuring以降の大きな進化点。

アーキテクチャとは、GPUの内部構造や設計方針そのもの。

NVIDIAは定期的にアーキテクチャを刷新しており、その世代ごとに性能・用途・コアの種類などが大きく変わる。

以下は、主要なアーキテクチャとその特徴を整理したもの

アーキテクチャ	登場年	代表製品	特徴
Fermi	2010	GTX 480など	CUDA本格化、GPGPU対応
Kepler	2012	GTX 680など	消費電力改善
Maxwell	2014	GTX 980など	電力効率の向上、動画処理の強化
Pascal	2016	GTX 1080, P100	AI対応の入り口、HPC用途に進出
Volta	2017	Tesla V100	Tensorコア初搭載、AI学習性能が飛躍
Turing	2018	RTX 2080など	RTコア + TensorコアでゲームとAI両立
Ampere	2020	RTX 30xx, A100	TF32, FP16対応、汎用性向上
Hopper	2022	H100	FP8対応、生成AI・LLM向けに最適化
Ada Lovelace	2022	RTX 40xx	ゲーム用途に最適化、DLSS3対応
Blackwell	2024〜	B100など	Hopper後継、生成AI性能さらに向上

「FP」はFloating Point（浮動小数点数）の略。

GPUでの計算精度や速度はこのフォーマットによって大きく変わる。