
こんにちは、キクです。
本記事は、僕が日々の情報収集や自己学習の中で「あれ、これちょっと深掘って調べたいかも」と感じたものを調べて整理するシリーズになります。
今回は『GPU関連』について書いていこうと思います。
本記事の内容
それでは、よろしくお願いします。
GPUってそもそも?

GPUとは何か?
GPU(Graphics Processing Unit)は、もともと画像処理や3Dグラフィックスの描画に特化したプロセッサ。
近年では「並列計算の鬼」として、AIの学習・推論、科学技術計算、生成AI(LLM)などでも不可欠な計算装置になっている。
特徴的なのは「一度に大量のデータを並列処理できる」ということ。
この点で、少数のコアで複雑な処理を得意とするCPUとは真逆の設計になっている。
GPUの中身はどうなっている?
GPUは、実は「1個のコアの塊」ではなく、多数の演算ユニットの集合体でできている。
この演算ユニットの基本構成要素が SM(Streaming Multiprocessor) と呼ばれるブロック。
1つのGPUには数十個のSMが含まれており、各SMの中にさらに次のような専用コア群がある。
コアの種類 | 主な役割 |
---|---|
CUDAコア | 汎用の数値計算を行う GPUにおける基本のコア |
Tensorコア | AI・ディープラーニングの行列演算専用 Volta以降に搭載 |
RTコア | 光の反射・屈折などをリアルに表現するレイトレーシング専用ユニット Turing以降に搭載 |
さらに各SMにはL1キャッシュやテクスチャユニットも含まれる。
※SMの中の構成や数はアーキテクチャごとに異なる(後述)
例:1基のGPUの中にあるコアの数(RTX 3090の場合)
項目 | 数量 | 補足 |
---|---|---|
SM数 | 82 | Streaming Multiprocessorの数 |
CUDAコア | 10,496基 | 1SMあたり128コア |
Tensorコア | 328基 | 1SMあたり4基(第3世代) |
RTコア | 82基 | 1SMあたり1基 |
つまり、「GPUを1基搭載」と言っても、その中には何千もの演算コア(CUDA)と、数百のAI・RT専用コアが詰まっているということ。
もし「GPUを8基搭載した筐体」があるとしたら、各GPUはそれぞれ独立していて、上記のような構成を8個分持つというイメージでOK。
各コアはどう使い分けられる?
CUDAコア
- あらゆる一般的な演算処理を担う
- ゲームの物理演算や映像の基礎処理もここ
Tensorコア
- AIモデルの学習・推論の行列計算(A×B+C)を一気に高速処理
RTコア
- リアルタイムで光の反射や影などの表現を処理
- レイトレーシング用途
これらが同時並行で動作可能なのがTuring以降の大きな進化点。
NVIDIA GPUアーキテクチャを整理

アーキテクチャとは、GPUの内部構造や設計方針そのもの。
NVIDIAは定期的にアーキテクチャを刷新しており、その世代ごとに性能・用途・コアの種類などが大きく変わる。
以下は、主要なアーキテクチャとその特徴を整理したもの
アーキテクチャ | 登場年 | 代表製品 | 特徴 |
---|---|---|---|
Fermi | 2010 | GTX 480など | CUDA本格化、GPGPU対応 |
Kepler | 2012 | GTX 680など | 消費電力改善 |
Maxwell | 2014 | GTX 980など | 電力効率の向上、動画処理の強化 |
Pascal | 2016 | GTX 1080, P100 | AI対応の入り口、HPC用途に進出 |
Volta | 2017 | Tesla V100 | Tensorコア初搭載、AI学習性能が飛躍 |
Turing | 2018 | RTX 2080など | RTコア + TensorコアでゲームとAI両立 |
Ampere | 2020 | RTX 30xx, A100 | TF32, FP16対応、汎用性向上 |
Hopper | 2022 | H100 | FP8対応、生成AI・LLM向けに最適化 |
Ada Lovelace | 2022 | RTX 40xx | ゲーム用途に最適化、DLSS3対応 |
Blackwell | 2024〜 | B100など | Hopper後継、生成AI性能さらに向上 |
補足:FP8, FP16, TF32とは?
「FP」はFloating Point(浮動小数点数)の略。
GPUでの計算精度や速度はこのフォーマットによって大きく変わる。
表記 | ビット数 | 主な用途 | 特徴 |
---|---|---|---|
FP32 | 32bit | 一般的な数値演算 | 標準精度 |
FP16 | 16bit | AI学習・推論 | 精度を抑えて高速化 |
TF32 | 19bit相当 | Ampere以降のAI用途 | FP32とFP16の中間的存在 |
FP8 | 8bit | 生成AI・LLMの推論 | 処理速度優先、精度は工夫して確保 |
生成AIやLLMのように大規模な計算を一気に回す場合、FP8やFP16のような低精度フォーマットの重要性が非常に高い。
用途別に見るアーキテクチャの違い

NVIDIAのアーキテクチャは、設計目的(ゲーム向け or AI向けなど)に応じて内部構造が大きく異なる。
ゲーム・映像向け(Turing, Ampere, Ada)
- RTコアでリアルなライティング表現
- DLSSでTensorコアを利用してFPS向上
- HDMIやDisplayPortなどの映像出力も強い
AI・生成AI向け(Volta, Ampere, Hopper, Blackwell)
- Tensorコア大量搭載、FP8やTF32対応
- HBMメモリで大容量データを高速処理
- Transformer Engine(Hopper〜)でLLMに最適化
科学技術・シミュレーション向け(Ampere, Hopper)
- FP64による高精度計算
- ECCメモリ搭載で安定稼働
- 長時間処理に耐える設計
まとめ
今回の内容をまとめると次のようになる。
- GPUは「コアの塊」であり、CUDA・Tensor・RTなどがSM単位で組み込まれている
- アーキテクチャによって、どの種類のコアが何に強いかが変わる
- ゲーム、AI、科学技術のどれを重視するかで、選ぶGPUはまったく異なる
- 自分が追っていくべきは、生成AIに強いHopperやBlackwell世代あたりが該当