윈디하나의 블로그 :: nVidia FP16, FP32, FP64 성능

글쓴시간 2023/04/06 18:00

nVidia FP16, FP32, FP64 성능

nVidia 제품에서, FP32 와 FP16 성능이 얼마나 차이나는지 확인해보려다가, 이왕 하는거 CUDA 가 들어있는 세대부터 FP16, FP32, FP64 성능을 정리해봤다. 기준이 되는 모델은 각 세대의 xx60 모델이다. 단위는 Flops 으로 GPU Database | TechPowerUp 에 나와있는걸 인용했다. 이 수치는 레퍼런스 스펙을 가질때의 이론상의 스펙이다.

아래 표에서 G 는 Giga, T 는 Tera 의 약어로 1T Flops = 1000G Flops 이다. flops 는 FLoating point Operations Per Second 의 약어로, 1초동안 수행할 수 있는 부동소수점 연산의 회수를 의미한다. FP16, FP32, FP64는 각각 16/32/64 비트 부동소수점 연산 회수를 의미한다.

Product     Code name    CUDA FP16          FP32        FP64            FP32향상비율
----------- ------------ ---- ------------- ----------- --------------  -----------
8600        Tesla        1.1  x             92.80G      x               
9600                          x             278.4G      x               3.00
260                      1.3  x             476.9G      59.62G (1:8)    1.71
460         Fermi        2.1  x             907.2G      75.60G (1:12)   1.90
560                           x             1,089G      90.72G (1:12)   2.28
660         Kepler       3.0  x             1.981T      82.56G (1:24)   1.82
760                           x             2.378T      99.07G (1:24)   1.20
960         Maxwell      5.2  x             2.413T      75.39G (1:32)   1.01
1060 6G     Pascal       6.1  68.36G (1:64) 4.375T      136.7G (1:32)   1.81
1660        Turing       7.5  10.05T (2:1)  5.027T      157.1G (1:32)   -
2060 12G                      14.36T (2:1)  7.181T      224.4G (1:32)   1.64
3060 12G    Ampere       8.6  12.74T        12.74T      199.0G (1:64)   1.77
4060        Ada Lovelace 8.9  15.11T        15.11T      236.2G (1:64)   1.18
5060        Blackwell    10.1 23.22T        23.22T      362.9G (1:64)   1.47 (예상치)

참고
3060 Ti     Ampere       8.6  16.20T        16.20T      253.1G (1:64)
4060 Ti 16G Ada Lovelace 8.9  22.06T        22.06T      344.8G (1:64)   1.36
3070                     8.6  20.31T        20.31T      317.4G (1:64)
4070                     8.9  29.15T        29.15T      455.4G (1:64)   1.43

위 표는 FP16, FP32, FP64 의 연산 속도를 나타낸 것이다. 단 Turing 아키텍처부터 있는 Tensor/RT 코어를 사용한 연산은 포함되지 않았다. 즉 GPU 코어만을 사용한 연산 속도를 나타냈다.

가장 처음 CUDA 를 선보인건 GeForce 8000번대 제품 부터다. 이때에는 FP32 만 지원되었다. 이후 200번대에 와서 FP64가 지원되고, 이후 1000 번대부터 부터 FP16이 지원되었다. FP16은 AI 연산에서 사용된다.

최근에 나온 40xx번대 GPU 는 FP8 도 지원하지만 텐서코어에서 지원하는 것이기 때문에 이 표에서 적지 않았다. 텐서코어를 이용한 4090 GPU 의 경우 FP8 성능은 660TFLOPS 정도다. (하지만 이 성능을 AI 에서 사용하지는 못한다. 말 그대로 텐서코어에서 지원하기 때문이다)

올해 7월 출시 예정인 4060으로 변경할 생각은 있긴 한데 VRAM 이 12GB 이 나오지 않는다고 한다. 이렇게 되면 4060Ti 16GB 모델로 변경해야할것 같다. 어쨌든 같은 성능에 전력소모는 확 줄어들것이기 때문에 쓰긴 써야 한다고 생각한다. 게임하는데에는 안좋지만 말이다. 하나 더 걸리는게 4060을 사용해도 예상대로라면 2060 FP16보다 1.35배 성능이 빨라진다. 가격은 1.35배 차이가 아닐 것 같은데 말이다. 에혀.

지금은 Stable Diffusion 실행시킬 때 FP32 을 사용하고 있지만, 이 표를 보니 FP16 써야 할것 같다. 지금 사용하고 있는 2060은 FP16 연산 능력이 FP32에 비해 2배 빠르기 때문이다. 또한 FP16으로 실행하면, 12GB VRAM 으로도 4K 이미지를 생성할 수 있을것 같기도 하고 말이다.

----

Stable Diffusion - FP16, FP32 성능

----

2023.04.17

RTX2060 12GB에서 FP16으로 이미지를 생성하고 있긴 하지만, 4K 이미지는 생성 못하고 있다. VRAM 메모리 부족때문이다. 뭔가 방법을 찾는 중.

----

2023.09.28

4K 이미지는 Upscaler 사용해서 생성하고있다.

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31