윈디하나의 블로그

글쓴시간 2023/04/07 02:00

분류 기술,IT/스테이블 디퓨전

Stable Diffusion - FP16 을 사용한 사진 네장

FP16 을 사용해서 생성했다. FP32 를 사용한 것과 차이는 느껴지지 않는다.

글쓴이 윈디하나

태그 AI 이미지

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
No Comment

글쓴시간 2023/04/06 18:00

분류 기술,IT

nVidia GPU FP16, FP32, FP64 성능

nVidia 제품에서, FP32 와 FP16 성능이 얼마나 차이나는지 확인해보려다가, 이왕 하는거 CUDA 가 들어있는 세대부터 FP16, FP32, FP64 성능을 정리해봤다. 기준이 되는 모델은 각 세대의 xx60 모델이다. 단위는 Flops 으로 GPU Database | TechPowerUp 에 나와있는걸 인용했다. 이 수치는 레퍼런스 스펙을 가질때의 이론상의 스펙이다.

아래 표에서 G 는 Giga, T 는 Tera 의 약어로 1T Flops = 1000G Flops 이다. flops 는 FLoating point Operations Per Second 의 약어로, 1초동안 수행할 수 있는 부동소수점 연산의 회수를 의미한다. FP16, FP32, FP64는 각각 16/32/64 비트 부동소수점 연산 회수를 의미한다.

Product     Code name    CUDA FP16          FP32        FP64            FP32향상비율
----------- ------------ ---- ------------- ----------- --------------  -----------
8600        Tesla        1.1  x             92.80G      x               
9600                          x             278.4G      x               3.00
260                      1.3  x             476.9G      59.62G (1:8)    1.71
460         Fermi        2.1  x             907.2G      75.60G (1:12)   1.90
560                           x             1,089G      90.72G (1:12)   2.28
660         Kepler       3.0  x             1.981T      82.56G (1:24)   1.82
760                           x             2.378T      99.07G (1:24)   1.20
960         Maxwell      5.2  x             2.413T      75.39G (1:32)   1.01
1060 6G     Pascal       6.1  68.36G (1:64) 4.375T      136.7G (1:32)   1.81
1660        Turing       7.5  10.05T (2:1)  5.027T      157.1G (1:32)   -
2060 12G                      14.36T (2:1)  7.181T      224.4G (1:32)   1.64
3060 12G    Ampere       8.6  12.74T        12.74T      199.0G (1:64)   1.77
4060        Ada Lovelace 8.9  15.11T        15.11T      236.2G (1:64)   1.18
5060        Blackwell 2  10.1 19.18T        19.18T      299.6G (1:64)   1.26

참고
4060 Ti 16G Ada Lovelace 8.9  22.06T        22.06T      344.8G (1:64)
5060 Ti 16G Blackwell 2  10.1 23.70T        23.70T      370.4G (1:64)

위 표는 FP16, FP32, FP64 의 연산 속도를 나타낸 것이다. 단 Turing 아키텍처부터 있는 Tensor/RT 코어를 사용한 연산은 포함되지 않았다. 즉 GPU 코어만을 사용한 연산 속도를 나타냈다.

CUDA는 2006년 11월 8일에 발표된 8800 GTX 가 CUDA 1.0 을 지원하면서 처음 선보였다. 이후 2014년 선보인 900번대인 Maxwell 아키텍처부터 AI 에 유용하게 사용되었다. 처음에는 CUDA 의 가능성만 보고 nVidia 에서 투자했다가 이제야 빛을 보게 된 셈. 처음에는 CUDA 에서 FP32 만 지원되었다가 200번대에 와서 FP64가 지원되고, 1000 번대부터 부터 FP16이 지원되었다. FP16은 AI 연산에서 사용된다.

AI에서 주로 사용되는 형식인 INT8 은 CUDA 7.5 부터, INT 4 는 CUDA 8.0 부터, FP8 은 CUDA 8.9 부터 지원된다.

최근에 나온 40xx번대 GPU 는 FP8 도 지원하지만 텐서코어에서 지원하는 것이기 때문에 이 표에서 적지 않았다. 텐서코어를 이용한 4090 GPU 의 경우 FP8 성능은 660TFLOPS 정도다. (하지만 이 성능을 AI 에서 사용하지는 못한다. 말 그대로 텐서코어에서 지원하기 때문이다)

올해 7월 출시 예정인 4060으로 변경할 생각은 있긴 한데 VRAM 이 12GB 이 나오지 않는다고 한다. 이렇게 되면 4060Ti 16GB 모델로 변경해야할것 같다. 어쨌든 같은 성능에 전력소모는 확 줄어들것이기 때문에 쓰긴 써야 한다고 생각한다. 게임하는데에는 안좋지만 말이다. 하나 더 걸리는게 4060을 사용해도 예상대로라면 2060 FP16보다 1.35배 성능이 빨라진다. 가격은 1.35배 차이가 아닐 것 같은데 말이다. 에혀.

지금은 Stable Diffusion 실행시킬 때 FP32 을 사용하고 있지만, 이 표를 보니 FP16 써야 할것 같다. 지금 사용하고 있는 2060은 FP16 연산 능력이 FP32에 비해 2배 빠르기 때문이다. 또한 FP16으로 실행하면, 12GB VRAM 으로도 4K 이미지를 생성할 수 있을것 같기도 하고 말이다.

----

Stable Diffusion - FP16, FP32 성능

----

2023.04.17

RTX2060 12GB에서 FP16으로 이미지를 생성하고 있긴 하지만, 4K 이미지는 생성 못하고 있다. VRAM 메모리 부족때문이다. 뭔가 방법을 찾는 중.

----

2023.09.28

4K 이미지는 Upscaler 사용해서 생성하고있다.

----

2025.03.07

Stable Diffusion WebUI 4K 이미지 생성

Stable Diffusion WebUI 4K 이미지 생성 - 메모리 증설

Stable Diffusion WebUI 4K 이미지 생성 - Tiled VAE 사용

글쓴이 윈디하나

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
No Comment

글쓴시간 2023/04/06 00:00

분류 기술,IT/스테이블 디퓨전

Stable Diffusion - R-ESRGAN General 4xV3 스케일 업

매일매일 그림 생성하는 작업. 물론 다른일도 병행하고 있다. 단지 배치 돌려두고 다른 일 하다가 생성된 그림 검토하고, 맘에 드는건 스케일 업 해서 블로그에 게시한다.

생각외로 스케일 업이 쉽지 않다. 몇 번은 시도해봐야 하고, 다양하게 파라메터를 줘야 성공하는듯.

스케일 업할 때 자주 사용하는 옵션은 R-ESRGAN General 4xV3 이고 Upscale by 2, Denoising strenth 0.4 이다. 나머지는 기본값으로 사용한다.

글쓴이 윈디하나

태그 AI 이미지

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
No Comment

글쓴시간 2023/04/05 09:00

분류 기술,IT/하드웨어 정보

3RSYS L610 Quiet (화이트)

도저히 GPU 온도를 잡을 수가 없어서 결국 케이스 변경했다. 가격은 101,000 냥. 택배 2,500 별도다.

GPU 에서 발산하는 185 W 발열을 효과적으로 배출하는게 불가능했다. 공기순환 자체가 안되더라. 팬을 몇개 더 달아봤지만 안되었고, 결국 케이스 교체. 교체후에는 85도 육박하는 GPU 온도가 75도 정도로 내려갔다. 여태까지 케이스가 오래되고 낡아서 교체한경우는 있어도 발열때문에 교체한적은 없었다. 이런 경우는 처음이기도 하다.

나중에 수직 장착도 할 생각이라 수직 장착 지원되는 제품으로 골랐다. 하단 파워 서플라이와, 측면 흡/배기구도 고려했다.

이왕 큰맘먹고 구매 하는거 ARGB 되는걸로 구매했다. 나중에 ARGB 지원되는 마더보드를 구매할 예정이기때문에 그렇다.

팬이 조용하긴 조용하다. 3RSYS 의 Silence XY PWM ARGB 팬이다. 전면3개/후면1개씩 140mm 팬이다. 1700RPM, 78.49CFM, 2.07MM/H2O, 30.5 db 짜리 팬으로 풍량은 괜찮은거 같다.

케이스에 팬 허브가 달려있는데 PWM/ARGB 신호를 모두 연결해줄 수 있는거다. 이건 나중에 잘 써먹을 거 같다. 8개까지 연결할 수 있고 기본 4개가 연결되어있다.

----
2024.05.01 추가

ARGB 지원되는 마더보드를 구매했다. ASUS PRIME B550M-A 이다. 이후 ARGB 가 지원되는 다른 케이스도 샀었는데, 번들 팬의 ARGB 는 3RSYS 의 것이 좀 더 좋아보인다. 뭔가 더 은은한 느낌.

----
2025.02.09 추가

L610 QUIET 는 2024 년 6월 경 단종되었다. 비슷한 걸로는 L600 QUIET 제품과 R640 QUIET 제품이 있는데, 둘다 이것보다는 안 좋다. (그만큼 싸다) 하나 더 보고 있었는데 다른거 봐야겠다.

L610 QUIET (SILENCE XY 140 ARGB PWM x 4)

- L600 QUIET 는 ARGB 팬을 번들로 주지 않고, 팬 허브도 ARGB 를 지원하지 않는다. (SILENCE PWM 14)

- R640 QUIET 는 전면 패널이 L610 에 비해 평범하다. 팬은 L610 QUIET 와 동일.

----

2025.02.24 스토리지 파트 구매했다.

3RSYS L600/L610 측면 스토리지 파트

글쓴이 윈디하나

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
No Comment

글쓴시간 2023/04/04 00:00

분류 기술,IT/스테이블 디퓨전

Stable Diffusion - SD 2.1 Replicant-V1.0 사진 #2

미세조정 중. 일부 키워드는 아예 먹히지 않는게 있다. 그래도 맘에 드는거 5장 추려서 올린다.

요즘에 사용하는 이미지 생성 방식은, 960 x 540 또는 540 x 960 크기의 그림을 스텝 20 정도로 100장 이상 배치로 생성한 후, 그중에 맘에 드는 구도가 있으면 동일한 설정으로 2배 스케일링 해서 뽑는다. 지금 사용하는건 스케일링 모델은 "R-ESRGAN General 4xV3" 인데, 나름 괜찮다. 스케일링하다가 심하게 깨지면 Denoising strength 를 0.5 이하로 줄여서 (기본값은 0.7이다) 다시 해보면 거의 원본대로 확대된다.

이미지의 메타 태그를 읽으면 프롬프트를 볼 수 있다.

글쓴이 윈디하나

태그 AI 이미지

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
No Comment

글쓴시간 2023/04/03 00:22

분류 기술,IT/스테이블 디퓨전

Stable Diffusion - SD 2.1 Replicant-V1.0 사진

요즘에 주로 사용하는 모델이 Stable Diffusion 2.1 768 기반의 Replicant-V1.0 이라는 모델이다. SD 2.1 기반이라서 그런지 꽤 좋다. WD 1.5 Beta2 기반이라고 하는데, 나중에 WD 정식버전 나오면 갱신될거라 생각한다.

SD 1.x 버전과 SD 2.x 버전의 차이는 꽤 크다. 몇일전에 Unclip 버전이 나오기도 했는데 아직 사용하보진 못했다. 조만간 사용해볼 예정.

VRAM 이 많으니 1080p 이미지도 생성 가능한게 좋다. 하루에 1000장은 뽑는듯.

이미지 프롬프트는 이미지 파일 안에 있다. PNG 메타태그 리더에서 읽어올 수 있다.

글쓴이 윈디하나

태그 AI 이미지

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
No Comment