윈디하나의 누리사랑방. 이런 저런 얘기

글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - animePastelDream 사진

파스텔 풍 그림 그려주는 모델이다. 써본 것 중에 가장 괜찮은것 같다.

원래는 다른 이미지를 얻기 위한 프롬프트인데, 시드를 높이면서 이미지를 생성하면 아래와 같이 입력한 프롬프트와 다른 이미지를 그려주기도 한다. 그런데, 이게 맘에 드는 경우가 있다. 뭔가 과하게 학습되었다고 생각되는데, 그게 나름 괜찮다. 다른 모델들 보다 animePastelDream  이 조금 심한것 같긴 하다. 아래는 그 사진들이다. 1920 x 1080 해상도로 업스케일 했다. 윈도 바탕화면 용이다.

사용자 삽입 이미지


사용자 삽입 이미지


사용자 삽입 이미지


사용자 삽입 이미지


사용자 삽입 이미지


사용자 삽입 이미지

글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - FP16,  FP32 성능, 차이

FP16과 FP32 가 어떤 차이가 있을까 궁금해서 한번 테스트 했다. 결론을 먼저 말하자면, 그냥 FP16 사용하자. 사용하는데에는 결과물에 차이 없고 메모리를 더 적게 사용하기 때문에, FP16 사용해야 한다.

nVidia RTX 2060 에서 테스트했다. 참고로 20 시리즈는 FP16 이 FP32 보다 연산능력이 2배 좋다. 30 시리즈부터 FP16 과 FP32 연산능력이 동일하다.

이미지크기는  504 x 960 으로 했다.

① FP32 체크포인트, FP32 실행
chilloutmix_NiPrunedFp32Fix         FP32  5.1G -> 5.9G -> 7.7G -> 5.1G
Total progress: 100%|██████████████████████████████████████████████████████████████████| 28/28 [00:46<00:00,  1.48s/it]

② FP32 체크포인트, FP16 변환

chilloutmix_NiPrunedFp32Fix FP32 -> FP16  2.6 -> 10.1 -> 8.9G -> 3.0G
100%|████████████████████████████████████████████████████████████████████████████████| 28/28 [00:28<00:00,  1.01s/it]
Total progress: 100%|██████████████████████████████████████████████████████████████████| 28/28 [00:24<00:00,  1.15it/s]
Total progress: 100%|██████████████████████████████████████████████████████████████████| 28/28 [00:24<00:00,  1.57it/s]

③ FP32 체크포인트, FP16 실행

chilloutmix_NiPrunedFp32Fix         FP16  3.0G -> 3.3G -> 5.1G -> 3.0G
Total progress: 100%|██████████████████████████████████████████████████████████████████| 28/28 [00:17<00:00,  1.61it/s]

④ FP16 체크포인트, FP16 실행

chilloutmix_NiPrunedFp16Fix         FP16  3.0G -> 3.3G -> 3.0G
Total progress: 100%|██████████████████████████████████████████████████████████████████| 28/28 [00:17<00:00,  1.62it/s] 

② 은 FP32로 학습한 체크포인트를 FP16 으로 수행하기 전에 FP16 으로 변환하는데, 처음 체크포인트 변환시 10.1G, VAE 변환시 8.9G 를 소비한다. 재 실행시에는 변환작업이 없다.

생성한 이미지

사용자 삽입 이미지


사용자 삽입 이미지


사용자 삽입 이미지


메모리 사용


사용자 삽입 이미지



②③
사용자 삽입 이미지
사용자 삽입 이미지



사용자 삽입 이미지
사용자 삽입 이미지



------------

참고: GT1030, --lowvram

이미지크기: 384 x 768

① FP16 체크포인트, FP32 실행
chilloutmix_NiPrunedFp16Fix         FP32  1952MiB
Total progress: 100%|██████████████████████████████████████████████████████████████████| 20/20 [08:10<00:00, 25.61s/it]

② FP16 체크포인트, FP16실행
chilloutmix_NiPrunedFp16Fix         FP16  1350MiB
Total progress: 100%|██████████████████████████████████████████████████████████████████| 20/20 [05:10<00:00, 16.15s/it]
글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - FP16 을 사용한 사진 네장

FP16 을 사용해서 생성했다. FP32 를 사용한 것과 차이는 느껴지지 않는다.

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지
글쓴시간
분류 기술,IT
nVidia GPU FP16,  FP32, FP64 성능

사용자 삽입 이미지


nVidia 제품에서, FP32 와 FP16 성능이 얼마나 차이나는지 확인해보려다가, 이왕 하는거 CUDA 가 들어있는 세대부터 FP16, FP32, FP64 성능을 정리해봤다. 기준이 되는 모델은 각 세대의 xx60 모델이다. 단위는 Flops 으로 GPU Database | TechPowerUp 에 나와있는걸 인용했다. 이 수치는 레퍼런스 스펙을 가질때의 이론상의 스펙이다.

아래 표에서 G 는 Giga, T 는 Tera 의 약어로 1T Flops = 1000G Flops 이다. flops 는 FLoating point Operations Per Second 의 약어로, 1초동안 수행할 수 있는 부동소수점 연산의 회수를 의미한다. FP16, FP32, FP64는 각각 16/32/64 비트 부동소수점 연산 회수를 의미한다.

Product     Code name    CUDA FP16          FP32        FP64            FP32향상비율
----------- ------------ ---- ------------- ----------- -------------- -----------
8600 Tesla 1.1 x 92.80G x
9600 x 278.4G x 3.00
260 1.3 x 476.9G 59.62G (1:8) 1.71
460 Fermi 2.1 x 907.2G 75.60G (1:12) 1.90
560 x 1,089G 90.72G (1:12) 2.28
660 Kepler 3.0 x 1.981T 82.56G (1:24) 1.82
760 x 2.378T 99.07G (1:24) 1.20
960 Maxwell 5.2 x 2.413T 75.39G (1:32) 1.01
1060 6G Pascal 6.1 68.36G (1:64) 4.375T 136.7G (1:32) 1.81
1660 Turing 7.5 10.05T (2:1) 5.027T 157.1G (1:32) -
2060 12G 14.36T (2:1) 7.181T 224.4G (1:32) 1.64
3060 12G Ampere 8.6 12.74T 12.74T 199.0G (1:64) 1.77
4060 Ada Lovelace 8.9 15.11T 15.11T 236.2G (1:64) 1.18
5060 Blackwell 2 10.1 23.22T 23.22T 362.9G (1:64) 1.47 (예상치)

참고
4060 Ti 16G Ada Lovelace 8.9 22.06T 22.06T 344.8G (1:64)
5070 Ti 16G Blackwell 2 10.1 43.94T 43.94T 686.6G (1:64)

위 표는 FP16, FP32, FP64 의 연산 속도를 나타낸 것이다. 단 Turing 아키텍처부터 있는 Tensor/RT 코어를 사용한 연산은 포함되지 않았다. 즉 GPU 코어만을 사용한 연산 속도를 나타냈다.

CUDA는 2006년 11월 8일에 발표된 8800 GTX 가 CUDA 1.0 을 지원하면서 처음 선보였다. 이후 2014년 선보인 900번대인 Maxwell 아키텍처부터 AI 에 유용하게 사용되었다. 처음에는 CUDA 의 가능성만 보고 nVidia 에서 투자했다가 이제야 빛을 보게 된 셈. 처음에는 CUDA 에서 FP32 만 지원되었다가 200번대에 와서 FP64가 지원되고, 1000 번대부터 부터 FP16이 지원되었다. FP16은 AI 연산에서 사용된다.

AI에서 주로 사용되는 형식인 INT8 은 CUDA 7.5 부터, INT 4 는 CUDA 8.0 부터, FP8 은 CUDA 8.9 부터 지원된다.

최근에 나온 40xx번대 GPU 는 FP8 도 지원하지만 텐서코어에서 지원하는 것이기 때문에 이 표에서 적지 않았다. 텐서코어를 이용한 4090 GPU 의 경우 FP8 성능은 660TFLOPS 정도다. (하지만 이 성능을 AI 에서 사용하지는 못한다. 말 그대로 텐서코어에서 지원하기 때문이다)

올해 7월 출시 예정인 4060으로 변경할 생각은 있긴 한데 VRAM 이 12GB 이 나오지 않는다고 한다. 이렇게 되면 4060Ti 16GB 모델로 변경해야할것 같다. 어쨌든 같은 성능에 전력소모는 확 줄어들것이기 때문에 쓰긴 써야 한다고 생각한다. 게임하는데에는 안좋지만 말이다. 하나 더 걸리는게 4060을 사용해도 예상대로라면 2060 FP16보다 1.35배 성능이 빨라진다. 가격은 1.35배 차이가 아닐 것 같은데 말이다. 에혀.

지금은 Stable Diffusion 실행시킬 때 FP32 을 사용하고 있지만, 이 표를 보니 FP16 써야 할것 같다. 지금 사용하고 있는 2060은 FP16 연산 능력이 FP32에 비해 2배 빠르기 때문이다. 또한 FP16으로 실행하면, 12GB VRAM 으로도 4K 이미지를 생성할 수 있을것 같기도 하고 말이다.

----

Stable Diffusion - FP16, FP32 성능

----

2023.04.17

RTX2060 12GB에서 FP16으로 이미지를 생성하고 있긴 하지만, 4K 이미지는 생성 못하고 있다. VRAM 메모리 부족때문이다. 뭔가 방법을 찾는 중.

----

2023.09.28

4K 이미지는 Upscaler 사용해서 생성하고있다.

----

2025.03.07

Stable Diffusion WebUI 4K 이미지 생성

Stable Diffusion WebUI 4K 이미지 생성 - 메모리 증설

Stable Diffusion WebUI 4K 이미지 생성 - Tiled VAE 사용
글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - R-ESRGAN General 4xV3 스케일 업

매일매일 그림 생성하는 작업. 물론 다른일도 병행하고 있다. 단지 배치 돌려두고 다른 일 하다가 생성된 그림 검토하고, 맘에 드는건 스케일 업 해서 블로그에 게시한다.

생각외로 스케일 업이 쉽지 않다. 몇 번은 시도해봐야 하고, 다양하게 파라메터를 줘야 성공하는듯.

스케일 업할 때 자주 사용하는 옵션은 R-ESRGAN General 4xV3 이고 Upscale by 2, Denoising strenth 0.4 이다. 나머지는 기본값으로 사용한다.

사용자 삽입 이미지

사용자 삽입 이미지
글쓴시간
분류 기술,IT/하드웨어 정보
3RSYS L610 Quiet (화이트)

사용자 삽입 이미지

도저히 GPU 온도를 잡을 수가 없어서 결국 케이스 변경했다. 가격은 101,000 냥. 택배 2,500 별도다.

GPU 에서 발산하는 185 W 발열을 효과적으로 배출하는게 불가능했다. 공기순환 자체가 안되더라. 팬을 몇개 더 달아봤지만 안되었고, 결국 케이스 교체. 교체후에는 85도 육박하는 GPU 온도가 75도 정도로 내려갔다. 여태까지 케이스가 오래되고 낡아서 교체한경우는 있어도 발열때문에 교체한적은 없었다. 이런 경우는 처음이기도 하다.

사용자 삽입 이미지

나중에 수직 장착도 할 생각이라 수직 장착 지원되는 제품으로 골랐다. 하단 파워 서플라이와, 측면 흡/배기구도 고려했다.

사용자 삽입 이미지

이왕 큰맘먹고 구매 하는거 ARGB 되는걸로 구매했다. 나중에 ARGB 지원되는 마더보드를 구매할 예정이기때문에 그렇다.

팬이 조용하긴 조용하다. 3RSYS 의 Silence XY PWM ARGB 팬이다. 전면3개/후면1개씩 140mm 팬이다. 1700RPM, 78.49CFM, 2.07MM/H2O, 30.5 db 짜리 팬으로 풍량은 괜찮은거 같다.

케이스에 팬 허브가 달려있는데 PWM/ARGB 신호를 모두 연결해줄 수 있는거다. 이건 나중에 잘 써먹을 거 같다. 8개까지 연결할 수 있고 기본 4개가 연결되어있다.

----
2024.05.01 추가

ARGB 지원되는 마더보드를 구매했다. ASUS PRIME B550M-A 이다. 이후 ARGB 가 지원되는 다른 케이스도 샀었는데, 번들 팬의 ARGB 는 3RSYS 의 것이 좀 더 좋아보인다. 뭔가 더 은은한 느낌.

----
2025.02.09 추가

L610 QUIET 는 2024 년 6월 경 단종되었다. 비슷한 걸로는 L600 QUIET 제품과 R640 QUIET 제품이 있는데, 둘다 이것보다는 안 좋다. (그만큼 싸다) 하나 더 보고 있었는데 다른거 봐야겠다.
L610 QUIET (SILENCE XY 140 ARGB PWM x 4)
- L600 QUIET 는 ARGB 팬을 번들로 주지 않고, 팬 허브도 ARGB 를 지원하지 않는다. (SILENCE PWM 14)
- R640 QUIET 는 전면 패널이 L610 에 비해 평범하다. 팬은 L610 QUIET 와 동일.

----

2025.02.24 스토리지 파트 구매했다.

3RSYS L600/L610 측면 스토리지 파트
글쓴시간
분류 기술,IT/스테이블 디퓨전

Stable Diffusion - SD 2.1  Replicant-V1.0 사진 #2

미세조정 중. 일부 키워드는 아예 먹히지 않는게 있다. 그래도 맘에 드는거 5장 추려서 올린다.

요즘에 사용하는 이미지 생성 방식은, 960 x 540 또는 540 x 960 크기의 그림을 스텝 20 정도로 100장 이상 배치로 생성한 후, 그중에 맘에 드는 구도가 있으면 동일한 설정으로 2배 스케일링 해서 뽑는다. 지금 사용하는건 스케일링 모델은 "R-ESRGAN General 4xV3" 인데, 나름 괜찮다. 스케일링하다가 심하게 깨지면 Denoising strength 를 0.5 이하로 줄여서 (기본값은 0.7이다) 다시 해보면 거의 원본대로 확대된다.

이미지의 메타 태그를 읽으면 프롬프트를 볼 수 있다.

사용자 삽입 이미지
사용자 삽입 이미지
사용자 삽입 이미지
사용자 삽입 이미지
사용자 삽입 이미지



글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - SD 2.1  Replicant-V1.0 사진

요즘에 주로 사용하는 모델이 Stable Diffusion 2.1 768 기반의 Replicant-V1.0 이라는 모델이다. SD 2.1 기반이라서 그런지 꽤 좋다. WD 1.5 Beta2 기반이라고 하는데, 나중에 WD 정식버전 나오면 갱신될거라 생각한다.

SD 1.x 버전과 SD 2.x 버전의 차이는 꽤 크다. 몇일전에 Unclip 버전이 나오기도 했는데 아직 사용하보진 못했다. 조만간 사용해볼 예정.

VRAM 이 많으니 1080p 이미지도 생성 가능한게 좋다. 하루에 1000장은 뽑는듯.

이미지 프롬프트는 이미지 파일 안에 있다.  PNG 메타태그 리더에서 읽어올 수 있다.

사용자 삽입 이미지

사용자 삽입 이미지
글쓴시간
분류 기술,IT/하드웨어 정보
nVidia GeForce RTX 2060 12GB - GPU-Z

Stable Diffusion (SD) 을 원활히 실행시키기 위해 GPU 업그레이드. RTX 2060 12GB 으로 샀다. 이 제품이 12GB VRAM 을 가진 가장 저렴한 모델일 것이다. 당근에서 20만냥. 일단 급하니 좀 비싼감이 있어도 그냥 샀다. SD 할건데 1, 2만냥에 기다리고 싶지는 않다. 게다가 12GB 버전은 중고로 잘 안나오기도 하고 말이다. 다행이도 양품이다.

사용자 삽입 이미지

구매한 제품은 GeForce RTX™ 2060 WINDFORCE OC 12G 다. 크기 265mm x 121mm x 40mm 으로, 2 슬롯 규격이다.


사용자 삽입 이미지

스펙의 일부는 2060s 와 같다. GPU 클럭은 1680MHz 으로 30MHz 오버되어있다. 1650MHz 이 기본이다.

제품명     FP32CC:TC:TMU:ROP VRAM MEM BUS TGP  출시    중고(만원)
---------  ----------------- ---- ------- ---- ------- ----------
2070 2304:288:144:64 8GB 256bit 175W 2018.10 23
2060s      2176:272:136:64   8GB 256bit 160W 2019.07 20
2060 12GB  2176:272:136:48   12GB 192bit 185W 2021.12 20
2060       1920:240:120:48   6GB 192bit 160W 2019.01 18
ROP(Render Output Unit)개수가 적으면 렌더링 성능이 떨어지기 때문에 게임 할때는 성능이 낮아진다. 따라서 스펙으로 미루어보건데, 2060 12GB 의 용도는 바로 AI 라는 의미다. 게임을 위해서는 2060과 성능 동일하니 비싼돈 들여 12GB 를 살 필요는 없다. 2060s 사야 한다.

사용자 삽입 이미지

TU102 Die Shot


12GB 모델의 TGP(Total Graphic Power) 가 메모리가 많아서 더 높다. 25W 차이라면 무시 못하는 수준이다. 그만큼 발열에 좀 더 신경써야 한다.

또한 2060 12GB 모델은 2021.12.07에 출시한 터라 3년 A/S 기간을 감안하면 12GB 모델은 A/S 기간이 남아있다. 그래서 구매한거기도 하다. 제조사도 2060을 제조한 노하우가 쌓여있던터라 발열 이슈가 없다. 특히 20시리즈 출시초기 화면에 ㅇㅈ 처럼 생긴 문자가 뜨면서 화면이 꺼지는 (즉 GPU 가 고장나는) 현상이 꽤 많이 보고되었기 때문에, 오래된걸 구매하기는 꺼려진다.

사용자 삽입 이미지

TU102 Block Diagram


SD 이미지 생성시에는 아래와 같이 풀로드가 걸린다. 그리고 GPU 온도가 85도까지 오르고 케이스 내부를 뜨겁게 만든다. 이 영향을 받아 CPU도 70도 넘게 나온다. TDP 180W 가 괜히 그런게 아닌 셈. 2060에는 8핀 보조 전원이 필요하니 말이다. 파워는 650W 급을 쓰고 있으니 문제 없고, 흡/배기가 원활하지 않으니 조만간 케이스 교체할 예정이다.

사용자 삽입 이미지

풀 로드가 걸리지만 왠지 작업관리자에서는 GPU 로드가 보이질 않는다. 모니터가 RTX 2060 에 연결된게 아니라, 마더보드에 연결되어있기 때문에 보이지 않는다.

사용자 삽입 이미지
글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - SD 2 사진 한장

업그레이드한 기념으로 SD 2를 사용해 보았다. 업그레이드 하기 전에는 사용하지 못했다. VRAM 부족으로 말이다.

샘플 이미지대로 프롬프트 넣고 만들었다. PNG 파일에 프롬프트 들어있으니 읽으면 된다. 비슷하게 잘 나온거 같아 올려본다.

사용자 삽입 이미지

확실히 SD 1.5 보다는 좀 더 디테일 있는 이미지를 쉽게 만들 수 있는듯 하다. 아직 체크포인트가 많지 않은게 아쉽다. 다른 것들도 빨리 호환되는 버전이 나왔으면 한다. WD 체크포인트가 지금 베타버전이니 조만간 나올거라 기대한다.