윈디하나의 누리사랑방. 이런 저런 얘기

글쓴시간
분류 기술,IT
VRAM 4G 이상 8G 이하의 nVidia GPU

남는 PC에 Stable Diffusion 1.5 를 원활히 돌리기 위해 8G 이하의 저렴한 GPU 를 구매하려 한다. 중고로 5만원 정도에 SD1.5 에 사용할 수 있는 쓸만한 4G VRAM 을 가진 GPU 를 구매하는게 목표이긴 하다. 아직은 그 이상 투자하려는건 아니다.

우선 어떤 모델이 있는지 확인해 봤다. 표에 정리된 모델명은 해당 제품군에서 해당 VRAM 을 가진 가장 낮은 사양의 모델이다.

VRAM | 10xx    16xx  20xx   30xx  40xx  50xx
-----+-------------------------------------
4G | 1050Ti 1630
6G | 1060 1660 2060 3050
8G | 1070 2060S 3050 4060 5050

이 모델들에 대한 2025.03.05 현재 가격을 알아보았다. 중고 업자에게 구매할 수 있는 가격이며, 직거래하는 경우 더 저렴한 가격에 구매할 수 있다. TDP 도 중요하기에 같이 적어놓았다.

모델   VRAM TGP  CUDA FP32   PRICE     VARIATION
------ ---- ---- ---- ------ --------- ---------------------------
1630 4G 75W 512 1.828T 9만 중고
1050Ti 4G 75W 768 2.138T 9만 중고
1650 4G 75W 896 2.984T 11만 중고 GDDR6, TU106, TU116, 1650S
1060 6G 120W 1280 4.375T 13만 중고 3G, 5G, GDDR5, GDDR5X
1660 6G 120W 1408 5.027T 16만 중고 1660S, 1660Ti
1070 8G 150W 1920 6.463T 17만 중고 GDDR5X, 1070Ti
2060 6G 160W 1920 6.451T 19만 중고 12G
2060S 8G 175W 2176 7.181T 25만 중고
3050 6G 70W 2304 6.774T 25만
3050 8G 130W 2560 9.098T 32만 GA107 (115W)
4060 8G 115W 3072 15.11T 45만 Ti
5050 8G 100W 2560 12.90T 250$ (예상)

1030 2G 30W 384 1.127T 10만 DDR4

※ 1630 은 성능이 너무 낮은데다, 가격의 이점이 없어 거의 안 팔렸다. 당시 신품가격 17만원이었는데 이 가격이면 다른거 샀다. 그래서인지 중고로도 거의 매물이 없다. 그래도 1030에 비해 NVENC 가 있었기 때문에 이를 사용할 수 있는 가장 저렴한 제품이다.

※ 1650 은 기본 모델은 추가 전원 핀이 없지만, TU106, TU116 을 사용한 후기 버전은 추가 전원핀이 있고 전력을 더 소모한다. 이건 장단점이 있는데, 필자처럼 마더보드의 전력을 끌어 쓰지 않도록 구성하는걸 선호하는 경우에는 오히려 좋다. 마더보드의 전력은 CPU와 메모리에 집중해야 한다.

사용자 삽입 이미지

PALIT GeForce RTX™ 3050 KalmX 6GB. 3050 에서 유일한 무소음이다.



※ 글을 쓰다보니 3050이 눈에 보인다. 이건 중고가격도 15만원대다. 3050 은 3가지 버전이 있다.

- 3050 8G (GA106, 130W, 2560, 9.098T, 8핀) * 2022.01 출시
- 3050 8G (GA107, 115W, 2560, 9.098T, 6핀) * 2022.12 출시. MSI 에서 주로 출시했다.
- 3050 6G (GA107, 70W, 2304, 6.774T, X) * 2024.02 출시

3050 8G 인데 115W 인 GPU 가 있어서 찾아봤다. 주로 MSI 에서 발매한 기종으로 아래와 같다. 단종/판매중이라고 쓴 제품은 실제 우리나라에서 수입된 제품이다.

Colorful iGame RTX 3050 Ultra W DUO OC V2 (2팬, 249mm) 단종
Colorful Tomahawk RTX 3050 DUO V2         (2팬, 255mm) 단종
MSI RTX 3050 AERO ITX OCV1                (1팬, 168 mm)
MSI RTX 3050 AERO ITX V1                  (1팬, 168 mm)
MSI RTX 3050 VENTUS 2X OCV1               (2팬, 236 mm) 단종
MSI RTX 3050 VENTUS 2X V1                 (2팬, 236 mm)
MSI RTX 3050 VENTUS 2X XS                 (2팬, 205 mm)
MSI RTX 3050 VENTUS 2X XS OC              (2팬, 205 mm) 판매중. DVI 커넥터가 있다.

사용자 삽입 이미지

MSI RTX 3050 VENTUS 2X OCV



쓰고보니 3050이 좋아보인다. 에혀.

----

2025.03.10 수정
생각을 바꿨다. SDXL 까지 되는걸로 해야겠다. 지금 최소 필요한 용량을 확인해보고 있는 중이다. Tiled VAE 사용해도 최소 6GB 는 필요할 것으로 생각한다. 이렇게 되면 3050 6G 모델이 가장 좋아보이는데 저렴한 가격에 구매할 수 있을지 모르겠다. 애초에 계획했던 5만원대와는 멀어지게 되는거고 말이다.
글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion WebUI 4K 이미지 생성 - Tiled VAE 사용

요즘엔 4K 이미지에 대한 목표가 없어졌다. 예전엔 그렇게도 생성하고 싶었었는데, 막상 할 수 있게 되고보니 그다지 갈망하지는 않는거 같다.

좀 다른 방법을 소개한다. Tiled Diffusion 플러그인을 사용하는 방법이다. 하는 방법은 아래와 같다.

1. SDUI 에서 Extensions 탭으로 간 후, TiledDiffusion with Tiled VAE manipulations 을 설치한다.

사용자 삽입 이미지

2. txt2img 탭으로 가서 이미지를 생성하기 위한 설정(프롬프트)을 하고, Hires Fix 를 선택한다. 최종 해상도가 4K 이상이 되도록 배율을 선택한다.

3. Tiled VAE 를 선택한다. 최소한 아래와 같은 설정이 필요하고 나머지 2개도 필요하면 체크해준다.

사용자 삽입 이미지

Encoder/Decoder Tile Size 는 가급적 크게 주는게 좋은데, 너무 크게 주면 CUDA error: out of memory 오류가 발생한다. 적당히 크게 세팅하자. 16GB VRAM 의 경우 1536, 96 으로 세팅한다. 8GB VRAM 의 경우 1024, 64 정도면 될것이다. 그 이하의 VRAM 을 사용하면 더 낮게 세팅해도 된다. 최소값은 256, 48 이다.

4. 생성을 눌러 이미지를 생성하자.

콘솔을 보면 아래와 같이 생성되는걸 확인해볼 수 있다.

100%|████████████████████████████████████████| 38/38 [02:51<00:00,  4.52s/it]
100%|████████████████████████████████████████| 76/76 [03:32<00:00, 3.83s/it]
[Tiled VAE]: input_size: torch.Size([1, 4, 320, 192]), tile_size: 96, padding: 11
[Tiled VAE]: split to 4x2 = 8 tiles. Optimal tile size 96x96, original tile size 96x96
[Tiled VAE]: Fast mode enabled, estimating group norm parameters on 57 x 96 image
[Tiled VAE]: Executing Decoder Task Queue: 100%|███████████| 984/984 [00:04<00:00, 213.04it/s]
[Tiled VAE]: Done in 5.675s, max VRAM alloc 3613.766 MB
Total progress: 100%|██████████████████████████████| 76/76 [03:41<00:00, 2.92s/it]

Tiled VAE 사용하지 않은 이미지와 사용한 이미지와는 차이나지 않는다.

VRAM 이 부족하지 않아도 이미지 생성시 GPU가 공유 메모리도 사용하고 있다면 Tiled VAE 를 사용해볼만 하다. 상당히 빨라진다. 필자의 경우 4:59 소요되던 스케일링 작업이 Tiled VAE 를 사용하면 3:45 정도 소요된다.
글쓴시간
분류 기술,IT
소프트웨어 업그레이드로 인한 CPU 발열 증가

- Ubuntu 22.04 -> 24.04 으로 업그레이드 했다.

사용자 삽입 이미지

- 이때문에 Stable Diffusion WebUI도 다시 설치하고, nVidia 드라이버를 다시 설치했는데 실행하고 보니 발열이 많아졌다.

상세하게 말하자면, 평균 GPU 온도는 낮아졌는데, 평균 CPU 온도는 올랐다.

GPU: 80°C → 75°C
CPU: 70°C  80°C

- nVidia GPU 드라이버는 570.86 으로 변경했다. 현재 최신버전이다.

- Stable Diffusion WEBUI 에서의 PyTorch 와 CUDA 버전도 2.1.2+cu121  2.3.1+cu121 으로 달라지긴 했다. 옵션은 동일하다. 메모리도 45% 정도 사용하던게 50% 정도 사용하고 있다.

뭔가 CPU에서 발열이 더 일어나고 있고, GPU 에서 발열이 적게 일어나는식으로 튜닝이 된 느낌이다. 마치, AVX2 를 사용하는 것 처럼 말이다. ( Intel® Core™ i7-7700K 발열 참조 )  문제는 CPU가 그것때문에 80도가 "유지"된다는거. 순간적으로는 100°C 으로도 올라가는거 같다. 수냉 쿨러를 점검해봤지만 이상 없었다.

- 이미지 생성이 느려진다던가, 시스템에 이상이 있는건 아니라서 그냥 쓰고는 있는데 뭔가 찜찜하긴 하다. 딱히 할 수 있는것도 없긴 하지만 말이다. 그냥 수냉 쿨러 바꿀 준비 해야할지도 모르겠다.

----

2025.04.25

아무래도 이건 드라이버 문제인것 같다. 현재 최신 커널/드라이버를 사용하니 이 현상이 사라졌다.
글쓴시간
분류 기술,IT/스테이블 디퓨전
3.1 절기념 한복 그림

3.1 절이기도 해서 한복 비슷한 그림으로 그려보았다. 요맘때랑 광복절때 한복을 그려야 겠다는 생각을 한다.

현재 AI 에서는 우리나라 전통 한복을 완전하게 그리지는 못한다. (아마 앞으로도 완전하게는 못그릴거 같다) 특히 옷 매듭이 어렵고, 윗 저고리도 한복처럼 잘 안나온다. 어딘가 일본의 기모노와 중국의 한푸, 치파오가 섞여있는 느낌이다.

생성한 것 중 그나마 비슷하다고 생각되는 걸로 골라 올린다. 오늘 하루종일 이 이미지만 생성한거 같다. CIVITAI 에 올려놓은 한복 LoRA를 사용해 생성했다.

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지
글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - 노을 2

후면 이미지로도 생성해보았다. 오히려 뒷 모습을 그리는게 옷이 휘날리는 프롬프트에 더 부합하는 느낌이다.

실제 이런 옷을 볼 수는 없겠지만 언젠가 비슷한 거라도 있었으면 한다.

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지
글쓴시간
분류 기술,IT
윈도 11 전각/반각 문자 입력

윈도 11을 사용하다 보면 키보드로 문자를 입력할 때 전각 문자로 변경되는 경우를 경험할 수 있다. 전각 문자란, 높이/너비가 같은 문자로, 이런 용어가 한자문화권에 있다. 바꿔말하면 영문자에 비해 폭이 두배 정도 되는 문자다.

※ 반각 문자
windy.luru.net

※ 전각문자
windy.luru.net

해결방법은 아래와 같다.

1. 아래한글을 사용하는 경우 IME 를 확인해보자. "한"을 클릭하면 자판배열을 변경할 수 있는 창이 나온다. "Microsoft 입력기"를 선택한다.
사용자 삽입 이미지

2. Microsoft 입력기인데도 전각으로 입력되면 Alt + = 를 눌러 전각/반각을 전환하면 된다.
윈도 오른쪽 아래의 "가" 또는 "A" 아이콘을 눌러 문자너비 → 반자를 선택하면 된다.

사용자 삽입 이미지
글쓴시간
분류 기술,IT/하드웨어 정보
3RSYS L600/L610 측면 스토리지 파트

예전에 구매한 3RSYS L610 Quiet (화이트) 케이스에 3.5인치 하드디스크를 추가 할 수 있는 부품을 주문했다. "측면 스토리지 파트"라고 부르는데 3RSYS 의 L600, L610 케이스에서 HDD 를 더 장착할 수 있도록 해주는 부품이다.

L610 케이스에 하드 디스크 장착하라고 되어있는, 케이스 하단에 있는 하드 디스크 장착 부품과 같은거다.  따라서 이 부품엔 2.5 인치 SSD도 장착 할 수 있다.

L610에는 총 4개의 파트를 추가할 수 있는데, 파트당 2개씩 HDD를 장착할 수 있다. 따라서 4개의 파트를 추가하게 되면, 원래있던 1개의 파트에 장착할 수 있는 2개의 HDD를 포함해, 총 10개의 HDD 를 장착할 수 있게 된다. 빅 타워 케이스를 제외하고는 이렇게 많은 HDD를 장착할 수 있는 케이스가 흔하진 않다.

사용자 삽입 이미지

3RSYS L600/L610 측면 스토리지 파트



스토리지 파트는 흰색과 검은색이 있는데, 흰색으로 주문했다. 케이스가 흰색이 더 많이 팔렸을 것이라 흰색 재고가 항상 별로 없다. 마침 4개 재고가 있길래 바로 주문했다. 개당 4000원이다.

HDD 를 4개 설치할 것이라 필요한 파트는 2개였지만, 막상 설치하고 보니 4개 주문하길 잘했다.  하나의 파트에 HDD를 2개 설치하기가 쉽지가 않다. 케이블간의 간격도 좁아져서 연결하기 힘들고, 케이스와도 간섭이 있는 경우가 있다. 그래서 그냥 파트마다 1개씩 넣어서 편하게 조립했다.

사용자 삽입 이미지

"측면 스토리지 파트"는 L610의 측면 패널에 다는 것이기 때문에, 측면 패널에 팬을 달 수 없다. 아쉽긴 하다.

하드 디스크용 나사도 필요한 만큼 동봉되어있는데, 하드 디스크마다 6개씩 나사를 사용하지는 않아서, 나사에 제법 여유가 있다.

글쓴시간
분류 기술,IT
nVidia RTX 50시리즈 문제

원래 제품이 나오면 초반에는 이슈가 있곤 했습니다. 특히 GPU는 드라이버 이슈가 많았죠. 게다가 RTX 4090 나올 때에는 전원부가 타버리는 이슈가 있었습니다. 하지만 이번엔 전원부가 타버리는 것 외에도 조금 특이한게 더 있네요.

사용자 삽입 이미지

50xx 칩의 ROP 모듈이 스펙보다 적게 나온 경우가 있다고 합니다. 5090, 5080, 5070 전부 해당된다고 합니다. ROP 모듈이 적게 들어가면 게임할때 눈에 띄게 성능이 떨어집니다. 5% 정도 차이난다고 하네요. 어쨌든 스펙보다 잘못된거기 때문에 이런 제품은 교환해준다고 합니다.

ROP(Raster Operations Pipeline)는 GPU에서 픽셀의 색상을 처리하는 핵심 요소로, ROP의 개수는 성능에 직접적인 영향을 줍니다. 또한 GPU 에서 많은 메모리 대역이 필요한 요소이기도 하죠. ROP를 거친 데이터는 프레임 버퍼에 모이고 바로 모니터로 출력됩니다.

             5090 5080 5070Ti 5070
ROP 176 112 96 64
비정상 ROP 168 104 88 -

불량품은 ROP가 8개 부족합니다. 이게 칩 제조단계에서 걸러지지 않았다는게 더 의아할 뿐입니다. 5070Ti 까지 발견되었으며, 5070 에서는 불량 보고가 없네요.

어차피 못 사는 제품이긴 하지만, 조금 아쉽네요. 현재 블랙웰 아키텍처를 사용한 GPU는 PCIe 를 사용한 제품이 50 시리즈 밖에 없습니다. 예전에 썼던 GB200 은 플랫폼으로 판매하는 거라 PCIe 를 사용하지 않습니다. 즉 데이터센터에서 사용할 수 있는 PCIe 제품은 H100 까지입니다. 블랙웰은 발열이 많아서 공랭으로는 어렵다고 하네요. 반드시 수랭을 써야 한다는거 같네요. 에혀.

이번 5090 도 기존보다 발열은 제법 있습니다. 그냥 성능 향상분 만큼의 발열이 있다고 생각하면 쉬울거 같네요.

어서 안정화 되고 어서 32 GB 이상 메모리를 가진 저렴한 모델이 나왔으면 좋겠네요. 그래야 업스케일 없이 4K 이미지를 만들 수 있을 것 같네요.

----

2025.04.01 추가

5090 에 ROP 가 스펙보다 16개 더 들어간 192개의 ROP 가 있는 제품이 발견되었다네요. 192개의 ROP 는 GB202 칩의 풀스펙입니다. 위에도 나와있듯 ROP 는 성능에 직접적인 영향을 줍니다. 벤치해보면 게임에서 8% 나 더 빠르다네요. 이정도면 Ti 급이나 Super 급입니다. 불량이니 교환하라고 하겠지만 글쎄요, 이거 교환할 사람이 있을까요.

예전에 3060 중에서 GA104 를 사용해 ROP 가 더 높은경우가 있었죠. 3060 의 인기가 한풀 꺽였을때 나온거라 조용했지만 말이죠. 당시 이론상 픽셀레이트가 85.30 → 113.7 GPixel/s 으로 상승하긴 했지만, 실제 게임에서 이점은 별로 없었습니다. 메모리 대역폭은 그대로라 여기서 병목이 발생했기 때문입니다. 이번 5090 에서는 성능향상이 있었다는건 5090 이 메모리 대역폭에 꽤 여유가 있는걸로 생각되네요.
글쓴시간
분류 기술,IT
무료 윈도용 이미지 편집 프로그램 - paint.net

사용자 삽입 이미지

요즘 주로 사용하고 있는 이미지 편집 프로그램이다. 블로그에 AI 로 생성한 그림을 올릴때에도 크롭하거나, 픽셀 한두개 고치는건 이걸 사용해 하고 있다. 포토샵보다야 기능상 떨어지겠지만, 이런 간단한 작업 하기에는 손색 없는 프로그램이다.

공식 홈페이지에서 받는 것 보다, GITHUB 에서 받는걸 추천한다. 여기에는 포터블 버전도 있다. 현재 포터블 버전은 약 127MB 정도 된다.

다운로드 하기: https://github.com/paintdotnet/release/releases

사용자 삽입 이미지

포터블 파일을 다운로드 했으면, 압축을 풀고 paintdotnet.exe 파일을 실행시킨다. 사용 방법은 포토샵과 비슷하다.

공식 홈페이지에 가면 플러그인도 많다. 꽤 오래된 프로그램이기 때문에, 사용자 층도 제법 있다. 앞으로도 자주 애용할것 같다.
글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion SDXL FP8 사용시 성능

SDXL 에서는 FP8 를 사용않고 있었다. SDUI 에서도 FP8 이 기본적으로 활성화 되지 않는다. 문득 조금 이상하다는 생각이 들어 찾아봤다.

- 우선 SDUI 에서는 Optimizations 항목에 FP8 관련 설정이 아래와 같이 2개 있다.

① FP8 weight (Use FP8 to store Linear/Conv layers' weight. Require pytorch>=2.1.0.)
◎ Disable ◎ Enable for SDXL ◎ Enable

② Cache FP16 weight for LoRA (Cache fp16 weight when enabling FP8, will increase the quality of LoRA. Use more system ram.)

- ① 을 활성화하면 기본적으로 FP8 을 사용하게 된다. 실제로 해보면 성능 향상(이미지 생성속도)이 없다. 단 메모리는 FP8을 사용하는 만큼 적게 사용한다. FP8을 활성화 하는 경우 일부 LoRA 를 사용할 수 없다. 왜인지는 모르겠지만 오류 발생한다.

- SDXL 메모리 사용량

FP8:  3.80 GB
FP16: 5.23 GB

사용자 삽입 이미지

SDXL FP16


사용자 삽입 이미지

SDXL FP8


주) VAE 는 동일하게 FP32 사용한다.

- ②는 캐시관련된거라 성능에 관련이 없다.

- 결론적으로 써도 성능 향상이 없고, LoRA 호환성만 떨어뜨리기 때문에 사용 안하는 거다. 결과물도 다르다. (단 FP16이 항상 더 좋은 결과를 내주는건 아니다) FLUX.1 dev 는 FP8 을 쓰면 효과가 상당히 좋은데 (이미지 생성속도가 빨라지는데) 유독 SDXL 에서는 효과가 없다.

- 아래는 같은 프롬프트, 같은 파라메터를 사용해서 만든 이미지다. 어떤게 좋다고는 할 수 없지만 왠지 FP16 이 더 빛나 보인다.
사용자 삽입 이미지

FP8 으로 생성한 이미지

사용자 삽입 이미지

FP16으로 생성한 이미지