① Stable Diffusion 3.5 Large: 80 억개 파라메터 ② Stable Diffusion 3.5 Large Turbo: Large 의 ADD(Adversarial Diffusion Distillation) 적용 모델. 4 스텝 용. ③ Stable Diffusion 3.5 Medium: 25 억개 파라메터
우선 Large 와 Large Turbo 가 발표되었습니다. Medium 은 10/29 공개 예정이라 하네요.
- 앞서 발표했던 SD3 의 Medium 모델이 20 억개의 파라메터를 가졌고, SDXL 은 26 억개입니다. FLUX.1 Dev 가 120억개입니다. 파라메터가 많으면 더 좋은 이미지를 얻을 수 있는건 맞지만, 고사양을 필요로 하기 때문에 대중성에서는 떨어집니다. 많이 떨어지죠. 아직까지 SDXL 에서 벗어나지 못하는 이유기도 합니다.
SD 3.5 구조. SD3 와 거의 유사하다.
SD3.5 의 구조는 SD3 와 거의 같습니다. 다이어그램에는 CLIP 에서 256 토큰을 사용한다고 되어있는데 뭔지는 잘 모르겠네요.
FLUX.1 Dev 이 사용하기 어려워서 (이미지 생성 속도 때문에) 고민되었는데 Medium 은 이미지 생성속도가 SDXL 과 비슷한 정도일 것으로 생각되어서 사용해볼만 하겠네요.
- 2024.10 현재 가장 많이 사용되는 모델은 SDXL 입니다. SD3.5 나 FLUX.1 Dev 이 대중화되려면 조금 더 시간이 필요해 보이네요. 소비자들이 많이 사용하는 GPU 가 xx60 (3060, 4060, 1650, 2060, ...) 급의 GPU 인데 이정도 스펙에서는 SDXL 을 사용하면 쾌적하게 사용할 수 있으니까요. 저도 SD1.5, SDXL 이 주력입니다.
당근에서 구매. 45만냥. 현재 신품 최저가는 60만원이다. 출시가는 55만원대였는데 이후 조금 떨어지다가 계속 올라서 지금은 60만원이 된거다. 그리고 앞으로 조금씩 오를거라고 생각한다. 필자가 여태까지 구매한 VGA 중에 가장 비싼 VGA이다.
제조일은 24년 2주차다. 2027년 2주차까지 A/S 기간이다. 일단 받은건 정상 작동하는건 확인했다.
제품명은 GeForce RTX 4060 TI VENTUS 2X BLACK 16G OC 이다. 제조사는 MSI. 크기는 199mm x 120mm x 42mm 으로, 2 슬롯 규격이다.
4060 TI 의 16GB 버전은 현재 MSI 에서만 판매하고 있다. 그만큼 4060 Ti 16G 는 수요가 없긴 하다. 게임에서는 8GB 제품보다 더 성능이 떨어진다고 하니 말이다. 게임 외에도 Stable Diffusion 을 사용할 것이 아니라면 구매 안한다.
OC 가 들어갔으니 뭔가 오버클럭 되어있는 셈. 또한 MSI 제품은 처음 써본다.
사용중이던 2060 12G 는 다른 PC에 달고 이걸로 달았다. 생각보다 많이 작은거에 놀랐다. 발열도 2060 12G 보다는 더 낮은 느낌. 4060 Ti 16GB 의 TGP 는 165 W 으로, 2060 12G 의 184 W 보다 낮다. 이론상 성능은 2배다.
GPU-Z 는 아래와 같다. Resizable BAR 를 활성화했다.
센서는 지난 2060에 비해 많아졌다.
조만간 5090이 나올거라고는 하는데, 5060 까지 출시하려면 아직 멀어서 (5090 출시후 6개월~1년정도 후에 나옴) 어차피 비쌀것이기도 해서 그냥 4060 Ti 구매했다. 물론 작년 출시때부터 산다고 했던거기도 하고 말이다. VRAM 이 24GB 이 못된게 아주 아쉽긴 하다.
----
2025.01.04 업데이트
신품가가 70만원을 넘었다. 중고가격도 55만원정도. 정말 계속 오른다.
----
2025.02.09 업데이트
신품가가 80만원을 넘었다. 판매처도 30여곳으로 나오는걸로 보면 정상적인 가격은 아니라 생각하고, RTX 5000 시리즈가 나왔기 때문에 곧 단종될걸로 생각한다. 이 가격도 16GB 를 사용한 nVidia GPU 중 가장 저렴한 편에 속하긴 한다. 에혀.
1. https://huggingface.co/black-forest-labs/FLUX.1-dev/tree/main (공식 리포지토리) flux1-dev.safetensors 및 ae.safetensors 파일 다운로드
2. https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main clip_l.safetensors 및 t5xxl_fp16.safetensors 파일 다운로드 -> 공식 리포지토리의 text_encoder, text_encoder_2 아래에 있는 파일과 같은 파일이다.
3. 다운로드 받은 파일을 stable-diffusion-webui-forge 의 디렉토리로 옮김
3. stable-diffusion-webui-forge 실행 후, 아래와 같이 세팅 UI: flux CheckPoint: flux1-dev VAE / TextEncoder: clip_l.safetensors, t5xxl_fp16.safetensors, ae.safetensors
4. GERERATE 버튼 클릭!
- 이렇게 실행하려면 최소한 24GB VRAM 을 가진 nVidia GPU 와 64GB 의 시스템 메모리가 필요하다.
- 일부 파일은 여기서 받음: https://huggingface.co/camenduru/FLUX.1-dev/tree/main
※ FP8, NF4으로 구성
속도를 빠르게 하고 메모리 사용량을 줄이기 위한 목적으로 FP8 이나 NF4 를 사용한 모델을 사용할 수 있다. 이걸로 해야 필자의 사양(RTX 2060 12GB, MEMORY 64GB)에서 실행된다.
전용 GPU 메모리(Dedicated GPU Memory): GPU 의 VRAM 용량 공유 GPU 메모리(Shared GPU Memory): GPU 에 의해 공유되는 시스템 메모리. 사용 가능한 용량은 시스템 메모리의 절반
- 스왑 메모리 위치 -- CPU: 모델을 GPU 메모리 및 시스템 메모리에 위치 -- Shared: 모델을 GPU 메모리 및 공유 GPU 메모리에 위치. 좀 더 빠른 대신 실행 이슈(크러시)가 발생할 수 있다.
- GPU Weights (MB): GPU 에 적재할 모델의 크기. 크면 클수록 좋지만, 이미지 생성시에도 GPU 메모리를 필요로 하기 때문에 적당히 조절해야 한다.
- 스왑 메쏘드 -- Queue: 모델 적재 -> 연산 -> 다른 모델 적재 -> 연산의 순서로 차례대로 진행된다. -- Async: 모델 적재 -> 연산 및 다른 모델 적재 -> 연산 및 다른모델 적재 의 순서로 동시에 처리된다. Queue 보다 빠르지만, 모델에 따라 갑자기 매우 느려질때가 있다. Async 와 Queue 를 비교해보고 빠른걸 선택하자.
CivitAI 에 공개된 이미지 프롬프트를 보고 따라한 그림. FLUX 로 생성했다. https://civitai.com/images/31943195