윈디하나의 블로그

글쓴시간 2025/07/05 18:00

Stable Diffusion - 케이팝 데몬 헌터스(KPop Demon Hunters) 한복(Hanbok)

케이팝 데몬 헌터스(KPop Demon Hunters)라는 에니메이션이 인기를 끌고 있다. 넷플릭스에서 지원해서 소니에서 만든 케이팝을 소재로한 에니메이션이다. 케이팝 걸그룹이 데몬을 물리치는 단순한 이야기이지만, 그 속에 들어있는 한국적인 문화에 세계적인 인기를 얻고 있다.

이 글에서는 한류를 이야기하고자 하는건 아니고, 그 작품에 한복이 안 나온게 조금 아쉽다. 서울이 배경이고 특히 서울타워가 자주 나오는데, 그 근처인 경복궁이 나오지 않았고, 한국 또는 한류를 어필하는 작품이었으면 한복은 나왔으면 해서 말이다. 처음에 무당옷이 나오는것에 대해서는 긍정적으로 평가하지만 말이다.

주인공 3인방 중 한명인 조이(Zoey)가 맘에 들어서 비슷하게(?) 내 방식대로 생성했다. 원래는 금발로 하려 했지만 막상 해놓고 보니 그건 좀 아닌거 같아서 흑발로 했다.

글쓴이 윈디하나

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
코멘트2

글쓴시간 2025/06/22 18:38

분류 기술,IT/스테이블 디퓨전

Stable Diffusion - Tina Branford 코스튬

Final Fantasy Ⅵ 게임을 했던 사람이라면 아마 티나를 기억할 것이다. 나도 이 캐릭터에 대한 기억이 아직까지도 남아있고 가끔 그 OST 를 듣곤 한다.

마침 괜찮은 LoRA 가 있어서 생성해 봤다. 이미지는 모두 보정된 이미지다. 또한 게임속의 티나와는 많이 다르다. 그냥 티나의 옷을 입은 다른 캐릭터로 봤으면 한다.

글쓴이 윈디하나

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
A comment

글쓴시간 2025/06/08 15:19

분류 기술,IT/스테이블 디퓨전

Stable Diffusion - 미니스커트 정장 #1 Part1

스테이블 디퓨전으로 미니 스커트를 입은 정장을 표현하고 싶은건 꽤 오래전부터이긴 하지만, 잘 안되었다. 다리를 짝다리를 집거나, 다리를 벌리거나, 손을 들어올리거나 하는 다이나믹한 동작으로만 많이 나왔다. 특히 다리를 곧게 펴고 있는 포즈가 막상 해보니 거의 나오지 않았다.

그래서 LoRA 까지 만들고, 포즈를 꽤 오랫동안 튜닝을 해왔는데, 이제서야 올린다. 지금도 완벽하다고는 하기 어렵지만 그래도 처음 시도했을때보다는 만족할 만한 그림이 나왔다. (일부 그림은 편집되어있다)

글쓴이 윈디하나

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
A comment

글쓴시간 2025/06/06 23:42

분류 기술,IT/스테이블 디퓨전

Stable Diffusion - 미녀 #9 Part 3

Part #3 엔 모델을 변경했다. 의상에 광택이 더 나는거 같다. 얼굴 형태도 조금 변경되었고 말이다.

새로운 모델은 얼굴형을 좀 더 둥글둥글하게 만드려고 하는데 잘 안된다. 정 안되면 LoRA 라도 만들어야 할것 같다.

글쓴이 윈디하나

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
No Comment

글쓴시간 2025/05/25 03:22

분류 기술,IT/스테이블 디퓨전

Stable Diffusion - 미녀 #9 Part 2

그 두번째. Part 1과 유사하지만, 구도를 조금 다르게 잡았다.

글쓴이 윈디하나

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
A comment

글쓴시간 2025/05/19 00:02

분류 기술,IT/스테이블 디퓨전

Stable Diffusion - 미녀 #9 Part 1

미소녀 만화 그림체의 LoRA 를 받아 생성한 그림이다. 미소녀 만화 그림체로 그려주는 LoRA 는 많지만 내가 사용하는 모델에 잘 어울리는 LoRA 는 찾기 힘들다. 사진에 사용한 LoRA 도, LoRA 소개 이미지는 아래 그림과 딴판이었다. 즉 이런 LoRA 를 발견한건 상당한 운이 있었던 셈.

LoRA 가 학습을 강하게 했는지, 다른 형태의 이미지를 생성할 수는 있지만, 프롬프트를 많이 바꾸지 않으면 유사한 이미지들이 많이 나온다. 이것저것 해보다가 아래와 같은 형식이 가장 예쁘게 나왔다. 뭔가 귀족풍의 아가씨를 만드려고 하는 내 의지와 맞았다.

이 글은 Part 3까지 업로드 예정이다.

글쓴이 윈디하나

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
No Comment

글쓴시간 2025/05/03 14:48

분류 기술,IT/스테이블 디퓨전

Stable Diffusion - Ribbon BowTie

리본 형태의 나비넥타이. 의외로 자주 보는 넥타이 형식인데, 이 형태가 SD 에서는 나오질 않았다. 나왔다 해도 조금 이상하게 나오기도 했다.

그래서 LoRA 를 만들어서 구현해 봤다. 인터넷에서 유사한 이미지들을 찾고 그림판에 붙이고 자르고 그려 넣어서 그럴듯한 이미지를 만들고, 이 이미지로 LoRA 를 만든다. LoRA 를 사용해 다시 이미지를 만들고 다시 학습시켜서 LoRA 만들고. 이걸 반복하다 보면 만족할만한 품질의 LoRA 가 나온다.

대략 모양이 나오게 만들었으면 이후 디테일을 높이고 이것저것 장식을 만들면 완성. 말이 쉽지 약 52시간 정도 걸렸다. 일주일 정도 걸린 셈. 그렇게 해서 나온게 아래 이미지들이다.

만들고 나니 뿌듯하다.

글쓴이 윈디하나

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
No Comment

글쓴시간 2025/03/16 21:58

분류 기술,IT/스테이블 디퓨전

SDXL 으로 생성할 때의 표준 해상도이다.

SDXL 은 다양한 해상도를 가진 이미지로 학습되어있는데, 이 해상도의 기준이 1024 x 1024 이다. 또한 내부적으로 64px 의 디멘션을 사용하기 때문에, 해상도는 64의 배수가 되어야 한다.

학습한 해상도인 1024 x 1024 가 가장 좋고, 512 ~ 1536 사이의 값으로 64 의 배수값으로 사용한다. 전체 픽셀수는 1.04M (1,090,519) 을 넘어서는 안된다.

보통 이미지는 아래 해상도로 생성하면 된다.

해상도      픽셀수    비율    
----------  --------- -------------
1344 x 768  1,032,192 1.75:1   16:9
1216 x 832  1,011,712 1.46:1    3:2
1152 x 896  1,032,192 1.28:1    4:3
1024 x 1024 1,048,576 1.00:1    1:1
1536 x 640    983,040 2.40:1 2.39:1

가로/세로를 바꿔서 생성해도 된다. 비율은 16:9 비율이 약 1.77:1 비율임을 생각하면 된다. 참고로 2.39:1 은 시네마스코프 비율이다.

필자의 경우 768 x 1344 를 선호한다. 16:9 에 가장 가깝기 때문에 그렇다. 두번째로는 832 x 1216 을 사용한다. 대략 3:2 비율이기 때문이다.

SDXL 은 생성할 이미지의 비율에 따라 이미지의 구도가 달라지기 때문에, 생성해보다가 구도가 맞지 않으면 다른 걸 사용해도 된다.

아래 이미지를 보자.

1536 x 640

1344 x 768

1216 x 832

1152 x 896

1024 x 1024

모두 동일한 프롬프트와 시드에서, 해상도만 변경해서 생성한 이미지다. 머리 모양과 흩날리는 정도가 이미지 비율에 따라 변경되는걸 볼 수 있다.

글쓴이 윈디하나

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
No Comment

글쓴시간 2025/03/15 23:58

분류 기술,IT/스테이블 디퓨전

Stable Diffusion - SDXL 의 VAE FP16 vs FP32

SDXL 에서 VAE 는 FP32 으로 사용하곤 한다. FP16 으로 된 VAE 라도, FP32 으로 변환해서 사용한다. 이렇게 하는 이유가 SDXL 의 경우 VAE 를 사용해 이미지를 변환할 때, NaN 오류가 많이 발생하기 때문이다.

- 그래서 필자도 Stable Diffusion webUI (SDUI) 에서 --no-half-vae 옵션을 주어 사용했다. 이렇게 하면 NaN 이 발생하지 않아 이미지가 검게 생성되는 현상을 없앨 수 있었다. 반대로 이 옵션을 주지 않으면, 매우 자주 발생한다.

여태까지 --no-half-vae 옵션을 주면서 사용하다가, 최근에 이에 대한 패치가 나온걸 알 았다. VAE 에 대한 FP16 FIX 이다. SDXL-VAE-FP16-Fix 에 나와있는

https://huggingface.co/madebyollin/sdxl-vae-fp16-fix/resolve/main/sdxl.vae.safetensors

을 다운로드 받아 사용하면 된다.

- VAE를 받아 SDUI 의 VAE 디렉토리에 넣고 이 VAE 를 사용하도록 세팅한다. 그리고 --no-half-vae 옵션을 사용하고 SDUI 를 실행해보면, 이미지 생성시 아래와 같이 메모리 사용량이 줄어드는걸 볼 수 있다.

SDXL 에서 FP16 VAE 으로 세팅하고 이미지를 생성시 전용 GPU 메모리 사용량

SDXL 에서 FP32 VAE 으로 세팅하고 이미지를 생성시 전용 GPU 메모리 사용량

FP32 VAE 사용시 마지막 단계에서 FP32 VAE 를 사용하기 위해 메모리 사용량이 급격히 (2배) 늘어나는걸 볼 수 있다. 이미지 품질에는 영향이 없기 때문에 FP16을 사용할 수 있으면 사용해야 한다.

- 시간과 메모리 사용량은 아래와 같이 비교된다.

FP32 VAE: 생성시간 4 min. 18.3 sec. A: 8.37 GB, R: 26.08 GB, Sys: 16.0/15.9961 GB (100.0%)
FP16 VAE: 생성시간 3 min. 49.4 sec. A: 5.22 GB, R: 9.99 GB, Sys: 11.2/15.9961 GB (69.8%)

- 또한 HiResFix 나 Upscale 작업시에는 VRAM 이 부족한 경우가 많다. 부족한 경우 Tiled VAE 를 사용할 수도 있지만, FP16을 사용할 수도 있을것 같다. 아니면 두가지 모두 사용하거나 말이다.

- FP16 VAE 를 사용해서 문제가 생기면(검은색 이미지가 생성되면) SDUI 의 아래 옵션을 체크해보자. NaN 이 발생하는 경우 자동으로 BF16이나 FP16으로 변환해 사용한다. BF16 을 사용하는 경우 GPU 에서 지원하는지 반드시 확인해야 한다. 잘 모르겟으면 해제하면 된다.

☑ Automatically convert VAE to bfloat16
☑ Automatically revert VAE to 32-bit floats

- FP16 VAE 설명을 보면, NaN 이 자주 발생하는건 일부 활성화 값이 너무 크기 때문이라고 한다. 이 값을 조절하기 위해 몇가지 작업을 했다고 한다.

활성화 값이 큰 예시

글쓴이 윈디하나

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
No Comment

글쓴시간 2025/03/03 00:00

분류 기술,IT/스테이블 디퓨전

Stable Diffusion WebUI 4K 이미지 생성 - Tiled VAE 사용

요즘엔 4K 이미지에 대한 목표가 없어졌다. 예전엔 그렇게도 생성하고 싶었었는데, 막상 할 수 있게 되고보니 그다지 갈망하지는 않는거 같다.

좀 다른 방법을 소개한다. Tiled Diffusion 플러그인을 사용하는 방법이다. 하는 방법은 아래와 같다.

1. SDUI 에서 Extensions 탭으로 간 후, TiledDiffusion with Tiled VAE manipulations 을 설치한다.

2. txt2img 탭으로 가서 이미지를 생성하기 위한 설정(프롬프트)을 하고, Hires Fix 를 선택한다. 최종 해상도가 4K 이상이 되도록 배율을 선택한다.

3. Tiled VAE 를 선택한다. 최소한 아래와 같은 설정이 필요하고 나머지 2개도 필요하면 체크해준다.

Encoder/Decoder Tile Size 는 가급적 크게 주는게 좋은데, 너무 크게 주면 CUDA error: out of memory 오류가 발생한다. 적당히 크게 세팅하자. 16GB VRAM 의 경우 1536, 96 으로 세팅한다. 8GB VRAM 의 경우 1024, 64 정도면 될것이다. 그 이하의 VRAM 을 사용하면 더 낮게 세팅해도 된다. 최소값은 256, 48 이다.

4. 생성을 눌러 이미지를 생성하자.

콘솔을 보면 아래와 같이 생성되는걸 확인해볼 수 있다.

100%|████████████████████████████████████████| 38/38 [02:51<00:00,  4.52s/it]
100%|████████████████████████████████████████| 76/76 [03:32<00:00,  3.83s/it]
[Tiled VAE]: input_size: torch.Size([1, 4, 320, 192]), tile_size: 96, padding: 11
[Tiled VAE]: split to 4x2 = 8 tiles. Optimal tile size 96x96, original tile size 96x96
[Tiled VAE]: Fast mode enabled, estimating group norm parameters on 57 x 96 image
[Tiled VAE]: Executing Decoder Task Queue: 100%|███████████| 984/984 [00:04<00:00, 213.04it/s]
[Tiled VAE]: Done in 5.675s, max VRAM alloc 3613.766 MB
Total progress: 100%|██████████████████████████████| 76/76 [03:41<00:00,  2.92s/it]

Tiled VAE 사용하지 않은 이미지와 사용한 이미지와는 차이나지 않는다.

VRAM 이 부족하지 않아도 이미지 생성시 GPU가 공유 메모리도 사용하고 있다면 Tiled VAE 를 사용해볼만 하다. 상당히 빨라진다. 필자의 경우 4:59 소요되던 스케일링 작업이 Tiled VAE 를 사용하면 3:45 정도 소요된다.

글쓴이 윈디하나

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
No Comment

윈디하나의 블로그

148 개 검색됨 : 기술,IT/스테이블 디퓨전 에 대한 결과

Stable Diffusion - 케이팝 데몬 헌터스(KPop Demon Hunters) 한복(Hanbok)

Stable Diffusion - Tina Branford 코스튬

Stable Diffusion - 미니스커트 정장 #1 Part1

Stable Diffusion - 미녀 #9 Part 3

Stable Diffusion - 미녀 #9 Part 2

Stable Diffusion - 미녀 #9 Part 1

Stable Diffusion - Ribbon BowTie

SDXL 해상도

Stable Diffusion - VAE FP16 vs FP32

Stable Diffusion WebUI 4K 이미지 생성 - Tiled VAE 사용

최근 글

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31