윈디하나의 누리사랑방. 이런 저런 얘기

글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - FP16 을 사용한 사진 네장

FP16 을 사용해서 생성했다. FP32 를 사용한 것과 차이는 느껴지지 않는다.

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지
글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - R-ESRGAN General 4xV3 스케일 업

매일매일 그림 생성하는 작업. 물론 다른일도 병행하고 있다. 단지 배치 돌려두고 다른 일 하다가 생성된 그림 검토하고, 맘에 드는건 스케일 업 해서 블로그에 게시한다.

생각외로 스케일 업이 쉽지 않다. 몇 번은 시도해봐야 하고, 다양하게 파라메터를 줘야 성공하는듯.

스케일 업할 때 자주 사용하는 옵션은 R-ESRGAN General 4xV3 이고 Upscale by 2, Denoising strenth 0.4 이다. 나머지는 기본값으로 사용한다.

사용자 삽입 이미지

사용자 삽입 이미지
글쓴시간
분류 기술,IT/스테이블 디퓨전

Stable Diffusion - SD 2.1  Replicant-V1.0 사진 #2

미세조정 중. 일부 키워드는 아예 먹히지 않는게 있다. 그래도 맘에 드는거 5장 추려서 올린다.

요즘에 사용하는 이미지 생성 방식은, 960 x 540 또는 540 x 960 크기의 그림을 스텝 20 정도로 100장 이상 배치로 생성한 후, 그중에 맘에 드는 구도가 있으면 동일한 설정으로 2배 스케일링 해서 뽑는다. 지금 사용하는건 스케일링 모델은 "R-ESRGAN General 4xV3" 인데, 나름 괜찮다. 스케일링하다가 심하게 깨지면 Denoising strength 를 0.5 이하로 줄여서 (기본값은 0.7이다) 다시 해보면 거의 원본대로 확대된다.

이미지의 메타 태그를 읽으면 프롬프트를 볼 수 있다.

사용자 삽입 이미지
사용자 삽입 이미지
사용자 삽입 이미지
사용자 삽입 이미지
사용자 삽입 이미지



글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - SD 2.1  Replicant-V1.0 사진

요즘에 주로 사용하는 모델이 Stable Diffusion 2.1 768 기반의 Replicant-V1.0 이라는 모델이다. SD 2.1 기반이라서 그런지 꽤 좋다. WD 1.5 Beta2 기반이라고 하는데, 나중에 WD 정식버전 나오면 갱신될거라 생각한다.

SD 1.x 버전과 SD 2.x 버전의 차이는 꽤 크다. 몇일전에 Unclip 버전이 나오기도 했는데 아직 사용하보진 못했다. 조만간 사용해볼 예정.

VRAM 이 많으니 1080p 이미지도 생성 가능한게 좋다. 하루에 1000장은 뽑는듯.

이미지 프롬프트는 이미지 파일 안에 있다.  PNG 메타태그 리더에서 읽어올 수 있다.

사용자 삽입 이미지

사용자 삽입 이미지
글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - SD 2 사진 한장

업그레이드한 기념으로 SD 2를 사용해 보았다. 업그레이드 하기 전에는 사용하지 못했다. VRAM 부족으로 말이다.

샘플 이미지대로 프롬프트 넣고 만들었다. PNG 파일에 프롬프트 들어있으니 읽으면 된다. 비슷하게 잘 나온거 같아 올려본다.

사용자 삽입 이미지

확실히 SD 1.5 보다는 좀 더 디테일 있는 이미지를 쉽게 만들 수 있는듯 하다. 아직 체크포인트가 많지 않은게 아쉽다. 다른 것들도 빨리 호환되는 버전이 나왔으면 한다. WD 체크포인트가 지금 베타버전이니 조만간 나올거라 기대한다.
글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - 업그레이드 2차

- SD 를 사용할 PC를 업그레이드 했다.

CPU:  i3-6100 (변경없음)
M/B: H110 (변경없음)
MEM: DDR4 8GB (변경없음)
GPU: nVidia GT 1030 -> nVidia GT2060 12GB

가장 드라마틱하게 변한게 아닐까 생각한다. VRAM 부족으로 아예 못하는 작업이 있음을 확인한 후 계속 GPU 업그레이드를 노려왔다. 그리고 오늘 단행했다.

기존 9:21 걸리던 이미지 생성 작업이 GPU 만 바꿨을 뿐인데 2:24로 단축되었다. 마지막으로 --lowvram 옵션을 빼고 하니 0:53 으로 단축되었다.

즉 561 초 -> 144 초 -> 53 초로 약 1/10 정도로 단축된 셈이다.

이제 이미지 업스케일 옵션을 줄 수 있다. 1920x1080 해상도의 이미지 생성 가능해졌다. 얏호~! (여태까지는 VRAM 부족으로 못했다)

--lowvram 옵션을 빼고 --no-fp16 옵션을 주고 실행한다. --no-fp16 에 따른 이미지 화질차이는 그다지 느껴지진 않는다. 이미지 리사이즈가 화질에 꽤 큰 영향을 준다.

사용자 삽입 이미지

사용자 삽입 이미지
글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - 사진 한장

사진을 뽑는게는 슬슬 익숙해지는 듯. 최소 100장 뽑아서 그중에 맘에 드는거, 그나마 손가락이 잘 표현된 또는 손가락을 잘 숨긴 사진을 뽑아내면 거의 성공이다. 다른 부분은 큰 위화감 없이 출력해준다.

이미지 생성할 때는 보통 civitai 에 가서 샘플로 올라온 것 중에 맘에 드는걸 이리저리 프롬프트 수정해보고 뽑는다. 그래서 몇백장 뽑아보면 잘 뽑힌게 나온다. 아래 사진도 그렇게 뽑았다.

PNG 파일 안에 사용한 프롬프트 정보 담겨있다.

사용자 삽입 이미지

정말 좋은 구도에 좋은 손가락만 빼면 좋은 사진이 많긴 한데, 손가락때문에 못 올린다. 어케 손가락 부분만 보정해주는 AI 안나오남...
글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - 업그레이드 1차

- Stable Diffusion(이하 SD) 를 사용할 PC를 업그레이드 했다.

CPU:  i5-750 -> i3-6100
M/B: P55 -> H110
MEM: DDR3 16GB -> DDR4 8GB
GPU: nVidia GT 1030 (변경없음)

마더보드에서 PCIe 3.0 을 지원하기 때문에 GT1030 의 성능을 다 내준다. 그래서 그만큼 빨라졌다. 아래 작업관리자 그래프에서 Copy 1 항목이 2배이상 빨라진 셈이다. 그래서 3D (CUDA 코어 연산) 부분의 사용율이 올라갔다. 체감상 이미지 1개 생성시 14 분 -> 9분 정도로 약 35% 향상이 있었다. (성능 향상 비율은 SD 에서 생성할 이미지에 따라 다르다) CPU 연산성능 향상에 따라 GPU 부하가 늘어난 것도 있겠지만, PCIe 속도 빨라진게 성능 향상의 주된 요소인것으로 생각한다. GT 1030 의 VRAM 이 2GB 이기 때문에, SD 를 실행시킬때 --lowvram 을 주어 실행시켰고 이 때문에 이미지 생성시 Copy 성능이 중요해졌다. --lowvram 옵션을 주지 않으면 Copy 성능은 중요하지 않다.

사용자 삽입 이미지

가장 아래 그림 그릴때의 성능 그래프. 512x1024 이미지 생성했다. 중간쯤에 그래프가 튀는건 이미지 생성의 최종단계 이기 때문이다.


요즘 사용하고 있는 체크포인트는 AbyssOrangeMix3 다. 판타지 풍 에니메이션 그림체를 잘 만들어주는거 같다. Mix 이기 때문에 2가지 이상의 체크포인트를 합해 만든거다. 이중에서 AOM3A1B 버전 사용하고 있다. 메모리도 적게 사용하는데 비해 맘에 드는 품질을 보여준다.

인터넷에서 본 키워드를 사용해 작성중이다. 그중 꽤 쓸만하다고 생각되는거 하나 업로드한다. "어머니가 섬그늘에 굴 따러 가면"를 오역한 "when mother raids ghoul on the darker side of the island" 프롬프트를 사용했다. (구체적인 키워드는 이미지에 있으므로, PNG 파일을 다운받아 Stable Diffusion 의 PNG Info 에서 보면 볼 수 있다)

사용자 삽입 이미지

사용자 삽입 이미지
글쓴시간
분류 기술,IT/스테이블 디퓨전

Stable Diffusion - ControlNet

컨트롤넷. 특정한 구도로 Stable Diffusion 이미지 생성시 그려주는 SD 의 확장이다. 구도는 유사한 이미지를 사용해 입력해주거나, 새롭게 그려줄 수 있다. 그냥 윈도에 있는 그림판으로도 그려줄 수 있다. 그정도만 그려줘도 충분하다.

사용자 삽입 이미지

ControlNet 의 원리. 뭔소리인지는 나도 모르지만 뭔가 마지막 직전에 + 해주는 것 같다



- Stable Diffusion web UI 에서는 익스텐션 탭에 가면 쉽게 설치할 수 있다.

사용자 삽입 이미지
확장을 설치했으면, https://huggingface.co/lllyasviel/ControlNet/tree/main/models 에서 원하는 모델을 받은 후, (필자는 control_sd15_openpose.pth 을 받았다) \stable-diffusion-webui\extensions\sd-webui-controlnet\models 에 넣어준다.

설치후 UI 를 재로드 하면 (Apply and restart UI 를 클릭하면) txt2img 탭의 아래에 Control Net 패널이 보인다.


- 이미지를 생성하는 설정은 설치 전과 동일하게 한 후, 이미지넷에 구도에 참고할만한 이미지를 넣어준후 설정해준다. Model 에서 openpose 를 선택하고 바로 아래 Enable, Low VRAM 을 클릭한 후, 이후 Generate 를 누르면 이미지넷에 넣어준 이미지와 유사한 구도의 이미지가 생성된다.

사용자 삽입 이미지


- 이미지 생성시 메모리를 더 사용한다. 7.9 GB -> 8.9 GB 로 말이다. ControlNet 에서 사용하는 모델(.pth 파일)이 5.7 GB 정도 되는데 뭔가 최적화 되서 들어가는 듯. 아래화면은 512x512 이미지를 이미지넷을 사용해서 생성 중인 상태다.

사용자 삽입 이미지

생성할때 아래와 같이 콘솔에 표시된다.

Loading model: control_sd15_openpose [fef5e48e]
Loaded state_dict from [경로\stable-diffusion-webui\extensions\sd-webui-controlnet\models\control_sd15_openpose.pth]
ControlNet model control_sd15_openpose [fef5e48e] loaded.

- 요즘 나오는 AI 이미지는 이를 사용해서 만든다고 생각한다. ControlNet 을 사용해 시드번호를 일치시키지 않고도 손가락이 제대로 나오는 포즈를 고정시킬 수 있기 때문이다. SD 로 그리기 너무 어려웠는데 그나마 이걸 사용하면 손가락을 숨기기 쉬워진다.

- 신체 부위에서 손가락이 그리기 어려운 편에 속하는데 워낙 관절이 작은데다 꺾이는 곳이 많고, 그만큼 다양한 각도에서 보면 처음보는 구도가 나오기 때문이다. 일러스트레이터들은 자기 손가락으로 형태를 취해보고 그대로 그리면 되는데 AI 는 그걸 못하기 때문. 그래서 AI가 그린 포즈가 일정해졌다. 그리고 ControlNet 을 사용해 어느정도 고정시킬 수 있게 되었다. 또한 로라 같은걸 사용해 새로운 포즈와 그에 따른 손가락을 새롭게 학습시키는게 어렵진 않으니 그나마 다행.

- OpenPose 를 사용하는 경우 OpenPose 에디터 확장도 같이 설치하자.

사용자 삽입 이미지


글쓴시간
분류 기술,IT/스테이블 디퓨전
듀얼 GPU 사용

아주 오래전엔 VGA 는 1개로 고정되어있었다. 도스 시절 이야기인데, int 10h 가 하나의 VGA 만 인식했기 때문. 물론 당시에는 당연하게 생각했지만, 요즘에는 그게 아니다. 여러개의 GPU 를 달아 사용할 수 있다.

- 여러개의 GPU 를 달아 마치 하나의 GPU로 인식시켜 어플리케이션에서 사용하려면 뭔가 특수한 기법이 필요해진다. 또한 여러개의 GPU 성능을 그대로 다 내도록 하려면 하드웨어적으로 뭔가 장치가 필요하다. PCIe 를 사용해 GPU 간 통신하는건 느리기 때문. 그래서 SLI (NV Link)나 CorssFire 와 같은 기술을 사용하곤 했다.

- 하나의 어플리케이션에서 시스템에 설치된 GPU 중 하나의 GPU 를 선택적으로 사용하려면 그건 별다른 기술 없이 윈도10에서 지원해준다. 단 드라이버가 설치되어야 한다. 요즘엔 CPU 에 내장되어있는 GPU 가 있기 때문에 이렇게 구성하기 쉽다.

- 이런 이야기를 하는게, 좀 성능 낮은 GPU 를 모니터 출력용으로 사용하고, GT 1030 을 CUDA  용으로만 사용해 메모리를 아끼려는 심산이었다. 윈도에서 기본으로 400MB 정도의 VRAM 을 사용하기 때문에 이거라도 아끼려고 했다.

아래 캡처본은 그렇게 한 결과다. 남아있던 Radeon HD 5500 를 달아 모니터를 연결해주고, GT 1030 에는 아무것도 연결하지 않았다. 그래서 아래와 같이 부팅 직후에는 GPU 메모리를 사용하지 않고 있다. 원래는 약 400MB 정도 점유하고 있었다.2 GB 에서 400 MB는 크다.

사용자 삽입 이미지

- 그 400MB 가량은 아래와 같이 HD 5500 에서 사용하고 있다.

사용자 삽입 이미지

이렇게 해서 SD 에서 768 x 768 이미지를 생성시킬 수 있었다. 기존에는 메모리 부족해서 이걸 못했다. 나름 만족. 하지만 --medvram 옵션을 줄 수 있을 정도는 안되었다. CUDA 메모리 부족으로 뜬다.