윈디하나의 누리사랑방. 이런 저런 얘기

글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - 베어백

꽤 괜찮은 사진이 우연히 생성되었다. 이것저것 프롬프트를 튜닝하다가 꽤 맘에 드는게 나왔다. 베트남의 전통 드레스 아오다이와 유사한것 같긴 하지만 (필자는 아오다이 전문가는 아니다) 어쨌든 꽤 맘에 든다.

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지


사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지
글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - FastSD CPU

"FastSD CPU" CPU 만을 사용해서 이미지를 생성한다. LCM 이나 OpenVINO 를 사용하는듯.

예전에 한번 써보고 관심 없었는데, 갑자기 CPU 로 사용하는건 어떨까 해서 찾아봤다.

스텝은 4 이하로 설정하는게 핵심이다. 4 이하로 설정해도 품질이 좋은 이미지를 생성하기 위해 여러가지 작업을 한다. 물론 그렇지 않은 모델보다는 떨어지지만, 속도가 매우 중요한 경우에는 이 방법밖에 없다.

i7-7700K 에서 1장 생성하는데 약 30초 정도 걸린다. 품질도 생각보다는 좋다.

사용자 삽입 이미지

아래와 같이 LCM-LoRA 모델을 사용했다. OpenVINO 로 사용해도 속도는 크게 달라지지 않았다. OpenVINO를 사용해 성능을 향상시키려면 최신 CPU가 필요한것 같기도 하다. 예를 들어 AVX-VNNI 를 지원하는 CPU 말이다. (OpenVINO 는 AVX2 를 지원하는 CPU 에서 사용할 수 있다)

사용자 삽입 이미지


----

Stable Diffusion - LCM(Latent Consistency Model)
FastSD CPU
글쓴시간
분류 기술,IT/스테이블 디퓨전
FLUX.1 Dev - 이미지 생성형 AI

사용자 삽입 이미지

Stability AI 의 Stable Diffusion 3 (SD3) 가 주춤한 사이 FLUX.1 이 공개되었습니다. 8월 1일에 공개되었는데 이제 주목하게 되었네요. Stable Diffusion 시리즈를 만든 개발자 중 일부가 나와 Black Forest Labs 라는 회사를 차렸는데, 이 회사의 첫번째 생성형 AI입니다. 독일 회사입니다.

FLUX.1 의 성능이 매우 좋다고 해서 관심을 많이 가지고 있습니다. 전 아직 안 써 봤습니다만, SD3 보다는 좋아보입니다. SD3 는 라이선스에 이슈가 있어서 아직까지는 대중화 될지 안될지 모릅니다. FLUX.1 의 경우 특히 "손"도 잘 그리는것으로 알고 있습니다. 엄청난 성능에 SD3 로는 대응이 안되어서 Stability AI 에서는 SD 3.1 을 내놓을 예정이라 합니다.

현재 SD 는 개발사에서 제공한 모델이 주류가 아닙니다. SD1.5 의 경우 개발사에서 제공한 모델보다는, 수많은 사용자들이 만든 모델들을 사용하고 있고요, Dreamshaper 8 정도가 유명합니다. 저도 제가 병합한걸 쓰고 있습니다. SDXL 의 경우 개발사에서 제공한 모델 보다는, 사용자들이 학습시킨 Pony Diffusion 이나 Animagine XL, JuggernautXL v9 기반의 모델이 더 널리 쓰이고 있죠. 심지어 Novel AI 3 도 SDXL 기반으로 알려져 있고 꽤 성능이 좋죠. 이후에 나온 SD3 나 FLUX.1 도 마찬가지일거라 생각합니다. 사용자들이 학습시키려면 라이선스가 중요한데 일단 SD3 는 사용하기 어렵겠네요. 약 6개월 정도 후면 사용자들이 학습시킨 모델이 나올텐데 이떄쯤에 판가름 되겠죠.

FLUX.1 은 Pro, Dev, Schnell 의 3가지로 제공되는데 Pro 는 유료고, 공개된 건 Dev 와 Schnell 입니다. 120억개 파라메터를 가지고 있습니다. "Schnell"은 4스텝 고속 추론 모델이라 성능이 더 좋은 "Dev" 모델이 주가 될겁니다. 약어로 "FLUX.1 D"라고 부르네요. 아직 Stable Diffusion WebUI (SDUI) 에서는 지원이 안되고, Stable Diffusion WebUI Forge (SDF) 에서 지원된다고 하네요. SDF 는 예전에 VRAM 이 낮은 기기에서도 느리지만 이미지 생성이 되어서 한때 잘 썼었는데요, 다시 보니깐 반갑네요. (물론 같은 파라메터를 주어도 SDUI 와 유사한 이미지를 만들지 않습니다. 내부 알고리즘이 호환이 안되는거라서요)

FLUX 라는건 "선속"이라는 의미입니다. 특정 공간에서의 어떤 물리량의 "흐름"을 의미합니다. 주변에서 흔히 볼 수 있는 FLUX 라는 용어는 광선속을 이야기할때 주로 사용합니다. 광선속의 단위가 루멘, 칸델라, 럭스이고, 조명 기구의 밝기를 나타냅니다. 단위 면적당 광자의 흐름을 나타내죠.

Black Forest Labs
GitHub - black-forest-labs/flux: Official inference repo for FLUX.1 models

----

FLUX.1 Dev 사용하기
글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - 레인보우와 드레스

CivitAI 에서 비슷한 그림을 보고 내 식대로 따라 만들었다. 역시 이미지는 영감을 잘 받아야 좋은 이미지가 나온다. 역시 사진은 빛을 어떻게 담느냐고 AI 에서도 마찬가지다. 빛을 어떻게 표현하느냐가 관건이다.

LoRA 를 괘 많이 사용해서인지 얼굴 표현하는것도 잘 안되었다. 결국 ADetailer 를 사용했다.

날갯짓 하는 포즈도 여러개 나오긴 했는데 전부 손가락 표현이 이상해서 모두 삭제. 에혀.

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지


사용자 삽입 이미지

사용자 삽입 이미지


사용자 삽입 이미지
글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - 미녀 #8 Part2

메이크업은 좋은데 눈매가 내가 원하는 눈매는 아니다. 뭔가 깊은 생각에 잠겨있는듯한 눈매가 좋아서 말이다.우수(憂愁, 근심 걱정)에 젖은 눈매가 나오긴 하는데 그건 좋아하진 않는다.

이건 메이크업 한 눈매다. 어쨋뜬 맘에 드는 12장 추려 올렸다.

사용자 삽입 이미지


사용자 삽입 이미지


사용자 삽입 이미지


사용자 삽입 이미지


사용자 삽입 이미지


사용자 삽입 이미지
글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - 미녀 #8 Part1

체크 포인트 바꾼 김에 한번 생성해보았다. 여태까지는 메이크업을 안한 얼굴이었는데, 이번에는 메이크업 관련 프롬프트를 주었다. 그래서인지 얼굴이 조금 더 하얗게 나왔다. 붉은 입술도 아마 그래서 나온거 같다.

사용자 삽입 이미지


사용자 삽입 이미지


사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지
글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - 빅토리아 #1 파트2

일부러 파란색, 초록드레스로 골라봤다.역대급으로 잘 나온 첫번째 사진이 가장 맘에 든다. 왠지 분위기도 있고 말이다.

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지
글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - 빅토리아 #1 파트1

드레스중에 가장 좋아하는게 빅토리아 시대의 드레스다. 물론 고증이 잘된걸 좋아하는건 아니고 약간 현대식으로 개량된걸 좋아한다. 마침 괜찮아 보이는 LoRA 가 올라와서 작성해 보았다.

최근에 사용하고 있는 체크포인트는 왠지 흰색-금색이 잘 나온다. 프롬프트 바꾸면 되긴 하지만, blonde 프롬프트를 포기하고 싶진 않아 그냥 금색으로 생성했다. (SD1.5 에서는 색상 변경이 잘 안된다)

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지
글쓴시간
분류 기술,IT/스테이블 디퓨전

Stable Diffusion 3 Medium

Stable Diffusion 3 Medium 이 오픈소스로 릴리즈 되었습니다. ComfyUI 에서는 지원되고 아직 WebUI 에서는 지원안되지만 조만간 지원될걸로 생각합니다. ComfyUI 는 제작사인 Stability AI 에서 직접 지원해줬네요.

사용자 삽입 이미지

CLIP이 3가지(CLIP-G, CLIP-L, T5 XXL)이고, U-NET 구조를 가지지 않습니다. MMDiT (Multimodal Diffusion Transformer) 모델이라고 설명하네요. 파라메터는 20억개로 SDXL 의 26억개보다는 적지만, 굉장히 많은 개선점이 있습니다. 가장 눈에 띄의는건 텍스트를 제대로 인식해 출력해준다는 거네요. nVidia 와의 협업으로 TensorRT 를 사용한 성능 향상도 눈에 띄입니다.

실행시킬때 필요한 PC사양, 성능은 SDXL 과 크게 다르지 않을것 같네요. FP8 으로 줄인 모델을 사용하면 더 빠르게 사용할 수 있을 걸로 생각합니다.

사용자 삽입 이미지

WebUI 에서 포팅 중이긴 한데 아직 좀 더 기다려야 합니다. 대충 보니깐 현재 구현된건 ComfyUI 보다 많이 느리다고 하네요. Karras 스케줄러와도 안 맞는다고 합니다.

단 라이선스 때문에 말이 많네요. "크리에이터 라이선스"나 "상업 라이선스"는 유료인가 봅니다. 그리고 "비상업적 라이선스" 부분도 좀 애매한 부분이 있어, CiviAI 에서 이 부분에 대한 명확한 해명을 요구하고 있네요. 현재 라이선스대로라면 CivitAI 처럼 서비스 하는건 불가능하나 보네요.

글쓴시간
분류 기술,IT/스테이블 디퓨전
Stable Diffusion - 실루엣

해 지는 저녁 노을을 배경으로 한 여인의 실루엣 사진을 한번 만들어보고 싶었다. 이런 구도는 괘 흔한 거긴 하지만, 이런걸 만들려면 색상의 대비를 표현해줄 LoRA 가 필요한데, 마침 하나 올라왔다.

사용자 삽입 이미지


사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지