윈디하나의 블로그

글쓴시간 2024/08/26 10:08

FLUX.1 Dev - 이미지 생성형 AI

Stability AI 의 Stable Diffusion 3 (SD3) 가 주춤한 사이 FLUX.1 이 공개되었습니다. 8월 1일에 공개되었는데 이제 주목하게 되었네요. Stable Diffusion 시리즈를 만든 개발자 중 일부가 나와 Black Forest Labs 라는 회사를 차렸는데, 이 회사의 첫번째 생성형 AI입니다. 독일 회사입니다.

FLUX.1 의 성능이 매우 좋다고 해서 관심을 많이 가지고 있습니다. 전 아직 안 써 봤습니다만, SD3 보다는 좋아보입니다. SD3 는 라이선스에 이슈가 있어서 아직까지는 대중화 될지 안될지 모릅니다. FLUX.1 의 경우 특히 "손"도 잘 그리는것으로 알고 있습니다. 엄청난 성능에 SD3 로는 대응이 안되어서 Stability AI 에서는 SD 3.1 을 내놓을 예정이라 합니다.

현재 SD 는 개발사에서 제공한 모델이 주류가 아닙니다. SD1.5 의 경우 개발사에서 제공한 모델보다는, 수많은 사용자들이 만든 모델들을 사용하고 있고요, Dreamshaper 8 정도가 유명합니다. 저도 제가 병합한걸 쓰고 있습니다. SDXL 의 경우 개발사에서 제공한 모델 보다는, 사용자들이 학습시킨 Pony Diffusion 이나 Animagine XL, JuggernautXL v9 기반의 모델이 더 널리 쓰이고 있죠. 심지어 Novel AI 3 도 SDXL 기반으로 알려져 있고 꽤 성능이 좋죠. 이후에 나온 SD3 나 FLUX.1 도 마찬가지일거라 생각합니다. 사용자들이 학습시키려면 라이선스가 중요한데 일단 SD3 는 사용하기 어렵겠네요. 약 6개월 정도 후면 사용자들이 학습시킨 모델이 나올텐데 이떄쯤에 판가름 되겠죠.

FLUX.1 은 Pro, Dev, Schnell 의 3가지로 제공되는데 Pro 는 유료고, 공개된 건 Dev 와 Schnell 입니다. 120억개 파라메터를 가지고 있습니다. "Schnell"은 4스텝 고속 추론 모델이라 성능이 더 좋은 "Dev" 모델이 주가 될겁니다. 약어로 "FLUX.1 D"라고 부르네요. 아직 Stable Diffusion WebUI (SDUI) 에서는 지원이 안되고, Stable Diffusion WebUI Forge (SDF) 에서 지원된다고 하네요. SDF 는 예전에 VRAM 이 낮은 기기에서도 느리지만 이미지 생성이 되어서 한때 잘 썼었는데요, 다시 보니깐 반갑네요. (물론 같은 파라메터를 주어도 SDUI 와 유사한 이미지를 만들지 않습니다. 내부 알고리즘이 호환이 안되는거라서요)

FLUX 라는건 "선속"이라는 의미입니다. 특정 공간에서의 어떤 물리량의 "흐름"을 의미합니다. 주변에서 흔히 볼 수 있는 FLUX 라는 용어는 광선속을 이야기할때 주로 사용합니다. 광선속의 단위가 루멘, 칸델라, 럭스이고, 조명 기구의 밝기를 나타냅니다. 단위 면적당 광자의 흐름을 나타내죠.

Black Forest Labs
GitHub - black-forest-labs/flux: Official inference repo for FLUX.1 models

----

FLUX.1 Dev 사용하기

글쓴이 윈디하나

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
No Comment

글쓴시간 2024/08/10 13:10

분류 기술,IT/스테이블 디퓨전

Stable Diffusion - 레인보우와 드레스

CivitAI 에서 비슷한 그림을 보고 내 식대로 따라 만들었다. 역시 이미지는 영감을 잘 받아야 좋은 이미지가 나온다. 역시 사진은 빛을 어떻게 담느냐고 AI 에서도 마찬가지다. 빛을 어떻게 표현하느냐가 관건이다.

LoRA 를 괘 많이 사용해서인지 얼굴 표현하는것도 잘 안되었다. 결국 ADetailer 를 사용했다.

날갯짓 하는 포즈도 여러개 나오긴 했는데 전부 손가락 표현이 이상해서 모두 삭제. 에혀.

글쓴이 윈디하나

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
No Comment

글쓴시간 2024/08/08 13:10

분류 기술,IT/스테이블 디퓨전

Stable Diffusion - 미녀 #8 Part2

메이크업은 좋은데 눈매가 내가 원하는 눈매는 아니다. 뭔가 깊은 생각에 잠겨있는듯한 눈매가 좋아서 말이다.우수(憂愁, 근심 걱정)에 젖은 눈매가 나오긴 하는데 그건 좋아하진 않는다.

이건 메이크업 한 눈매다. 어쨋뜬 맘에 드는 12장 추려 올렸다.

글쓴이 윈디하나

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
No Comment

글쓴시간 2024/08/08 13:00

분류 기술,IT/스테이블 디퓨전

Stable Diffusion - 미녀 #8 Part1

체크 포인트 바꾼 김에 한번 생성해보았다. 여태까지는 메이크업을 안한 얼굴이었는데, 이번에는 메이크업 관련 프롬프트를 주었다. 그래서인지 얼굴이 조금 더 하얗게 나왔다. 붉은 입술도 아마 그래서 나온거 같다.

글쓴이 윈디하나

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
No Comment

글쓴시간 2024/06/22 23:15

분류 기술,IT/스테이블 디퓨전

Stable Diffusion - 빅토리아 #1 파트2

일부러 파란색, 초록드레스로 골라봤다.역대급으로 잘 나온 첫번째 사진이 가장 맘에 든다. 왠지 분위기도 있고 말이다.

글쓴이 윈디하나

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
코멘트2

글쓴시간 2024/06/22 23:13

분류 기술,IT/스테이블 디퓨전

Stable Diffusion - 빅토리아 #1 파트1

드레스중에 가장 좋아하는게 빅토리아 시대의 드레스다. 물론 고증이 잘된걸 좋아하는건 아니고 약간 현대식으로 개량된걸 좋아한다. 마침 괜찮아 보이는 LoRA 가 올라와서 작성해 보았다.

최근에 사용하고 있는 체크포인트는 왠지 흰색-금색이 잘 나온다. 프롬프트 바꾸면 되긴 하지만, blonde 프롬프트를 포기하고 싶진 않아 그냥 금색으로 생성했다. (SD1.5 에서는 색상 변경이 잘 안된다)

글쓴이 윈디하나

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음

No Trackback
No Comment

글쓴시간 2024/06/22 23:09

분류 기술,IT/스테이블 디퓨전

Stable Diffusion 3 Medium

Stable Diffusion 3 Medium 이 오픈소스로 릴리즈 되었습니다. ComfyUI 에서는 지원되고 아직 WebUI 에서는 지원안되지만 조만간 지원될걸로 생각합니다. ComfyUI 는 제작사인 Stability AI 에서 직접 지원해줬네요.

CLIP이 3가지(CLIP-G, CLIP-L, T5 XXL)이고, U-NET 구조를 가지지 않습니다. MMDiT (Multimodal Diffusion Transformer) 모델이라고 설명하네요. 파라메터는 20억개로 SDXL 의 26억개보다는 적지만, 굉장히 많은 개선점이 있습니다. 가장 눈에 띄의는건 텍스트를 제대로 인식해 출력해준다는 거네요. nVidia 와의 협업으로 TensorRT 를 사용한 성능 향상도 눈에 띄입니다.

실행시킬때 필요한 PC사양, 성능은 SDXL 과 크게 다르지 않을것 같네요. FP8 으로 줄인 모델을 사용하면 더 빠르게 사용할 수 있을 걸로 생각합니다.

WebUI 에서 포팅 중이긴 한데 아직 좀 더 기다려야 합니다. 대충 보니깐 현재 구현된건 ComfyUI 보다 많이 느리다고 하네요. Karras 스케줄러와도 안 맞는다고 합니다.

단 라이선스 때문에 말이 많네요. "크리에이터 라이선스"나 "상업 라이선스"는 유료인가 봅니다. 그리고 "비상업적 라이선스" 부분도 좀 애매한 부분이 있어, CiviAI 에서 이 부분에 대한 명확한 해명을 요구하고 있네요. 현재 라이선스대로라면 CivitAI 처럼 서비스 하는건 불가능하나 보네요.

글쓴이 윈디하나

응답

RSS / ATOM 피드를 통해 답글을 트랙할 수 있음