1 번은 최소 8억개인 SD1.5 와 유사하다고 생각되는데, SD1.5와 호환될지는 모르겠네요. 2 번은 transformer 를 diffusion 모델과 합했다는 의미인거 같네요. 최근에 나온 비디오 생성 AI인 Sora 가 이렇게 했다죠. 이렇게 하면 초 고해상도의 이미지를 생성할 수 있을걸로 생각합니다. 3 번은 Continuous Normalizing Flows (CNFs)를 사용했다는건데 잘 모르겠습니다.
그외에 이상한 그림 생성 못하게 한다는거 같습니다만, SDXL 을 보면 트레이닝을 처음부터 다시 해버리면 그것도 안되는거라서요. 어쨌든 기본 레벨에서는 생성 안되게 한다는거 같고 이렇게 되면 SD3 이미지 생성 서비스 만들기 쉬워지겠네요. (프롬프트 제한 안걸어도 되니까 말이죠)
또한 여러개의 묘사를 모아서 정의한것도 잘 인식한다고 합니다. 현재 SD 에서는 아직까지 1girl 을 주로 사용하는데요, 2girls 프롬프트를 주어봤자 비슷한 그림이 나오기 때문입니다만, SD3 부터는 이게 하나하나 묘사를 하면 제대로 생성한다는거 같네요.