Stable Diffusion 3.5 / XL

Добавлено 27.03.2026

Ссылка на сайт https://stability.ai/

Генерация рук в Stable Diffusion 3.5 и SDXL — у SD 3.5 правильное количество пальцев

Stable Diffusion — это семейство самых популярных открытых моделей для генерации изображений по текстовому описанию. Разработкой занимается компания Stability AI, которая предлагает как мощные профессиональные версии, так и облегчённые варианты для обычных пользователей. В этом обзоре мы подробно разберём две ключевые модели: Stable Diffusion 3.5 (последнее поколение) и Stable Diffusion XL (предшественник, который остаётся актуальным благодаря огромной экосистеме). Вы узнаете об их архитектуре, возможностях, плюсах и минусах, а также получите практические рекомендации по выбору.

Обзор Stable Diffusion 3.5

История появления и версии

Stable Diffusion 3.5 — это новейшее поколение моделей, представленное в октябре 2024 года. После неудачного релиза SD3 Medium разработчики потратили четыре месяца на фундаментальную переработку архитектуры. В результате линейка включает три версии:

Stable Diffusion 3.5 Large: флагманская модель с 8 миллиардами параметров, предназначенная для профессионального использования. Она поддерживает разрешение до 1 мегапикселя (1024×1024 и выше).
Stable Diffusion 3.5 Large Turbo: ускоренная версия флагмана, способная генерировать изображения всего за 4 шага вместо обычных 20–30. При этом качество остаётся на высоком уровне.
Stable Diffusion 3.5 Medium: облегчённая версия с 2,5 миллиардами параметров, оптимизированная для работы на обычных компьютерах. Она поддерживает генерацию от 0,25 до 2 мегапикселей.

Архитектурные инновации

Ключевое отличие новой модели — переход на архитектуру MMDiT (Multimodal Diffusion Transformer). Кроме того, используется сразу три текстовых энкодера:

OpenCLIP-ViT/G — отвечает за понимание общего контекста и стилей;
CLIP-ViT/L — занимается детальным анализом визуальных элементов;
T5-XXL — обрабатывает сложные текстовые описания и пространственные отношения.

Дополнительно внедрена QK-нормализация для стабилизации работы трансформеров. Также увеличен контекст до 256 токенов на этапе тренировки, а VAE-декодер оптимизирован с 16 каналами без постквантизации для лучшей цветопередачи.

Обзор Stable Diffusion XL

Статус и актуальность

SDXL — это предыдущее поколение моделей, выпущенное в 2023 году. Несмотря на появление SD 3.5, SDXL остаётся очень востребованным. Причина в трёх факторах:

Огромная экосистема: тысячи дообученных моделей (checkpoints), LoRA и расширений.
Зрелые инструменты управления: ControlNet, IP-Adapter, региональный промптинг.
Стабильность и предсказуемость: сообщество успело изучить все нюансы работы модели.

Технические характеристики SDXL

Модель имеет 3,5 миллиарда параметров (в 3 раза больше, чем у SD 1.5). Нативное разрешение составляет 1024×1024. Кроме того, она использует два текстовых энкодера (OpenCLIP и CLIP). Благодаря этому SDXL обеспечивает хорошую детализацию и возможность тонкой настройки под конкретные стили и задачи.

Сравнительная таблица: Stable Diffusion 3.5 Large vs SDXL

Параметр	Stable Diffusion 3.5 / XL	FLUX (Black Forest Labs)	Midjourney v7	DALL-E 3
Фотореализм	Хороший (SD 3.5 лучше)	Отличный (лидер)	Хороший	Отличный
Арт / Стилизация	Средний (XL — лучше через LoRA)	Хороший	Отличный (лидер)	Средний
Текст на изображении	SD 3.5 — отлично, SDXL — плохо	Отлично (лидер)	Плохо	Хорошо
Точность следования промпту	Средняя	Высокая	Высокая	Отличная (лидер)
Скорость генерации	3–10 сек (зависит от железа)	2–5 сек (оптимизированные API)	9–12 сек	5–7 сек
Стоимость (за 1000 изображений)	$20–40 (API) / бесплатно (локально)	$8–12	$40–120 (подписка)	$20–40
Открытый исходный код	Да (SDXL и SD 3.5)	Частично (Dev/Schnell — открыты)	Нет	Нет
Локальный запуск	Да	Да (Dev/Schnell)	Нет	Нет
API доступ	Да (Stability AI)	Да	Нет (только Discord/Web)	Да (до мая 2026)
Лучшее применение	Кастомизация, тонкая настройка, приватность	Фотореализм, текст, скорость	Арт, концепты, стилизация	Простота, точность промптов

Часто задаваемые вопросы (FAQ)

Что лучше выбрать — Stable Diffusion 3.5 или SDXL?

Это зависит от ваших задач. Если вам важна генерация текста на изображениях (вывески, этикетки), реалистичные портреты с максимальной детализацией и корректная анатомия рук — выбирайте SD 3.5. С другой стороны, если вам нужны тысячи готовых стилей, сложный контроль композиции через ControlNet и стабильные, предсказуемые результаты — SDXL пока остаётся более надёжным выбором.

Можно ли запустить Stable Diffusion 3.5 на обычном компьютере?

Да, но с оговорками. Версия SD 3.5 Medium оптимизирована для потребительского оборудования и требует меньше ресурсов. Кроме того, существует FP8-квантизированная версия Large, которая на RTX 4090 потребляет около 8,8 ГБ VRAM — это значит, что многие видеокарты с 12–16 ГБ памяти смогут её запустить.

Какой интерфейс использовать для работы с моделями?

Самые популярные варианты:

ComfyUI: наиболее гибкий инструмент с поддержкой нод (узлов) и всех новейших функций. Рекомендуется для SD 3.5.
Automatic1111 (webUI): классический интерфейс, версия 1.10.0 уже поддерживает SD3 и SDXL.
Fooocus: упрощённая альтернатива, ориентированная на быстрый старт без сложных настроек.

Стоит ли переходить с SDXL на SD 3.5 прямо сейчас?

Если вы уже используете SDXL в рабочих процессах и у вас есть наработанные LoRA и пайплайны с ControlNet — торопиться с переходом не стоит. Ведь экосистема SD 3.5 ещё формируется, и многие инструменты пока не перенесены. Однако для новых проектов, особенно связанных с фотореализмом или типографикой, SD 3.5 будет отличным выбором.

Какие видеокарты поддерживают Stable Diffusion 3.5?

Рекомендуемые требования:

Минимально: NVIDIA GeForce RTX 3060/4060 (12 ГБ VRAM) — для запуска оптимизированных версий.
Комфортно: NVIDIA RTX 4080/4090 (16–24 ГБ VRAM) — для работы с FP8-версиями на высоких разрешениях. Для обычных пользователей подойдут облачные сервисы (Google Colab, RunPod) или API Stability AI.

Где скачать Stable Diffusion 3.5?

Модели доступны на официальном сайте Stability AI, на Hugging Face в коллекции Stability AI, а также через API в Amazon Bedrock и других облачных провайдеров.

Заключение

Подводя итог, можно сказать, что Stable Diffusion 3.5 и SDXL — это два поколения одной технологии, каждое из которых имеет свои сильные стороны. SD 3.5 делает большой шаг вперёд в качестве детализации, понимании сложных промптов и генерации текста, предлагая более эффективное использование ресурсов благодаря FP8-квантизации. Однако её экосистема только начинает формироваться.

В свою очередь, SDXL остаётся «рабочей лошадкой» с огромным количеством дообученных моделей, зрелыми инструментами управления и предсказуемым поведением. Следовательно, для многих задач он по-прежнему будет лучшим выбором, особенно если вам нужен сложный контроль композиции или специфические стили, наработанные сообществом.

Таким образом, оптимальная стратегия на текущий момент: использовать SDXL для проектов, где важна гибкость и доступность инструментов, и постепенно осваивать SD 3.5 для задач, требующих максимального качества и корректного отображения текста.

Официальные ресурсы

Официальный сайт Stability AI — https://stability.ai
Страница Stable Diffusion 3.5 на сайте Stability AI — https://stability.ai/stable-image
Модели на Hugging Face — https://huggingface.co/stabilityai