Google DeepMind выпустил DiffusionGemma — экспериментальную модель, которая генерирует текст в четыре раза быстрее обычных аналогов. Это стало возможным благодаря новому подходу к обработке данных.
Google DeepMind представил DiffusionGemma, экспериментальную модель для генерации текста. Она использует диффузионный подход, который обрабатывает блоки текста одновременно, а не последовательно, как традиционные авторегрессионные модели.
DiffusionGemma работает на основе семейства моделей Gemma 4 и использует исследования Gemini Diffusion. Модель способна ускорить генерацию текста на графических процессорах (GPU) до четырех раз.
Основное преимущество DiffusionGemma — скорость. Модель генерирует до 256 токенов за один проход, что позволяет обрабатывать их параллельно. Это полезно для задач, требующих нелинейной структуры текста, например, для редактирования в реальном времени или заполнения кода.
DiffusionGemma подходит для разработчиков, создающих интерактивные ИИ-приложения, где важна низкая задержка. Модель активирует 3,8 миллиарда параметров из 26 миллиардов, что позволяет ей работать на потребительских GPU с 18 ГБ видеопамяти после квантизации.
Модель также имеет функцию самокоррекции. Она может итеративно улучшать свой вывод, анализируя весь блок текста целиком.
DiffusionGemma является экспериментальной моделью, ориентированной на исследование скоростных и интерактивных локальных рабочих процессов. Для задач, требующих максимального качества, Google рекомендует использовать стандартные модели Gemma 4. DiffusionGemma можно дообучить для улучшения производительности на конкретных задачах.
В отличие от моделей, генерирующих текст по одному символу, DiffusionGemma обрабатывает весь блок текста одновременно, что повышает эффективность использования вычислительных ресурсов, особенно при локальном запуске.
DiffusionGemma выпущена под лицензией Apache 2.0.


