Новый метод Multi-Token Prediction (MTP) ускоряет работу ИИ Gemini Nano на устройствах Pixel, снижая энергопотребление и не отправляя данные в облако.
Google внедрил технологию Multi-Token Prediction (MTP) для ускорения работы ИИ-моделей Gemini Nano на смартфонах Pixel. Это позволяет функциям, работающим на устройстве, обрабатывать информацию быстрее и с меньшим расходом энергии.
Традиционная генерация текста моделями происходит по одному слову за раз. На мобильных устройствах это создает "бутылочное горлышко", замедляя работу и увеличивая потребление батареи из-за ограничений по памяти и энергопотреблению.
Новая архитектура MTP интегрирует предсказание нескольких токенов непосредственно в существующие модели Gemini Nano. Легкая "голова" MTP добавляется к финальным слоям основной модели, используя уже вычисленное контекстное состояние.
Технология MTP применима к уже существующим, "замороженным" моделям Gemini Nano. Это позволяет улучшать производительность без полного переобучения, сохраняя возможности и безопасность модели.
Для пользователей это означает более быструю работу таких функций, как автоматическое суммирование уведомлений или проверка текста сообщения, с меньшим энергопотреблением.
Разработанная "zero-copy" архитектура позволяет MTP-голове напрямую использовать кэш основной модели, устраняя задержки при предварительной обработке запроса и снижая потребление памяти на 130 МБ по сравнению с отдельными генераторами.
Технология уже внедряется в смартфонах серии Pixel 9 и 10.



