Google Research разработал модель TabFM, которая упрощает задачи классификации и регрессии на табличных данных, устраняя необходимость в ручной настройке и инжиниринге признаков.
Google Research представил TabFM — новую базовую модель для работы с табличными данными. Модель предназначена для упрощения задач классификации и регрессии, которые применяются в бизнесе для прогнозирования оттока клиентов и выявления мошенничества.
В отличие от традиционных алгоритмов, таких как XGBoost, требующих ручной оптимизации гиперпараметров и инжиниринга признаков, TabFM использует подход "обучения в контексте" (ICL). Модель обрабатывает весь набор данных, включая обучающие примеры и целевые строки, как единый входной "промпт", анализируя взаимосвязи между столбцами и строками во время выполнения запроса.
TabFM имеет гибридную архитектуру с механизмами чередующегося внимания к строкам и столбцам для понимания зависимостей между признаками. Также применяется "сжатие строк" для представления каждой строки в виде вектора, что снижает вычислительные затраты.
Модель обучалась на сотнях миллионов синтетических наборов данных, сгенерированных с помощью структурных причинных моделей. Это позволило охватить широкий спектр распределений и сложных взаимосвязей, характерных для реальных данных.
Эффективность TabFM подтверждена на платформе TabArena. Модель показала высокие результаты на 38 наборах данных для классификации и 13 наборах для регрессии, демонстрируя способность к обобщению на новые таблицы.
TabFM доступен для использования через репозитории Hugging Face и GitHub.


