Google TabFM: новая модель для анализа табличных данных

Google Research разработал модель TabFM, которая упрощает задачи классификации и регрессии на табличных данных, устраняя необходимость в ручной настройке и инжиниринге признаков.

Автор материала

Екатерина Орлова

Автор материалов о природе, экотропах и спокойном отдыхе рядом с озёрами, лесами и заказниками.

Google Research представил TabFM — новую базовую модель для работы с табличными данными. Модель предназначена для упрощения задач классификации и регрессии, которые применяются в бизнесе для прогнозирования оттока клиентов и выявления мошенничества.

В отличие от традиционных алгоритмов, таких как XGBoost, требующих ручной оптимизации гиперпараметров и инжиниринга признаков, TabFM использует подход "обучения в контексте" (ICL). Модель обрабатывает весь набор данных, включая обучающие примеры и целевые строки, как единый входной "промпт", анализируя взаимосвязи между столбцами и строками во время выполнения запроса.

TabFM имеет гибридную архитектуру с механизмами чередующегося внимания к строкам и столбцам для понимания зависимостей между признаками. Также применяется "сжатие строк" для представления каждой строки в виде вектора, что снижает вычислительные затраты.

Модель обучалась на сотнях миллионов синтетических наборов данных, сгенерированных с помощью структурных причинных моделей. Это позволило охватить широкий спектр распределений и сложных взаимосвязей, характерных для реальных данных.

Эффективность TabFM подтверждена на платформе TabArena. Модель показала высокие результаты на 38 наборах данных для классификации и 13 наборах для регрессии, демонстрируя способность к обобщению на новые таблицы.

TabFM доступен для использования через репозитории Hugging Face и GitHub.

Google представил TabFM для анализа табличных данных

Екатерина Орлова

Комментарии читателей

Читайте также

Google представил TabFM для анализа табличных данных

Four Seasons представила новую модель ценообразования на люксовой яхте

Google расширил данные о жаростойкости городов до 50+

Екатерина Орлова

Комментарии читателей

Читайте также

Google представил TabFM для анализа табличных данных

Four Seasons представила новую модель ценообразования на люксовой яхте

Google расширил данные о жаростойкости городов до 50+

Следите за событиями Беларуси