"Т-Технологии" представили новый датасет для рекомендательных систем в сфере e-commerce

Компания «Т-Технологии» сделала важный шаг в развитии рекомендательных систем в сфере электронной торговли, выложив в открытый доступ уникальный синтетический датасет T-Tech E-commerce Cross-domain Dataset (T-ECD). Этот датасет, по заявлению компании, является одним из крупнейших в своем классе и включает данные, собранные с более чем 44 миллионов уникальных пользователей сервисов «Город» и рекламной платформы Т-Банка. Датасет охватывает более 30 миллионов товаров и содержит свыше 135 миллиардов взаимодействий, что дает уникальную возможность для изучения и совершенствования алгоритмов рекомендаций.

T-ECD содержит разнообразную информацию, которая может быть полезна для исследователей, работающих в области искусственного интеллекта и машинного обучения. В датасете представлены данные по транзакциям, чеках, отзывам пользователей, а также информация о кликах, просмотрах товаров, активации специальных предложений и кэшбеков. Глубина данных варьируется от одного года до трех с половиной лет, что позволяет анализировать как краткосрочные, так и долгосрочные предпочтения пользователей. Такой подход дает возможность учитывать сезонные колебания спроса, что является важным аспектом для бизнеса в сфере e-commerce.

Особенность датасета T-ECD заключается в том, что он фиксирует не только действия пользователей, такие как клики, лайки и покупки, но и важный элемент — взаимосвязь между показом товара и последующим действием или его отсутствием. Это важно для понимания того, как пользователи взаимодействуют с рекомендациями, рекламными предложениями или товарами, предложенными через поиск и каталог. Например, если пользователь видит товар через рекомендации, но не совершает покупку или не проявляет иного интереса, это может стать сигналом для улучшения работы алгоритмов, которые создают эти рекомендации. Такие данные могут значительно повысить точность и эффективность рекомендательных систем.

По словам руководителя направления рекомендательных систем в «Т-Банке», Марины Ананьевой, аналогичный датасет активно используется внутри компании. Это помогает в режиме реального времени персонализировать кэшбек и рекомендации для пользователей, а также повышать эффективность работы рекламной платформы. В свою очередь, это приводит к улучшению пользовательского опыта и более эффективному продвижению товаров и услуг. Применение таких данных в реальных условиях позволяет более точно предсказывать поведение клиентов и повышать конверсию в сфере электронной торговли.

Датасет T-ECD был размещен на платформе Hugging Face, которая является одним из крупнейших мировых репозиториев для хранения и обмена моделями и данными в области искусственного интеллекта. Это открывает возможности для академических и индустриальных исследователей по всему миру использовать данные в своих проектах и научных разработках. Кроме того, это позволяет развивать и тестировать новые алгоритмы рекомендательных систем, которые могут быть применены не только в электронной торговле, но и в других областях, таких как финансы, здравоохранение, медиа и другие.

Одной из ключевых задач, которую решает этот датасет, является улучшение качества персонализированных рекомендаций, а также более глубокий анализ взаимодействий пользователей с платформами электронной торговли. Благодаря такой информации можно гораздо точнее предсказать, какие товары будут интересны пользователям, и предложить их именно в тот момент, когда вероятность совершения покупки максимальна. В результате компании смогут не только увеличить свою прибыль, но и повысить лояльность клиентов.

Не стоит забывать и о возможностях, которые открываются перед исследователями в области машинного обучения и искусственного интеллекта. Датасет T-ECD является ценным ресурсом для тестирования новых моделей и алгоритмов, так как он включает реальные данные, собранные на основе множества факторов, влияющих на поведение пользователей. Таким образом, ученые и разработчики смогут работать с качественными данными, которые максимально приближены к реальным условиям, и проверять свои гипотезы в более сложных и многогранных ситуациях.

Т-Технологии подчеркнули, что T-ECD будет доступен для использования исключительно в некоммерческих целях, что делает его отличным инструментом для учебных и исследовательских проектов. Компания уверена, что этот шаг поможет ускорить развитие рекомендательных систем и повысит общий уровень персонализации в e-commerce. В условиях постоянного роста онлайн-торговли и конкуренции на рынке, эффективные системы рекомендаций играют ключевую роль в повышении удовлетворенности пользователей и оптимизации бизнес-процессов.

Для исследователей, работающих в области искусственного интеллекта и машинного обучения, этот датасет представляет собой отличный стартовый ресурс для разработки и тестирования новых алгоритмов. Он помогает понять, какие параметры и данные являются наиболее значимыми для формирования точных рекомендаций, а также как улучшить алгоритмы с учетом реальных пользовательских предпочтений и поведения. В свою очередь, это может привести к созданию более точных, быстрых и эффективных решений, которые принесут пользу не только компаниям, но и конечным пользователям, обеспечивая им лучший опыт взаимодействия с интернет-торговлей.

Блоги