Алгоритм «привлекательности»
Сформулировал тут для себя задачу, а оказывается в полностью такой же формулировке, но для очень большого объема данных её уже решают. И не просто решают, а дают за это целых миллион долларов. Задача доступна здесь: http://www.netflixprize.com и решения для неё будут приниматься вплоть до 2011 года. =)
Суть задачи сводится к следующему: есть база данных по 17К фильмам и в системе присутствует 500К пользователей. Эти пользователи оставили 100М голосов за фильмы по 5-бальной системе от 1 до 5. То есть получается сильно разряженная матрица на 8,5 миллиардов позиций. В которой приходится 1 занятая ячейка на 85 пустых. Задача заключается в следующем: для любой пустой ячейки как можно точнее предсказать её значение.
Для начала вам, конечно, потребуется скачать файлик с тестовыми данными на 600 Мбайт в архиве. А дальше уже можно начать разработку своего алгоритма. Поставил качаться на ночь, потом допишу подробности, ибо пока не знаю, что нужно будет отправить на сервер в качестве ответа.
Вай! Статистика?
Ну типа того. =)
http://en.wikipedia.org/wiki/Collaborative_Filtering
вроде несложно..
Да, самое главное что задача более чем понятна. И простор для творчества просто огромнейший. Хочу такую же систему с «рекомендацими» позже внедрить на AMV News.