Будущее в наших руках: text mining и Web 2.0
Декабрь 11th, 2006 by Вячеслав ТихоновНадо сказать, в последнее время социальные сети и web 2.0 развиваются семимильными шагами, причем как в России, так и на Западе. Буквально каждую неделю открываю для себя новые сайты социального букмакинга, в основном похожие до безобразия.
В общем-то, все должно было так и случиться. И очень радует тот факт, что поисковики весьма уважительно начали относится к Web 2.0, используя экспертные оценки важности информации, которые дают пользователи этих сайтов. Оно и понятно - надо же вносить какой-то порядок в этот хаос, который сейчас царит в Сети.
Вообще унификация информации была основной проблемой еще несколько лет назад, когда мы делали Новотеку. Сайт меняет дизайн - и все, контент зачастую перестает извлекаться корректно, хотя спайдер качает все хорошо и исправно.
Проблема, конечно, непростая, но все не совсем так плохо, как кажется. У меня уже тогда было множество идей, как можно распознавать контент на ходу практически на любом сайте с помощью алгоритмов text mining и не зависеть ни от шаблонов сайтов, ни от их структуры и навигации, однако стало вдруг совершенно очевидно, но компании они не очень нужны…
В общем-то, алгоритм не так сложен, как я думал, и позволяет извлекать чистые тексты практически из любых страниц. Тестовые версии показывают неплохие результаты (а я включил в алгоритм поддержку 8-ми языков), и, хотя и не очень хорошо работают на коротких текстах, в целом достаточно неплохо структуризируют и кластеризуют контент прямо из HTML даже на тех сайтах, где вообще нет никакой поддержки RSS либо XML. Собственно, это уже почти конвертор из стандартного HTML в форматы Web 2.0.
Интересно, используют ли большие поисковые машины подобные алгоритмы, или это я один такой умный? Что-то не могу найти никаких упоминаний о подобных вещах у современных поисковых гигантов.
Posted in Web 2.0 | 4 Comments »