Categories

Search

Сфокусированные интеллектуальные роботы как будущее сети Интернет

Апрель 5th, 2008 by Вячеслав Тихонов

Современные универсальные поисковые системы используют для сбора информации пауков, которые с заданной периодичностью обходят все страницы сайтов из базы и сохраняют их в поисковом индексе.

Очевидно, что с увеличением объема Сети, происходящего ежесекундно, такой подход становится все менее и менее эффективным из-за того, что мощности приходится постоянно наращивать.

Пока разговоры о Semantic Web не преобрели реальных очертаний, одним из возможных выходов из ситуации может быть создание сфокусированных интеллектуальных агентов, которые собирают информацию с тематических сайтов. Система сбора информации в этом случае будет состоять из множества агентов, каждый из которых будет обслуживать лишь свою собственную область. Например, новостной робот будет сканировать только новостные сайты, товарный - интернет-магазины, библиотечный - электронные библиотеки.
Основной вопрос заключается в том, каким образом классифицировать огромное количество имеющихся в Сети сайтов. Это нетривиальная задача, которая требует значительных ресурсов.

В первом приближении все равно придется отсканировать сайт универсальным роботом, после чего провести контентный анализ всех его страниц и определить тип.

Подобный подход позволит не только эффективнее сканировать Веб-сайты и обеспечивать приемлемую свежесть индекса, но и показывать пользователю структурированную выдачу, разбитую по темам или типу информацию.

Posted in Semantic Web, Сфокусированный робот | 4 Comments »