Часть 3
Попробую продемонстрировать идею на конкретном примере, взяв две одинаковых по смыслу, но абсолютно разных по содержанию и набору ключевых слов новости. Объекты, фигурирующие в новости, выделены красным, слова, определяющие тематическое окружение - синим. Ключевые слова с одинаковой частотой сортируются в порядке убывания длины - это связано с тем, что более длинные слова имеют большую различительную силу в тексте.
Документ 1.
Заголовок: Google определил Джорджа Буша в категорию “жалких неудачников”
Текст новости:
Пользователи популярного интернет-ресурса Google столкнулись
с забавным казусом, ставшим следствием особой системы оформления ссылок поисковой системы. Как сообщается на сайте BBC News, при введении в строке поиска словосочетания “miserable failure” (жалкий неудачник), первой найденной ссылкой значится биография президента США Джорджа Буша, размещенная на официальном сайте Белого дома.
Как утверждают эксперты, столь странный результат объясняется тем, что Google при поиске учитывает не только содержание интернет-страниц, но и то, как часто сайт или конкретный персонаж упоминается в сети в связи с конкретными словами или характеристиками. Подобная практика “фальсификации” результатов поиска, впервые примененная в 2001 году, получила название “бомбардировка Google”. Заключается она в том, что пользователи интернета намеренно привязывают некоторые сайты к определенным словосочетаниям. По данным газеты Newsday, к биографии Джорджа Буша “прилинкованы”, как минимум, 32 интернет-страницы с уже упоминавшейся нелестной характеристикой американского президента. Администрация США не первый раз становится объектом таких нападок. Так, перед началом войны в Ираке при введении в строке поиска определения “оружие массового поражения” пользователи находили ссылку, гласившую “Это оружие невозможно обнаружить”.
Объекты и субъекты:
Джордж Буш 3
Google 4
США 2
Тематическое окружение:
строка поиска 2
жалкий неудачник 2
буш 3
интернет 3
ссылка 3
поиск 3
характеристика 3
словосочетания 2
пользователи 2
биография 2
президент 2
джордж 2
сайт 2
Теперь новость по этому же событию, взятая с другого издания:
Документ 2.
Заголовок: “Жалкий неудачник” в виртуальной битве
Текст новости:
Практика “Google - бомбардировки” получила толчок в тот момент, когда интересующиеся политикой пользователи интернет осознали, что могут влиять на результаты деятельности Google, широко известного поискового сайта, привнеся в нее долю здоровой сатиры.
Первой жертвой стал президент Джордж Буш, который обнаружил в прошлом году, что его биография на официальном веб-сайте Белого дома заняла первое место в рейтинге Google. Это произошло после того, как какой-то шутник добавил туда слова “жалкий неудачник”.
В настоящее время битва между сторонниками и оппонентами Буша затронула биографию Джимми Картера, домашнюю страничку писателя и кинорежиссера Майкла Мура. Они заняли, соответственно, второе и третье места в списке “жалких неудачников”.
Онлайновая драка породила опасения, что попытки интернет - пользователей исказить предоставляемую информацию могут существенно навредить поисковому сайту. “Оружие” этих деятелей напрямую зависит от нового способа Google собирать информацию, “прочесывая” сеть и используя специальные алгоритмы для определения значимости той или иной страницы.
Этот метод существенно продвинул вперед технологию поиска информации. Однако это также означает, что если в интернете есть много ссылок на официальный сайт Белого дома с биографией Джорджа Буша на нем и вставкой “жалкий неудачник”, Google укажет, что наиболее значимой является страница “жалкий неудачник” и поставит ее первой в своем рейтинге. Самый большой плюс Google может оказаться его минусом.
Программист, подкинувший Бушу эту бомбу, сообщил вчера the New York Times, что он не ожидал, что все окажется настолько просто. “Все дело в том, что у нас есть очень много людей, которым это показалось забавным, и они отсылали ссылку своим многочисленным знакомым”, - сказал Джордж Джонсон.
Объекты и субъекты :
Джордж Буш 2
Google 6
Тематическое окружение объектов:
жалкий неудачник 5
буш 4
сайт 3
пользователи 2
биография 2
страница 2
интернет 2
рейтинг 2
джордж 2
ссылка 2
место 2
Очевидно, что если формировать векторы из ключевых слов, извлеченных подобным образом и ранжируемых в соответствии с приведенными выше соображениями, то предложенный алгоритм может дать хорошие результаты при вычислении подобия двух новостей и с высокой степенью вероятности разные по длине и структуре, но одинаковые по смыслу новости будут объединены в единый кластер.
Предупреждение. Перепечатка разрешается только с указанием источника: Вячеслав Тихонов