Categories

Search

Кластеризация новостей. Пример определения фокуса события

Апрель 5th, 2008 by Вячеслав Тихонов

Часть 3

Попробую продемонстрировать идею на конкретном примере, взяв две одинаковых по смыслу, но абсолютно разных по содержанию и набору ключевых слов новости. Объекты, фигурирующие в новости, выделены красным, слова, определяющие тематическое окружение - синим. Ключевые слова с одинаковой частотой сортируются в порядке убывания длины - это связано с тем, что более длинные слова имеют большую различительную силу в тексте.

Документ 1.
Заголовок: Google определил Джорджа Буша в категорию “жалких неудачников”
Текст новости:
Пользователи популярного интернет-ресурса Google столкнулись
с забавным казусом, ставшим следствием особой системы оформления ссылок поисковой системы. Как сообщается на сайте BBC News, при введении в строке поиска словосочетания “miserable failure” (жалкий неудачник), первой найденной ссылкой значится биография президента США Джорджа Буша, размещенная на официальном сайте Белого дома.
Как утверждают эксперты, столь странный результат объясняется тем, что Google при поиске учитывает не только содержание интернет-страниц, но и то, как часто сайт или конкретный персонаж упоминается в сети в связи с конкретными словами или характеристиками. Подобная практика “фальсификации” результатов поиска, впервые примененная в 2001 году, получила название “бомбардировка Google”. Заключается она в том, что пользователи интернета намеренно привязывают некоторые сайты к определенным словосочетаниям. По данным газеты Newsday, к биографии Джорджа Буша “прилинкованы”, как минимум, 32 интернет-страницы с уже упоминавшейся нелестной характеристикой американского президента. Администрация США не первый раз становится объектом таких нападок. Так, перед началом войны в Ираке при введении в строке поиска определения “оружие массового поражения” пользователи находили ссылку, гласившую “Это оружие невозможно обнаружить”.

Объекты и субъекты:
Джордж Буш 3
Google 4
США 2

Тематическое окружение:
строка поиска 2
жалкий неудачник 2
буш 3
интернет 3
ссылка 3
поиск 3
характеристика 3
словосочетания 2
пользователи 2
биография 2
президент 2
джордж 2
сайт 2

Теперь новость по этому же событию, взятая с другого издания:
Документ 2.
Заголовок: “Жалкий неудачник” в виртуальной битве
Текст новости:
Практика “Google - бомбардировки” получила толчок в тот момент, когда интересующиеся политикой пользователи интернет осознали, что могут влиять на результаты деятельности Google, широко известного поискового сайта, привнеся в нее долю здоровой сатиры.

Первой жертвой стал президент Джордж Буш, который обнаружил в прошлом году, что его биография на официальном веб-сайте Белого дома заняла первое место в рейтинге Google. Это произошло после того, как какой-то шутник добавил туда слова “жалкий неудачник”.

В настоящее время битва между сторонниками и оппонентами Буша затронула биографию Джимми Картера, домашнюю страничку писателя и кинорежиссера Майкла Мура. Они заняли, соответственно, второе и третье места в списке “жалких неудачников”.

Онлайновая драка породила опасения, что попытки интернет - пользователей исказить предоставляемую информацию могут существенно навредить поисковому сайту. “Оружие” этих деятелей напрямую зависит от нового способа Google собирать информацию, “прочесывая” сеть и используя специальные алгоритмы для определения значимости той или иной страницы.

Этот метод существенно продвинул вперед технологию поиска информации. Однако это также означает, что если в интернете есть много ссылок на официальный сайт Белого дома с биографией Джорджа Буша на нем и вставкой “жалкий неудачник”, Google укажет, что наиболее значимой является страница “жалкий неудачник” и поставит ее первой в своем рейтинге. Самый большой плюс Google может оказаться его минусом.

Программист, подкинувший Бушу эту бомбу, сообщил вчера the New York Times, что он не ожидал, что все окажется настолько просто. “Все дело в том, что у нас есть очень много людей, которым это показалось забавным, и они отсылали ссылку своим многочисленным знакомым”, - сказал Джордж Джонсон.

Объекты и субъекты :
Джордж Буш 2
Google 6
Тематическое окружение объектов:
жалкий неудачник 5
буш 4
сайт 3
пользователи 2
биография 2
страница 2
интернет 2
рейтинг 2
джордж 2
ссылка 2
место 2

Очевидно, что если формировать векторы из ключевых слов, извлеченных подобным образом и ранжируемых в соответствии с приведенными выше соображениями, то предложенный алгоритм может дать хорошие результаты при вычислении подобия двух новостей и с высокой степенью вероятности разные по длине и структуре, но одинаковые по смыслу новости будут объединены в единый кластер.

Предупреждение. Перепечатка разрешается только с указанием источника: Вячеслав Тихонов

Posted in Кластеризация новостей | No Comments »

Кластеризация новостей. Объекты и субъекты событий

Апрель 5th, 2008 by Вячеслав Тихонов

Часть 2

Объекты и субъекты, участвующие в событии, можно разделить на несколько основных групп:

1. Иностранные слова - они обладают очень большой различающей силой для русскоязычных текстов и обозначают, как правило, названия организаций, фигурирующих в новости, имена или фамилии людей. Например, Spirit, Opportunity или Paul McCartney, употребленные в тексте несколько раз.
2. Русские названия и имена - все слова в тексте, написанные с большой буквы и отсутствующие в стоп-листе. Например, Спартак, Россия или Президент.
3. Слова и фразы в кавычках - как правило, означают название организаций (”Русский никель”), прозвища (”Куцый”) и т.п. Однако здесь нужно учитывать, что в тексте возможны цитаты, которые не несут никакой смысловой нагрузки.

Список объектов, фигурирующих в новости, в некоторых, но довольно редких случаях достаточен для определения подобия векторов, однако, если в новости один основной объект, то результат кластеризации будет плохой.

Тематическое окружение объектов

Тематическое окружение каждого объекта или субъекта состоит из существительных, прилагательных и глаголов, с ними связанных, причем в контексте конкретной новости.
Например, есть множество событий, посвященых Президенту Путину: Путин подписал новый закон, Путин вернулся из Санкт-Петербурга, Путин встретился с Пауэллом и т.д. - основной объект здесь один, а тематическое окружение везде разное.

Внимательно проанализировав каждую новость, можно обнаружить четкую закономерность - каждое новое предложение дополняет или раскрывает смысл предыдущего. Это достигается за счет сильной связанности предложений и сфокусированности на одном событии, когда в большинстве входящих в нее предложений фигурирует один и тот же объект.

Несмотря на то, что объект может называться каждый раз по-разному, его название регулярно повторяется в исходном виде через одно-два предложения. В предложениях, в которых его имя или название отсутствует, могут быть использованы заменяющие его синонимы и словосочетания. Например, в новостях о Путине будут достаточно часто чередоваться словосочетания Президент России, российский лидер, глава государства.
Тематическое окружение любого объекта можно определить, посчитав частоту каждого термина в каждом отдельном предложении документа и выделив устойчивые словосочетания (с частотой, большей 1).

Наиболее интересен тот факт, что если в разных предложениях встречается одно и то же словосочетание, то очевидно, что оно может иметь максимальный вес для фокуса рассматриваемой новости и во многом определять его. То есть это словосочетание с высокой степенью вероятности будет встречаться и в других новостях, посвященных рассматриваемому событию, причем вместе с теми же объектами.

Очень важно и то, что наличие фокуса новости в виде объектов и их тематического окружения не будут зависеть ни от формата новости, ни от ее длины и по сути избавляет от рассмотрения временных рамок.

Предупреждение. Перепечатка разрешается только с указанием источника: Вячеслав Тихонов

Posted in Кластеризация новостей | No Comments »

Кластеризация новостей и фокусирование событий

Апрель 5th, 2008 by Вячеслав Тихонов

В данной заметке рассмотрены инновационные методы работы с наиболее изменяющейся составляющей сети Интернет - новостными ресурсами и блогами.

Специфика любой новости такова, что текст о конкретном событии может быть как небольшой заметкой, так и серьезным аналитическим материалом. Однако, проанализировав состав ключевых слов, определяющих конкретное событие, становится очевидно, что он должен быть одинаков, даже несмотря на то, что по длине любая заметка несоизмерима с аналитикой.

Отдельно хочу отметить временное окно, в пределах которого нужно сравнивать новости. Многие издания могут запаздывать не на часы, а на целые дни при публикации новостей, посвященных определенному событию. Кроме того, через несколько дней после публикации новости могут появиться аналитические материалы, которые ей посвящены - все это “проскочит” мимо кластера.

Я потратил немало времени на анализ структуры новостей, в результате чего родилась идея использовать в качестве меры подобия не просто набор ключевых слов, а так называемый фокус события.

Фокус события представляет собой совокупность объектов, каким-либо образом взаимодействующих в новости, и их тематического окружения (синонимов, описаний, дополнений объектов и других параметров, характеризующих рассматриваемое событие).
Фокус события может отвечать на следующие вопросы:

* Кто инициировал событие и принимает в нем участие?

Определяется объектами, участвующими в событии - это могут быть как отдельные персоналии, так и организации. Как правило, в событии участвует не более двух главных объектов, остальные второстепенные.

* Когда событие произошло?

Определяется временем публикации новости о событии.

* Где оно произошло?

Определяется названием местности, города, страны и т.д. (тематическое окружение - второстепенные объекты - названия)

* Что произошло?

Описание события - ключевые слова, определяющие характер события (тематическое окружение - существительные)

* Как произошло?

Ключевые слова, дающие представление о действиях, происшедших в событии (тематическое окружение - глаголы)

* Значение произошедшего события и его влияние на другие события

Здесь могут быть второстепенные объекты и их тематическое окружение.

Следует учитывать, что новость может содержать информацию о нескольких событиях, возможно не связанных. Это частный случай, который нужно рассматривать отдельно.

Фокус новостного события можно применять как для создания осмысленной аннотации новостей, так и для определения дублей одной и той же новости.
В первом случае наиболее информативной частью любой новости будут предложения, которые содержат вместе как извлеченные объекты, так максимальное количество ключевых слов из тематического окружения события. Во втором Фокус, состоящий из набора ключевых слов и входящих в несколько новостей идентичного содержания, будет совпадать, что позволит фильтровать дубли.

Posted in Кластеризация новостей | No Comments »