Categories

Search

Блог-энциклопедия

Апрель 13th, 2008 by Вячеслав Тихонов

Мониторикс в процессе очередного блуждания по вебу наткнулся на интересный блог, который ведут студенты ИГУМО (института гуманитарного образования).

Любопытно, что в качестве тестовых заданий эти студенты выполняют работу по систематизации информации из области IT, сети Интернет, Fido, блогам и другим не менее важным предметам. В целом все выглядит как мини-энциклопедия.

Вот, например, выжимка из книги по Google.

Posted in Google, Мониторикс | 8 Comments »

Персональный агент как главный помощник человека

Апрель 13th, 2008 by Вячеслав Тихонов

В последнее время проблема информационной перегруженности современного Интернета начала обсуждаться довольно часто, причем на этот раз эхо докатилось и до оффлайна.
Так, Зеркало Недели почему-то вдруг озаботилось персонализацией Веба по своим интересам.

“…начинает хотеться завести себе персональный поисковик. Вернее, не поисковик даже, а некую машину отбора информации, которая будет по заданным мною параметрам отбирать мне своего рода «ежедневный дайджест».

Скажем, топ-ньюз, и дальше — по интересам: «черные дыры», Украина—НАТО, судебные процессы Ассоциации звукозаписи против пользователей торрент-сетей, перепалки блоггеров по вопросам высокой литературы, нескольких разнопрофильных форумов, обновления тех трех-четырех романов, которые выкладываются в Интернете с интервалом в два-три дня… О, это далеко не полный список.

Ну как тут не замечтаться о хорошей, качественно исполненной, и, главное, легкой в настройке виртуальной машине, которая будет вместо меня ежедневно просеивать Сеть в поисках нужной именно мне информации? Без преувеличений — это была бы машина, которая генерирует для пользователя картину мира на каждый день… Далее

Самое поразительное, что ребята фактически говорят о персональном агенте, идею которого описал еще Билл Гейтс в своей книге “Дорога в будущее”, причем, что немаловажно, еще на заре появления Интернета, в 1995 году:

“самый полезный помощник - агент. Это фильтр, в который заложена некая личность и который как бы способен проявлять инициативу. Задача агента сводится к одному - помогать. Помогать в поиске информации при самых разных ситуациях… Далее

Не понимаю, почему Microsoft при всех его возможностях до сих пор не создал подобную технологию - а между тем все не так сложно, как принято думать, если отталкиваться от индексов современных поисковых систем - достаточно пускать агента в самостоятельное плавание, при котором он будет “просматривать” тонны страниц по нужным темам и выискивать те “кирпичики”, из которых складываются информационные потоки, чтобы дать человеку именно то, что нужно.

Быть может, из-за этой книги я и начал заниматься поисковыми технологиями - чтобы когда-нибудь сделать ЭТО. Если до этого что-нибудь подобное не сделает Google. :)

Posted in Поиск информации | 4 Comments »

Поисковые системы будущего

Апрель 6th, 2008 by Вячеслав Тихонов

Поисковые системы постоянно совершенствуются, и уже сейчас можно многое спрогнозировать.

1) В онлайн (то есть web) будет плавно перетекать весь оффлайн (пресса, ТВ, радио) - этот процесс уже начался, и он неотвратим. Уже сегодня множество газет имеет собственный сайт в Интернет, на котором появляется свежий номер, причем зачастую даже раньше, чем в печати. Что касается ТВ и радио, то здесь будут развиваться алгоритмы распознавания речи, которые позволят превратить аудиопоток в текст, обрабатываемый поисковой системой, либо же источники сами будут выкладывать исходные материалы (что в усеченном виде делается уже сейчас).

2) Поисковые системы поменяют подходы к обнаружению новой информации. Сейчас
95% (а то и больше) собранной ими информации - просто мусор или повторы, которые абсолютно бесполезны для пользователей. Поэтому, вероятнее всего, вскоре большое распространение могут получить системы, обладающие всеми поисковыми свойствами, но по-другому обрабатывающими собираемую информацию - интеллектуальные агенты.
В таких системах пользователю нужно будет лишь определить свой круг интересов и машина автоматически будет собирать информацию по нужным темам и исправно снабжать этой информацией человека. Над подобными системами работает множество специалистов по всему миру, а большие поисковики пытаются вводить персонализацию под каждого пользователя.

3) Будет развиваться фактографический поиск, который позволит оперировать фактами, а не документами. В настоящее время поток новостной информации настолько велик, что зачастую даже прочитать все сообщения по теме не представляется возможным, особенно если событие активно обсуждается как в СМИ (официальная точка зрения), так и в блогах (индивидуальное мнение) и форумах (общественное мнение).
Объективное освещение события будет давать такая информационная картинка, которая сможет объединить воедино все факты, тональность их восприятия во всех информационных потоках, и дать общую оценку, что же думают о событии на самом деле.
Фактографический поиск будет опираться на информационный, однако обработка информации будет более интеллектуальной, с использованием знаний о объектах и субъектах, участвующих в событиях (data mining).

Posted in Поисковые технологии | 4 Comments »

Непрямая поисковая оптимизация - шаг к независимости

Апрель 5th, 2008 by Вячеслав Тихонов

На сегодняшний день в области поисковой оптимизации наметился ряд проблем, которые напрямую решить практически невозможно. Особенно больно бъет проверка сайта временем, когда поисковик вроде Google сознательно зарывает сайт в песок, не давая ему поисковый трафик.
Логика поисковой машины здесь очевидна - если сайт не спаммерский, спустя некоторое (довольно приличное) время он спокойно пройдет все фильтры и получит свою аудиторию. А куда же деваться молодому, еще не оперившемуся ресурсу, который тоже хочет отхватить свой кусок пирога?

Этот принцип поисковой оптимизации я назвал непрямым, в том смысле, что оптимизируется не сам сайт, а шлюзы, которые поставляют ему трафик. Довольно быстро можно получить любой поисковый трафик не напрямую на только что открытый сайт, а через некий ресурс, который хорошо ищется в поисковых машинах и имеет определенный PageRank, и, самое главное, который легче оптимизировать.

Как я уже заметил, в современных условиях на новый сайт хороший тематический поисковый трафик получить практически нереально, поэтому использовать ресурсы других сайтов не просто полезно, а необходимо, особенно, если они чужие, и уже прошли всевозможные фильтры.

Идея непрямой поисковой оптимизации заключается в продвижении сайтов-шлюзов, то есть установке на них нужных ссылок с хорошим весом и работе с той частью контента, которая размещается на шлюзе, и является визитной карточкой страниц основного сайта. В некотором смысле шлюз можно представить как навигационную страницу вашего же сайта, откуда человек уже попадает на полнотекст. Если аннотация страницы ему понравилась, он обязательно перейдет к основной части, поэтому здесь все должно быть рассчитано до миллиметра.

Кстати говоря, владельцам сайтов-шлюзов непрямая оптимизация не менее выгодна, ведь далеко не все дойдут до сайта-оригинала. Этих людей вполне можно словить на рекламе еще на шлюзе.

И последнее, что можно добавить - сайтом-шлюзом может служить ЛЮБОЙ прошедший песочницу сайт независимо от вида, степени оптимизированности и посещаемости. Главное - это оказаться в нужное время в нужном месте.

Posted in Поисковая оптимизация | 6 Comments »

Сфокусированные интеллектуальные роботы как будущее сети Интернет

Апрель 5th, 2008 by Вячеслав Тихонов

Современные универсальные поисковые системы используют для сбора информации пауков, которые с заданной периодичностью обходят все страницы сайтов из базы и сохраняют их в поисковом индексе.

Очевидно, что с увеличением объема Сети, происходящего ежесекундно, такой подход становится все менее и менее эффективным из-за того, что мощности приходится постоянно наращивать.

Пока разговоры о Semantic Web не преобрели реальных очертаний, одним из возможных выходов из ситуации может быть создание сфокусированных интеллектуальных агентов, которые собирают информацию с тематических сайтов. Система сбора информации в этом случае будет состоять из множества агентов, каждый из которых будет обслуживать лишь свою собственную область. Например, новостной робот будет сканировать только новостные сайты, товарный - интернет-магазины, библиотечный - электронные библиотеки.
Основной вопрос заключается в том, каким образом классифицировать огромное количество имеющихся в Сети сайтов. Это нетривиальная задача, которая требует значительных ресурсов.

В первом приближении все равно придется отсканировать сайт универсальным роботом, после чего провести контентный анализ всех его страниц и определить тип.

Подобный подход позволит не только эффективнее сканировать Веб-сайты и обеспечивать приемлемую свежесть индекса, но и показывать пользователю структурированную выдачу, разбитую по темам или типу информацию.

Posted in Semantic Web, Сфокусированный робот | 4 Comments »

Задачи информационного поиска

Апрель 5th, 2008 by Вячеслав Тихонов

В этой статье рассматриваются задачи, не решенные или плохо решенные в современных поисковиках.

1. Определение типов страниц (исследовательская задача)

Классификация страниц любых сайтов. С точки зрения поисковых потребностей нужно определять три типа страниц:
1) информационные (пользователь ищет какую-либо общую информацию, например, как починить автомобиль)
Идеальная выдача - страница с нужной информацией

2) навигационные (пользователь ищет адрес какой-либо сайт или каталог ресурсов на определенную тему).
Идеальная выдача - адрес сайта или страница тематического каталога

3) транзакционная (пользователь ищет конкретную информацию, скажем, характеристики конкретного товара)
Идеальная выдача - список страниц разных сайтов с карточкой товара.

Результат: позволит отдавать пользователю точно тот тип информации, который он ищет, скрыв все лишнее.

2. Мониторинг информации на группе выбранных сайтов (коммерческий проект)

Мониторинговая система, в которую можно внести список сайтов, за обновлением информации на которых необходимо следить. Робот периодично сканирует страницы каждого сайта и сообщает о появлении новых страниц/статей/новостей и т.д.
Здесь же можно применять фильтрацию по нужным ключевым словам, чтобы отсеять все лишнее.
Для удобства работы с группой сайтов можно разработать персональный кабинет с возможностью поиска по выбранным сайтам и хранением закладок на важные страницы.

3. Выделение полезной информации со страницы сайта (исследовательская задача)

Практически на каждой странице любого сайта есть лишняя информация, которая резко понижает качество поиска - меню, шаблоны, ленты новостей и т.д. Необходимо извлечь со страницы только полезную информацию, опустив все ненужные элементы.

Результат: позволит повысить релевантность поискового движка и уменьшить количество найденных страниц, которые совершенно бесполезны.

4. Определение “свежести” документов (исследовательская задача)

Современные универсальные поисковые системы не позволяют фильтровать по документам за определенный период, например, появившиеся за последний месяц. Это ведет к тому, что по большей части информация в выдаче может быть устаревшей, что не подходит для поиска в динамически изменяемой среде вроде новостных потоков или досок объявлений.
Необходимо разработать такой алгоритм, который бы определял степень “новизны” каждой страницы сайта.

Результат: возможность при поиске отсеивать все старые документы, которые уже устарели.

5. Определения стиля текста на странице (исследовательская задача)

Стиль текста может быть полезен в том случае, когда пользователь
осознает, что конкретно он ищет - научную статью, реферат, новость, объявление или же товар.

Определить стиль документа можно на основании статистического распределения глаголов в его тексте и классифицировать как:
- разговорный (чаты, форумы)
- официально-деловой (деловая документация)
- научный (диссертации, рефераты)
- художественный
- публицистический

Результат: возможность при поиске выбирать нужный стиль документа может сразу отсеять все нерелевантные страницы и сократить время поиска нужной информации.

6. Обновление поисковых индексов

Частота обхода сайтов является одной из важнейших для любой поисковой системы. Свежесть документов в индексах напрямую влияет на качество поиска, поэтому необходимо разработать алгоритм, который будет учитывать скорость обновляемости сайта и выстраивать стратегию их обхода таким образом, чтобы максимально снизить затраты на выкачку тех страниц, которые не обновились и уже присутствуют в поисковом индексе.

Результат: только свежие документы в поисковой выдаче.

Posted in ?нформационный поиск | 2 Comments »

Будущее поисковых технологий

Апрель 5th, 2008 by Вячеслав Тихонов

Очевидно, что поисковые системы в том виде, в котором они сейчас существуют, уже явно изжили себя. Основная проблема тут даже не в том, что объем Сети огромен, а в том, что поисковики не умеют выделять новую информацию из общего потока документов, не говоря уже о том, чтобы каким-то образом ее структурировать.

Достаточно посмотреть поисковую выдачу любой поисковой системы - здесь перемешаны документы разных годов, разных тематик, часто дублирующие друг друга или уже давно утратившие актуальность. Причем пользователям приходится каждый раз, чертыхаясь, ее разгребать.

Поэтому очевидно, что менять нужно сам подход, а не алгоритмы определения формальной релевантности. Мы же, к сожалению, пока видим только соперничество искалок в духе кто больше выкачает. И никого не интересует, что 95% выкачанной информации - просто мусор или повторы.
А ведь нужная информация сама должна находить человека, причем всегда доставляться своевременно и оперативно. Поэтому, вероятнее всего, вскоре большое распространение могут получить системы, обладающие всеми поисковыми свойствами, но по-другому обрабатывающими собираемую информацию - мониторинговые системы.

В таких системах пользователю нужно будет лишь определить свой круг интересов и машина будет исправно снабжать его нужной информацией.

Posted in Поисковые интерфейсы, Поисковые технологии | No Comments »

Кластеризация новостей. Пример определения фокуса события

Апрель 5th, 2008 by Вячеслав Тихонов

Часть 3

Попробую продемонстрировать идею на конкретном примере, взяв две одинаковых по смыслу, но абсолютно разных по содержанию и набору ключевых слов новости. Объекты, фигурирующие в новости, выделены красным, слова, определяющие тематическое окружение - синим. Ключевые слова с одинаковой частотой сортируются в порядке убывания длины - это связано с тем, что более длинные слова имеют большую различительную силу в тексте.

Документ 1.
Заголовок: Google определил Джорджа Буша в категорию “жалких неудачников”
Текст новости:
Пользователи популярного интернет-ресурса Google столкнулись
с забавным казусом, ставшим следствием особой системы оформления ссылок поисковой системы. Как сообщается на сайте BBC News, при введении в строке поиска словосочетания “miserable failure” (жалкий неудачник), первой найденной ссылкой значится биография президента США Джорджа Буша, размещенная на официальном сайте Белого дома.
Как утверждают эксперты, столь странный результат объясняется тем, что Google при поиске учитывает не только содержание интернет-страниц, но и то, как часто сайт или конкретный персонаж упоминается в сети в связи с конкретными словами или характеристиками. Подобная практика “фальсификации” результатов поиска, впервые примененная в 2001 году, получила название “бомбардировка Google”. Заключается она в том, что пользователи интернета намеренно привязывают некоторые сайты к определенным словосочетаниям. По данным газеты Newsday, к биографии Джорджа Буша “прилинкованы”, как минимум, 32 интернет-страницы с уже упоминавшейся нелестной характеристикой американского президента. Администрация США не первый раз становится объектом таких нападок. Так, перед началом войны в Ираке при введении в строке поиска определения “оружие массового поражения” пользователи находили ссылку, гласившую “Это оружие невозможно обнаружить”.

Объекты и субъекты:
Джордж Буш 3
Google 4
США 2

Тематическое окружение:
строка поиска 2
жалкий неудачник 2
буш 3
интернет 3
ссылка 3
поиск 3
характеристика 3
словосочетания 2
пользователи 2
биография 2
президент 2
джордж 2
сайт 2

Теперь новость по этому же событию, взятая с другого издания:
Документ 2.
Заголовок: “Жалкий неудачник” в виртуальной битве
Текст новости:
Практика “Google - бомбардировки” получила толчок в тот момент, когда интересующиеся политикой пользователи интернет осознали, что могут влиять на результаты деятельности Google, широко известного поискового сайта, привнеся в нее долю здоровой сатиры.

Первой жертвой стал президент Джордж Буш, который обнаружил в прошлом году, что его биография на официальном веб-сайте Белого дома заняла первое место в рейтинге Google. Это произошло после того, как какой-то шутник добавил туда слова “жалкий неудачник”.

В настоящее время битва между сторонниками и оппонентами Буша затронула биографию Джимми Картера, домашнюю страничку писателя и кинорежиссера Майкла Мура. Они заняли, соответственно, второе и третье места в списке “жалких неудачников”.

Онлайновая драка породила опасения, что попытки интернет - пользователей исказить предоставляемую информацию могут существенно навредить поисковому сайту. “Оружие” этих деятелей напрямую зависит от нового способа Google собирать информацию, “прочесывая” сеть и используя специальные алгоритмы для определения значимости той или иной страницы.

Этот метод существенно продвинул вперед технологию поиска информации. Однако это также означает, что если в интернете есть много ссылок на официальный сайт Белого дома с биографией Джорджа Буша на нем и вставкой “жалкий неудачник”, Google укажет, что наиболее значимой является страница “жалкий неудачник” и поставит ее первой в своем рейтинге. Самый большой плюс Google может оказаться его минусом.

Программист, подкинувший Бушу эту бомбу, сообщил вчера the New York Times, что он не ожидал, что все окажется настолько просто. “Все дело в том, что у нас есть очень много людей, которым это показалось забавным, и они отсылали ссылку своим многочисленным знакомым”, - сказал Джордж Джонсон.

Объекты и субъекты :
Джордж Буш 2
Google 6
Тематическое окружение объектов:
жалкий неудачник 5
буш 4
сайт 3
пользователи 2
биография 2
страница 2
интернет 2
рейтинг 2
джордж 2
ссылка 2
место 2

Очевидно, что если формировать векторы из ключевых слов, извлеченных подобным образом и ранжируемых в соответствии с приведенными выше соображениями, то предложенный алгоритм может дать хорошие результаты при вычислении подобия двух новостей и с высокой степенью вероятности разные по длине и структуре, но одинаковые по смыслу новости будут объединены в единый кластер.

Предупреждение. Перепечатка разрешается только с указанием источника: Вячеслав Тихонов

Posted in Кластеризация новостей | No Comments »

Кластеризация новостей. Объекты и субъекты событий

Апрель 5th, 2008 by Вячеслав Тихонов

Часть 2

Объекты и субъекты, участвующие в событии, можно разделить на несколько основных групп:

1. Иностранные слова - они обладают очень большой различающей силой для русскоязычных текстов и обозначают, как правило, названия организаций, фигурирующих в новости, имена или фамилии людей. Например, Spirit, Opportunity или Paul McCartney, употребленные в тексте несколько раз.
2. Русские названия и имена - все слова в тексте, написанные с большой буквы и отсутствующие в стоп-листе. Например, Спартак, Россия или Президент.
3. Слова и фразы в кавычках - как правило, означают название организаций (”Русский никель”), прозвища (”Куцый”) и т.п. Однако здесь нужно учитывать, что в тексте возможны цитаты, которые не несут никакой смысловой нагрузки.

Список объектов, фигурирующих в новости, в некоторых, но довольно редких случаях достаточен для определения подобия векторов, однако, если в новости один основной объект, то результат кластеризации будет плохой.

Тематическое окружение объектов

Тематическое окружение каждого объекта или субъекта состоит из существительных, прилагательных и глаголов, с ними связанных, причем в контексте конкретной новости.
Например, есть множество событий, посвященых Президенту Путину: Путин подписал новый закон, Путин вернулся из Санкт-Петербурга, Путин встретился с Пауэллом и т.д. - основной объект здесь один, а тематическое окружение везде разное.

Внимательно проанализировав каждую новость, можно обнаружить четкую закономерность - каждое новое предложение дополняет или раскрывает смысл предыдущего. Это достигается за счет сильной связанности предложений и сфокусированности на одном событии, когда в большинстве входящих в нее предложений фигурирует один и тот же объект.

Несмотря на то, что объект может называться каждый раз по-разному, его название регулярно повторяется в исходном виде через одно-два предложения. В предложениях, в которых его имя или название отсутствует, могут быть использованы заменяющие его синонимы и словосочетания. Например, в новостях о Путине будут достаточно часто чередоваться словосочетания Президент России, российский лидер, глава государства.
Тематическое окружение любого объекта можно определить, посчитав частоту каждого термина в каждом отдельном предложении документа и выделив устойчивые словосочетания (с частотой, большей 1).

Наиболее интересен тот факт, что если в разных предложениях встречается одно и то же словосочетание, то очевидно, что оно может иметь максимальный вес для фокуса рассматриваемой новости и во многом определять его. То есть это словосочетание с высокой степенью вероятности будет встречаться и в других новостях, посвященных рассматриваемому событию, причем вместе с теми же объектами.

Очень важно и то, что наличие фокуса новости в виде объектов и их тематического окружения не будут зависеть ни от формата новости, ни от ее длины и по сути избавляет от рассмотрения временных рамок.

Предупреждение. Перепечатка разрешается только с указанием источника: Вячеслав Тихонов

Posted in Кластеризация новостей | No Comments »

Кластеризация новостей и фокусирование событий

Апрель 5th, 2008 by Вячеслав Тихонов

В данной заметке рассмотрены инновационные методы работы с наиболее изменяющейся составляющей сети Интернет - новостными ресурсами и блогами.

Специфика любой новости такова, что текст о конкретном событии может быть как небольшой заметкой, так и серьезным аналитическим материалом. Однако, проанализировав состав ключевых слов, определяющих конкретное событие, становится очевидно, что он должен быть одинаков, даже несмотря на то, что по длине любая заметка несоизмерима с аналитикой.

Отдельно хочу отметить временное окно, в пределах которого нужно сравнивать новости. Многие издания могут запаздывать не на часы, а на целые дни при публикации новостей, посвященных определенному событию. Кроме того, через несколько дней после публикации новости могут появиться аналитические материалы, которые ей посвящены - все это “проскочит” мимо кластера.

Я потратил немало времени на анализ структуры новостей, в результате чего родилась идея использовать в качестве меры подобия не просто набор ключевых слов, а так называемый фокус события.

Фокус события представляет собой совокупность объектов, каким-либо образом взаимодействующих в новости, и их тематического окружения (синонимов, описаний, дополнений объектов и других параметров, характеризующих рассматриваемое событие).
Фокус события может отвечать на следующие вопросы:

* Кто инициировал событие и принимает в нем участие?

Определяется объектами, участвующими в событии - это могут быть как отдельные персоналии, так и организации. Как правило, в событии участвует не более двух главных объектов, остальные второстепенные.

* Когда событие произошло?

Определяется временем публикации новости о событии.

* Где оно произошло?

Определяется названием местности, города, страны и т.д. (тематическое окружение - второстепенные объекты - названия)

* Что произошло?

Описание события - ключевые слова, определяющие характер события (тематическое окружение - существительные)

* Как произошло?

Ключевые слова, дающие представление о действиях, происшедших в событии (тематическое окружение - глаголы)

* Значение произошедшего события и его влияние на другие события

Здесь могут быть второстепенные объекты и их тематическое окружение.

Следует учитывать, что новость может содержать информацию о нескольких событиях, возможно не связанных. Это частный случай, который нужно рассматривать отдельно.

Фокус новостного события можно применять как для создания осмысленной аннотации новостей, так и для определения дублей одной и той же новости.
В первом случае наиболее информативной частью любой новости будут предложения, которые содержат вместе как извлеченные объекты, так максимальное количество ключевых слов из тематического окружения события. Во втором Фокус, состоящий из набора ключевых слов и входящих в несколько новостей идентичного содержания, будет совпадать, что позволит фильтровать дубли.

Posted in Кластеризация новостей | No Comments »

« Previous Entries