Categories

Search

Google патентует PhraseRank - алгоритм для борьбы со спамом

Декабрь 29th, 2006 by Вячеслав Тихонов

PhraseRank позволит Google связать основные фразы, определяющие смысл документа, и, оценивая частоту этих фраз по сравнению с эталонной, сделать вывод о качестве любого текста. Совершенно очевидно, что все документы, в которых будут обнаружены отклонения, будут помечены поисковиком как подозрительные.

Ой и полетят же головы, если Google это запустит.

Posted in Google, PhraseRank | No Comments »

Google признает, что плохо понимает по-русски

Декабрь 28th, 2006 by Вячеслав Тихонов

Попалась на глаза заметка о лидерах Рунета, просчитанных comScore Networks. По их информации, у русского Google всего лишь 28% аудитории, в то время как у Яндекса все 64%. При этом Яндекс еще и собирает 50% всех русскоязычных рекламных бюджетов.

Позабавил комментарий представителя Гугла:

The company’s difficulties in Russia probably have more to do with the complexities of the language than with politics. “Our understanding of Russian was not as good as we wanted it to be,” said Kannan Pashupathy, head of international engineering at Google.

Posted in Google, Яндекс | No Comments »

Поистине цифровое будущее от Google

Декабрь 26th, 2006 by Вячеслав Тихонов

Google разошелся не на шутку, обещая уже в следующем году подпортить отчетность не кому-нибудь, а самому Биллу Гейтсу. Компания планирует въехать на корпоративный рынок ПО на белом коне, добавив кучу всяких интересных штук к Google Docs и SpreadSheets, и соединив Google Talk с телефонными сетями.

Здоровая конкуренция - это хорошо.

Posted in Google, Google Docs | No Comments »

Классификация современных поисковых систем

Декабрь 26th, 2006 by Вячеслав Тихонов

Поисковые системы, как известно, предназначены для поиска информации в разнообразных массивах данных. Как правило, поисковые системы разделяют на несколько классов, причем каждый из них предназначен для решения различных задач.

Поисковые каталоги

Для того, чтобы как-то упростить задачу навигации по существующим ресурсам, были созданы системы, названные поисковыми каталогами или просто каталогами. Яркими представителями поисковых каталогов на Западе являются Yahoo и Open Directory, в России Mavica.net, List.ru, в Украине - Topping, UaPortal и др.

В таких каталогах сайты регистрируются их создателями, после чего проходят проверку модераторами, имеющими право изменять описание и рубрику регистрируемого ресурса по собственному усмотрению так, чтобы максимально приблизить его к тематике самого сайта. Кроме того, часто модераторами также оценивается и полезность ресурса, в результате чего каждый ресурс получает экспертную оценку, которая помогает пользователям находить наиболее авторитетные сайты по интересующим их темам.

Следует заметить, что некоторые поисковые каталоги, которые имеют также собственный рейтинг (например, Topping), используют в качестве подобных неявных экспертных оценок информацию о посещаемости сайтов и учитывают позиции, которые эти сайты занимают в рейтинге ресурсов определенной тематики. Данный подход позволяет повышать качество поиска в каталоге, предоставляя более авторитетную информацию, в результате чего значительно сэкономить время пользователей.

Если пользователь пытается найти что-то конкретное, например, книгу или музыкальный компакт-диск, поисковые каталоги, как правило, оказываются бессильны, и в лучшем случае могут лишь подсказать, на каких сайтах можно попробовать поискать требуемую информацию, не гарантируя, что она там есть. Задача усложняется тем, что лишь определенное количество страниц из всего множества содержит нужную информацию, остальные же совершенно бесполезны.

Полнотекстовые поисковые системы

Задачу поиска страниц, содержащих нужную информацию, решают полнотекстовые поисковые системы, которые имеют специальные программы, называемыми пауками или роботами. Они занимаются поиском страниц, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют найденную информацию в базе данных. В Рунете наиболее известны поисковые машины Яндекс, Google и Рамблер.
Каждый поисковый механизм имеет собственный набор правил, определяющих, каким образом cобирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Другие игнорируют ссылки, которые ведут к графическим и звуковым файлам и т.д.

Важной задачей для робота, который собирает информацию о ресурсах для поисковой системы, является также обнаружение как можно большего количества разнообразных ресурсов.

Поэтому роботы зачастую используют в качестве оценки “полезности’’ ресурса глубину ссылок, т. е. количество промежуточных каталогов, упоминающихся в ссылке между именем Интернет-узла и именем самого ресурса. Чем больше глубина, тем ниже важность соответствующего ресурса. Такой подход позволяет быстро посетить стартовые и близкие к ним страницы на большом числе Интернет-узлов. Собранная таким образом информация заносится в базу данных и позволяет находить страницы с нужной информацией в том виде, когда ее в последний раз посещал робот.

Большинство поисковых роботов не могут посещать все доступные в Интернет ресурсы из-за ограниченности доступных роботу аппаратных и сетевых ресурсов, и то, какие именно ресурсы будут посещены, определяется применяемой стратегией обхода. Естественно, что робот старается использовать такую стратегию, которая максимизирует общую “полезность’’ всех посещенных ресурсов.

Метапоисковые системы

Как уже было замечено, современный Интернет в большинстве случаев не позволяет быстро и качественно ослеживать изменение страниц, поэтому пользователь может попасть на уже изменившуюся страницу или, что еще хуже, на уже удаленную из Сети.

Одним из возможных решений этой проблемы может быть метапоиск. Метапоисковые системы не имеют собственных поисковых баз данных, не содержат никаких индексов и при поиске используют ресурсы множества поисковых систем. За счет этого полнота поиска в таких системах максимальна и вероятность нахождения нужной информации очень высока.

В системах метапоиска запрос, который вводит пользователь, ретранслируется полнотекстовым поисковым системам, которые он выбирает, после чего каждая из систем возвращает множество описаний и ссылок на документы, которые считает наиболее соответствующими данному запросу.

При этом, если в разных поисковых системах был найден один и тот же сайт, то ценность его для пользователя, естественно, существенно повышается.

Однако, у каждой системы различные множества проиндексированных документов, различная полнота баз, следовательно, запрошенная пользователем информация может быть найдена в одной системе и может быть не найдена в другой.
В этом случае пользователь может получить несколько действительно релевантных ссылок от одной системы, которые будут перемешаны с абсолютно нерелевантными из другой (например, в случае, когда фраза целиком не найдена, поиск идет по одному из ключевых слов запроса).

Несмотря на очевидные преимущества систем метапоиска, и они не лишены существенных недостатков, среди которых очень большое время поиска. Пользователям приходится долго ожидать, пока метапоисковая система опросит каждую полнотекстовую систему и на основании полученных результатов поиска сформирует собственные, наиболее удовлетворяющие, с ее точки зрения, потребностям пользователя.

Предупреждение. Перепечатка разрешается только с указанием источника: Вячеслав Тихонов, Google Chance.

Posted in Google, Яндекс | No Comments »

О популярности поиска людей в Рунете

Декабрь 24th, 2006 by Вячеслав Тихонов

Надо сказать, что поиск людей , несмотря довольно высокую популярность в Рунете, здесь практически не развит. По крайней мере, популярные поисковые системы не имеют возможности вбить в поисковую строку, к примеру, имя и фамилию, и сразу получить адреса и телефоны нужного человека, в отличие от западных сервисов вроде Yahoo People Search или поиска Google по телефонной книге.

Тем не менее, я совершенно уверен, что появление социальных сетей, объединяющих наиболее активную часть людей в Сети, будет способствовать развитию поисковых сервисов, позволяющих быстро найти нужного человека, и связаться с ним. Примеры LinkedIn, Habrahabr, Toodoo и других уже сейчас показывают, что это работает.

Posted in Google People Search, Поиск людей, Социальные сети | 1 Comment »

Немного критики на тему продвижения сайтов СМИ

Декабрь 21st, 2006 by Вячеслав Тихонов

Прочитал главу из книги Ашманова и Иванова по оптимизации сайтов о продвижении сайтов СМИ, написанную Антоном Санченко.

Прежде всего, я не совсем согласен с Антоном в том, что для сайтов СМИ очень трудно составить устойчивое семантическое ядро запросов, особенно если сайт тематический.

Конечно, большинство пользователей приходит на сайт за свежими новостями, однако не стоит сбрасывать со счетов и людей, которые просто хотят ознакомится с какой-то темой, особенно с ее развитием во времени (например, аналитики). Интерес здесь представляют сюжеты (а не новости), так или иначе касающиеся интересующих событий, поэтому и искать их будут не в новостных сервисах вроде Новотеки или Яндекс-Новости, а в основном поиске Яндекса или Гугла.

Запросы в этом случае будут в основном навигационными - человек попытается найти сайты с нужной информацией, поэтому и “затачивать” сайт нужно под его общие потребности. Как верно заметил Антон, есть и почти вечные или долгоиграющие темы, которые приобретают актуальность время от времени, например, расчеты за газ между Россией и Украиной, и на это нужно ориентироваться.

Проблема здесь и в том, что подобные запросы в большинстве своем не будут частотными, поэтому объем работ по составлению семантического ядра будет намного больше, чем для обычного сайта. Опять же, для каждой темы нужно предугадать развитие событий, и попытаться понять, как могут искать по ней информацию заинтересованные пользователи.

Кстати говоря, поисковые машины постоянно совершенствуются, и тот же Google уже начал отслеживать горячие темы и выводить по ним свежие, только что опубликованные новости прямо в основной выдаче. С одной стороны, чтобы попасть в top, нужно предугадать , какими запросами люди будут искать горячие новости , что бывает весьма непросто, но вот с другой это дает отличные шансы попасть в первую десятку по запросам, по которым при других условиях нужно было оптимизироваться едва ли не годами.

Posted in Google, Поиск информации, Поиск новостей, Поисковая выдача, Поисковая оптимизация, Продвижение СМ? | No Comments »

Некоторые аспекты работы Google adSense

Декабрь 21st, 2006 by Вячеслав Тихонов

Очень занимательный алгоритм использует нынче adSense. Похоже, что гугл на ходу научился определять тип страниц сайта, в некоторых случаях даже подбирать релевантные объявления и на тех сайтах, которые еще не занесены в его индекс.

Практика показывает, что лучше всего реклама попадает в тему на навигационных страницах, где обычно есть множество ссылок, и значительно хуже на информационных, где контент размыт и сразу определить тему adSense не в состоянии. Хотя помочь ему довольно просто - нужно закрыть секцией все навигационные линки из меню, которые в данном случае только мешают (и показывают рекламу “в общем”), и сделать акцент на линки, в тематику которых должны попадать объявления.

У меня есть стойкое подозрение, что для adSense тексты ссылок на странице намного важнее ключевых слов, полученных из контента. Это ведет к тому, за счет лучшего позиционирования навигационные страницы обычно приносят больше денег.

Posted in Google, Google AdSense | No Comments »

Абсолютная релевантность

Декабрь 20th, 2006 by Вячеслав Тихонов

Релевантность любой поисковой машины - вещь очень субъективная, и сильно зависит от того, насколько удачно сам пользователь подобрал поисковый запрос. Если информация соответствует ожиданиям, то результаты поиска релевантные, если же нет - то проблема либо в запросе, либо в поисковой системе.

Очевидно, что хорошие запросы умеет составлять относительно небольшая группа пользователей, поэтому считается, что поисковые машины в основном стараются “угадать”, что же на самом деле ищет пользователь, даже в случае общих запросов, и выдать наиболее релевантные страницы сайтов.

А вот теперь парадокс - на самом-то деле поисковики не заинтересованы в том, чтобы пользователь все нашел сам! Вы спросите почему?

Ответ совершенно очевиден для всех людей, знакомых с поисковым бизнесом, активно развивающимся во всем мире. Что будет с поисковиком, если все пользователи очень быстро и без проблем будут все находить, а поисковая выдача будет свободна от оптимизированных сайтов (с которыми там борятся некоторые поисковики), спама, дорвеев и прочего мусора?

Правильно, он не будет зарабатывать. Зачем кликать по рекламе, если все и так есть в основном поиске?

Фактически, сейчас всех китов поискового бизнеса спасает только то, что никто толком не умеет (или ленится) искать - пока этому не учат. Но со временем рекламе не будет помогать даже контекст.

Posted in Google, Рамблер, Релевантность, Яндекс | 2 Comments »

Google покупает геотаргетинговую технологию

Декабрь 19th, 2006 by Вячеслав Тихонов


Google покупает швейцарскую компанию Endoxon, cпециализирующуюся на геотаргетинговых услугах в сети Интернет.

Endoxon получила известность благодаря технологии “blue”, которая позволяет визуализировать информацию и связывать ее с географическими картами, поисковой машиной и геотаргетингом.



Posted in Google, Google Earth, Google Maps | No Comments »

Автор Google по версии Яндекса

Декабрь 19th, 2006 by Вячеслав Тихонов

Яндекс снова зажигает! Оказывается, настоящий автор Google хорошо известен - смотрите поиск по картинкам:

author_google_tmb.GIF

Posted in Google | 1 Comment »

« Previous Entries