Визуальное отображение коллекции документов
Январь 24th, 2007 by Вячеслав ТихоновНа Форуме появился очень интересный топик, суть которого сводится к тому, чтобы визуально показать похожие документы в виде точек в N-мерном пространстве.
Если говорить простым языком, то решение сводится к тому, чтобы уменьшить размерность матрицы за счет общих ключевых слов и выбрать метрику, по которой отранжировать важные термы. Получив таблицу объект-свойства, можно построить матрицу близости документов, которую затем спроецировать в пространство объектов.
Самое интересное, что эта операция сродни сжатию информации по характерным признакам, и похожие объекты (документы) будут находиться рядом.
А вот дальше начинается очевидное-невероятное - в текстах близких по содержанию документов можно находить целые предложения и абзацы, которые передают один и тот же смысл!
Можно только представить себе, как загорелись глаза у настоящих оптимизаторов.
Posted in Google | 2 Comments »