Исследование методов поиска дубликатов веб-документов с учетом запроса пользователя
Электронный научный архив УРФУ
Информация об архиве | Просмотр оригиналаПоле | Значение | |
Заглавие |
Исследование методов поиска дубликатов веб-документов с учетом запроса пользователя
Investigating techniques of fuzzy duplicate web-documents detection based on a user’s request. |
|
Автор |
Цыганов, Н. Л.
Циканин, М. А. |
|
Тематика |
ИНФОРМАЦИОННЫЙ ПОИСК В ИНТЕРНЕТЕ
ПОИСК ИНФОРМАЦИИИ В ИНТЕРНЕТЕ СБОРНИКИ СТАТЕЙ |
|
Описание |
В данной работе исследуется методика on-line поиска дубликатов веб-документов на основе вычисления схожести релевантных запросу пользователя фрагментов (сниппетов) и атрибутов (заголовков). Формулируется математическая постановка задачи поиска нечетких дубликатов в больших репозиториях данных. Исследуется эффективность применения различных функций схожести на основе дистанции редактирования и векторной модели документа. Предлагается использование динамических функций вычисления общей схожести веб-документов. Полученные результаты позволяют говорить о высокой эффективности предложенного подхода и целесообразности его применения для существенного улучшения качества ответа поисковой машины на запрос пользователя.
The research is devoted to investigating a technique of online fuzzy duplicate web-documents detection by computing the similarity of document fragments (snippets) and attributes (titles) relevant to a user’s request. It formally states a mathematical problem for locating fuzzy duplicates in huge data repositories. It explores the efficiency of different similarity functions based either on editing distance or vector-space document model. It then introduces the usage of dynamic functions to improve the calculation of overall document similarity. It concludes by exposing results that prove the high efficiency and improved adequacy of search results to user requests when compared to existing search engine solutions, while delivering productivity levels that are on a par with existing production quality systems. |
|
Дата |
2008-11-18T07:33:32Z
2008-11-18T07:33:32Z 2007 |
|
Тип |
Article
Journal article (info:eu-repo/semantics/article) Published version (info:eu-repo/semantics/publishedVersion) |
|
Идентификатор |
Цыганов, Н. Л. Исследование методов поиска дубликатов веб-документов с учетом запроса пользователя / Н. Л. Цыганов, М. А. Циканин // Интернет-математика 2007 : сб. работ участников конкурса науч. проектов по информ. поиску / [отв. ред. П. И. Браславский]. — Екатеринбург : Изд-во Урал. ун-та, 2007. — С. 211–222.
978-5-7525-1788-5 http://elar.urfu.ru/handle/10995/1351 |
|
Язык |
ru
|
|
Связанные ресурсы |
Интернет-математика 2007. — Екатеринбург, 2007
|
|
Формат |
488883 bytes
application/pdf |
|
Издатель |
Изд-во Урал. ун-та
|
|