Исследование эффективности применения методов совместного анализа текстов и гиперссылок для поиска тематических сообществ
Электронный научный архив УРФУ
Информация об архиве | Просмотр оригиналаПоле | Значение | |
Заглавие |
Исследование эффективности применения методов совместного анализа текстов и гиперссылок для поиска тематических сообществ
Comparison of topic distillation methods based on links and text analysis |
|
Автор |
Козлов, Д. Д.
Белова, А. А. |
|
Описание |
Одним из важных аспектов тематического поиска в Web является создание у пользователя представления о том, какая имеется информация по интересующей его теме. Для этой цели могут применяться методы поиска тематических сообществ [8,9], основанные на анализе структуры гиперссылок. В данной работе исследуется эффективность методов поиска тематических сообществ, основанных на анализе гиперссылок (HITS, SALSA), а также комбинированных методов, сочетающих анализ гиперссылок с традиционными методами анализа текстов (TFIDF и LSA). Экспериментальные результаты показывают, что использование анализа гиперссылок стало менее эффективно из-за изменения структуры гиперссылок, а для эффективного поиска тематических сообществ требуется большое количество эвристик. Дополнительное применение эвристик и элементов анализа текста позволяет повысить качество работы методов поиска тематических сообществ. При этом применение методов, основанных на разложении по собственным векторам, не дает ощутимого выигрыша в качестве, а существенно уступает в вычислительной сложности.
In this paper four approaches to topic distillation are compared: classical HITS [10], HITS with non-principal eigenvectors[9], unified text and link analysis [6] and combined analysis [15] based on SALSA, TFIDF and heuristics. Comparison is based on TREC WebTrack methodology but is made on real data from Russian part of the Web. The result is that topic distillation methods don’t work without heuristics on modern Web, combination of text analysis and simple SALSA is better than complex unified analysis, HITS with enough heuristics is comparable with more complex methods with text analysis. |
|
Дата |
2008-11-21T04:45:49Z
2008-11-21T04:45:49Z 2005 |
|
Тип |
Article
Journal article (info:eu-repo/semantics/article) Published version (info:eu-repo/semantics/publishedVersion) |
|
Идентификатор |
Козлов Д. Д. Исследование эффективности применения методов совместного анализа текстов и гиперссылок для поиска тематических сообществ / Д. Д. Козлов, А. А. Белова // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 250-271.
http://elar.urfu.ru/handle/10995/1412 |
|
Язык |
ru
|
|
Связанные ресурсы |
Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005
|
|
Формат |
376834 bytes
application/pdf |
|
Издатель |
б. и.
|
|