Просмотреть запись

Порождение кластеров документов-дубликатов: подход, основанный на поиске частых замкнутых множеств признаков

Электронный научный архив УРФУ

Информация об архиве | Просмотр оригинала


Поле	Значение

Заглавие	Порождение кластеров документов-дубликатов: подход, основанный на поиске частых замкнутых множеств признаков Generating Clusters of Duplicate Documents: An Approach Based on Frequent Closed Itemsets

Автор	Кузнецов, С. О. Игнатов, Д. И. Объедков, С. А. Самохин, М. В.

Описание	Множество документов в Интернете имеют дубликаты, в связи с чем необходимы средства эффективного вычисления кластеров документов-дубликатов [1-5, 8-10, 13-14]. В работе исследуется применение алгоритмов Data Mining для поиска кластеров дубликатов с использованием синтаксических и лексических методов составления образов документов. На основе экспериментальной работы делаются некоторые выводы о способе выбора параметров методов. A vast amount of documents in the Web have duplicates, which necessitates creation of efficient methods for computing clusters of duplicates [1-5, 8-10, 13-14]. In this paper some algorithms of Data Mining are used for constructing clusters of duplicate documents (duplicates), documents being represented by both syntactic and lexical methods. Series of experiments suggest some conclusions about choosing parameters of the methods.

Дата	2008-11-21T04:57:28Z 2008-11-21T04:57:28Z 2005

Тип	Article Journal article (info:eu-repo/semantics/article) Published version (info:eu-repo/semantics/publishedVersion)

Идентификатор	Кузнецов С. О. Порождение кластеров документов-дубликатов: подход, основанный на поиске частых замкнутых множеств признаков / С. О. Кузнецов, Д. И. Игнатов, С. А. Объедков, М. В. Самохин // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 302-319. http://elar.urfu.ru/handle/10995/1415

Язык	ru

Связанные ресурсы	Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005

Формат	350885 bytes application/pdf

Издатель	б. и.

Just another harvester

Просмотреть запись

Порождение кластеров документов-дубликатов: подход, основанный на поиске частых замкнутых множеств признаков

Электронный научный архив УРФУ