Использование статистической информации при выявлении схожих документов
Электронный научный архив УРФУ
Информация об архиве | Просмотр оригиналаПоле | Значение | |
Заглавие |
Использование статистической информации при выявлении схожих документов
Use of statistical parameters in similar documents detection |
|
Автор |
Косинов, Д. И.
|
|
Тематика |
ИНФОРМАЦИОННЫЙ ПОИСК В ИНТЕРНЕТЕ
ПОИСК ИНФОРМАЦИИИ В ИНТЕРНЕТЕ СБОРНИКИ СТАТЕЙ |
|
Описание |
Во многих современных задачах необходимо уметь выделять из больших объемов текстов подобные друг другу, в связи с чем требуются эффективные методы для определения схожих документов. Предложен метод построения локальной сигнатуры документа на основании исключительно статистических параметров его содержимого, без использования глобальных коллекций. Набор параметров подбирается, исходя из соображений устойчивости к различным видам модификаций документа. Проведен ряд экспериментов, использующих некоторые из этих параметров. Показана возможность использования данного подхода в условиях больших объемов документов.
Many complex tasks rely on the algorithms that search for similar elements in large corpora, which explains the need for effective methods of detecting documents that resemble other documents in the collection. A new method of local document signature creation on the sole basis of statistical parameters of its content without resorting to global collections is proposed. The set of parameters is formed on the basis of tolerance to different types of modifications. A number of experiments using some of these parameters are conducted. The possibility of use of this approach for large corpora processing is shown. |
|
Дата |
2008-11-18T06:00:47Z
2008-11-18T06:00:47Z 2007 |
|
Тип |
Article
Journal article (info:eu-repo/semantics/article) Published version (info:eu-repo/semantics/publishedVersion) |
|
Идентификатор |
Косинов, Д. И. Использование статистической информации при выявлении схожих документов / М. Косинов // Интернет-математика 2007 : сб. работ участников конкурса науч. проектов по информ. поиску / [отв. ред. П. И. Браславский]. — Екатеринбург : Изд-во Урал. ун-та, 2007. — С. 84–90.
978-5-7525-1788-5 http://elar.urfu.ru/handle/10995/1336 |
|
Язык |
ru
|
|
Связанные ресурсы |
Интернет-математика 2007. — Екатеринбург, 2007
|
|
Формат |
211625 bytes
application/pdf |
|
Издатель |
Изд-во Урал. ун-та
|
|