Просмотреть запись

Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к анализу тематической структуры новостного потока, а также ее динамики

Электронный научный архив УРФУ

Информация об архиве | Просмотр оригинала
 
 
Поле Значение
 
Заглавие Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к анализу тематической структуры новостного потока, а также ее динамики
 
Автор Киселев, М. В.
Пивоваров, В. С.
Шмулевич, М. М.
 
Описание Данная работа посвящена автоматической смысловой кластеризации текстов и ее применению к анализу динамики тематического состава потока новостей. Проанализированы существующие методики кластеризации, и показано, что ни одна из них не обладает полным набором качеств, необходимых для успешного решения этой задачи. С целью преодоления этих трудностей предложен новый метод, названный островной кластеризацией, который основан на статистической мере корреляции встречаемости в текстах термов, характеризующихся значимым превышением их частот над средним уровнем. Показано, что он успешно решает проблемы плоской и иерархической кластеризации новостей, а также отслеживания динамики тем новостного потока.
This paper is devoted to automated clustering of document sets and its application to analysis of electronic news topic structure dynamics. The existing clustering algorithms are considered and it is shown that none of them obeys the full set of requirements necessary for successful solution of this problem. In order to overcome these difficulties a novel method called island clustering is proposed. It is based on a statistical measure of term co-occurrence calculated only for the terms showing in some texts significant frequency excess over the average level. It is demonstrated that our method obtains high quality flat and hierarchical clustering of news and allows user to monitor qualitatively and quantitatively evolution of the news stream thematic structure.
 
Дата 2008-11-21T05:51:31Z
2008-11-21T05:51:31Z
2005
 
Тип Article
Journal article (info:eu-repo/semantics/article)
Published version (info:eu-repo/semantics/publishedVersion)
 
Идентификатор Киселев М. В. Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к анализу тематической структуры новостного потока, а также ее динамики / М. В. Киселев, В. С. Пивоваров, М. М. Шмулевич // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 412-435.
http://elar.urfu.ru/handle/10995/1421
 
Язык ru
 
Связанные ресурсы Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005
 
Формат 576532 bytes
application/pdf
 
Издатель б. и.