Просмотреть запись

Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации

Электронный научный архив УРФУ

Информация об архиве | Просмотр оригинала
 
 
Поле Значение
 
Заглавие Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации
Text clustering procedure based on pair-wise proximity of key terms and its comparison with metric clustering methods
 
Автор Киселев, М.
 
Тематика ИНФОРМАЦИОННЫЙ ПОИСК В ИНТЕРНЕТЕ
ПОИСК ИНФОРМАЦИИИ В ИНТЕРНЕТЕ
СБОРНИКИ СТАТЕЙ
 
Описание Настоящее исследование посвящено разработке нового метода автоматической кластеризации массивов текстов, основанного на представлении текстов в виде наборов ключевых термов (различающихся по количеству и составу для разных текстов), а не как точек единого для всех текстов метрического пространства, как в большинстве существующих алгоритмов кластеризации. При этом мера близости текстов основывается на попарной близости термов, характеризующих тексты. Близость термов, в свою очередь, определяется на основе их близости в некотором тезаурусе. Вследствие отсутствия на данный момент общеязыкового русскоязычного тезауруса важную роль в данном исследовании играла разработка (полу)автоматических методов построения тезаурусов с помощью матрицы совместной встречаемости лексем, рассчитанной для большого текстового корпуса. При проведении сравнительного анализа результатов кластеризации использовалась как математическая оценка качества кластеризации, так и ручная оценка качества смысловой пометки найденных кластеров.
This work is devoted to development of a new method for automated text clustering based on representation of text documents as sets of their key terms which differ in size and contents in contrast with majority of existing methods representing texts as points of a Euclidean space. In this method proximity measure of two texts is calculated on the basis of pair-wise proximities of their key terms. Proximity of two terms in its turn is determined from distance between them in a tree representing certain ontology. Lack of available all-language Russian ontology (at present) made it necessary to develop methods for (semi) auto mated ontology construction on the basis of lexeme co-occurrence matrix created for large text corpus. Comparative analysis of explored clustering procedures included numeric clustering quality estimation as well as manual evaluation of cluster semantic tagging.
 
Дата 2008-11-18T05:56:11Z
2008-11-18T05:56:11Z
2007
 
Тип Article
Journal article (info:eu-repo/semantics/article)
Published version (info:eu-repo/semantics/publishedVersion)
 
Идентификатор Киселев, М. Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации / М. Киселев // Интернет-математика 2007 : сб. работ участников конкурса науч. проектов по информ. поиску / [отв. ред. П. И. Браславский]. — Екатеринбург : Изд-во Урал. ун-та, 2007. — С. 74–83.
978-5-7525-1788-5
http://elar.urfu.ru/handle/10995/1335
 
Язык ru
 
Связанные ресурсы Интернет-математика 2007. — Екатеринбург, 2007
 
Формат 220489 bytes
application/pdf
 
Издатель Изд-во Урал. ун-та