Просмотреть запись

Обработка потока новостей на основе больших лингвистических ресурсов

Электронный научный архив УРФУ

Информация об архиве | Просмотр оригинала
 
 
Поле Значение
 
Заглавие Обработка потока новостей на основе больших лингвистических ресурсов
News Processing Based on Large Linguistic Resource
During this project we studied if it is possible to use a conceptbased linguistic resource (Sociopolitical thesaurus) together with bag of words models for processing of news stories. We tried to understand how to construct thesaurus-based Boolean descriptions of news documents and use these conceptual Boolean descriptions for tasks of new services. In the report we showed that the most clusters, built by Yandex clustering algorithm, can be described with meaningful Boolean expressions. If it is impossible to build a Boolean expression including more than 80 percents of documents of a cluster, it means that cluster is not good.
 
Автор Лукашевич, Н. В.
Добров, Б. В.
Штернов, С. В.
 
Описание Задачей настоящего исследования является выяснение, насколько в задачах обработки новостных потоков,базирующихся в основном на пословном представлении содержания документов, может использоваться заранее созданный большой лингвистический ресурс онтологического типа, а именно, можно ли построить на основе Общественно-политического тезауруса булевские описания содержания кластеров, основанных на пословных
моделях, и можно ли применить построенные булевские описания для решения задач, возникающих при работе новостных сервисов. В ходе исследования выяснилось, что для большинства кластеров, построенных алгоритмом кластеризации Яндекса, удается построить булевское выражение, отражающее основное содержание документов этого кластера. Если не удается построить булевское описание, которое охватывало бы более 80 процентов документов кластера, это свидетельствует о плохом качестве кластера.
 
Дата 2008-11-21T06:01:30Z
2008-11-21T06:01:30Z
2005
 
Тип Article
Journal article (info:eu-repo/semantics/article)
Published version (info:eu-repo/semantics/publishedVersion)
 
Идентификатор Лукашевич Н. В. Обработка потока новостей на основе больших лингвистических ресурсов / Н. В. Лукашевич, Б. В. Добров, С. В. Штернов // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 461-484.
http://elar.urfu.ru/handle/10995/1423
 
Язык ru
 
Связанные ресурсы Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005
 
Формат 446778 bytes
application/pdf
 
Издатель б. и.