Просмотреть запись

Обработка потока новостей на основе больших лингвистических ресурсов

Электронный научный архив УРФУ

Информация об архиве | Просмотр оригинала


Поле	Значение

Заглавие	Обработка потока новостей на основе больших лингвистических ресурсов News Processing Based on Large Linguistic Resource During this project we studied if it is possible to use a conceptbased linguistic resource (Sociopolitical thesaurus) together with bag of words models for processing of news stories. We tried to understand how to construct thesaurus-based Boolean descriptions of news documents and use these conceptual Boolean descriptions for tasks of new services. In the report we showed that the most clusters, built by Yandex clustering algorithm, can be described with meaningful Boolean expressions. If it is impossible to build a Boolean expression including more than 80 percents of documents of a cluster, it means that cluster is not good.

Автор	Лукашевич, Н. В. Добров, Б. В. Штернов, С. В.

Описание	Задачей настоящего исследования является выяснение, насколько в задачах обработки новостных потоков,базирующихся в основном на пословном представлении содержания документов, может использоваться заранее созданный большой лингвистический ресурс онтологического типа, а именно, можно ли построить на основе Общественно-политического тезауруса булевские описания содержания кластеров, основанных на пословных моделях, и можно ли применить построенные булевские описания для решения задач, возникающих при работе новостных сервисов. В ходе исследования выяснилось, что для большинства кластеров, построенных алгоритмом кластеризации Яндекса, удается построить булевское выражение, отражающее основное содержание документов этого кластера. Если не удается построить булевское описание, которое охватывало бы более 80 процентов документов кластера, это свидетельствует о плохом качестве кластера.

Дата	2008-11-21T06:01:30Z 2008-11-21T06:01:30Z 2005

Тип	Article Journal article (info:eu-repo/semantics/article) Published version (info:eu-repo/semantics/publishedVersion)

Идентификатор	Лукашевич Н. В. Обработка потока новостей на основе больших лингвистических ресурсов / Н. В. Лукашевич, Б. В. Добров, С. В. Штернов // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 461-484. http://elar.urfu.ru/handle/10995/1423

Язык	ru

Связанные ресурсы	Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005

Формат	446778 bytes application/pdf

Издатель	б. и.

Just another harvester

Просмотреть запись

Обработка потока новостей на основе больших лингвистических ресурсов

Электронный научный архив УРФУ