Просмотреть запись

Автоматическая рубрикация web-страниц в интернет-каталоге с иерархической структурой

Электронный научный архив УРФУ

Информация об архиве | Просмотр оригинала
 
 
Поле Значение
 
Заглавие Автоматическая рубрикация web-страниц в интернет-каталоге с иерархической структурой
Web-page Automatic Classification in Internet Catalog with Hierarchic Structure
 
Автор Дунаев, Е. В.
Шелестов, А. А.
 
Описание В статье рассмотрено применение статистических методов автоматической рубрикации (классификации) web-страниц в многоуровневом иерархическом рубрикаторе интернет-каталога. Применение классического метода Байеса (naïve Bayes) оказывается затруднительным при больших объемах данных. Вместо него предлагается использовать метод на основе алгоритма PrTFIDF, который так же заключается в вычислении условных вероятностей принадлежности документа рубрике. Эксперименты производились на основе данных интернет-каталога Яндекс. Результаты экспериментов позволяют сделать вывод о возможности успешного применения метода.
Use of web pages automatic classification statistical methods is described in the article. Application of classical naive Bayes method becomes difficult with huge data volumes. The method based on algorithm PrTFIDF is proposed to use, which is also in conditional probability calculation of rubric document belonging. Experiments were executed with data based on Yandex web-catalog. Based on results it is possible to conclude about possibility of successful method application.
 
Дата 2008-11-21T05:37:40Z
2008-11-21T05:37:40Z
2005
 
Тип Article
Journal article (info:eu-repo/semantics/article)
Published version (info:eu-repo/semantics/publishedVersion)
 
Идентификатор Дунаев Е. В. Автоматическая рубрикация web-страниц в интернет-каталоге с иерархической структурой / Е. В. Дунаев, А. А. Шелестов // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 382-398.
http://elar.urfu.ru/handle/10995/1419
 
Язык ru
 
Связанные ресурсы Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005
 
Формат 283546 bytes
application/pdf
 
Издатель б. и.