Автоматическая рубрикация web-страниц в интернет-каталоге с иерархической структурой
Электронный научный архив УРФУ
Информация об архиве | Просмотр оригиналаПоле | Значение | |
Заглавие |
Автоматическая рубрикация web-страниц в интернет-каталоге с иерархической структурой
Web-page Automatic Classification in Internet Catalog with Hierarchic Structure |
|
Автор |
Дунаев, Е. В.
Шелестов, А. А. |
|
Описание |
В статье рассмотрено применение статистических методов автоматической рубрикации (классификации) web-страниц в многоуровневом иерархическом рубрикаторе интернет-каталога. Применение классического метода Байеса (naïve Bayes) оказывается затруднительным при больших объемах данных. Вместо него предлагается использовать метод на основе алгоритма PrTFIDF, который так же заключается в вычислении условных вероятностей принадлежности документа рубрике. Эксперименты производились на основе данных интернет-каталога Яндекс. Результаты экспериментов позволяют сделать вывод о возможности успешного применения метода.
Use of web pages automatic classification statistical methods is described in the article. Application of classical naive Bayes method becomes difficult with huge data volumes. The method based on algorithm PrTFIDF is proposed to use, which is also in conditional probability calculation of rubric document belonging. Experiments were executed with data based on Yandex web-catalog. Based on results it is possible to conclude about possibility of successful method application. |
|
Дата |
2008-11-21T05:37:40Z
2008-11-21T05:37:40Z 2005 |
|
Тип |
Article
Journal article (info:eu-repo/semantics/article) Published version (info:eu-repo/semantics/publishedVersion) |
|
Идентификатор |
Дунаев Е. В. Автоматическая рубрикация web-страниц в интернет-каталоге с иерархической структурой / Е. В. Дунаев, А. А. Шелестов // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 382-398.
http://elar.urfu.ru/handle/10995/1419 |
|
Язык |
ru
|
|
Связанные ресурсы |
Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005
|
|
Формат |
283546 bytes
application/pdf |
|
Издатель |
б. и.
|
|