Просмотреть запись

Классификация веб-страниц на основе алгоритмов машинного обучения

Электронный научный архив УРФУ

Информация об архиве | Просмотр оригинала
 
 
Поле Значение
 
Заглавие Классификация веб-страниц на основе алгоритмов машинного обучения
 
Автор Борисова, П. В.
Мышков, П. С.
Незлобин, А. А.
Петров, А. Д.
 
Описание Долгое время появлявшиеся в литературе алгоритмы категоризации веб-страниц оставались в тени метода ключевых слов, который работал достаточно эффективно с англо-язычными сайтами. Поэтому возможности применения к этой задаче появившихся недавно алгоритмов классификации были недостаточно хорошо изучены [2,5,3]. Так, например, строковое ядро (String Subsequence Kernel, SSK) получило большее распространение в биоинформатике для классификации протеинов, нежели в веб-программировании для категоризации веб-страниц. Такие новые методы были непопулярны также из-за их несоответствия высоким требованиям к производительности, предъявляемых интернет-системам. Однако, при наличии должной оптимизации такие алгоритмы могут открыть новые возможности для создания простых в разработке категоризаторов, которые будут эффективны даже для языков со сложной морфологией и грамматикой. В данной работе приведён пример такого рода оптимизаций и предложено два классификатора, их реализующих. Результаты, полученные на практических тестах, очевидные возможности масштабирования, заложенные в эти алгоритмы – всё это даёт повод надеяться, что дальнейшее изучение этого вопроса окажется плодотворным.
Novel algorithms of web-page classification have been dominated by widely accepted keyword approach for a long time. The keyword approach has proved to be sufficiently effective for English web-pages. Therefore recently published classification algorithms have not been addressed in web-page classification research at an appropriate scale [2,5,3]. For instance, String Subsequence Kernel (SSK) received much larger attention in Bioinformatics for gene and protein classification than in web-programming for web-page categorization. Such novel methods have proved to be unpopular among Internet system providers also because of their high computational requirements. However, with application of certain optimization approaches, such algorithms can bring development of classification systems to a new level, where high efficiency can be achieved even for languages with complex morphology and grammar. This work represents an example of such optimization attempt and it provides two different realizations for such classifiers. Positive characteristics of presented results and scaling properties of these algorithms encourage further research in this area.
 
Дата 2008-11-21T05:32:04Z
2008-11-21T05:32:04Z
2005
 
Тип Article
Journal article (info:eu-repo/semantics/article)
Published version (info:eu-repo/semantics/publishedVersion)
 
Идентификатор Борисова П. В. Классификация веб-страниц на основе алгоритмов машинного обучения / П. В. Борисова, П. С. Мышков, А. А. Незлобин, А. Д. Петров // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 364-381.
http://elar.urfu.ru/handle/10995/1418
 
Язык ru
 
Связанные ресурсы Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005
 
Формат 362841 bytes
application/pdf
 
Издатель б. и.