Просмотреть запись

Снятие лексико-семантической омонимии в новостных и газетно-журнальных текстах: поверхностные фильтры и статистическая оценка

Электронный научный архив УРФУ

Информация об архиве | Просмотр оригинала
 
 
Поле Значение
 
Заглавие Снятие лексико-семантической омонимии в новостных и газетно-журнальных текстах: поверхностные фильтры и статистическая оценка
Word-sense disambiguation in mass media texts: shallow rules and statistic evaluation
 
Автор Кобрицов, Б. П.
Ляшевская, О. Н.
Шеманаева, О. Ю.
 
Тематика ЛЕКСИКО-СЕМАНТИЧЕСКАЯ ОМОНИМИЯ
РАЗРЕШЕНИЕ НЕОДНОЗНАЧНОСТИ
УСТОЙЧИВЫЕ КОЛЛОКАЦИИ
НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА
СЕМАНТИЧЕСКАЯ РАЗМЕТКА
WORD-SENSE DISAMBIGUATION
WSD
MULTI-WORD EXPRESSIONS
RUSSIAN NATIONAL CORPUS
SEMANTIC ANNOTATION
 
Описание Задачу снятия лексико-семантической омонимии (word-sense disambiguation) [Hirst 1986; Ide, Veronis 2002; Stevenson 2003 и др.] в семантически размеченных текстах предлагается решать с помощью поверхностных фильтров, или жестких правил-шаблонов (Weiss 1973). Эти правила дают наибольшую точность результатов, но в то же время считаются наиболее трудоемкими. Наш метод комбинирует автоматическое построение БД высокочастотных устойчивых коллокаций с их последующим (полу)ручным аннотированием. В качестве исходного материала выбран корпус публицистики, поскольку в таких текстах особенно велика доля языковых штампов (вступить в силу, уровень жизни и т. д.). В настоящее время построена система фильтров, основанная на 4500 частотных устойчивых сочетаниях слов. Эксперименты по применению поверхностных фильтров для разных подкорпусов показывают уменьшение омонимии от 3,3 до 6%.
This report presents a method of word sense disambiguation [Hirst 1986; Ide, Veronis 2002; Stevenson 2003 etc.] that uses shallow rules, or rigid patterns (Weiss 1973). These rules provide the highest degree of accuracy but at the same time they are considered to be most labour-concuming. We explore the method of automatic compiling of the high-frequency stable collocations database combined with its subsequent (half)manual annotating. The corpus of mass media text serves as a source of our investigation, because the portion of stock phrases as vstupit’ v silu ‘join into force’, uroven’ zhizni ‘standard of living’ is particularly great in news, newspapers and journals. At present, the system of 4500 shallow rules is constructed. Our experiments on applying shallow rules to various subcorpora show that semantic ambiguity is reduced from 3,3 до 6%.
 
Дата 2008-11-20T10:58:51Z
2008-11-20T10:58:51Z
2005
 
Тип Article
Journal article (info:eu-repo/semantics/article)
Published version (info:eu-repo/semantics/publishedVersion)
 
Идентификатор Кобрицов Б. П. Снятие лексико-семантической омонимии в новостных и газетно-журнальных текстах: поверхностные фильтры и статистическая оценка / Б. П. Кобрицов, О. Н. Ляшевская, О. Ю. Шеманаева // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 38-57.
http://elar.urfu.ru/handle/10995/1388
 
Язык ru
 
Связанные ресурсы Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005
 
Формат 344984 bytes
application/pdf
 
Издатель б. и.