Снятие лексико-семантической омонимии в новостных и газетно-журнальных текстах: поверхностные фильтры и статистическая оценка
Электронный научный архив УРФУ
Информация об архиве | Просмотр оригиналаПоле | Значение | |
Заглавие |
Снятие лексико-семантической омонимии в новостных и газетно-журнальных текстах: поверхностные фильтры и статистическая оценка
Word-sense disambiguation in mass media texts: shallow rules and statistic evaluation |
|
Автор |
Кобрицов, Б. П.
Ляшевская, О. Н. Шеманаева, О. Ю. |
|
Тематика |
ЛЕКСИКО-СЕМАНТИЧЕСКАЯ ОМОНИМИЯ
РАЗРЕШЕНИЕ НЕОДНОЗНАЧНОСТИ УСТОЙЧИВЫЕ КОЛЛОКАЦИИ НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА СЕМАНТИЧЕСКАЯ РАЗМЕТКА WORD-SENSE DISAMBIGUATION WSD MULTI-WORD EXPRESSIONS RUSSIAN NATIONAL CORPUS SEMANTIC ANNOTATION |
|
Описание |
Задачу снятия лексико-семантической омонимии (word-sense disambiguation) [Hirst 1986; Ide, Veronis 2002; Stevenson 2003 и др.] в семантически размеченных текстах предлагается решать с помощью поверхностных фильтров, или жестких правил-шаблонов (Weiss 1973). Эти правила дают наибольшую точность результатов, но в то же время считаются наиболее трудоемкими. Наш метод комбинирует автоматическое построение БД высокочастотных устойчивых коллокаций с их последующим (полу)ручным аннотированием. В качестве исходного материала выбран корпус публицистики, поскольку в таких текстах особенно велика доля языковых штампов (вступить в силу, уровень жизни и т. д.). В настоящее время построена система фильтров, основанная на 4500 частотных устойчивых сочетаниях слов. Эксперименты по применению поверхностных фильтров для разных подкорпусов показывают уменьшение омонимии от 3,3 до 6%.
This report presents a method of word sense disambiguation [Hirst 1986; Ide, Veronis 2002; Stevenson 2003 etc.] that uses shallow rules, or rigid patterns (Weiss 1973). These rules provide the highest degree of accuracy but at the same time they are considered to be most labour-concuming. We explore the method of automatic compiling of the high-frequency stable collocations database combined with its subsequent (half)manual annotating. The corpus of mass media text serves as a source of our investigation, because the portion of stock phrases as vstupit’ v silu ‘join into force’, uroven’ zhizni ‘standard of living’ is particularly great in news, newspapers and journals. At present, the system of 4500 shallow rules is constructed. Our experiments on applying shallow rules to various subcorpora show that semantic ambiguity is reduced from 3,3 до 6%. |
|
Дата |
2008-11-20T10:58:51Z
2008-11-20T10:58:51Z 2005 |
|
Тип |
Article
Journal article (info:eu-repo/semantics/article) Published version (info:eu-repo/semantics/publishedVersion) |
|
Идентификатор |
Кобрицов Б. П. Снятие лексико-семантической омонимии в новостных и газетно-журнальных текстах: поверхностные фильтры и статистическая оценка / Б. П. Кобрицов, О. Н. Ляшевская, О. Ю. Шеманаева // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 38-57.
http://elar.urfu.ru/handle/10995/1388 |
|
Язык |
ru
|
|
Связанные ресурсы |
Интернет-математика 2005: автоматическая обработка веб-данных. — М., 2005
|
|
Формат |
344984 bytes
application/pdf |
|
Издатель |
б. и.
|
|