|
RUSSIAN SYNTAX TREE BANK О банке синтаксических деревьев
RSTB
– банк синтаксических деревьев. В нем представлены результаты разбора 64800
предложений (1 млн словоупотреблений) тремя
автоматическими системами синтаксического анализа: SyntAtom,
SemSin, Russian Malt. В корпус
вошли предложения из текстов разных жанров, включая научную и
художественную литературу, а также тексты новостных сообщений. На
сайте также представлено 800 предложений из этого корпуса, выбранных
случайным образом и размеченных вручную. Для создания эталонного корпуса из
тестового корпуса было выбрано 800 предложений случайным образом. Сравнение
разборов систем с разборами, представленными в эталонном корпусе можно
посмотреть здесь. |
|
|
Все
три системы используют синтаксическое представление в виде деревьев
зависимостей. Узлами дерева являются слова предложения. Направленными
стрелками соединены два слова, находящиеся в отношении синтаксической связи.
Направление стрелок – от главного к зависимому.
Сохранены исходные названия синтаксических связей и морфологические пометы
словоформ, используемые в соответствующих системах. |
|
|
Сведения о представленных системах синтаксического анализа
1.
Система SyntAutom
Авторы: Антонова
А. А, Мисюрев А. В. – компания Яндекс С системой можно ознакомиться по статье 1)
Антонова
А. А., Мисюрев А. В. “Об использовании
синтаксического анализатора Cognitive Dwarf 2.0” // Труды ИСА РАН. Т 38, 2008, С 91-109. Режим доступа: http://www.isa.ru/proceedings/images/documents/2008-38/91-109.pdf |
|
|
2.
Система SemSin
Авторы:
Боярский К. К. (СПб НИУ ИТМО), Каневский Е. А.
(СПб ЭМИ РАН). С системой можно ознакомиться по статьям: 1)
Разбиение
текста на предложения. Дискуссия теоретиков и практиков. Научно-практический
журнал, 2010 №1(3). С. 135-137. 2)
Некоторые
аспекты построения семантико-синтаксического анализатора текста. Труды
международной конференции «Корпусная лингвистика – 2011», 27–29 июня 2011 г.,
Санкт-Петербург, СПбГУ. С. 181-186. 3)
Язык
правил для построения синтаксического дерева. Интернет и современное
общество: Материалы XIV Всероссийской объединенной конференции «Интернет и
современное общество». СПб. – СПб.: ООО «МультиПроджектСистемСервис», 2011. С. 233–237. |
|
|
3.
Система Russian Malt
Авторы: Шаров С. А., Нивре Й. Список типов синтаксических связей и обучение анализатора основаны на размеченном синтаксическом корпусе ИППИ РАН С системой можно ознакомиться по статье: Serge Sharoff, Joakim Nivre, (2011) The proper place of men and machines in language technology: Processing Russian
without any linguistic knowledge. Dialog
2011. Режим доступа: http://corpus.leeds.ac.uk/serge/publications/2011-dialog.pdf |
|
|
О ручной разметке
Ручная
разметка 800 предложений производилась двумя независимыми аннотаторами
в соответствии с инструкцией по ручной разметке. Инструкция была разработана
Е. Г. Соколовой в рамках курса по Автоматической обработке текста,
читаемого в Институте лингвистики РГГУ. С последней версией инструкции можно
ознакомиться здесь. |
|
|
Данный
ресурс, обеспечивающий сравнение разметки нескольких анализаторов, позволит
выявить наиболее надежно устанавливаемые синтаксические связи. Он также
позволит выявить наиболее сложные и проблемные места синтаксической разметки
для русского языка независимо от реализуемого в системе подхода. На нем можно
отработать технологию синтаксического поиска для корпуса большого объема,
выявить наиболее актуальные потребности пользователей, что касается
синтаксических запросов. Корпус позволит апробировать методы автоматического
или полуавтоматического исправления ошибок автоматических разметчиков. Ресурс
может быть использован для обучения в курсах «Автоматическая обработка
естественного языка» и «Общий синтаксис». |
|
|
При
сопоставлении результатов работы разных систем автоматического
синтаксического анализа были учтены данные относительно систем, принявших
участие в Форуме по “Оценке методов автоматического анализа текста”,
проходящем при поддержке международного семинара «Диалог».
(подробно о форуме см. http://www.dialog-21.ru/forum/actualtopics.aspx?bid=28, http://ru-eval.ru/. Основные
ссылки на синтаксически размеченные корпуса и зарубежный опыт проведения
мероприятий по оценке методов синтаксического анализа можно посмотреть здесь. |
|
|
|
|
|
Ресурс
создавался при поддержке программы Академии наук РФ «Корпусная лингвистика» |
|