Надкорпусные базы данных как инструмент многоаспектного аннотирования параллельных текстов
1. Зачем нужны надкорпусные базы данных?
Существующие в компьютерной лингвистике средства аннотирования текстов корпусов ориентированы на разметку языковых единиц (грамматических конструкций, лексических единиц, других языковых объектов или явлений) только одной исследуемой категории. Например, Penn Discourse Treebank (PDTB - http://www.seas.upenn.edu/˜pdtb) предназначен для аннотирования дискурсивных отношений и их аргументов как внутри предложения, так и между предложениями. С помощью PDTB проведено аннотирование текстов из Wall Street Journal corpus, объем которых превышает один миллион словоупотреблений (см. работы [IV], [V] из списка «Использованная литература» в разделе сайта «Публикации»).
Еще одним примером лингвистических ресурсов, в которых встречаются средства аннотирования, являются специализированные типологические базы данных (ТБД), позволяющие создавать и сохранять структурированную аннотацию о реализации того или иного языкового явления. При этом, в отличие от PDTB, ТБД не позволяют делать статистически подтвержденные выводы, поскольку они формируются в результате целенаправленной выборки отдельных интересующих исследователей примеров. Это оправдано, когда поставлена задача проиллюстрировать те или иные языковые явления примерами. Однако часто требуется не только найти примеры, но и оценить уровень частотности определенных языковых явлений в некоторой совокупности текстов корпуса или в корпусе в целом. В такой ситуации возникает необходимость в разработке средств и технологий информатики, позволяющих аннотировать исследуемые языковые единицы и их контексты во всех отобранных текстах, т. е. аннотируется каждый найденный исследуемый языковой объект (явление) или их представительная выборка. Такие средства аннотирования, созданные в виде баз данных, являются в некоторой степени "продолжением" корпуса или "надстройкой" над ним (см. работу [7] в разделе «Публикации»). Эти базы данных (БД) было предложено называть надкорпусными.
Надкорпусные базы данных (НБД) позволяют аннотировать в текстах одного и того же параллельного корпуса языковые единицы разных категорий. Иначе говоря, с текстами одного и того же корпуса одновременно могут работать несколько НБД, каждая из которых адаптирована к исследованию языковых единиц одной категории (глагольные конструкции, лингвоспецифичные слова, коннекторы и т.д.). При этом НБД обеспечивают не только многоаспектное аннотирование текстов корпуса, но и контрастивный анализ исследуемых языковых единиц для текстов параллельных корпусов на двух или нескольких языках. Кроме контрастивного анализа переводов, выполненных профессиональными переводчиками, НБД позволяют аннотировать машинный перевод исходного текста и сопоставлять его с профессиональными переводами.
Логическим элементом первой НБД, созданной для исследования глагольных конструкций, является переводное соответствие, то есть двуязычный кортеж, включающий глагольную форму оригинала и ее функционально эквивалентный фрагмент в тексте одного или нескольких переводов исходного текста. При этом каждой глагольной форме присвоены несколько рубрик фасетной классификации, ориентированной на исследование только глагольных конструкций.
НБД формировались в рамках выполненных и продолжающихся проектов, поддержанных государственными научными фондами РФ, Швейцарии. Исполнители этих проектов указаны в разделе сайта «Участники проектов». Статьи с описанием их результатов указаны в списке «Публикации участников проектов» в разделе сайта «Публикации».
Разработаны НБД для исследования следующих языковых единиц русского языка:
- личные глагольные конструкции,
- лингвоспецифичные слова,
- безличные конструкции,
- коннекторы.
НБД коннекторов состоит из нескольких разделов, ориентированных на решение следующих лингвистических задач:
- контрастивный анализ переводов коннекторов, выполненных профессиональными переводчиками,
- контрастивный анализ машинных переводов коннекторов.
На сайте каждый раздел НБД коннекторов представлен как отдельная база данных.
Основное отличие между разными НБД обусловлено решаемыми лингвистическими задачами, что проявляется в составе признаков фасетных классификаций, используемых при аннотировании, и шаблонах поиска исследуемых языковых единиц (см. работу [5] в разделе «Публикации»). На 1 августа 2016 года на сайте были размещены несколько тысяч примеров аннотированных личных глагольных конструкций, лингвоспецифичных слов русского языка и их функционально эквивалентных фрагментов на французском языке. Примеры аннотирования коннекторов и безличных конструкций планируется разместить на сайте в течение ближайших двух лет.
Фрагмент НБД русских личных глагольных форм и их французских эквивалентов, размещенный на сайте, включает около 5 тыс. аннотированных переводных соответствий в виде кортежей и оснащен двуязычным лексико-грамматическим поисковым интерфейсом, который позволяет искать интересующие пользователя формы, задавая различные сочетания грамматических признаков и/или лексики для русских глагольных конструкций и соответствующих им функционально эквивалентных фрагментов на французском языке, а также получать информацию о частотности этих соответствий.
2. Надкорпусная БД коннекторов
Аннотирование первых нескольких тысяч примеров употребления коннекторов и их переводных соответствий показало, что сопоставительное описание системы коннекторов русского и французского языков, выполненное на основе НБД, является более эффективным, чем исследование, проведенное на основе выборки отдельных примеров, как это было сделано в работе (см. работу [II] в разделе «Публикации»). Первые данные, полученные в результате формирования НБД коннекторов, уже позволяют уточнить некоторые положения, сформулированные в предыдущих исследованиях.
Так, например, анализ формальных свойств коннекторов, имеющих высокую степень варьирования – возможность, которую предоставляет система аннотирования, разработанная для параллельных текстов НБД, – позволяет заметить, что некоторые сочетания особенно частотны в русском языке (например, да еще, да притом, да и и др.), причем статус таких многокомпонентных единиц в системе русского языка не вполне ясен. Статистические данные, которые предоставляет НБД с параллельными текстами общим объемом более 2,5 миллионов словосочетаний, а также анализ функционально эквивалентных коннекторов во французском языке должны позволить решить эту теоретическую проблему. Кроме того, представительные статистические данные, полученные в результате обработки нескольких тысяч переводных соответствий для нескольких сотен коннекторов русского языка, станут основой для создания универсальной классификации логико-семантических отношений, которая не зависит от языка их выражения, а также определения их прототипических показателей в русском, французском и итальянском языках. Таковы лишь некоторые из преимуществ НБД коннекторов по сравнению с другими лингвистическими информационными ресурсами.
3. Надкорпусная БД лингвоспецифичных единиц русского языка
НБД лингвоспецифичных единиц русского языка (НБД ЛСЕ) была спроектирована в ходе выполнения проекта по гранту РФФИ «Контрастивное корпусное исследование специфических черт семантической системы русского языка». Входом этой НБД является двуязычный кортеж вида «некоторый релевантный фрагмент текста, содержащий лингвоспецифичную единицу – функционально-эквивалентный фрагмент текста перевода». Множество тестируемых лингвоспецифичных единиц было сформировано заранее. НБД ЛСЕ является эффективным инструментом лингвистического анализа, так как позволяет оценить реальные отношения переводной эквивалентности лингвоспецифичных слов и получить их статистическую оценку, оценить меру лингвоспецифичности языковой единицы на основании квантитативного анализа (см. работу [8] в разделе «Публикации»).
В нашем исследовании применяется унидирекциональный метод контрастивного анализа. Он основан на том, что перевод некоторой лексической единицы русского языка рассматривается как источник сведений о ее семантике. Причем в этих целях используется как прямой, так и обратный перевод: соответственно, условия появления интересующего нас слова в переводе на русский язык рассматриваются в качестве свидетельства о семантике анализируемой единицы русского языка. Тем самым сопоставление двух языков является не целью, а лишь инструментом анализа одного из них.
4. Заключение
Итак, НБД представляют собой инструмент многоаспектного аннотирования текстов параллельных корпусов, в том числе поливариантных. Они позволяют хранить релевантную информацию как о единицах текстов языка-оригинала и языка перевода, так и о результатах контрастивного лингвистического анализа в виде формализованных аннотаций соответствий между конструкциями оригинального текста и их функционально эквивалентными фрагментами в одном или нескольких переводных текстах. При этом предметом контрастивного анализа могут быть как авторские переводы, так и машинные. Аннотации формируются лингвистами-экспертами в результате последовательной обработки языковых единиц.
В тех случаях, когда задачей обработки корпуса одновременно занимается несколько экспертов-лингвистов, что неизбежно при проведении масштабных проектов, НБД обеспечивают возможность интегрировать плоды их совместной работы, не говоря уже о возможности предоставить другим исследователям доступ и к полученным результатам, и ко всем использованным параллельным текстам, что значительно упрощает процессы верификации полученных результатов и позволяет многократно использовать созданный информационный ресурс в дальнейших исследованиях.