Любчук Анна Ивановна ИССЛЕДОВАТЕЛЬСКИЕ И ОБРАЗОВАТЕЛЬНЫЕ ВОЗМОЖНОСТИ ПАРАЛЛЕЛЬНОГО КОРПУСА ДОКУМЕНТОВ ЕВРОСОЮЗА Брест, УО "Брестский государственный университет имени А.С. Пушкина"
На сегодняшний день развитию многоязычных ресурсов уделяется большое внимание. О важности этого направления можно судить по проведению ряда международных симпозиумов и конференций, специально посвященных многоязычным корпусам текстов. Здесь, в той или иной мере затрагиваются проблемы работы с многоязычными и параллельными корпусами текстов (ПКТ), их развитие. [1]
В настоящее время существует
множество самых разных корпусов текстов, некоторые из которых по объему
превышают 100 миллионов словоупотреблений, например, Британский
национальный корпус (British National Corpus), Банк английского языка (
Bank of English) [2] или Национальный корпус русского языка, объемом
более 300 млн. слов. Использование параллельных корпусов текстов, дает реальные возможности изучения использующихся в переводческой практике эквивалентов, что может поднять на новый уровень переводные словари и обучение переводу. Следует отметить, однако, что параллельные корпуса текстов вовсе не отменяют, а лишь дополняют традиционные источники данных. Другое важное применение параллельных корпусов текстов – это сравнение исходных текстов и переводов. Например, появляется возможность исследования стратегий, которыми пользуется переводчик для разрешения различных грамматических и стилистических несоответствий языка оригинала и языка перевода. Параллельные корпуса текстов представляют определенный интерес как материал для исследования языка переводных текстов и их отличий от языка текстов, изначально написанных на данном языке. Не следует забывать и о важности направленных корпусов текстов для компьютерной лингвистики: они являются своего пода «испытательным полигоном» для «обкатки» различных программ, обработки естественного языка, в первую очередь - систем автоматизированного перевода. [4] Корпус параллельных документов - это тексты и их переводы, производящиеся вручную. Память переводов представляет собой сборник небольших текстовых сегментов и их переводов (называемые единицами трансляции, ЕТ). Эти ЕТ могут быть предложениями или частями предложения. База переводов используется как гарантия для переводчиков, что фрагменты текста уже переведены, и их не придется переводить снова. Примеры самых известных из них. 1. DGT-TM - это память переводов, то есть коллекция единиц трансляции (предложений и тому подобное), выпущенная в 2007 году, включала документы, опубликованные до 2006 года. Европейская комиссия Генерального директората по переводу (DGT) и Объединенный исследовательский центр (JRC) сделали доступной многоязычную память переводов (предложений и их перевод в стандартные TMX формат) для 23 официальных европейских языков Союза. В апреле 2012 года, была выпущена DGT-TM-2011 с содержанием данных с 2007 до 2010 год. С тех пор данные опубликовывались ежегодно (например, 2011 данные опубликованы в 2012 году с именем DGT-TM-2012). В то время как согласование между единицами трансляции и их переводами делались вручную для DGT-TM-2007, то начиная с DGT-TM-2011, все единицы трансляции согласовываются автоматически. Формат данных является одинаковым для всех версий. DGT Translation Memory в настоящее время доступна на 23 языках и основывается исключительно на L-серии Официального журнала ЕС – отделов законодательства. [5]
2.Acquis Communautaire (АС) – это
самый большой параллельный корпус в мире
1. болгарский; Фрагмент базы Acquis Communautaire.
EN: Articles 5 to 7 of this
Directive do not apply to containers for gases which Самое непосредственное влияние на acquis communautaire оказывало и продолжает оказывать расширение Европейского Союза. Это было особо заметно в рамках второго и третьего расширения, когда к ЕС присоединились Греция(1981), Португалия и Испания(1986), а также в рамках пятого расширения, когда к ЕС присоединилось сразу 10 новых государств - Венгрия, Кипр, Латвия, Литва, Мальта, Польша, Словакия, Словения, Чехия и Эстония (2004). Каждое новое расширение увеличивает объем acquis и придает ему все более оформленный вид. Так, в процессе пятого расширения (2007, Болгария и Румыния) acquis был поделен на 31 главу для упрощения процесса его понимания и переговоров с кандидатами на вступление. Чуть позже количество глав возросло до 35.[7] Несмотря на некоторое различие, и память переводов, и корпус параллельных текстов являются важными языковыми ресурсами, которые могут быть использованы для различных целей, в том числе: • подготовка автоматизированных систем статистического машинного перевода (SMT); [2] Однако следует учитывать, что работа даже с использованием возможностей информационных технологий (ИТ) в значительной степени остается работой творческой и не может быть полностью автоматизирована. В то же время, существуют возможности подготовки массивов текстов для анализа, одной из таких возможностей является формирование особых корпусов текстов, включающих параллельное представление исходных текстов, их машинных переводов и отредактированных переводов, согласованных с экспертами в конкретной области знаний. [1] • создание одноязычных или многоязычных лексических и семантических ресурсов, таких как словари и онтологии; [3] Современный подход к созданию словарей предполагает формирование и использование параллельного корпуса современных текстов, который может рассматриваться как база данных для решения не только исследовательских, но и практических лексикографических задач.[1] • создание и использование (в том числе, обучение использованию) специализированных систем обработки многоязычной информации, в частности, систем компьютерной поддержки обучения в условиях традиционного и открытого образования; [1] • проверка согласованности автоматического перевода; • тестирование и проведение оценочных испытаний программного обеспечения выравнивания (для предложений, слов и т.д.). [3] Параллельные корпуса являются полезными для всех типов межъязыковых исследований [2]: это могут быть исследования по межъязыковой идиоматичности (свойство единиц языка, состоящее в неразложимости их значений на значения единиц), энантиосемии (антонимия значений многозначных слов), системы классификации сложных наименований и так далее. Бурное развитие корпусной лингвистики, несомненно, связано с развитием информационных технологий, которые требуют колоссальных массивов данных для разработки и тестирования различных лингвистических утилит, то есть сервисных программ, входящих в состав больших пакетов. [4] Значение параллельного корпуса растет с его размером и с числом языков, для которых осуществляются переводы. Однако в то время, когда параллельный корпус содержит большое разнообразие одних языков, для других может быть крайне мал, или не существовать вообще. Законодательство ЕС является крупнейшим параллельным корпусом, принимая во внимание и его объем, и количество языков. Наиболее явное преимущество законодательства ЕС - кроме его свободного доступа - это число редких языковых пар (например, мальтийский-эстонский, словенский, финский, и т.д.). Что же касается образовательных и исследовательских возможностей, то благодаря своей специфике, Acquis в области науки и исследований не требует переноса в национальную правовую систему, а касается, прежде всего, создания эффективных систем надзора в области исследований. Реализация потенциала не связана с исполнением и применением правовых норм, а, скорее, с наличие необходимых условий для эффективного участия в этой деятельности. Эти условия зависят от многих факторов, таких как наличие необходимой инфраструктуры, эффективное функционирование сопричастных институтов и связей между ними, качества исследователей и их потенциал сотрудничества, и т.д. Кроме того, государственные и частные учреждения должны быть в состоянии предоставить необходимое количество денежных средств. Хорошо известно сотрудничество в области науки и технологий. Была создана сеть национальных контактных точек в каждой из стран-участников. Также были организованны необходимые финансовые и организационные условия для участия в программе ЕС. Для всех стран-кандидатов, усиление исследований, связанных с возможностями управления, так же как и укрепления научно-исследовательской инфраструктуры, необходимо для обеспечения более успешного участия в программе ЕС (реализация потенциала). В качестве примера можно рассматривать работу группу Optima Объединенного исследовательского центра (JRC) в Испре, Италия, которая попыталась определить документы, которые принадлежат периоду до н.э., загрузить и преобразовать их в формат XML. Болгарские и румынские документы были обработаны румынской Академии наук (http://www.racai.ro/ ). Вместо использования одного сводного языка, были согласованы все возможные комбинации (231) языковых пар в индивидуальном порядке, что весьма полезно для преобразования отношений между соответствиями предложений, которые часто различаются в зависимости от того, какие языковые пары используются. Для некоторых из документов, были доступны только предварительные переводы. Для онлайн-текстов на некоторых языках, было переведено только название, но текст отображается на английском языке. Инструмент для автоматического распознавания языка используется только для фильтрации текстов, которые отображаются как один язык, который на самом деле английский. Никакой ручной проверки проведено не было. Что касается образования и обучения, то они находятся по большей части в ведении стран-участников. Acquis communautaire в этой области состоит из Директивы 1977 (образование детей работников-мигрантов), подписанная в Брюсселе 25 июля 1977 г., программ действий, заключений, резолюций и деклараций. [8] AC и другие законодательные акты находятся в открытом доступе на веб-сайте Европейского Сообщества (http://ec.europa.eu/index_en.htm ). В качестве исследований, проведенных на материале русского языка, можно привести пример работы Института русского языка им. В.В. Виноградова РАН (Российская Академия Наук) (ИРЯ РАН). В рамках проекта «Создание и развитие параллельных русско-иноязычных корпусов в Национальном корпусе русского языка: славянские, романские и германские языки» (http://www.corpling-ran.ru/n1.html ), кроме украинско-русского и русско-украинского, был разработан параллельный корпус русско-английских текстов. В корпус были включены тексты, выбор которых был мотивирован в первую очередь их высоким литературным качеством, а также наличием квалифицированно выполненных переводов на русский и английский языки соответственно.
В англо-русский компонент
параллельного корпуса вошли произведения Э. Хемингуэя, «Снега
Килиманджаро»; «Старик и море»; «Прощай, оружие!»; «И восходит солнце»;
«По ком звонит колокол»; «8 рассказов» С. Кинга; У. Грума, «Форрест Гамп»;
К. Воннегута, «Фокус-покус»; «Бойня номер пять»; Дж. Голсуорси. «Собственник»
(часть Саги о Форсайтах); Т. Харриса, «Молчание ягнят»; Дж. Фаулза, «Коллекционер»;
Д. Брауна, «Код да Винчи»; Э. С. Гарднеа, «Дело смелой разведёнки»; Л.
Вайсбергера, «Дьявол носит «Прадо». Также была произведена подготовка и размещение в Интернете многоязычного параллельного корпуса. В корпус включено 9 текстов, представлено 26 языков (13 славянских и 12 неславянских). Тексты представлены в кодировке Unicode с сохранением орфографии каждого языка. Доступен поиск точных форм по всем языкам и грамматический поиск по 5 языкам – русскому, украинскому, белорусскому, английскому и немецкому. При подготовке учитывался опыт параллельных корпусов – Регенсбургского, Амстердамского, Пражского; производился обмен текстами, морфологической разметкой с Амстердамским и Регенсбургским корпусами[6]. Параллельные корпуса текстов представляются важными источниками данных, которые в итоге позволят поднять на качественно новый уровень как теоритические исследования в области переводоведения и прикладной лингвистики, так и эффективность практической деятельности, связанную с переводом.[1]
1. Беляева Л.Н. КОРПУС ПАРАЛЛЕЛЬНЫХ ТЕКСТОВ КАК БАЗА ДАННЫХ ПРИКЛАДНОЙ ЛЕКСИКОГРАФИИ [Электронный ресурс]. - Режим доступа: - http://project.phil.spbu.ru/corpora2011/Works2008/Belyaeva_31_39 - Дата доступа 25.12.2012 2. Rundell, Michael 1996: The corpus of future, and the future of the corpus. [Электронный ресурс]. - режим доступа: - http://www.cas.unt.edu/~jbarddal/corpus - Дата доступа: - 24.12.2012
3. JRC-Acquis [Электронный ресурс].
- Режим доступа: - http://ipsc.jrc.ec.europa.eu/index.php?id=198 – Дата
доступа: – 19.12.2012 5. DGT-Translation Memory [Электронный ресурс]. - Режим доступа: - http://ipsc.jrc.ec.europa.eu/?id=197 – Дата доступа: - 20.12.2012 6. Итоговый отчет о работе - Программа фундаментальных исследований Президиума РАН «Корпусная лингвистика», 2011 г. - [Электронный ресурс]. - Режим доступа: - http://www.corpling-ran.ru/files/I/dobrovolsky.pdf - Дата доступа: 29.12.2012 7. Особенности происхождения и содержание правовой категории «acquis communautaire» в праве Европейского Союза - [Электронный ресурс]. – Режим доступа: - http://www.alleuropa.ru/osobennosti-proischozhdeniya-i-soderzhanie-pravovoy-kategorii-acquis-communautaire-v-prave-evropeyskogo-soiuza – Дата доступа: 31.12.2012
8. Chapter 17 - Science and
Research – [Электронный ресурс]. - Режим доступа: - http://ec.europa.eu/enlargement/archives/enlargement_process/future_
|