Технологии автоматизированного перевода специализированных текстов

Технологии автоматизированного перевода специализированных текстов

И.Г. Тихонова

ООО «ПРОМТ»

Санкт-Петербург

Технология автоматизированного перевода текста хорошо известна и, на первый взгляд, довольно проста. Существующие программы перевода вполне пригодны для использования, они переводят моментально и очень дешево, или вовсе бесплатно. Web-страница или небольшой текст могут быть переведены за считанные секунды, возможны различные комбинации языков. Программа берет исходный текст и автоматически генерирует соответствующий ему на желаемом языке, используя особые правила перевода грамматических структур. Технология автоматизированного перевода специализированного текста в целом аналогична, но при выполнении тех же шагов без настройки системы машинного перевода полученный перевод может быть неудовлетворительным и потребует значительного времени на редактирование.

Под специализированным текстом здесь подразумеваются, например, тексты научных публикаций различных дисциплинарных направлений, юридических документов, искусствоведческих исследований, административного делопроизводства и переписки и т.д. Особенности таких текстов с точки зрения систем машинного перевода могут быть сведены к следующему:

– незнакомые слова, употребляемые только в данной узкой области (термины);

– слова стандартной лексики, имеющие специализированный перевод в данном дисциплинарном направлении;

– конструкции и словосочетания, характерные для данной области знания и использования.

Система машинного перевода PROMT позволяет учесть указанные особенности, предлагая пользователю целый ряд дополнительных настроек, позволяющих улучшить качество перевода. При переводе текста анализируется не только содержательная часть документа, но и форматная информация, что дает возможность полностью сохранить структуру документа (стили форматирования, заголовки, разделение на части и т.д.). Это особенно важно при переводе документов сложной структуры, т.к. существенно сокращает время редактирования выходного текста.

При первичном переводе специализированного текста система самостоятельно выявляет незнакомые слова, отсутствующие в генеральном словаре. Эти слова по усмотрению пользователя могут быть сразу или позже занесены в пользовательский словарь.

Возможность создания и использования пользовательских словарей существенно влияет на качество перевода. Вы можете создать собственный пользовательский словарь и ориентировать его на определенную предметную область. Система позволяет добавлять в словарь новые слова и словосочетания, изменять их переводы, имеющиеся в других словарях, и вводить дополнительную грамматическую информацию. Для модификации словаря необходимы базовые знания о грамматике входного и выходного языков (представление о частях речи, правилах изменения слов и т.д.). К системе могут быть подключено одновременно несколько пользовательских словарей, кроме того, их можно создавать прямо в процессе работы над переводом. Объем пользовательского словаря не лимитирован (кроме аппаратных ограничений — недостаток памяти). Для быстрого создания пользовательского словаря удобно использовать предварительно подготовленный текстовый файл, состоящий из столбца слов (словосочетаний) и их переводов. Редактор словарей позволяет перенести информацию из этого файла в требуемый словарь.

Для нескольких подключенных словарей устанавливается приоритет, т.е. указывается словарь, в котором перевод слова будет главным, и в дальнейшем система будет сразу использовать именно это значение для перевода вашего текста.Этот способ в некоторых случаях является наиболее удобным для настройки системы на более качественный перевод.

Для любого текста могут быть указаны слова, не требующие перевода, — зарезервированные слова. Чаще всего к ним относятся имена собственные, иноязычные вкрапления и сочетания, специальные наименования и т.п. Резервирование имен собственных особенно важно в тех случаях, когда они совпадают со значимыми словами (например, при отсутствии резервирования фамилия «Smith» будет переведена на русский как «Кузнец»). Для зарезервированных слов существует возможность транслитерации — записи слов одного языка буквами другого языка (фамилия ‘Smith’ после транслитерации выглядит как «Смит»). Предварительная подготовка списка зарезервированных слов позволяет существенно сократить процесс редактирования перевода.

В настоящее время производители систем автоматизированного перевода все большее внимание уделяют интеграции двух основных технологий — системы машинного перевода (MT) и системы класса Translation Memory (ТМ), такая интеграция реализована и в системе перевода PROMT. Перевод в системе класса Translation Memory опирается не на словари, а на базы переводов. В отличие от словарей, которые содержат перевод слов или словосочетаний, база переводов содержит отдельные сегменты текста (предложения, конструкции) вместе с их переводами. В процессе автоматического перевода программа сравнивает сегмент исходного текста с сегментами из подключенных баз переводов. В случае заданного процента совпадения (включая знаки препинания и стили форматирования текста) перевод фрагмента текста (сегмента) подставляется из базы переводов, а не отправляется на машинный перевод. Базы переводов создаются в специальной программе, переводы сегментов могут быть введены вручную, с использованием машинного перевода, а также на основе параллельных текстов — текстах одного содержания на двух языках. К системе автоматизированного перевода может быть подключено несколько баз переводов. Согласно алгоритму перевода, система сначала анализирует базы перевода и только при отсутствии вариантов использует машинный перевод. Использование такого рода интегрированной технологии особенно эффективно в областях, связанных с переводом большого числа однотипных документов. Компания PROMT предлагает интеграцию машинного перевода с собственной технологией Translation Memory и с технологий наиболее известного производителя систем Translation Memory — TRADOS.

Совокупность настроек системы сохраняется и может быть неоднократно использована для работы с текущим документом и с другими, загружаясь автоматически.

Система автоматизированного перевода легко интегрируется и может эффективно использоваться в процессах электронного документооборота и On-line перевода в Intranet сети организации или глобальной сети Интернет.

Настройка системы автоматизированного перевода на определенную предметную область требует некоторых усилий, но в конечном итоге пользователь получает мощный инструмент лингвистической поддержки профессиональной деятельности.

Опубликовано:
Тихонова И.Г. Технологии автоматизированного перевода специализированных текстов // Технологии информационного общества — Интернет и современное общество: труды VII Всероссийской объединенной конференции. Санкт-Петербург, 10 – 12 ноября 2004 г. — СПб.: Изд-во Филологического ф-та СПбГУ, 2004. С. 72 – 74.
ISBN 5-8465-0294-6
  1. Рабочая программа дисциплины «перевод экономического текста» (1)

    Рабочая программа
    Целью обучения в рамках данного курса является формирование у студентов практических навыков двустороннего перевода специализированных текстов экономической тематики, создание систематического представления о способах, средствах и
  2. Рабочая программа дисциплины «перевод экономического текста» (2)

    Рабочая программа
    Целью обучения в рамках данного курса является формирование у студентов практических навыков двустороннего перевода специализированных текстов экономической тематики, создание систематического представления о способах, средствах и
  3. Учебно-методическое пособие по курсу «Технологии автоматизированной обработки учетно-аналитической информации» предназначено для студентов специальности «Бухгалтерский учет, анализ и аудит».

    Учебно-методическое пособие
    В современных условиях развития экономики, перехода к рыночным отношениям происходят качественные изменения в организации и ведении бухгалтерского учета, анализа и аудита.
  4. I глава «Теоретические основы машинного перевода»

    Анализ
    Переводом называется процесс и результат создания на основе исходного текста на одном языке равноценного ему в коммуникативном отношении текста на другом языке.
  5. Вводная часть курса лекций «Проектирование учебного курса в технологии автоматизированного управления познавательной деятельностью слушателей» Составитель: Ю. В. Карякин, доц каф. Ппо, зав. Оио

    Реферат
    Одним из основных приёмов при проектировании учебного курса в технологии автоматизированного управления познавательной деятельностью слушателей является определение понятий, входящих в содержание проектируемого курса, поэтому нам важно,
  6. «Технологии Microsoft в теории и практике программирования»

    Тезисы
    Современный уровень развития компьютерной индустрии и все возрастающее проникновение информационных технологий в повседневную жизнь общества предъявляют все большие требования к ИТ-специалистам – они должны обладать большим объемом
  7. Задачи по обработке символьной информации, связанные созданием и редактирование текстов

    Анализ
    Область применения компьютеров для решения разнообразных задач по обработке информации быстро расширяется. Можно выделить три вида информации и соответственно три класса задач,
  8. Информационные технологии управления (4)

    Документ
    Предназначено для студентов специальности «Государственное и муниципальное управление», аспирантов, преподавателей и всех интересующихся современными информационными технологиями управления социально-экономическими объектами.
  9. Информационные технологии управления (5)

    Документ
    Рассмотрены информационные технологии, применяемые в сфере государственного и муниципального управления, в том числе технологии баз данных, текстового поиска, Web-технологии и другие современные технологии.

Другие похожие документы..