«Применение информационных технологий в организации процесса перевода»

История компьютерного перевода

Впервые мысль о возможности машинного перевода высказал Чарльз Бэббидж (1791-1871), разработавший в 1836-1848 гг. проект цифровой аналитической машины - механического прототипа электронных цифровых вычислительных машин, появившихся через 100 лет. Идея Ч. Бэббиджа состояла в том, что память объемом 1000 50-разрядных десятичных чисел (по 50 зубчатых колес в каждом регистре) можно использовать для хранения словарей. Ч. Бэббидж привел эту идею в качестве обоснования для запроса у английского правительства средств, необходимых для физического воплощения аналитической машины, которую ему так и не удалось построить (см. Апокин и др. Чарльз Бэббидж. М., 1981).

        1. Первичные импульсы в создании компьютерного переводчика

Фактически же история машинного перевода начинается с "Джорджтаунского эксперимента". В январе 1954 г. состоялась первая публичная демонстрация машинного перевода с русского языка на английский, осуществленного на машине ИБМ-701. Сообщение об этом событии было опубликовано в журнале Computers and Automation, 1954, № 2. А реферат этого сообщения, сделанный Д. Ю. Пановым, появился в РЖ ВИНИТИ "Математика", 1954, № 10: "Перевод с одного языка на другой при помощи машины: отчет о первом успешном испытании".

Это сообщение явилось толчком для начала работ по машинному переводу в СССР. Д. Ю. Панов, бывший тогда директором ВИНИТИ (в то время Института научной информации - ИНИ) привлек к работам по машинному переводу И. К. Бельскую, которая затем возглавила группу машинного перевода в ИТМ и ВТ АН СССР. Первый опыт перевода с английского языка на русский с помощью машины БЭСМ был получен уже к концу 1955 г. Программы для БЭСМ составляли Н. П. Трифонов и Л. Н. Королев, кандидатская диссертация которого была посвящена методам построения словарей для машинного перевода.

Другое направление работ возникло в Отделении прикладной математики Математического института АН СССР (ныне ИПМ им. М. В. Келдыша РАН) по инициативе А. А. Ляпунова. К работам по машинному переводу математических текстов с французского языка на русский он привлек О. С. Кулагину, аспирантку МИАН, своих учениц Т. Д. Вентцель и Н. Н. Рикко. С конца 1955 г. в этих работах принимала участие Т. Н. Молошная, которая затем приступила к самостоятельной работе над алгоритмом англо-русского перевода. А. А. Ляпунов и О. С. Кулагина свои представления об использовании вычислительных машин для перевода с одного языка на другой опубликовали в журнале "Природа",1955, № 8. Первые программы машинного перевода, разработанные этим коллективом, были реализованы на машине "Стрела".

Первое поколение систем машинного перевода базировалось на алгоритмах последовательного перевода "слово за словом", "фраза за фразой". Возможности таких систем определялись доступными размерами словарей, прямо зависящими от объема памяти компьютера. Перевод текста осуществлялся отдельными предложениями, смысловые связи между ними никак не учитывались. Такие системы называют системами прямого перевода. На смену им со временем пришли системы последующих поколений, в которых перевод от языка к языку осуществлялся на уровне синтаксических структур. В алгоритмах перевода использовался набор операций, позволяющий путем анализа переводимого предложения построить его синтаксическую структуру по правилам грамматики языка входного предложения (так же, как учат детей языку в средней школе), а затем преобразовать ее в синтаксическую структуру выходного предложения и синтезировать выходное предложение, подставляя нужные слова из словаря. Такие системы называются Т-системами (Т - от английского слова "transfer - преобразование").

Наиболее совершенным считается подход к построению системмашинного перевода на основе получения некоторого, независимого от языков, смыслового представления входного предложения путем его семантического анализа. Затем производится синтез выходного предложения по полученному смысловому представлению. Такие системы называют И-системами (И - от слова "интерлингва"). Считается, что следующие поколения систем машинного перевода будут относиться к классу И-систем.

А. А. Ляпунов с самого начала работ по машинному переводу говорил о переводе путем извлечения смысла переводимого текста и его представления на другом языке. Однако такая постановка проблемы перевода оказалась в то время преждевременной. Более того, она не решена в общем виде мировой информатикой и в настоящее время, несмотря на усилия, предпринимавшиеся Международной федерацией IFIP - мировым сообществом ученых в области обработки информации. Однако многие частные результаты, связанные с семантическим анализом текстов, были получены и опубликованы в трудах IFIP.

        1. Статус компьютерной лингвистики

Первый опыт создания программ машинного перевода показал, что необходимо решать эти задачи постепенно и по частям. Слишком много трудностей и неясностей было в том, как нужно формализовать и строить алгоритмы для работы с текстами, какие словари надо вводить в машину, какие лингвистические закономерности следует использовать при машинном переводе и каковы вообще эти закономерности.

Выяснилось, что традиционная лингвистика не располагает ни фактическим материалом, ни идеями и представлениями, нужными для построения систем машинного перевода, которые использовали бы смысл переводимого текста.

Традиционная лингвистика не могла дать исходные представления не только в части семантики, но и в части синтаксиса. Ни для одного языка в то время не существовало перечней синтаксических конструкций, не были изучены условия их сочетаемости и взаимозаменяемости, не были разработаны правила построения крупных единиц синтаксической структуры из более мелких. В сущности ни на один вопрос, поставленный в связи с построением систем машинного перевода, традиционная лингвистика в 50-х годах не могла дать ответа.

Потребность в создании теоретических основ машинного перевода привела к формированию нового направления в лингвистике, называемого структурной, прикладной, математической лингвистикой. Формирование этого направления в СССР относится ко второй половине 50-х годов. Ведущую роль в нем сыграли математики А. А. Ляпунов, В. А. Успенский, (ученик А. Н. Колмогорова), О. С. Кулагина, лингвисты В. Ю. Розенцвейг, П. С. Кузнецов, А. А. Реформатский, И. А. Мельчук, В. В. Иванов.

6 мая 1960 г. было принято Постановление Президиума АН СССР "О развитии структурных и математических методов исследования языка", во исполнение которого были созданы подразделения по структурной лингвистике в Институте языкознания, Институте русского языка АН СССР. В Постановлении Президиума АН СССР отмечалось, что "недостаточное развитие теоретических исследований в области структурных и математических методов в лингвистических учреждениях тормозит практически важные работы по теории и практике машинного перевода, построению информационных языков и информационных машин, логической семантике и другим приложениям языкознания, разрабатываемым в настоящее время в ряде технических и математических научно-исследовательских институтов". С 1960 г. началась подготовка кадров в области автоматической переработки текстов на филологическом факультете МГУ, в Ленинградском и Новосибирском университетах, МГПИИЯ. Под математической лингвистикой понималось изучение языка как абстрактной знаковой системы с целью построения теоретической основы машинного перевода и создания конкретных алгоритмов перевода. В таком понимании математическая лингвистика составляла часть семиотики - общей теории знаковых систем.

Задача аксиоматизации лингвистики была выдвинута одним из виднейших лингвистов московской школы П. С. Кузнецовым как задача формализации грамматики, восходящая к идеям выдающегося русского языковеда Ф. Ф. Фортунатова (1848-1914). Исследованию формальной теории грамматик, была посвящена диссертация О. С. Кулагиной, выполненная под руководством А. А. Ляпунова.

Заметим, что в те же годы формальная теория грамматик развивалась в США в трудах Н. Хомского, ставших классическими для области искусственных языков, в частности языков программирования. Двадцатилетие (1956-1976) один из основателей направления математик В. А. Успенский в своих воспоминаниях назвал "серебряным веком" структурной, прикладной и математической лингвистики в СССР (видимо, по аналогии с "серебряным веком" русской поэзии). В 70-х годах разработку основ технологии машинного перевода продолжила группа специалистов в ВИНИТИ под руководством профессора Г. Г. Белоногова. В результате в 1993 г. была создана промышленная версия системы RETRANS фразеологического машинного перевода с русского языка на английский и обратно, которая применялась в министерствах обороны, путей сообщения, науки и технологий, а также во ВНТИЦ.

Практическое применение принципов смыслового анализа текстов потребовалось при создании систем машинного перевода с иероглифических языков (китайского, японского и др.). Вопросы создания таких систем были разработаны в диссертации В. М. Зелко в 80-х годах.

        1. Современные программы компьютерного перевода

Первые коммерческие продукты машинного перевода, нашедшие практическое использование, появились в середине 80-х годов. Они были реализованы на персональных компьютерах и являлись системами прямого перевода, возможности которых базировались на огромных (по сравнению с первыми системами) словарях, а не на умении анализировать и синтезировать тексты.

Однопользовательская "коробочная" версия продукта Retrans Vista фирмы "Виста текнолоджиз" предназначена для автоматизированного перевода текстов с русского языка на английский и обратно. В ней использованы оригинальные алгоритмы сжатия словарных баз и поиска переводных эквивалентов, позволяющих транслировать "на лету" не только фрагменты текста, импортируемые из текстового редактора MS Word, но и Web-страницы.

В словарях Retrans Vista хранятся миллионы понятий, к которым относятся не только традиционные устойчивые фразеологические обороты, но, прежде всего, словосочетания, используемые в повседневной речи. Кроме того, есть программа концептуального анализа, автоматически выделяющая из текста новые словосочетания и включающая их в словарь. Основные словари системы Retrans Vista содержат термины и фразеологические единицы по естественным и техническим наукам, экономике, бизнесу и политике. Объем политематического машинного словаря - около 3,4 млн. слов (1,8 млн. в русско-английской части, 1,6 млн. - в англо-русской), причем 20% из них являются словами, а 80% - устойчивыми словосочетаниями со средней "длиной" в 2,2 слова.

Фирма ПРОМТ (/rus1/news/news.htm) разработала и поставляет Интернет-переводчик PROMT Internet Translation Server, обеспечивающий перевод "на лету" Web-страниц, запросов к поисковым системам или к базам данных, представленным в Интернете.

Модуль перевода PROMT Internet встраивается в браузер Microsoft Internet Explorer, образуя средство для синхронного перевода Web-страниц Web View. При этом можно устанавливать для перевода различные языковые пары: английский - русский; английский - немецкий; английский - испанский; французский - английский; французский - немецкий.

С практической точки зрения, имея в виду качество результирующего текста и его соответствие исходному, программы машинного перевода подразделяют на три категории:

  • полностью автоматический перевод;

  • автоматизированный машинный перевод при участии человека;

  • перевод, осуществляемый человеком с использованием компьютера.

Программы машинного перевода первой из названных категорий являются делом далекого будущего, поскольку в общем виде не решены проблемы автоматического понимания, перевода и синтеза текстов.

Программы второй категории разработчики называют МТ-программы (от Machine translation - машинный перевод). Реально автоматизированный (с участием человека) машинный перевод возможен только в условиях искусственно ограниченного, как по словарному запасу, так и по грамматике, языка.

В качестве реального успешного проекта МТ-программы часто называют немецкую систему Meteo, выполняющую перевод метеопрогнозов с французского языка на английский и обратно.

К МТ-программам относятся и продукты машинного перевода фирмы ПРОМТ, упомянутые выше, в том числе программы для просмотра содержимого Web-страниц в сети Интернет с целью поиска нужного документа.

Программы третьей категории разработчики называют ТМ-программы (от translation memory - память перевода). Эту категорию программ применяют профессиональные переводчики, осознавшие выигрыш от автоматизации их работы с помощью компьютеров. Основу ТМ-программ составляют специализированные словари, соответствующие тематике переводимого текста. При переводе используются конструкции и значения слов и устойчивых словосочетаний, выбранные профессиональным переводчиком и занесенные в словари системы, а полученный текст подвергается интенсивному редактированию. Словари и уже переведенные фрагменты текстов, запоминаемые в ТМ-системе, могут быть повторно использованы в больших коллективных проектах, ими можно обмениваться. Поэтому ТМ-системы представляют собой важное средство автоматизации труда профессиональных переводчиков.

Часто ТМ-программы используют в сочетании с МТ-программами. Наиболее популярным в мире ТМ-инструментарием является Translation's Workbench фирмы Trados (для краткости часто также называемый Trados).

История машинного перевода насчитывает немногим более 50 лет. За это время сменилось несколько поколений систем машинного перевода - от первых программ, использовавших ограниченные ресурсы универсальных компьютеров первого поколения до современных коммерческих продуктов, использующих мощные ресурсы серверов и персональных компьютеров, включая ПК, в которых можно размещать карманные словари, а также компьютерные сети.

По мере снятия технических ограничений, налагаемых возможностями компьютеров по производительности и памяти, становилось ясно, что проблема перевода текста с одного естественного языка на другой принципиально не сводится только к перекодировке слов. Для преодоления основных трудностей проблемы машинного перевода должны быть решены задачи автоматизированного представления контекста, смыслового содержания переводимого текста, знаний о понятиях предметной области, к которой относится переводимый текст.

Вместе с тем современные достижения в области вычислительной техники, информационных технологий и технологий телекоммуникаций позволяют выдвигать на перспективу практические задачи поиска и выбора требуемой информации, представленной на разных языках, из разнородных источников, находящихся в корпоративных и глобальных информационно-телекоммуникационных сетях.

В качестве примера такой перспективной задачи можно привести системы запросов к информационным ресурсам сетей, например к базам данных, с возможностью формирования ответов по телефону в виде устной речи. Для этого требуется сочетание систем машинного перевода с системами распознавания и синтеза речи.

  1. «Применение информационных технологий в организации процесса перевода» (2)

    Документ
    В процессе работы над этими проектами выяснилось, что традиционная лингвистика не располагает ни фактическим материалом, ни идеями и представлениями, нужными для построения систем машинного перевода, которые использовали бы смысл переводимого текста.
  2. Применение информационных технологий в преподавании естественнонаучных дисциплин

    Документ
    Государственное образовательное учреждение среднего профессионального образования Ростовской области «Сальский индустриальный техникум» (ГОУ СПО РО СИТ)
  3. Информационные технологии в социально-культурном сервисе и туризме

    Документ
    - возможности современных информационных технологий и владеть методами сбора, хранения и обработки данных при подготовке решений в социально-культурном сервисе и туризме;
  4. Указатель «Новые информационные технологии в учебном процессе»

    Указатель
    Образование сегодня стоит перед необходимостью глубоких перемен, отражающих переживаемую современным обществом глобальную социокультурную трансформацию.
  5. «Применение информационных технологий при исследовании современной немецкой литературы»

    Реферат
    В конце ХХ в. человечество вступило в стадию развития, получившую название постиндустриальное или информационное общество, а тезис известного исследователя массовых коммуникаций Г.
  6. «Применение информационных технологий в банковской сфере» (1)

    Документ
    В настоящее время банковская деятельность в Республике Беларусь находится в стадии глобальных изменений: с одной стороны, это связано с радикальным преобразованием экономической системы, а с другой – внедрением новых информационных
  7. «Применение информационных технологий в банковской сфере» (2)

    Реферат
    В настоящее время банковская деятельность в мире развивается быстрыми темпами, однако в Республике Беларусь она находится в стадии первоначального развития.
  8. «Применение информационных технологий в банковской сфере» (3)

    Реферат
    POS-терминал (электронный терминал) - электронное устройство, которое позволяет считывать информацию с магнитной полосы или чипа пластиковой карты. Используется для совершения платежей в безналичной форме в предприятиях торговли и
  9. «Применение информационных технологий в деятельности патентного органа»

    Документ
    Развитие информационных технологий обусловило стремительный рост значимости интеллектуальной собственности как объекта экономических отношений. Система охраны интеллектуальной собственности является в условиях утверждающейся экономики

Другие похожие документы..