Что такое «память перевода» (TM) и как она работает? Технология Translation Memory Программы для работы с памятью переводов.

В наш век стремительного развития информационных технологий и невиданного до сих пор тесного взаимодействия самых, казалось бы, отдалённых культур потребность в предоставлении быстрых и качественных переводческих услуг становится особенно актуальной. И не удивительно, что сфера письменного перевода , считавшаяся до недавнего времени территорией приложения исключительно человеческого интеллекта, с появлением уже первых компьютеров начала медленно, но заметно видоизменяться. И не могло быть иначе, ведь облегчение труда и постоянный поиск новых решений заложен в самой сути человека.

Как это часто бывает, технический прогресс в сфере коммуникаций не только поставил перед человечеством новые задачи, но и принёс с собой средства для их решения. В сфере письменных переводов одним из таких решений стала технология под названием Translation Memory (ТМ) и использующие её средства автоматизированного перевода (CAT - computer assisted translation) .

Важно заметить, что средства автоматизированного перевода ни в коем случае нельзя путать с машинным переводом. Это два совершенно разных подхода к автоматизации перевода компьютерными средствами, две совершенно разные «философии» переводческого процесса. В случае машинного перевода весь перевод - от начала и до конца - делает машина, компьютер, используя для этого имеющиеся в её распоряжении словари и алгоритмы перевода. Как следствие, результат такой работы далёк от того, что можно назвать «качественным переводом» ровно по той причине, что искусственный интеллект до сих не изобретен человечеством. Во втором же случае речь идёт только об инструментах , облегчающих и ускоряющих традиционный процесс человеческого перевода , который выполняется и контролируется непосредственно переводчиком. Бюро переводов «ЛингваКонтакт» никогда не занималось и не занимается машинным переводом.

Translation Memory (TM) или «память переводов» (ПП) представляет собой базу данных, где хранятся все ранее выполненные переводы с её использованием. Для удобства переводчика программы, использующие технологию Translation Memory, разбивают переводимый текст на так называемые сегменты - фрагменты текста, оригинал и перевод которых и хранится в памяти. За единицу сегментирования (минимальную единицу перевода) такие программы обычно принимают предложение или часть сложноподчинённого предложения, но в зависимости от настроек ею также могут быть слово, фраза либо целый абзац.

Принцип работы большинства средств автоматизированного перевода прост. Во время перевода программа, во-первых, «запоминает» все переводы сегментов, подтверждённые переводчиком, а во-вторых, постоянно сверяет каждый новый непереведённый сегмент с уже имеющимися в памяти переводов и в случае обнаружения идентичного или похожего сегмента «напоминает» его перевод. Таким образом, переводчику остаётся только подтвердить предложенный программой перевод или исправить/дополнить его в соответствии с контекстом.

Кроме собственно создания и работы с памятью переводов, современные программы автоматизированного перевода позволяют:

Создавать и использовать глоссарии и словари пользователей;

Создавать памяти переводов из пар уже ранее переведенных текстов без использования средств автоматизированного перевода;

Проводить анализ текста и делать выборку из его ключевых слов, которые потом можно добавлять в глоссарии;

Осуществлять так называемый «предварительный перевод» (pretranslation) на основе уже имеющихся баз ПП.

Наиболее эффективно применение данной технологии для перевода:

Больших проектов, содержащих много однотипных фрагментов и терминов: разного рода научных и технических текстов, документаций , финансовых и юридических текстов ;

Одного проекта группой из нескольких переводчиков - в этом случае технология ПП (облачная) позволяет добиться единообразия терминологии и стиля;

Новых версий уже ранее переведённых текстов - это значительно сокращает время на поиск и перевод новых фрагментов;

В то же время эта технология оказывается практически бесполезной при переводе художественных , публицистических и рекламных текстов. Другими словами, всего того, что требует творческого подхода и незаурядных решений.

Вот так выглядит интерфейс SDL Trados, интегрированной в MS Word:

Краткий обзор основных средств автоматизированного перевода

Сегодня на рынке представлено несколько десятков программ, поддерживающих работу с технологией Translation Memory. Самыми известными из них являются SDL Trados , Déjà vu , Wordfast , MultiTrans , STAR Transit и Omega-T . Кроме самого очевидного - цены (например, программа Omega-T является полностью бесплатной) - эти программные среды отличаются:

Интерфейсом редактирования текста: некоторые программы интегрируются в MS Word (например, все версии SDL Trados до версии SDL Trados 2007 включительно), другие же имеют свой собственный интерфейс;

Алгоритмами разбиения текста на сегменты (сегменты состоят из предложений, фраз или слов);

Наличием дополнительных функций (например, в программе MemoQ, в отличии от других, существует возможность оценки в процентном отношении однородности текста, т.е. наличия в нём повторяющихся элементов на уровне слов и фраз);

Возможностью интеграции средств машинного перевода;

Количеством поддерживаемых форматов файлов;

Наличием возможности работать с памятью переводов в режиме он-лайн.

Выбор CAT-программы часто зависит больше от личных предпочтений переводчика или требований бюро переводов, с которым он сотрудничает (к примеру, многие западные бюро переводов работают с форматом TTX, а он полноценно поддерживается только средой SDL Trados).

Переводчики бюро переводов «ЛингваКонтакт» знают и владеют на высоком уровне самыми распространенными CAT-инструментами. Кроме того, в нашем арсенале «помощников переводчика» есть не только средства работы с памятью переводов, но также и множество других программ и утилит (инструменты Quality Assurance, создание терминологических баз, межформатная конвертация и пр.), без которых едва ли можно добиться высокого качества и скорости работы. На счету «ЛингваКонтакт» десятки тысяч переведённых страниц с использованием TM-средств!

Вы можете быть уверены, что Ваш текст будет переведён качественно и в срок, в каком бы формате и какой бы сложности он ни был!

Системы памяти переводов (Translation Memory): концепция и реализации 1. Идеология ТМ-инструментариев 2. Общий принцип ТМ 3. Состав системы ТМ 4. Функции ТМ 5. Обзор основных программ класса Translation Memory: ТРАДОС 3. 0 Deja. Vu SDLX 3. 0 Transit и Term. Star Word. Fisher 4 IBM Translation. Manager 2. 0 6. Преимущества и недостатки ТМ ТМ

Идеология ТМ-инструментариев Макото Нагао, Япония, университет г. Киото. В 1982 г. предложил новую концепцию машинного перевода, которая была основана на утверждении, что тексты должны переводиться по аналогии с текстами, ранее переведенными вручную. М. Нагао назвал свой подход к техническому переводу с английского на русский язык „Example based translation“ (перевод, основанный на примерах). Идея М. Нагао была использована некоторыми Makoto Nagao

Что такое Translation Memory? Translation Memory (ТM) - база данных, где хранятся выполненные переводы. Технология ТМ работает по принципу накопления: в процессе перевода в ТМ сохраняется исходный сегмент (предложение) и его перевод. При обработке нового текста, поступившего на перевод, система сравнивает каждое его предложение с сохраненными в базе сегментами. Если идентичный или подобный исходному сегмент найден, то этот сегмент отображается вместе с переводом и указанием совпадения в процентах. Слова и фразы, которые отличаются от сохраненного текста, выделяются подсветкой. Таким образом, переводчику остается перевести только новые сегменты и отредактировать частично совпадающие. Каждое изменение или новый перевод сохраняются в ТМ.

Идеология ТМ-инструментов ТМ-инструменты предназначены для сохранения пар предложений в переводческой базе данных. Каждая такая пара состоит из предложения из оригинала и его технического перевода на другом языке. Возможно размещение фрагментов текста и других форматов превышающих длину предложения или являющихся лишь его частью. Но в автоматическом режиме сохраняются именно предложения, поэтому довольно часто такие программы называют «память предложений» (от англ. Sentence Memory).

Принцип действия ТМ-инструментов ТМ-программы интегрируются с такими офисными программами, как, например, Word. Некоторые средства текста. из них имеют собственные редактирования технического Их интерфейсы мало отличаются от привычных для современного переводчика интерфейсов текстовых редакторов.

Память переводов и вспомогательные программы для перевода Классы: MT (Machine Translation) – автоматический или машинный перевод; программы CAT (Computer-assisted/aided translation) автоматизируют и облегчают труд переводчика в различных его аспектах, реализуют концепцию памяти переводов (translation memory), такие, как Trados, Omega. T, Deja. Vu, Word. Fast и т. п.

Принцип работы современных CAT-программ Программа делит исходный текст на сегменты (как правило, это предложения или части предложений), и переводчик вписывает перевод каждого сегмента прямо под исходным текстом или если текст представлен в виде таблицы - справа от него. Перевод сегмента сохраняется вместе с исходным текстом. Записываются также имя переводчика и дата перевода (что важно для командной работы). К сегменту можно вернуться в любой момент, чтобы проверить или изменить перевод. Программа помещает сегмент в память переводов, так что если он снова встретится в исходном тексте, его перевод подставится из ТМ автоматически. Кроме того, CATпрограмма имеет функцию поиска нечетких соответствий: она обнаруживает сегменты, только частично схожие с уже переведенным (например, совпадающие на 75 %), и дает «подсказки» по их переводу.

Cистема автоматизированного перевода Trados (Традос) Trados - система автоматизированного перевода, разработанная немецкой компанией Trados Gmb. H в 1992 году. Один из мировых лидеров в классе систем Translation Memory (TM, накопитель переводов). Система Trados включает несколько модулей, предназначенных для перевода текстов различного формата: документов Microsoft Word, презентаций Power. Point, текстов в формате HTML и других метаданных, документов Frame. Maker, Inter. Leaf и др. , а также для ведения терминологических баз данных (модуль Multi. Term).

Принцип работы системы Trados Концепция Translation Memory предполагает выявление в переводимом тексте фрагментов, переводы которых уже имеются в базе данных переводов, и за счет этого сокращение объема работы переводчика. Это выявление получило название выравнивания или сопоставления (alignment). Фрагменты, оставшиеся непереведёнными после выравнивания (сопоставления), передаются дальше для ручной обработки переводчику или системе машинного перевода (Machine Translation, MT). Переводчик на этом этапе может выделить вновь переведённые фрагменты и занести новые пары параллельных текстов на двух языках в базу данных. Такая схема наилучшим образом работает на однотипных текстах, где повторяемость словосочетаний достаточно высока.

Основные модули системы Trados * Trados Workbench - основной модуль для перевода документов, интегрируется в оболочку Microsoft Word; * Tag. Editor - модуль для перевода документов в формате HTML, XML и т. п. ; * Win. Align - модуль для создания памяти переводов на основе ранее переведённых двуязычных текстов; * S-Tagger - модуль для перевода документов в формате Frame. Maker и Inter. Leaf; * T-Window - модуль для перевода документов в формате Power. Point; * Multi. Term - модуль для ведения глоссариев; * Extra. Term

Что общего у программ Translation Memory - Сведение – Alignment Обслуживание – Maintenance Терминологический словарь – Terminology Program Текстовый редактор – Document Editor Конкорданс (Связка словоупотребле-ния с контекстом) – Concordance

Преимущества и недостатки программ класса Translation Memory Преимущества - Сокращение времени и объема работы переводчика - Улучшение последовательности перевода, особенно при работе нескольких переводчиков над одним проектом. - Увеличение прибыли за счет увеличения продуктивности труда - Повышение качества услуг за счет увеличения точности перевода терминов, особенно в специализированных текстах. Недостатки - Может делать перевод более „сухим“, утрачивается сама суть текста - Часто отсутствует связь предлагаемого программой предложения/текста с соседними предложениями и с текстом в целом - Оригинал должен быть в электронном виде - Одна ошибка распространяется на весь проект - Необходимо обучение самой программе, а при смене работы возможно, и не один раз (если работодатели работают с разными программами ТМ) - Подходит не ко всем видам текстов - Высокая стоимость

Литература: 1. 2. 3. 4. Грабовский В. Н. : Технология Translation Memory. „Мосты“ 2/2004 Кутузов, А. Б. : Компьютерные технологии в формировании профессиональной компетенции переводчика // Языки профессиональной коммуникации: сборник статей Третьей международной научной конференции, т. 2. – Челябинск, 2007 г. URL: http: //tc. utmn. ru/files/kutuzov_it. pdf Шахова Н. Г. : Поезд снова уходит. Домашний компьютер № 5 1. 05. 2000 Силонов А. : Программы, помогающие переводчику. Компьютерная неделя № 16 (238) Москва 16 -22. 05. 2000

Память переводов или Translation memory

Па́мять переводо́в (ПП, англ. translation memory, TM иногда называемая «Накопитель переводов») - база данных, содержащая набор ранее переведенных текстов. Одна запись в такой базе данных соответствует «единице перевода» (англ. translation unit), за которую обычно принимается одно предложение (реже - часть сложносочинённого предложения, либо абзац). Если очередное предложение исходного текста в точности совпадает с предложением, хранящимся в базе (точное соответствие, англ. exact match), оно может быть автоматически подставлено в перевод. Новое предложение может также слегка отличаться от хранящегося в базе (неточное соответствие, англ. fuzzy match). Такое предложение может быть также подставлено в перевод, но переводчик будет должен внести необходимые изменения.

Помимо ускорения процесса перевода повторяющихся фрагментов и изменений, внесенных в уже переведенные тексты (например, новых версий программных продуктов или изменений в законодательстве), системы Translation Memory также обеспечивают единообразие перевода терминологии в одинаковых фрагментах, что особенно важно при техническом переводе. С другой стороны, если переводчик регулярно подставляет в свой перевод точные соответствия, извлеченные из баз переводов, без контроля их использования в новом контексте, качество переведенного текста может ухудшиться.

В каждой конкретной системе Translation Memory данные хранятся в своем собственном формате (текстовый формат в Wordfast, база данных Access в Deja Vu), но существует международный стандарт TMX (англ. Translation Memory eXchange format), который основан на XML и который могут порождать практически все системы ПП. Благодаря этому результаты работы переводчиков можно обменивать между приложениями, то есть переводчик работающий с OmegaT может использовать память переводов, созданную в ТРАДОСе (Trados) и наоборот.

Большинство систем Translation Memory как минимум поддерживают создание и использование словарей пользователя, создание новых баз данных на основе параллельных текстов (англ. alignment), а также полуавтоматическое извлечение терминологии из оригинальных и параллельных текстов.

Список программных систем Translation memory (памяти переводов)

В соответствии с недавними обзорами использования систем памяти переводов (translation memory) к наиболее популярным системам относятся.

(реже - часть сложносочинённого предложения , либо абзац). Если единица перевода исходного текста в точности совпадает с единицей перевода, хранящейся в базе (точное соответствие, англ. exact match ), она может быть автоматически подставлена в перевод. Новый сегмент может также слегка отличаться от хранящегося в базе (нечёткое соответствие, англ. fuzzy match ). Такой сегмент может быть также подставлен в перевод, но переводчик будет должен внести необходимые изменения.

Помимо ускорения процесса перевода повторяющихся фрагментов и изменений, внесенных в уже переведенные тексты (например, новых версий программных продуктов или изменений в законодательстве), системы ПП также обеспечивают единообразие перевода терминологии в одинаковых фрагментах, что особенно важно при техническом переводе. С другой стороны, если переводчик регулярно подставляет в свой перевод точные соответствия, извлеченные из баз переводов, без контроля их использования в новом контексте, качество переведенного текста может ухудшиться.

В каждой конкретной системе ПП данные хранятся в своем собственном формате (текстовый формат в Wordfast, база данных Access в Deja Vu), но существует международный стандарт TMX (англ. Translation Memory eXchange format ), который основан на XML и который может генерироваться практически всеми системами ПП. Благодаря этому сделанные переводы можно использовать в разных приложениях, то есть переводчик работающий с OmegaT может использовать ПП, созданную в ТРАДОСе и наоборот.

Большинство систем ПП как минимум поддерживают создание и использование словарей пользователя, создание новых баз данных на основе параллельных текстов (англ. alignment ), а также полуавтоматическое извлечение терминологии из оригинальных и параллельных текстов.

Популярные программные системы ПП

В соответствии с обзорами использования систем ПП к наиболее популярным системам относятся :

В английской Википедии есть список , сравнивающий возможности различных систем.

Стандарты и форматы памяти переводов

  • TMX (Translation Memory Exchange Format - Обмен памятью переводов) формат. Этот стандарт обеспечивает взаимный обмен между разными поставщиками памяти переводов. TMX является общепринятым форматом в среде переводчиков и лучше всего подходит для импорта и экспорта памяти переводов. Последняя версия этого формата - 1.4b позволяет восстанавливать исходные документы и их перевод из файла TMX.
  • TBX (Termbase Exchange format - Обмен терминологическими базами). Это принятый LISA (Ассоциации индустрии локализации) формат сейчас пересматривается и переиздается согласно ISO 30042. Этот стандарт позволяет проводить обмен терминологией, в том числе детальной лексической информацией. Основная база TBX определяется стандартами: ISO 12620, ISO 12200 и ISO 16642. ISO 12620 обеспечивает реестр четко определенных «категорий данных» со стандартизованными именами, которые функционируют как типы элементов данных или предопределенные значения. ISO 12200 (известен также как MARTIF) предоставляет основу для каркасной структуры TBX. ISO 16642 (известен также как Terminological Markup Framework - Структура терминологической разметки) включает структурную метамодель для терминологических языков разметки (Terminology Markup Languages) в целом.
  • SRX создан для улучшения формата TMX и большей эффективности обмена памятью переводов между программами. Возможность указывать правила сегментации, которые использовались в предыдущем переводе, повышает эффективность отождествления сегментов в текущем тексте с содержимым ПП.
  • GMX GILT означает Globalization, Internationalization, Localization, and Translation (Глобализация, интернационализация , локализация , перевод). Стандарт GILT Metrics состоит из трех частей: GMX-V для показателей объема, GMX-C для показателей сложности, GMX-Q для показателей качества. Предложенный стандарт GILT Metrics направлен на квантификацию объема работ и требований качества при реализации задач GILT.
  • OLIF - открытый стандарт, совместимый с XML , который используется для обмена терминологическими и лексическими данными. Хотя изначально он применялся в качестве способа обмена лексическими данными между частными лексиконами машинного перевода, постепенно этот формат превратился в более общий стандарт терминологического обмена.
  • XLIFF (XML Localisation Interchange File Format - XML формат для взаимного обмена при локализации), создан как единый формат файлов для взаимного обмена, который распознается всеми программными средствами локализации. XLIFF - это наилучший в современной индустрии переводов способ обмена информацией в формате XML.
  • TransWS (Translation Web Services - переводческие веб-сервисы), определяет требуемые параметры вызова веб-сервисов при отправлении и получении файлов и сообщений, имеющих отношение к проектам локализации. Задумывался как развернутая система автоматизации процесса локализации с использованием сервисов в сети Интернет .
  • xml:tm, этот подход к памяти переводов основан на концепции текстовой памяти, которая позволяет совмещать авторскую память и память переводов. Формат xml:tm был передан Lisa OSCAR компанией XML-INTL.

Преимущества и недостатки

Преимущества

  • Сокращение времени и объема работы переводчика
  • Улучшение последовательности перевода, особенно при работе группы переводчиков над одним проектом.
  • Увеличение прибыли за счет увеличения производительности труда переводчика, группы переводчиков
  • Повышение качества услуг за счет увеличения точности и единообразия перевода терминов, особенно в специализированных текстах.

Недостатки

  • Может делать перевод более «сухим»; утрачивается сама суть текста, если перевод с использованием накопителя переводов выполняется переводчиком низкой квалификации
  • Часто отсутствует связь предлагаемого программой предложения/текста с соседними предложениями и с текстом в целом
  • Оригинал должен быть в электронном виде
  • Одна незамеченная ошибка может распространиться на весь проект
  • Необходимо обучение самой программы, а при смене работы - возможно, и не один раз (если работодатели работают с разными программами ТМ)
  • Подходит не ко всем видам текстов
  • Высокая стоимость лицензионного ПО

См. также

Литература

  • Грабовский В. Н. Технология Translation Memory // Мосты. Журнал переводчиков. 2004. № 2. - С. 57-62.

Ссылки

  • Не делайте один и тот же перевод дважды // Компьютерра Онлайн, 14 февраля 2005 года.

Примечания


Wikimedia Foundation . 2010 .

  • Берос
  • Нергал

Смотреть что такое "Память переводов" в других словарях:

    Память (значения) - Содержание 1 В психологии 2 В компьютерной технике … Википедия

    Память о Феодоре Стратилате - Мозаика с изображе … Википедия

    Накопитель переводов

    Битекст

    Параллельный текст (битекст) - текст на одном языке вместе с его переводом на другой язык. «Выравнивание параллельного текста» это идентификация соответствующих друг другу предложений в обеих половинах параллельного текста. Большие собрания параллельных текстов называются… … Википедия

    Параллельный корпус - Параллельный текст (битекст) текст на одном языке вместе с его переводом на другой язык. «Выравнивание параллельного текста» это идентификация соответствующих друг другу предложений в обеих половинах параллельного текста. Большие собрания… … Википедия

    Translation Memory - Память переводов (ПП, англ. translation memory, TM иногда называемая «Накопитель переводов») база данных, содержащая набор ранее переведенных текстов. Одна запись в такой базе данных соответствует сегменту или «единице перевода» (англ.… … Википедия

Программы машинного перевода — это программы, которые специально разрабатываются для облегчения процесса перевода с помощью компьютера (букв. computer assisted translation ), как AutoCAD для инженеров или ArchiCAD для архитекторов. Такое программное обеспечение специально разработано, чтобы создавать, хранить, читать и записывать информацию в виде файлов под названием «память перевода» (букв. translation memories), при этом программа создает строку с языковой парой, автоматически находя для отдельного слова или словосочетания его соответствие на другом языке. Программа создает файл с названием, например, RU_EN или RU_IT и т.п., в котором слово или словосочетание на одном языке соответствует своему значению на другом языке.

Что такое «память перевода» и как она работает.

Память перевода (translation memory, TM) — это объемный файл с техническими терминами, сокращениями, устоявшимися выражениями.

Если вам предстоит перевести, например, сокращение «CCCP » с русского на английский с помощью программы машинного перевода (CAT), программа сразу предложит вам вариант перевода: Soviet Union.

На первый взгляд, все просто, но не все так просто, как кажется. Если мы переводим документ, не имеющий отношения к истории, тогда данная аббревиатура может означать нечто совершенно другое: c arbonyl c yanide m-c hlorophenyl h ydrazone , токсичный ионофор, разобщитель дыхательной цепи. Или, например, это может означать «c ombined c ommunity c odec p ack «, программный пакет Microsoft Windows для воспроизведения мультимедийных файлов.

Вот почему компания «Экспримере» не использует в работе программы автоматического перевода. Мы пользуемся исключительно терминологическими базами данных для технических переводов.