Машинное обучение помогает переводить утраченные языки

Машинное обучение помогает переводить утраченные языки

Исследователи из Массачусетского технологического института создали новую систему, которая использует машинное обучение, чтобы помочь лингвистам расшифровать языки, утерянные временем. Исследования показывают, что большинство языков, которые когда-либо существовали, больше не используются, а десятки мертвых языков считаются нерасшифрованными. Лингвисты недостаточно осведомлены о грамматике, лексике и синтаксисе, чтобы понимать тексты, оставленные на этих потерянных языках.

Перед лингвистами стоит множество проблем, в том числе то, что многие из этих потерянных языков не имеют хорошо изученного относительного языка, с которым можно было бы сравнивать. В некоторых также отсутствуют разделители, такие как пробелы и знаки препинания. Лаборатория компьютерных наук и искусственного интеллекта Массачусетского технологического института недавно совершила прорыв в расшифровке утраченных языков.

Исследователи создали новую систему, которая смогла автоматически расшифровать утерянный язык, не требуя глубоких знаний о его связи с другими языками. Система может определять отношения между языками, и недавно она использовалась, чтобы предположить, что иберийский язык не связан с баскским, как полагают некоторые лингвисты. Конечная цель ученых проекта. расшифровать языки, ставшие лингвистами в тупик, используя всего несколько тысяч слов.

Руководитель проекта Регина Барзилай говорит, что система основана на семи принципах, основанных на исторической лингвистике. Согласно этим принципам, языки обычно развиваются только предсказуемым образом. Языки редко добавляют или удаляют весь звук, и возможна замена звука. Например, слово с буквой «P» на родительском языке может измениться на «B» на языке потомка, но вряд ли изменится на «K» из-за разрыва в произношении.

Используя эти лингвистические ограничения, исследователи из Массачусетского технологического института разработали алгоритм дешифрования, способный обрабатывать огромное пространство возможных преобразований. Алгоритм учится встраивать языковые звуки в многомерное пространство, где различия в произношении отражаются в расстоянии между соответствующими векторами. Модель направлена ​​на сегментирование слов на древнем языке и сопоставление их с аналогами на родственном языке.