В последние годы компьютеры стали гораздо более искусными в переводе с одного языка на другой благодаря применению нейронных сетей. Однако для обучения ИИ обычно требуется много контента, переведённого людьми для компьютеров.
Микель Артекс, учёный-компьютерщик из Университета Страны Басков (UPV) и автор одной из этих работ, сравнивает ситуацию с предоставлением кому-то разных книг на китайском языке и различных книг на арабском языке, без каких-либо одних и тех же текстов, перекрывающих друг друга. Человеку было бы очень трудно научиться переводить с китайского на арабский язык при таком сценарии, но компьютер может.
В типичном процессе машинного обучения система ИИ контролируется. Это значит, что когда ИИ пытается найти правильный ответ по любой заданной проблеме, человек скажет, правильно ли это или нет, и, по мере необходимости, ИИ будет вносить корректировки.
Вместо этого по новому методу ИИ изучают то, как слова связаны одинаковым образом на разных языках — например, слова «стол» и «стул» часто используются вместе, независимо от диалекта. Сопоставляя эти сочетания для каждого языка, а затем сравнивая их, можно получить хорошее представление о том, какие термины связаны друг с другом.
Эти системы могут использоваться для перевода полных предложений, а не только отдельных слов, используя две дополнительные стратегии обучения. Обратный перевод предполагает, что предложение, написанное на одном языке, грубо переводится на другой, а затем обратно на исходный язык, при несовпадении ИИ настраивает свои протоколы иначе. Шумоподавление — процесс, аналогичный такому же процессу в радиотехнике, но уже со словами, которые удаляются или добавляются в предложение. Синхронизация этих методов помогают машине лучше понять, как работает язык.
Тест-лексика
Обе системы — одна из которых разработана в UPV, а другая — компьютерным учёным из Facebook Гийомом Ламплером, пока ещё не получили оценку экспертов, но обе показали многообещающие результаты при предварительном тестировании.
Для оценки их способности переводить текст с английского языка на французский и наоборот, были предложены к переводу примерно 30 миллионов предложений. Оба ИИ сумели получить 15 баллов. ИИ Google Translate , который использует контролируемое машинное обучение, имеет оценку 40 баллов, в то время как переводчики-люди могут набирать до 50 баллов.
Оба исследователя согласны с тем, что каждый из них может улучшить свою систему самообучаемого ИИ, опираясь на работу другого. ИИ можно было бы сделать более способными, введя несколько тысяч параллельных предложений в их учебную программу, что сократило бы время, необходимое для освоения языка.