Исследователи из Университета Ватерлоо возглавили разработку программного инструмента, который может дать убедительные ответы на некоторые из самых захватывающих вопросов в мире.

Инструмент, который сочетает в себе технологию контролируемого машинного обучения (ML) и цифровую обработку сигналов (digital signal processing) ML-DSP, может впервые дать возможность окончательно ответить на такие вопросы, как, например: Сколько различных видов существует на Земле и в океанах? Как существующие, вновь открытые и вымершие виды связаны друг с другом? Каково бактериальное происхождение человеческой митохондриальной ДНК? Есть ли в ДНК паразита и его хозяина схожие  геномные подписи?

Инструмент также может оказать толчок к развитию персонализированной медицины, выявляя конкретный штамм вируса и, таким образом, позволяя разрабатывать и применять лекарства для точечного лечения.

ML-DSP — это не требующий настройки  программный инструмент, который работает путем преобразования последовательности ДНК в цифровой (числовой) сигнал и использует методы цифровой обработки сигналов для обработки и различения этих сигналов друг от друга.

«С помощью этого метода, даже если у нас есть только небольшие фрагменты ДНК, мы все равно можем классифицировать последовательности ДНК, независимо от их происхождения или от того, являются ли они природными, синтетическими или компьютерными, — говорит Лила Кари, профессор математического факультета Ватерлоо. — Другой важной сферой потенциального применения этого инструмента является здравоохранение, поскольку в эпоху персонализированной медицины мы можем классифицировать вирусы и подбирать лечение для конкретного пациента в зависимости от конкретного штамма вируса, который его поразил».

В ходе исследования ученые провели количественное сравнение с другими современными программными средствами классификации для двух небольших эталонных наборов данных и одного большого набора данных из 4 тысяч 322 митохондриальных геномов позвоночных.

«Наши результаты показывают, что ML-DSP значительно превосходит программное обеспечение, основанное на калибровке, с точки зрения времени обработки, имея при этом точность классификации, сопоставимую в случае небольших наборов данных и превосходящую в случае больших наборов данных, — говорит Кари. — По сравнению с другим ПО без настройки ML-DSP имеет значительно лучшую точность классификации и в целом работает быстрее».

Авторы также провели предварительные эксперименты, указывающие на возможность использования ML-DSP для других наборов данных, путем классификации 4 тысяч 271 полных геномов вируса денге на подтипы со 100-процентной точностью и 4 тысяч 710 бактериальных геномов на виды с точностью 95,5 процентов.


Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *