Слушать и слышать: маёвцы разрабатывают софт для студентов с особенностями восприятия

21 декабря 2017

Студенты второго и третьего курсов Института «Системы управления, информатика и электроэнергетика» Московского авиационного института (национального исследовательского университета) Артемий Мазаев и Семён Гуляев из IT-клуба МАИ «Lambda» под руководством Евгения Капышева из НИУ ВШЭ разрабатывают программу для глухих студентов. Она может распознавать речь лектора на занятиях и переводить её в текст.

Кроме того, с её помощью к преподавателю можно будет обратиться с вопросом и получить ответ. По словам Артёма, студенты с особенностями восприятия назвали программу очень перспективной и призванной существенно облегчить им жизнь. Кстати, руководитель проекта — магистрант инноватики ИМИ НИУ ВШЭ «Управление исследованиями, разработками и инновациями в компании» Евгений Капышев — сам ивалид по слуху и вместе с маёвцами занимается проработкой этой идеи уже не первый год.

Проект по достоинству оценили на конкурсе инновационных проектов HSE (Tech Cup) Фонда поддержки инновационного предпринимательства 2017 года, который проходил в Высшей школе экономики. По итогам соревнования команда вышла в список финалистов конкурса и заняла четвёртое место.

— Мы написали алгоритм, который «общается» с Яндексом. Передаётся аудио, Яндекс его обрабатывает и возвращает нам ответ в виде текста, — отмечает в беседе с mai.ru разработчик Артемий Мазаев. — Работа ведётся чуть больше двух недель.

Программа предполагает диалоговую систему. Помимо текстовой трансляции лекции, студенты могут с помощью софта задавать свои вопросы, которые «высвечиваются» у лектора в отдельной колонке.

— Преподаватель может, обращаясь к компьютеру, задать программе голосовую команду. Например, «есть вопросы?» или «ваши вопросы», — отмечает Артём. — Компьютерный голос зачитывает по очереди вопросы. Лектор, заканчивая ответ на первый вопрос, даёт следующую команду: «Следующий вопрос». Программа озвучивает следующий вопрос. И так пока вопросы не закончатся. Изобретение само предупредит лектора голосовым сообщением, что вопросов больше нет.Перед командой разработчиков, по словам Артёма, остро стоит два вопроса: качество «перевода» голоса в текст для студентов и качество воспроизведения текста в звук для преподавателя.

— Лектор на парах каждый раз разный, у него собственный формат ведения занятий, — отмечает Артём. — Поэтому задача с преобразованием речи в текст существенно усложняется. Мы решили сделать такую нейронную сеть, чтобы данные отправлялись не в облако, а непосредственно преподавателю. То есть, чтобы нейросеть подстраивалась под самого педагога и качество распознавания его речи заметно улучшалось.

Сделать это не так просто, но ребята решили вести стенографию лекции и обрабатывать естественный язык лектора с помощью пакетов обработки естественного языка «natural language processing» (NLP). Студенты плотно работают над написанием нейросети для распознавания речи и обработки естественного языка, а также создают нейросеть для преобразования текста в речь.Внедрять своё ноу-хау маёвцы планируют в школах, образовательных учреждения и университетах.

— У Яндекса есть подобная реализация программы, — отмечает Артём. — Это программа «Яндекс. Разговор».Программа оценивается примерно в 15 000 рублей/мес. Разработчики продают аккаунт лектора университету. Преподаватель регистрирует учётную запись, с помощью которой можно вести лекции. Остаётся только нажать на микрофон и начнётся распознавание языка и перевод его в текст. Студенты скачивают бесплатное приложение, задают свои вопросы и могут видеть текстовую трансляцию лекции.

— Модель распространения идёт для лектора, — отмечает Артём. — Институт покупает у нас аккаунты. Мы выдаём программу. В дальнейшем планируем продавать системы. То есть это компьютер, где стоит и функционирует наша нейросеть.

Кстати, по словам Артёма, разработчики ищут выходы на крупные компании, которые смогут «поделиться» с ребятами своими техническими мощностями.

— У нас нет мощностей для обучения нейросети, — отмечает Артём. — Если мы будем обучать нейросеть на наших компьютерах, то это отнимет очень много времени. Поиск инвесторов и источников финансирования существенно ускорит работу над проектом.

МАИ Наука Студенты