23 марта, 2018, BIS Journal №1(28)/2018

Продукт триумфа


Щемелинин Вадим

кандидат технических наук, руководитель отдела (ООО "ЦРТ")

Лаврентьева Галина

научный сотрудник (ООО "ЦРТ-инновации")

Последнее достижение отечественной голосовой биометрии – победа команды ЦРТ в международном конкурсе среди разработчиков детекторов спуфинг атак

Биометрия давно привлекает внимание BIS Journal, в каждом номере публикуется хотя бы один заметный материал на эту тему. Из последних – статьи А.Митрофанова («Объект опознан! Использование биометрии в банковской сфере» №3/2017) и Г.Маршалко («Не панацея. Угрозы безопасности биометрических систем» №4/2017), в которых дан квалифицированный анализ тенденций развития биометрических технологий.

В развитие темы предлагаем статью о последних достижениях в области голосовой биометрии. Этот материал примечателен еще и тем, что представляет систему, одержавшую победу в международном конкурсе среди разработчиков детекторов спуфинг атак «Automatic Speaker Verification Spoofing and Countermeasures Challenge 2017». Стоит отметить, что в конкурсе участвовало 113 команд, до финала дошли 43, в том числе и команды компаний Samsung и Pindrop, являющиеся признанными лидерами на мировом рынке голосовой биометрии.

О СПУФИНГ АТАКАХ

Развитие компьютерных технологий в последние десятилетия дало возможность совершить прорыв в области обработки речевого сигнала. Современный мир уже сложно представить без повседневного использования речевых технологий. Системы распознавания речи позволяют не отвлекаться на управление мобильными устройствами во время движения за рулём, системы синтеза речи оповещают нас по телефону, в метро, на вокзалах и офисах, голосовые биометрические системы обеспечивают доступ к защищенным персональным данным или помогают в поиске нарушителей. Исследования голосовых биометрических технологий занимают одно из ведущих мест в области обработки речевого сигнала.

Однако в последнее время потребители биометрических систем озабочены не только качеством непосредственно алгоритмов голосовой биометрии, но и устойчивостью систем к специфичным для голосовой биометрии видам атак, проводимых с целью получения несанкционированного доступа к защищаемой информации.

Ранее основные виды атак на голосовые биометрические системы и методы противодействия им уже рассматривались (С.Мельников  «Верификация по голосу: надежно ли? Впечатления, наблюдения и размышления участника конференции Interspeech-2013», BISJournal №1/2014; К.Симончик, Д.Щетинин, BIS Journal №4/2016). Напомним, виды спуфинг атак на биометрическое устройство ввода (Рис. 1) можно разделить следующим образом:

- методы имперсонализации путём пародирования речи;
- методы записи речи и дальнейшего повторного воспроизведения при атаке, к примеру, запись и воспроизведение с диктофона;
- методы автоматического преобразования речи, основанные на технологии конвертации речевых характеристик злоумышленника в целевые речевые характеристики;
- методы автоматического синтеза речи, основанные на технологии преобразования текста в речь.

Рис. 1. Схема направленных спуфинг атак на голосовую биометрическую систему

Несмотря на успехи [1] в решении данной задачи, вопрос поиска новых, надежных методов противодействия таким видам спуфинг атак остаётся актуальным. Действительно, с точки зрения злоумышленников, за последние время не получили развития только методы атак, основанные на имперсонализации. Ведь пародисты преимущественно изменяют тональность и манеру речи, но не могут изменить свой голосовой тракт, индивидуальные особенности строения которого и лежат в основе технологии голосовой биометрии. Методы атак, основанные на записи и повторном воспроизведении “replay attacks”, не эффективны при использовании динамической парольной фразы. Однако, использование статической парольной фразы, такой как “Ok Google” или “Привет Siri”, позволяет пользователю пройти аутентификацию быстрее и удобнее.

Активное развитие технологий синтеза и преобразования речи, лежащих в основе двух оставшихся видов атак, также позволяет злоумышленникам обучать систему спуфинга на меньшем объёме данных и с лучшим качеством. Актуальность такой задачи подтверждается не только проведением большого объема исследований в этом направлении, но и выходом новых стандартов оценки биометрических систем. Так в 2016 и 2017 годах национальный институт стандартов и технологий США NIST подготовил и ввел пакет стандартов ISO/IEC 30107, описывающих порядок оценки устойчивости системы к подобным атакам.

Большая часть существующих алгоритмов противодействия спуфинг атакам, в силу ограниченного количества записанных баз, обучена защите от атак конкретного типа, а также от атак, подготовленных с использованием или ограниченного числа устройств воспроизведения или записи, выполненной в определенных акустических условиях. В то же время, реальные атаки основаны на неизвестных методах фальсификации индивидуальных биометрических характеристик человека.

Задача выявления атак может быть сведена к детектированию локальных артефактов, специфических для тех или иных методов спуфинга и отличающих их от реальной речи.

Рис. 2. Амплитудные спектры реального сигнала (верхний) и трех атак повторного воспроизведения записи фразы "Actions speak louder than words", записанной на различные мобильные устройства

На рисунке 2 приведены отображения амплитудных спектров реального сигнала для реальной записи (верхний) и трех атак повторного воспроизведения этой записи, записанных на разные мобильные устройства. Мы можем видеть некоторые изменения спектра в области высоких частот, однако выделить определенную особенность атаки, которая позволила бы надежно определить повторную запись, практически невозможно. Справиться с такой задачей могут помочь мощные современные средства анализа данных, такие как метод статистического факторного анализа и нейронные сети.

СИСТЕМА АВТОМАТИЧЕСКОГО ДЕТЕКТИРОВАНИЯ АТАК

Обобщенная система автоматического детектирования атак может содержать четыре основных модуля: модуль предварительной обработки сигнала, модуль выделения информативных акустических признаков, модуль выделения признаков высокого уровня и классификатор (Рис 3).

Рис. 3. Обобщенная структура системы детектирования спуфинг атак на голосовые биометрические системы

Модуль предварительной обработки является первым шагом работы алгоритма и используется для детектирования атак низкого уровня. Специфические артефакты в таких атаках легко можно обнаружить простыми методами фильтрации.

Вторым шагом является извлечение акустических признаков из входного сигнала, то есть речевых характеристик, надежно отличающих спуфинг атаку от реальной речи. Успех работы системы напрямую зависит от информативности этих признаков и их дискриминирующей (разрешающей) способности. Как показали предварительные исследования, для различных типов атак более информативными являются признаки, содержащие разную информацию. Так, для детектирования синтезированной речи используются признаки, содержащие фазовую информацию сигнала, т.к. синтезированная речь не восстанавливает фазу сигнала естественной речи человека при построении, а для атак повторного воспроизведения такие признаки являются бесполезными, т.к. фазовые признаки для перезаписанного сигнала соответствуют оригиналу. Для детектирования повторного воспроизведения наилучшие результаты показали системы на основе использования графического представления амплитудного спектра входного сигнала.

По этой причине модуль извлечения акустических признаков представляет собой комбинацию нескольких методов извлечения речевых характеристик из входного сигнала.

Полученные векторы информативных акустических признаков подаются на вход следующего модуля, который позволяет извлечь признаки высокого порядка.

Такой подход позволяет определить проекцию пространства акустических признаков на пространство новых признаков высшего порядка таким образом, чтобы минимизировать внутриклассовое и максимизировать межклассовое расстояние в новом пространстве. Благодаря этому можно перейти в пространство, где класс реальных записей лучше отделим от класса спуфинга. На рисунке 4 представлены ЛДА проекции на первые три главные компоненты, полученные с помощью применения линейного дискриминантного анализа. В качестве акустических признаков здесь могут быть использованы мел кепстральные коэффициенты на основе вейвлет-пакетного преобразования (MWPC) [2]. Здесь наглядно видно как хорошо распределены признаки для классов реальной речи, синтеза и преобразованной речи.

Рис. 4. LDA проекции MWPC векторов на первые три оси главных компонент

Для извлечения высокоуровневых аудио признаков из спектрограмм сигнала использовались конволюционные нейронные сети. Такой подход показал хорошие результаты для детектирования атак повторного воспроизведения.

На следующем шаге полученные признаки подаются классификатору, который принимает решение о том, является ли входной сигнал реальной речью или попыткой взлома. В качестве классификаторов для различных признаков высокого уровня могут быть использованы методы опорных векторов, классификатор на основе гауссовых распределений, а также нейронные сети.

В силу того, что для детектирования различных типов атак используется различные акустические признаки, и как следствие различные классификаторы, в результате подготавливается несколько подсистем, нацеленных на детектирование тех или иных типов атак. Обобщенное решение системы строится как линейная комбинация решений этих подсистем, где вклад каждой подсистемы регулировался соответствующим весовым коэффициентом.

МЕЖДУНАРОДНЫЙ КОНКУРС

Большой вклад в развитие данного направления вносит команда исследователей под руководством Tomi Kinnunen из University of Eastern Finland и Nicholas Evans из EURECOM, Финляндия. В 2017 году ими был организован международный конкурс “Automatic Speaker Verification Spoofing and Countermeasures Challenge 2017” среди разработчиков детекторов спуфинг атак [3]. В этот раз основной упор был сделан на детектирование спуфинг атак методом записи и повтора. Особое внимание было уделено реалистичности имитируемых атак. Для этой задачи организаторы использовали различные устройства записи и воспроизведения сигнала, сформировав тем самым 110 уникальных конфигураций для проведения спуфинг атаки.

До финала конкурса дошло 49 команд из 113 подавших заявки. Система, основанная на методах, описанных в начале данной статьи и разработанная компанией ЦРТ, заняла первое место с результатом равновероятной ошибки детектора EER=6,73% [3], что почти в два раза лучше, чем результат системы занявшей второе место (EER=12.34%) и в четыре раза лучше, чем базовая система организаторов (EER=24.77%) [4].

Среди участников конкурса также были исследователи из таких известных компаний как Samsung [5] и Pindrop [6]. Последняя является компанией номер один на американском рынке голосовой биометрии по данным Opus Research 2017 года.

Результаты конкурса наглядно показали, что простые спуфинг атаки, основанные на записи и повторе, требуют ничуть не меньше внимания, чем атаки, основанные на синтезе и преобразовании речи, и эффективно детектировать их значительно сложней.

НЕ ВСЕ ЕЩЕ ОТРАБОТАНО

Несмотря на достигнутые успехи, на данный момент задача по-прежнему остаётся крайне актуальной. Имеющиеся решения хотя и показывают высокий результат в конкурсных условиях, но могут снижать качество своей работы при существенном изменении канала или сценария работы системы. Вместе с этим, важно помнить, что конечная эффективность биометрической системы, должна оцениваться комплексно, с учетом одновременной работы детектора спуфинг атак и биометрического распознавания по всем доступным модальностям. Ведь одновременное применение нескольких биометрических модальностей, не только повышает надёжность распознавания, но и усложняет реализацию спуфинг атаки.

В настоящий момент исследования, направленные на решение данных проблем, активно продолжаются. Организаторы международного конкурса Automatic Speaker Verification Spoofing and Countermeasures Challenge начали подготовку к следующему этапу и планируют провести его в 2019 году.


Wu Z., Kinnunen T., Evans N., Yamagishi J., Hanilci C., Sahidullah M., Sizov A., "ASVspoof 2015: the First Automatic Speaker Verification Spoofing and Countermeasures Challenge", Interspeech 2015, http://www.asvspoof.org/is2015_asvspoof.pdf

Novoselov, S., Kozlov, A., Lavrentyeva, G., Simonchik, K., Shchemelinin, V.: Stc anti-spoofing systems for the asvspoof 2015 challenge. 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2016)
Galina Lavrentyeva , Novoselov, S., Malykh E., Kozlov A., Kudashev O., Shchemelinin V., “Audio replay attack detection with deep learning frameworks”, Interspeech 2017, http://www.isca-speech.org/archive/Interspeech_2017/pdfs/0360.PDF
Kinnunen T., Sahidullah M., Delgado H., Todisco M., Evans N., Yamagishi J., Lee K., "The ASVspoof 2017 Challenge: Assessing the Limits of Replay Spoofing Attack Detection", Interspeech 2017, http://www.asvspoof.org/asvspoof2017overview_cameraReady.pdf
Wang X., Xiao Y., Zhu X., “Feature selection based on CQCCs for automatic speaker verification spoofing”, Interspeech 2017 http://www.isca-speech.org/archive/Interspeech_2017/pdfs/0304.PDF

Nagarsheth P., Khoury E., Patil K., Garland M., “Replay Attack Detection using DNN for Channel Discrimination” Interspeech 2017, http://www.isca-speech.org/archive/Interspeech_2017/pdfs/1377.PDF