63
______________________________________________________________________________________ Речевые информационные технологии РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА "VOICENET ID" Д.т.н. А.В.Тимофеев (ООО «Центр речевых технологий» г. С.-Петербург) 1. Введение Опыт применения систем автоматизации фоноучетов и экспресс-исследований фонограмм речи серии «Трал», позволили специалистам ЦРТ сформулировать требования к распределенной системе фоноучета «VoiceNet ID». Основное назначение системы «VoiceNet ID» - хранение и оперативный поиск фонограмм, содержащих речь интересующего лица (или группы лиц). Ключевым отличием новой системы от существующих комплексов является уникальная методология принятия обобщенного решения на основе результатов работы трех независимых методов, а также оригиналь- ная, трехзвенная архитектура программно-аппаратного комплекса (с тонким клиентом), по сути дела представ- ляющего собой универсальное хранилище медиаданных. 2. Описание работы и функциональные возможности системы Основными задачами, которые ставятся перед распределенной системой фоноучета являются: Ведение федерального фоноскопического учета для государственных органов, производящих рас- следование по уголовным делам; Проведение фоноскопических исследований в интересах оперативно-розыскных подразделений; Осуществление консультационной и учебно-методической деятельности. В соответствии с требованиями распределенного фоноучета система «VoiceNet ID» обеспечивает цен- трализованное хранение и обработку информации. Ввод информации, формирование запросов на поиск (иден- тификацию) и проверку (верификацию) осуществляется с большого количества удаленных мест, при этом соб- ственно доступ к данным осуществляется через WEB-интерфейс. Таким образом, требования к оборудованию терминальных точек доступа к системе «VoiceNet ID» – минимальны. Система представляет собой распределенный вычислительный комплекс, имеющий вычислительное ядро и удаленные клиентские места. Архитектура Системы обеспечивает функционирование клиентских мест по каналам Интернет с использованием WEB-интерфейса. Система использует программный протокол, обеспе- чивающий возможность интеграции с другими информационными системами для обмена информацией. Ядро Системы функционирует под управлением операционной системы семейства UNIX. Безопасность передачи данных по открытым сетям обеспечивается протоколом HTTPS и авторизацией пользователей. Состав Системы и назначение ее отдельных компонентов приводятся в таблице 1. Таблица 1 Название компонента Системы Назначение Брандмауэр Обеспечение сетевой безопасности внутренней инфраструктуры вы- числительного ядра. Web-сервер Обеспечение инфраструктуры интерфейса пользователя. Диспетчер задач Обеспечение диспетчерских функций Системы. Хранилище данных Обеспечение хранения и доступа к базе данных по запросу. Вычислительный кластер Обеспечение параллельной отработки заданий пользователей. АРМ Администратора Рабочее место администратора Фонолаборатория Один из типов клиентов - криминалистическая лаборатория. Web-клиент Наиболее массовый тип клиента – регистрация новых лиц в хранилище ядра системы, а также формирование запросов на поиск и проверку. Принцип работы Системы основан на выделении из фонограмм речи и последующем попарном сравне- нии биометрических признаков (содержащихся в голосе индивидуальных, идентификационно значимых при- знаков личности). Выделение и сравнение индивидуальных признаков производится с использованием трех различных языко- и текстонезависимых методов. В качестве основного используется Спектрально-Формантный Метод, в качестве вспомогательных - Статистик Основного Тона и метод на основе СГР (смеси Гауссовых распределе- ний). Необходимость использования одновременно трех независимых методов обусловлена ограниченной об- ластью применения каждого метода в отдельности, что иллюстрирует таблица 2 (количество знаков «+» отра- жает степень зависимости метода от параметров сигнала). Таблица 2 Метод Параметры сигнала Продолжительность Качество сигнала Физическое и эмоциональ- ное состояние Спектрально-формантный +++ ++ + Статистик ОТ ++ + ++++ 51

РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА "VOICENET ID"

Д.т.н. А.В.Тимофеев (ООО «Центр речевых технологий» г. С.-Петербург)

1. ВведениеОпыт применения систем автоматизации фоноучетов и экспресс-исследований фонограмм речи серии

«Трал», позволили специалистам ЦРТ сформулировать требования к распределенной системе фоноучета «VoiceNet ID».

Основное назначение системы «VoiceNet ID» - хранение и оперативный поиск фонограмм, содержащих речь интересующего лица (или группы лиц).

Ключевым отличием новой системы от существующих комплексов является уникальная методология принятия обобщенного решения на основе результатов работы трех независимых методов, а также оригиналь-ная, трехзвенная архитектура программно-аппаратного комплекса (с тонким клиентом), по сути дела представ-ляющего собой универсальное хранилище медиаданных.

2. Описание работы и функциональные возможности системыОсновными задачами, которые ставятся перед распределенной системой фоноучета являются:• Ведение федерального фоноскопического учета для государственных органов, производящих рас-

следование по уголовным делам;• Проведение фоноскопических исследований в интересах оперативно-розыскных подразделений;• Осуществление консультационной и учебно-методической деятельности.В соответствии с требованиями распределенного фоноучета система «VoiceNet ID» обеспечивает цен-

трализованное хранение и обработку информации. Ввод информации, формирование запросов на поиск (иден-тификацию) и проверку (верификацию) осуществляется с большого количества удаленных мест, при этом соб-ственно доступ к данным осуществляется через WEB-интерфейс. Таким образом, требования к оборудованию терминальных точек доступа к системе «VoiceNet ID» – минимальны.

Система представляет собой распределенный вычислительный комплекс, имеющий вычислительное ядро и удаленные клиентские места. Архитектура Системы обеспечивает функционирование клиентских мест по каналам Интернет с использованием WEB-интерфейса. Система использует программный протокол, обеспе-чивающий возможность интеграции с другими информационными системами для обмена информацией. Ядро Системы функционирует под управлением операционной системы семейства UNIX. Безопасность передачи данных по открытым сетям обеспечивается протоколом HTTPS и авторизацией пользователей.

Состав Системы и назначение ее отдельных компонентов приводятся в таблице 1.Таблица 1

Название компонента Системы НазначениеБрандмауэр Обеспечение сетевой безопасности внутренней инфраструктуры вы-

числительного ядра.Web-сервер Обеспечение инфраструктуры интерфейса пользователя.

Диспетчер задач Обеспечение диспетчерских функций Системы. Хранилище данных Обеспечение хранения и доступа к базе данных по запросу.

Вычислительный кластер Обеспечение параллельной отработки заданий пользователей.АРМ Администратора Рабочее место администратора

Фонолаборатория Один из типов клиентов - криминалистическая лаборатория.Web-клиент Наиболее массовый тип клиента – регистрация новых лиц в хранилище

ядра системы, а также формирование запросов на поиск и проверку.Принцип работы Системы основан на выделении из фонограмм речи и последующем попарном сравне-

нии биометрических признаков (содержащихся в голосе индивидуальных, идентификационно значимых при-знаков личности).

Выделение и сравнение индивидуальных признаков производится с использованием трех различных языко- и текстонезависимых методов. В качестве основного используется Спектрально-Формантный Метод, в качестве вспомогательных - Статистик Основного Тона и метод на основе СГР (смеси Гауссовых распределе-ний).

Необходимость использования одновременно трех независимых методов обусловлена ограниченной об-ластью применения каждого метода в отдельности, что иллюстрирует таблица 2 (количество знаков «+» отра-жает степень зависимости метода от параметров сигнала).

Таблица 2

МетодПараметры сигнала

Продолжительность Качество сигналаФизическое и эмоциональ-

ное состояниеСпектрально-формантный +++ ++ +

Статистик ОТ ++ + ++++

51

Page 2: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

СГР +++ ++++ ++3. Используемые методы поиска и параметры их надежности

В системе «VoiceNet ID» используются языко- и текстонезависимые технологии поиска по голосу. Дру-гими словами, не важно, что и на каком языке говорит человек. Исключение составляют т. н. тональные языки (вьетнамский, китайский, японский и т.п.), которые требуют перенастройки алгоритмов идентификации.

В новой системе реализованы три метода выделения и сравнения идентификационных признаков: спек-трально-формантный, как основной, а в качестве вспомогательных - метод, использующий статистику основно-го тона и метод на основе смеси гауссовых распределений.

1. Спектрально-формантный метод1.1.Данный метод основан на тезисе об уникальности геометрии речевого тракта у каждого человека и

отражении данного факта в различных спектральных характеристиках речи. Наиболее явно различие спектральных характеристик проявляется в частотной ориентации и взаимном расположении фор-мант.

1.2.Используемый в Системе спектрально-формантный метод основан на выделении и сравнении поло-жения и динамики поведения трех и более формант. Данный метод защищен Российским патентом.

1.3.Применение спектрально-формантного метода обеспечивает значение EER~8%. Значение EER для конкретного случая зависит от длительности и качества сравниваемых речевых фрагментов.

1.4.Данный метод является основным по следующим причинам:1.4.1.Метод предъявляет самые низкие, по сравнению с другими, требования к качеству сигнала.

Возможна работа с сигналами вплоть до отношения сигнал/шум 12 дБ.1.4.2.Метод демонстрирует сравнительно высокую скорость выделения биометрических признаков

и относительно робастен к типу канала.2. Метод статистик основного тона2.1.Данный метод использует шестнадцать различных характеристик основного тона (ОТ) голоса, среди

которых: среднее значение ОТ; его максимальное; минимальное; медиана; процент участков с воз-растающим тоном; дисперсия логарифма тона; асимметрия логарифма тона; эксцесс логарифма тона и другие параметры.

2.2.Значение EER для метода статистик основного тона зависит от длительности сравниваемых речевых фрагментов и может достигать величины ~16%. Необходимо отметить, что реализация данного алго-ритма стала возможной благодаря созданию специалистами ЦРТ полностью автоматического высо-коточного выделителя основного тона.

2.3.Достоинством данного метода является высокая скорость сравнения признаков, а, как следствие, высокая скорость поиска или проверки личности. В тоже время, зависимость надежности данного метода от эмоционально-психологического состояния диктора в момент произнесения, позволяют использовать его в «VoiceNet ID» лишь в качестве вспомогательного.

3. Метод на основе СГР3.1.Модели Гауссовых смесей (Gaussian Mixture Models) или смеси Гауссовых распределений на дан-

ный момент являются наиболее распространенным подходом для решения задач текстонезависимой идентификации.

3.2.Суть метода состоит моделировании дикторозависимых акустических особенностей в пределах ин-дивидуальных фонетических звуков (классов), которые входят в состав речевого сигнала. Сравнивая дикторозависимые акустические особенности в произнесении одного диктора с акустическими осо-бенностями произнесения другого диктора, можно получить меру отличия дикторов в пространстве признаков.

3.3.Значения EER для метода на основе СГР зависит от длительности сравниваемых речевых фрагмен-тов и может достигать величины ~4-5%.

3.4.Высокая требовательность метода к качеству сигнала, высокая зависимость от обучающего материа-ла, а также относительно большие временные затраты на выделение биометрических признаков не позволяет использовать его в Системе в качестве основного. Хотя использование связки SVM-GMM, позволило решить задачу каналокомпенсации, понижая показатель EER на 2-3 процента по сравне-нию со связкой NN-GMM, используемой традиционно.

4. Аппаратные характеристики

Для обеспечения максимальной производительности системы целесообразно использовать блейд-серве-ры IBM на 19”-шасси. Сервер хранения базы данных рассчитывается с учетом объема, занимаемого учетными карточками, и требований обеспечения быстродействия при обработке запросов. На хранение одной ученой карточки в базе данных отводится 7.5 МБ, из которых:

• 5.5. МБ - на хранение звукового сигнала, средняя продолжительность 4 мин (включая паузы, в фор-мате ИКМ 16 бит при частоте дискретизации 11025 Гц);

• 500 кБ - на хранение биометрической информации;

52

Page 3: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

• 500 кБ - на хранение дополнительной информации о личности (установочные данные, информация из других информационных систем)

• 1 МБ – резерв.Для реализации в полном объеме требуемых характеристик Системы, что на практике означает прове-

дения свыше 700 млн. сравнений в сутки, может потребоваться до 60 8-ядерных блейд-серверов и сервер базы данных на 15 ТБ. Энергопотребление комплекса (с резервом) составит 100 кВт. Все серверы оснащаются блока-ми бесперебойного питания. С учетом постоянного повышения производительности компьютеров и совершен-ствования алгоритмов идентификации заявленное количество серверов может корректироваться.

В высокой степени надежность, безопасность, высокая производительность, комплекса обеспечиваются применением СУБД Oracle. В частности, СУБД Oracle позволяет работать с информацией практически неогра-ниченному числу пользователей (при наличии достаточных аппаратных ресурсов), не проявляя тенденции к снижению производительности системы при резком увеличении их числа.

Механизмы масштабирования СУБД Oracle последней версии позволяют практически безгранично уве-личивать мощность и скорость работы сервера базы данных и приложений простым добавлением новых узлов (серверов) кластера. Это не требует остановки и модернизации уже работающих приложений. Кроме того, вы-ход из строя отдельных узлов кластера также не приводит к остановке приложения.

Для защиты кластера от перебоев электропитания предусмотрено его оснащение системой непрерывно-го питания.

Суточная загрузка системы представлена в табл. 3.

Таблица 3. Суточная нагрузка «VoiceNet ID»Число вычислительных лезвий 8 18 38 58

Число ядер на лезвии 16 16 16 16Общее число ядер 128 288 608 928

Максимальная расчетная загрузка кластера в сутки (количество попарных сравнений)

27 648 000 62 208 000 160 000 000 600 000 000

5. Заключение

Разработанные ЦРТ передовые средства и методы обработки речевых сигналов позволяют уже сегодня автоматизировать большую часть операций, связанных с поиском диктора и предварительным идентификаци-онным исследованием по голосу и речи, с использованием распределенной системы фоноучета.

НОВЫЕ ВОЗМОЖНОСТИ АНАЛИЗА СИГНАЛА ДЛЯ ОПРЕДЕЛЕНИЯ ПОЛОЖЕНИЯ ФОРМАНТ В АПК «САПФИР»

М.А. Лобанова (ЗАО НПП “ИСТА-СИСТЕМС”, Санкт-Петербург, mal @ ista . ru )

В настоящее время при тесном сотрудничестве с ЭКЦ МВД России нами продолжается дальнейшее развитие созданного в 2007 году аппаратно-программного комплекса (АПК) для автоматизации проведения фо-носкопической экспертизы «САПФИР» ([1]).

Сделаем краткий экскурс в историю создания данного комплекса. К разрабатываемому АПК «САПФИР» предъявлялись следующие требования:• возможность выполнения на разрабатываемом комплексе основных этапов типового технологиче-

ского процесса производства экспертизы;• возможность использования на каждом последующем этапе выполнения экспертизы результатов

уже выполненных работ; • автоматизация работы эксперта с целью сокращения временных трудозатрат и облегчения выпол-

нения различных видов работ.При разработке АПК «САПФИР» учитывалась принятая в настоящее время в МВД России методика

проведения фоноскопической экспертизы, а именно методика «Диалект». Соответственно данной методике была разработана модульная структура программного обеспечения АПК «САПФИР», позволяющая не только удобным образом следовать методике «Диалект» (в том числе осваивать методику начинающими экспертами), но и разделить работу по проведению экспертизы между различными экспертами. Также в результате консультаций и плодотворного сотрудничества с экспертами ЭКЦ были определены наиболее важные направ-ления автоматизации процесса производства экспертизы, что и было реализовано в конечном программном продукте.

В настоящее время АПК «САПФИР» активно используется для проведения фоноскопических экспертиз в лабораториях МВД. В тоже время нами постоянно ведутся работы по его модернизации, включая не только дальнейшую автоматизацию работы эксперта, но и разработку новых методов проведения различных видов анализа сигнала. В данной статье будет дан краткий обзор некоторых новых возможностей программы, предла-гаемых эксперту для определения положения формант исследуемого речевого сигнала.

Следует сразу отметить, что описываемые ниже способы определения положения формант не являются автоматическими методами и требуют активного участия эксперта.

53

Page 4: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

Задача оценивания положения формант встает перед экспертом при проведении сравнительного лин-гвистического анализа образцов речи, а также при проведении сравнительного акустического микроанализа. При проведении микроанализа, заключающегося в поиске в образцах речи и в спорных фонограммах сопоста-вимых триад звуков (согласный – гласный – согласный) и их последующем параметрическом описании, требу-ется особенно точная оценка частотного положения формант.

Для оценивания значений формант эксперт, пользуясь возможностями имеющегося в его распоряжении ПО, обычно проводит вычисление спектрограммы с последующим анализом ее изображения. Среди основных задач, которые при этом решает эксперт, можно назвать следующие:

• выбор оптимального размера спектрального окна для вычисления спектрограммы для исследуемо-го речевого фрагмента (с учетом значения основного тона голоса);

• выделение формантных траекторий на изображении вычисленной спектрограммы;• проведение оценки значений положений формант для выбранного в речевом сигнале момента вре-

мени.Возможность и сложность выделения формантных траекторий по изображению спектрограммы, конеч-

но, во многом зависит от характеристик исследуемого речевого сигнала - от качества сигнала (уровня шума и его амплитудно-частотных характеристик), от речевых навыков и манеры диктора, от экстралингвистических факторов, оказавших влияние на речевой процесс. Вместе с тем, задачу выделения формантных траекторий можно облегчить программными средствами, среди которых, конечно, следует назвать возможность выбора для каждого конкретного сигнала оптимального диапазона цветопередачи спектрограммы, а также возможность вводить подъем амплитуды высокочастотных составляющих сигнала при их отображении.

В АПК «САПФИР», кроме перечисленных выше способов улучшить изображение спектрограммы и проявить на ней формантные полосы, реализованы дополнительные методы, которые условно можно разбить на три группы:

• Методы, позволяющие одновременно (синхронно по частоте и по времени) проводить измерения в окнах, представляющих различные данные (результаты разных видов анализа).

• Методы, основанные на сравнительном анализе спектрограмм идентичных речевых фрагментов.• Методы, основанные на различных способах отображения спектрограмм (например, дифференци-

альные спектрограммы или метод, отображения спектрограммы с помощью “спектральных профи-лей” (см. рис.1) ).

Опишем кратко каждую группу методов.Методы, позволяющие одновременно (синхронно по частоте и по времени) проводить измерения в

окнах, представляющих различные данные (результаты разных видов анализа).Данная группа методов базируется на возможностях пользовательского интерфейса АПК «САПФИР»,

позволяющего измерять синхронно в разных окнах значения частоты и времени.На рис. 1 представлены виды окон осциллограммы, спектрограммы и мгновенного спектра сигнала, в

которых отображены связанные между собой данные. Для вычисления широкополосного спектра выбраны следующие параметры: размер спектрального кад-

ра - 128 отсчетов сигнала, смещение между кадрами - 2 отсчета. В окне спектра отображены два мгновенных спектра, вычисленные для временных участков сигнала,

имеющих общее начало, но разную длину (512 и 128 отсчетов сигнала). Начало этих временных участков соот-ветствует положению поставленного в окне спектрограммы (осциллограммы) маркера.

Совершаемые экспертом, например, по окну спектрограммы перемещения указателя ‘мышки’ отобража-ются также в окне осциллограммы и в окне спектра. В окне осциллограммы выделяются границы временного окна, для которого был вычислен спектральный срез, соответствующий указателю ‘мышки’ в окне спектрограм-мы. В окне спектра отображается маркер, соответствующий частоте указателя ‘мышки’ окна спектрограммы.

Возможность синхронного измерения временных и частотных координат данных, представленных в различных формах, позволяет эксперту принять решение о наличии форманты в той или иной частотной обла-сти и оценить ее значение.

54

Page 5: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

Рис.1. Окно осциллограммы с участком звукового сигнала, окно спектрограммы, отображающее спектрограмму данного сигнала и окно спектра с изображениями двух мгновенных спектров (широкополосного и узкополос-

ного), вычисленных для временных кадров, имеющих общее начало. На рисунке показано проведение син-хронного по частоте и времени анализа данных, представленных в разных окнах.

Методы, основанные на сравнительном анализе спектрограмм идентичных речевых фрагментов.Принятие решения по спектрограмме сигнала о том, где “проходят” формантные траектории, осложня-

ется иногда не только плохим качеством фонограммы, но и ненормативным в плане положения формант осо-бенностям речи. Мы имеем ввиду наличие на спектрограмме сигнала выраженных затемненных полос в тех ча-стотных диапазонах, в которых их быть не должно согласно известным акустическим характеристикам (для присутствующих в речи фонетических единиц).

55

Page 6: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

В этом случае провести формантный анализ может помочь сравнительный анализ спектрограмм иден-тичных речевых фрагментов (триад звуков) известного и спорного дикторов.

Одним из направлений развития АПК «САПФИР» явилась разработка возможностей проведения такого рода сравнений. На рис. 2 представлены наложенные друг на друга фрагменты спектрограмм идентичных рече-вых фрагментов, произнесенных разными дикторами. Пользовательский интерфейс позволяет эксперту сдви-гать накладываемые фрагменты относительно друг друга по времени и по частоте, а также настраивать изобра-жения, изменяя параметры цветопередачи для каждого фрагментов отдельно.

На рис. 3 представлены наложенные друг на друга фрагменты кепстрограмм. Наложение кепстрограмм может помочь эксперту принять решение о возможности проведения сравнения речевых сигналов (например, для определения идентичности эмоционального состояния сравниваемых дикторов, речь которых представлена на фонограммах).

Рис.2. Наложение друг на друга спектрограмм идентичных речевых фрагментов в АПК «САПФИР».

Рис. 3 . Наложение друг на друга кепстрограмм одинаковых фраз, произнесенных разными дикторами

Методы, основанные на различных способах отображения спектрограмм (например, дифференциаль-ные спектрограммы или метод, отображения спектрограммы с помощью “спектральных профилей”)

Большую помощь эксперту при анализе сигнала, как показала практика, могут оказать дифференциаль-ные спектрограммы, включенные в АПК «САПФИР», как один из возможных видов представления спектро-граммы сигнала (см. [2]). Дифференциальные спектрограммы оказываются очень полезными при определении границ между звуковыми единицами потока речи, а также для выделения на изображении спектрограммы фор-мантных траекторий.

Одним из направлений развития АПК «САПФИР» является реализация возможности отображения дан-ных, представляемых на спектрограмме (вклада частотных составляющих в общий спектр сигнала, а также из-менение этого вклада во времени) , в виде ‘спектральных профилей’.

56

Page 7: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

Идея состоит в том, чтобы представлять изменение значения каждой частотной составляющей в виде отдельной линии на общем для всех частотных составляющих графике. На рис. 4 представлен такой график для нескольких соседних частотных составляющих.

Приведенные на рис. 4-6 изображения показывают возможности использования ‘спектральных профи-лей’:

• Для определения положения формант (путем изучения графика трех-четырех соседних частотных компонент, соответствующих максимуму в спектре выбранного момента времени).

• Для определения среднего и мгновенного значения основного тона голоса (по присутствующей в спектральных профилях амплитудной модуляции с частотой основного тона ).

• Для определения границ между звуковыми единицами речевого потока.

Рис. 4 . График ‘спектральных профилей’ соседних частотных компонент (верхнее окно):по горизонтальной оси отложено время, по вертикальной – значение спектральной энергии.

В нижнем окне – осциллограмма того же сигнала.

57

Page 8: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

Рис. 5 . График ‘спектральных профилей’ двух частотных компонентдля небольшого временного окна (верхнее окно). В нижнем окне – осциллограмма того же сигнала.

На графике ‘спектральных профилей’ хорошо видно изменение энергии частотных характеристик, со-ответствующее происходящим в голосовом тракте говорящего перестройкам. Также на ‘спектральных профи-лях’ хорошо видна периодическая структура, соответствующая работе голосовых связок.

Рис.6. Осциллограмма сигнала (внизу)и ‘спектральные профили’ двух частотных характеристик спектрограммы (наверху).

На приведенных ‘спектральных профилях’ в середине речи виден всплеск энергии частотных характе-ристик, соответствующий произнесению звука ‘р’. На ‘спектральных профилях’ хорошо видна разница в скоро-сти нарастания (более пологая) и скорости уменьшения (более крутая) спектральной энергии приведенных ча-стотных характеристик звука ‘р’.

Применение ‘спектральных профилей’ для исследования отклика спектрального анализатора на рече-вой сигнал можно сравнить с применением микроскопа. На ‘спектральных профилях’ хорошо видны изменения в речевом сигнале не только в энергетически выраженных частотных областях, но и во всех остальных. Как нам кажется, на ‘спектральных профилях’ могут быть хорошо видны артикуляционные жесты говорящего, т.е. его стремление к перестройке артикуляционного тракта согласно речевой программе. Возможно, изображение спектрограммы в виде ‘спектральных профилей’ окажется интересным и полезным для проведения различных исследований речевого сигнала.

Литература

1. Лобанова М.А, Назарова Т.В. Универсальный комплекс для автоматизации проведения фоноскопической экспертизы (комплекс «САПФИР»), Материалы 15 Международной научной конференции “Информатизация и информационная безопасность правоохранительных органов”, 23-24 мая 2006 г., стр. 313.

2. Лобанова М.А. Решение проблемы поиска идентичных речевых фрагментов в уноверсальном комплексе для автоматизации проведения фоноскопической экспертизы «САПФИР». Построение дифференциальных спектрограмм. Материалы 17 Международной научной конференции “Информатизация и информационная безопасность правоохранительных органов”, 20-21 мая 2008 г., стр. 412.

КОМПЬЮТЕРНЫЙ АНАЛИЗ ЗВУКОВЫСОТНОЙ СИСТЕМЫ ГОЛОСА

58

Page 9: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

К.т.н,. доцент А.В.Харуто(Московская государственная консерватория)

Интонационная составляющая речи, физическим носителем которой является мгновенная частота основного тона (ЧОТ), давно привлекает внимание исследователей как существенная психофизиологическая характеристика (см., напр., [Lieberman 1961; Женило 1988, 1995]) и как филологический феномен [Кантер 1988]. Анализ мелодического рисунка вокальной речи позволяет выделять «типовые» фрагменты исполне-ния — тоны, глиссандо, вибрато и исследовать их характеристики [Харуто 1998, 2005; Харуто, Смирнов 1999; Смирнов, Харуто 2000].

Анализ звукоряда на основе фонограммы предполагает проведение звуковысотной расшифровки, т. е. построения мелограммы (аналог контура ЧОТ; для удобства музыковедов мелограмма отображает ЧОТ в коор-динатах высоты звука, а не частоты), с последующим ее исследованием. Под звукорядом понимается набор звуков определенной высоты, на основе которых построена соответствующая музыкальная система. При иссле-довании предполагается, что наличие звукоряда проявляется в «более длительном» пребывании ЧОТ звука на определенных этим звукорядом уровнях, в то время как другие значения ЧОТ появляются в фонограмме только кратковременно — при переходе между частотами, относящимися к звукоряду. Выявление частот звукоряда возможно на основе одномерной плотности распределения ЧОТ: в соответствии с принципом максимального правдоподобия положения вершин локальных максимумов распределения должны совпадать с частотами, обра-зующими звукоряд.

Один пример мелограммы такого рода показан на рис. 1. В программе анализа музыкального звука SPAX, разработанной автором1, предусмотрен режим отображения «сетки» звуковысотных ступеней при произ-вольном выборе их числа в октаве и возможность подстройки всей «сетки» по высоте; в данном случае наилуч-шим получилось совпадение высот, на которых «останавливается» голос, примерно с 19-ступенным равномер-но темперированным звукорядом (т. е. содержащим 19 эквидистантных ступеней высоты в октаве).

Рис. 1. Мелограмма фольклорного исполнителя, использующего равномерно-темперированный звукорядпримерно с 19-ю ступенями в октаве.Диаграмма справа показывает результат анализа распределения «времени

пребывания» звука на разных высотах.

Визуальный анализ характера контура ЧОТ достаточен для предварительных оценок и позволяет по-нять временную и звуковысотную структуру исследуемого процесса, однако потребность в более объективных данных заставляет разрабатывать алгоритмы анализа, дающие числовую оценку характеристик процесса. Для примера на рис. 1 показана плотность распределения высоты звука для фрагмента фонограммы, выделенного вертикальными маркерами (график справа; ось вероятности направлена справа налево). Распределение имеет явно выраженные максимумы на тех «привычных» высотах голоса, где наблюдаются длительные горизонталь-ные участки в мелограмме.

Исследования распределения величины ЧОТ в речевых образцах показали, что оно часто оказывается полимодальным; в работе [Женило 1988] отмечалось, что у некоторых дикторов моды распределения образуют систему, совпадающую по структуре с равномерно-темперированным музыкальным строем. Как показал ряд исследований автора доклада (см., напр., [Харуто, Смирнов 1999; Смирнов, Харуто 2000]), народные фольклор-ные певцы2 обычно используют свой индивидуальный звукоряд с интервалом между звуками, меньшим, чем 1/12 октавы (практически от 1/17 до 1/30 и менее).

Следует отметить, что более полные данные могли бы быть получены путем исследования многомер-ных распределений, учитывающих статистические связи между высотами соседствующих звуков. Такие зави-

1 Программа SPAX. Свидетельство ФГУ «Роспатент» о регистрации № 2005612875 от 7 ноября 2005 г. 2 Мы сознательно отличаем их от профессиональных исполнителей фольклора, которые часто имеют современное музыкаль-ное образование и поют в 12-полутоновом равномерно-темперированном строе.

59

Page 10: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

симости прослеживаются, например, в музыкальном исполнении на инструментах с нефиксированной настрой-кой: высота изменяется исполнителем по сравнению с «предписанной» нотами величиной для большего благо-звучия (т. е. для исправления погрешностей 12-полутонового равномерно-темперированного строя). Измерения, подтверждающие это, были проведены разными исследователями и описаны, например, в работах [Рабинович 1932, Сахалтуева 1960, Рагс 1970].

Очевидно, что наличие звуковысотного вибрато и случайные или преднамеренные неточности выдер-живания высоты «размывают» линию, соответствующую положению звуковысотной ступени. При анализе фольклорных вокальных фонограмм, где вибрато отсутствует или появляется весьма редко (что можно про-контролировать путем просмотра всей звуковысотной расшифровки типа представленной на рис. 1), непосред-ственный анализ статистического распределения высоты звука будет давать необходимый результат; в случае более частого использования вибрато может быть использовано предусмотренное в программе SPAX интерак-тивное измерение каждого тона (т. е. звука с постоянной высотой) и тона, сопровождаемого вибрато — при этом фиксируется среднее значение тона на заданном интервале времени, а также параметры вибрато [Харуто 2005] и дальнейшее статистическое исследование проводится по этим данным. Ниже мы ограничимся исследо-ванием фонограмм, в которых отсутствует преднамеренное вибрато; будут рассмотрены методы и результаты анализа звуковысотной системы в фольклорном пении, близком к речитативу; для проверки и отладки алгорит-мов использован образец фонограммы с музыкально-инструментальным исполнением.

В разработанной автором программе SPAX для определения ЧОТ применяется метод кепстра. Экспери-ментальная оценка точности определения ЧОТ по синтетическому сигналу показала отклонение от заданной ча-стоты в пределах примерно в 4–5 центов (напомним, что октава составляет 1200 центов, а стандартный полутон равен 100 центам). Использование программы для звуковысотной расшифровки десятков образцов вокального фольклора не выявило никаких разночтений по сравнению со слуховым анализом фонограмм, проводившимся экспертами-фольклористами.

При исследовании распределения ЧОТ гистограмма строилась из «окон» размером 5=∆h центов и (иногда) более. Известно, что размер окна гистограммы влияет на точность ее оценивания. Чем меньше размер окна, тем выше точность оценки позиционирования элементов распределения (напр., искомых в нашем случае локальных максимумов), т. е. меньше систематическая погрешность оценки с помощью гистограммы, исполь-

зующей замену истинного распределения )(hΨ системой из HN прямоугольных окон шириной h∆ . Однако

уменьшение размера окна приводит к меньшему числу зарегистрированных в нем значений процесса, т. е.

меньшей вероятности ip пребывания процесса в пределах этого гоi − окна, что, в свою очередь, приводит к

увеличению относительной среднеквадратичной погрешности оценивания значения )( ihΨ при данной высоте

звука ih , определяемой как (см., напр., [Мирский 1972, С. 313 ]):

i

i

p

p

N

−×= 112ε ,

где N — число некоррелированных выборок процесса.Для выявления локальных максимумов распределения, соответствующих «привычным» частотам ис-

следуемого голоса, могут быть использованы разные подходы. В частности, можно пытаться непосредственно зафиксировать локальные максимумы плотности распределения высоты звука (напомним, что высота пропор-циональна логарифму ЧОТ). Для определения точек максимумов следует отыскивать в гистограмме

},1,{ Hi Nip = , точки jp , возвышающиеся над соседними, т. е. отвечающие условиям

jj pp <−1 и 1+> jj pp .

Поскольку положение максимума никак не приурочено к границам окон гистограммы, для более точно-

го определения его истинного положения целесообразно использовать аппроксимацию формы кривой )(hΨ в районе максимума — например, в одном из исследованных нами алгоритмов через каждые три точки в районе максимума проводилась квадратичная парабола и далее аналитически определялось положение максимума. Очевидное ограничение на возможное расстояние между соседними обнаруживаемыми ступенями состоит в

том, что этот интервал не может быть меньше h∆×2 , что при 5=∆h центам дает величину минимального фиксируемого «шага» звуковысотной системы в 10 центов.

Такой алгоритм поиска обнаруживает, однако, все «выступающие» точки гистограммы, которых при анализе реального исполнения оказывается очень много и которые, по всей видимости, не являются ступенями звукоряда. Большая часть интервалов между «ступенями» при этом только ненамного превышает указанный нижний предел. Для примера рассмотрим анализ одной музыкальной фонограммы: это — «коряво» исполнен-ное начинающим скрипачом упражнение (он проигрывал гаммы вверх и вниз). «Идеал», к которому стремился исполнявший — ряд равноотстоящих по высоте «ступенек» на высотах, соответствующим нотам 12-полутоно-вого равномерно-темперированного строя. Однако поскольку скрипка — инструмент с нефиксированной на-стройкой, здесь возможны (и реально присутствуют) погрешности интонирования. На рис. 2 показан фрагмент мелограммы и гистограмма распределения высот, оцененная по всей фонограмме. Здесь хорошо видна система 60

Page 11: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

«пиков» распределения, которые практически не перекрываются, но разнонаправлено сдвинуты по сравнению со стандартными высотами нот 12-полутонового звукоряда. «Пики» распределения имеют также разную шири-ну и иногда раздвоены, что объясняется нестабильностью высоты при исполнении — «дрожанием» в процессе исполнения одного звука (увеличенная ширина) и неточностью средней высоты при повторном проигрывании той же ступени (раздвоение).

Рис. 2. Фрагмент звуковысотной расшифровки ученического исполнения на скрипке и оценка распределения высот

Определение ступеней звукоряда путем фиксации всех локальных максимумов дает результат, показан-ный на рис. 3 (за «нуль» высоты принята нота до первой октавы).

-600

0

600

1200

1800

2400

3000

1 3 5 7 9 11 13 15 17 19 21 23 25

Номер ступени

Вы

сота

, ц

енты

Рис. 3. Результат оценки звукоряда (см. пример рис. 2) путем поиска всех локальных максимумов

Здесь видны как «повторяющиеся» ступени, разделенные очень малыми интервалами (соответствую-щие, видимо, раздвоенным пикам распределения), так и переменные по величине «скачки» между ступенями. Присутствуют, соответственно, как очень мелкие шаги (соответствующие «сдвоенным» пикам), так и близкие к ожидаемым для данного случая, т. е. примерно кратные 100 центам.

Если об исследуемом звукоряде нет априорных сведений, то по подобным данным определить его структуру было бы затруднительно. Выделение «основных» ступеней по признаку наибольшей вероятности не-корректно, поскольку суммарное время пребывания высоты звука в том или другом окне гистограммы, т. е. оценка вероятности «использования» каждой из искомых ступеней, существенно зависит и от исполняемой ме-лодии (а в случае речевого общения — от требуемой интонации высказывания), и от «качества» ее воспроизве-дения, что иллюстрируется рис. 2. Таким образом, вполне возможно, что коротко прозвучавший тон окажется одним из основных, образующих звуковысотную систему, и его нельзя не учитывать. Кроме того, в исполнении (фрагменте речи) могут отсутствовать некоторые ступени звукоряда, поскольку они «не нужны» в данном слу-чае (но понадобятся в другом).

61

Page 12: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

Используя предположение о том, что искомый звукоряд является равномерно-темперированным, т. е. что его ступени разнесены на равные интервалы по шкале высоты, можно предложить другой способ анализа, основанный на оценке всей гистограммы в целом и поиске в ней периодически повторяющихся «пиков». Для та-кой оценки автором был (как и для определения ЧОТ) использован метод кепстра: гистограмма логарифмиро-валась (что «уравнивает» в некоторой степени вклад в оценку часто и редко используемых ступеней) и вычис-лялся ее спектр. Для приведенного выше примера — ученического исполнения на скрипке — получается спектр распределения, показанный на рис. 4.

0

100

200

300

400

500

600

1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97

Номер точки спектра

Ин

тен

сив

но

сть

Рис. 4. Спектр, вычисленный для распределения высот звука (см. пример рис. 2)

Наиболее мощные максимумы обнаруживаются в точках №№ 5, 7, 11 и 15; интенсивности соответству-ющих компонент спектра отображают «выраженность» данной периодической составляющей (т. е. совокупно-сти «пиков», размещенных через соответствующий шаг по высоте). График интенсивностей для перечисленных наиболее выраженных периодических составляющих в зависимости от предполагаемых шагов между ступеня-ми звукоряда показан на рис. 5. Здесь видно, что наиболее выраженной (наиболее вероятной) структурой в дан-ном исполнении является звуковысотная система с шагом 100 центов (которая и «предписана» стандартными высотами нот 12-полутонового звукоряда). Ошибки исполнения порождают побочные пики, но их интенсив-ность намного меньше.

0

100

200

300

400

500

600

0 50 100 150 200 250 300

Шаг построения звукоряда (центы)

"Вы

раж

енн

ост

ь"

сост

авл

яю

щей

Рис. 5. Зависимость «выраженности» периодической компоненты звукоряда от шага между ступенями(см. пример рис. 2)

Анализ первого из приведенных выше примеров (русской фольклорное пение в звуковысотной систе-ме, содержащей, по предварительной оценке, примерно 19 ступеней в октаве — см. рис. 1), дает спектр плотно-сти распределения, приведенный на рис. 6. На рис. 7 показаны значения интенсивности периодической компо-ненты распределения высоты для основных «пиков» спектра рис. 6. Здесь число значительных и сопоставимых по величине максимумов значительно больше, однако для самого мощного из них (точка № 18) получается ве-личина соответствующего шага по высоте, равная 58,8 центам, что соответствует 1200:58,8=20,4 ступеням в октаве. Другие пики спектра получаются из-за большого количества промежуточных по высоте звуков — в частности, из-за украшения мелодии движением вверх-вниз относительно средней высоты исполняемого звука.

Еще один пример анализа — эвенкийская песня (мужской голос, исполнение близко к речитативному). Звуковысотная расшифровка фрагмента и гистограмма распределения высоты показана на рис. 8. Спектр для

62

Page 13: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

этого распределения показан на рис. 9. Как и в предыдущем случае, спектр содержит много максимумов, что отображает сложную звуковысотную структуру1. На рис. 10 показаны интенсивности для наиболее выражен-ных периодических составляющих этого спектра.

0

10

20

30

40

50

60

70

80

90

1 8 15 22 29 36 43 50 57 64 71 78 85 92 99

Номер точки спектра

Ин

тен

сив

но

сть

Рис. 6. Спектр, вычисленный для распределения высот звука в фонограмме русского фольклорного пения(см. рис. 1)

0

10

20

30

40

50

60

70

80

90

0 50 100 150 200 250 300

Шаг построение звукоряда (центы)

Рис. 7. Зависимость «выраженности» периодической компоненты звукоряда от шага между ступенями для образца русского фольклорного пения (см. рис. 1)

Рис. 8. Фрагмент звуковысотного рисунка и распределение высоты в эвенкийской песне

При анализе спектра распределения высоты для этого образца выявляется основной по выраженности шаг звуковысотной системы, равный 20 центам (точка № 51 в спектре).

1 Здесь (как и на других графиках спектров) для удобства масштабирования «вырезана» постоянная составляющая, вследствие чего образовался искусственный максимум в точке № 2 — в расчетах он не учитывается.

63

Page 14: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

0

10

20

30

40

50

60

70

80

90

1 8 15 22 29 36 43 50 57 64 71 78 85 92 99

Номер точки спектра

Ин

тен

сив

но

сть

Рис. 9. Спектр, вычисленный для распределения высот звука в фонограмме эвенкийского фольклорного пения (см. рис. 8)

0

10

20

30

40

50

60

0 50 100 150 200 250 300

Шаг построения звукоряда (центы)

Рис. 10. Зависимость «выраженности» периодической компоненты звукоряда от шага между ступенями для об-разца эвенкийского фольклорного пения (см. рис. 8)

Таким образом, компьютерный анализ звуковысотной системы фонограммы на основе распределения высоты звука с последующим исследованием периодичности структуры этого распределения позволяет опреде-лить интервал, образующий равномерно-темперированный звукоряд исполнителя. По-видимому, можно также на основе характера спектра распределения (количества дополнительных «пиков», их интенсивности и пр.) ин-тегрально оценивать точность следования звукоряду в исследуемом исполнении.

Отметим, что указанный тип звукоряда не является единственно возможным: так, в тувинском горло-вом пении (и сходных с ним монгольском, тибетском и др.), где во время вокализов слышны по меньшей мере одновременно два голоса на разных высотах, мелограмма «верхних» голосов показывает использование нату-рального звукоряда, где звуковысотные ступени разнесены на равные по частоте (а не по высоте) интервалы. Это связано с используемым механизмом звукоизвлечения: все слышимые «голоса» образуются из обертонов нижнего основного звука, т. н. бурдона, высота которого во время исполнения практически неизменна (см, напр., [Харуто, Карелина 2008; Харуто 2008].

Сопоставляя результаты нашего анализа с традициями европейского этномузыковедения, использую-щего 12-полутоновую нотацию (иногда — с дополнительными знаками микроальтерации, позволяющими фик-сировать, например, четвертитоновые интервалы), можно заключить, что зарегистрированные в фольклорном пении интервалы между ступенями должны измеряться гораздо точнее и не могут быть отображены указанны-ми средствами нотации.

64

Page 15: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

Следует отметить, что представленные результаты носят предварительный характер и требуют даль-нейшей проверки и сопоставления с данными, полученными экспертами-музыковедами «традиционными» слу-ховыми методами.

Литература

1. Lieberman Ph. (1961) Perturbations in Vocal Pitch // The Journal of the Acoustic Soc. of America. — 1961. — v.33, N5. — p.597-603

2. Женило В. Р. (1988) Анализ параметров частоты основного тона голоса человека для автоматиче-ской идентификации личности/ Академия наук СССР, Вычислительный центр. Сообщения по про-граммному обеспечению ЭВМ. — М., 1988.

3. Женило В. Р. (1995) Компьютерная фоноскопия. / М: Академия МВД России, 19954. Кантер Л. А. (1988) Системный анализ речевой интонации: Учебн. пособие. — М.: Высшая школа,

1988.5. Харуто А. В. (1998) Компьютерный анализ звука в музыковедческом исследовании. Труды междуна-

родного научного симпозиума «Информационный подход в эмпирической эстетике». Таганрог: Изд. ТРТУ, 1998.

6. Харуто А. В., Смирнов Д. В. (1999) Использование компьютерного анализа в исследовании звуковы-сотного строения народной музыки. //Материалы Международных конференций памяти А. В. Руд-невой. — М.: Московская гос. консерватория, 1999.

7. Смирнов Д. В., Харуто А. В. (2000) Нелинейный звукоряд в музыкальном фольклоре: общая законо-мерность и индивидуальность. / Языки науки — языки искусства / Общ. ред. З. Е. Журавлевой, В. А. Копцик, Г. Ю. Резниченко. — М.: МГУ, 2000.

8. Харуто А. В. (2005) Статистическое исследование характеристик вибрато. // Сборник трудов XIV международной научной конференции «Информатизация и информационная безопасность право-охранительных органов». — М.: Академия управления МВД России, 2005.

9. Рабинович А. В. (1932) Осциллографический метод анализа мелодии/ Проблемы музыкознания. Тео-ретическая библиотека. — М.: Музгиз, 1932.

10. Сахалтуева О. Е. (1960) О некоторых закономерностях интонирования в связи с формой, динамикой и ладом // Труды кафедры теории музыки Московской гос. консерватории им. П. И. Чайковского. Вып. 1. — М.: Музгиз, 1960.

11. Рагс Ю. Н. (1970) О художественной норме чистой интонации при исполнении мелодии: Дис... канд. искусствоведения. — М., 1970.

12. Мирский Г. Я. (1972) Аппаратурное определение характеристик случайных процессов. Изд. 2-е пере-раб. и доп., М.: Энергия, 1972.

13. Харуто А. В., Карелина Е. К. (2008) К вопросу о музыкально-акустических свойствах тувинского горлового пения. «Музыкальная академия», 2008, № 4, С. 108–113.

14. Харуто А. В. (2008) Тувинское горловое пение: акустический анализ и модель звукообразования //cб. трудов ХХ сессии Российского акустического общества, секция «Акустика речи» — М., РАО, 2008, С.106-110.

МОДИФИКАЦИЯ РЕЧЕВОГО СИГНАЛА КАК СЛЕДСТВИЕ НАЛИЧИЯ ЭМОЦИОНАЛЬНЫХ СОСТОЯНИЙ «СТРАХ»/ «ТРЕВОЖНОСТЬ»

Д. филол. наук, проф., академик МАИ Р.К. Потапова (Московский государственный лингвистический университет), д. филол. наук, ст. науч. сотрудник В.В. Потапов (Московский государственный университет им. М.В. Ломоносова)

Эмоциям в речи посвящено огромное количество исследований в области психологии, социологии, лин-гвистики, психолингвистики. Эмоции и разум в речи неразрывно связаны между собой. Эмоции не сопровожда-ют деятельность человека, а являются неотъемлемой составляющей сложной организации его психических про-цессов и состояний. Речь следует рассматривать как единство интеллектуального и эмоционального, так как она яв-ляется способом формирования и формулирования мысли посредством языка [1].

Являясь формой человеческого поведения, речь подвержена влиянию широкого ряда еще не полностью изученных факторов [2]. Измерения речевых характеристик говорящего показывают, что на качество голоса мо-гут влиять различные факторы, например: смысл произносимого текста; язык, на котором произносится текст; фи-зическое и психологическое состояние говорящего; анатомические изменения органов речи в результате опера-ции и др. Такие внутренние факторы, как усталость, болезнь, наличие алкоголя или наркотиков в крови, могут воз-действовать на речевой сигнал как на сегментном, так и на супрасегментном (просодическом) уровнях. На качество голоса также может оказать влияние переход с одного языка на другой (у многоязычных говорящих) и эмоцио-нальное состояние. Так, например, установлено, что различным эмоциональным состояниям свойственны свои просодические характеристики, лексические единицы, словообразовательные способы (например, суффиксы), меж-дометия, частицы и т. д. [3; 4].

65

Page 16: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

Многочисленные исследования позволяют утверждать, что эмоциональные составляющие влияют и на темп речи. Так, например, в состоянии грусти, злорадства и страха длительность высказывания по сравнению с нейтральным произнесением увеличивается, а при радости, гневе и раздражении – уменьшается [5].

Проводились исследования влияния эмоционального состояния и на интонацию. В частности, В.С. Со-колова исследовала влияние эмоций на вопросительные интонации во французском языке [6]. По ее мнению, эмоции оказывают настолько сильное влияние на вопросительные интонации, что способны даже разрушать ка-тегорию вопросительности. Интонационный контур фразы способен изменяться вплоть до своей противополож-ности (там, где в эмоционально относительно нейтральной речи наблюдается повышение тона, в эмоционально окрашенной может появиться падение тона и наоборот).

Кроме интонационных характеристик эмоциональная окраска способна оказывать влияние и на артикуля-цию. Например, при выражении грусти имеется тенденция к закрытому варианту гласных и к увеличению степени их лабиализации, тогда как открытый вариант и уменьшение лабиализации могут быть характерны для реализа-ции эмоций радости и злорадства, а просто открытый вариант – гнева [2].

В исследованиях эмоционального состояния говорящего применительно к криминалистике большое внимание уделяется, прежде всего, анализу таких эмоциональных состояний, как «страх» и «тревожность».

Ранее нами были выявлены следующие перцептивные индикаторы эмоционального состояния «страх» / «тревожность»:

• увеличение числа хезитационных пауз;• увеличение длительности хезитационных пауз;• увеличение скорости артикуляции (для гласных);• темпоральное слоговое скандирование;• ограниченная громкость высказываний;• «неуверенный» тембр произнесения гласных;• наличие компонентов шума в артикуляции гласных;• нарушение плавности в реализации частоты основного тона;• появление элементов шепотной речи и др. [2].Как показали исследования речевой симптоматики психофизиологического состояния индивидуума,

эмоциональное состояние «страх» обладает такими характеристиками, как:• тихий голос;• сниженная голосовая насыщенность (часто реализация так называемого «тонкого» голоса);• в большинстве случаев высота тона выше среднего уровня;• в ряде случаев хрипотца голоса (следствие «зажатого» голосообразования);• напряженная речевая ритмика;• наличие «скованных» ритмов, а также «рваного» (неравномерного) речевого ритма;• слабая акцентуация ударных слогов (как бы «неуверенность в себе»);• затрудненная артикуляция [2; 7].Итак, как правило, основное внимание исследователей было направлено ранее на изучение особенно-

стей паузации, темпа речи, интонационных характеристик и акустических параметров речи под влиянием эмо-ционального состояния «страх».

В данном случае на первом этапе исследования анализировались такие воспринимаемые при пер-цептивно-слуховом анализе характеристики речи, как речевое дыхание и манера говорения. Были рассмотрены также высота, сила и окраска голоса.

Следует упомянуть, что многие предыдущие исследования проводились на материале аудиозаписей речи актеров, имитирующих различные эмоциональные состояния. Однако такие эмоциональные состояния, как «страх» и «тревожность» наименее адекватно передаются в речи актеров и при различного рода имитации. А именно эти эмоциональные состояния наиболее важны при идентификации личности по голосу в судебных целях. Впервые наиболее подробно на неимитируемом естественном материале речь в этих состояниях была проанализирована в [8; 9].

Поставленная проблема решалась благодаря использованию в ходе эксперимента записей, сделанных в ситуациях реального речевого общения (описание картинки, ответ на экзамене и семинаре) с участием дикто-ров - студентов отделения прикладной лингвистики МГЛУ1. Целью исследования была проверка гипотезы о влиянии эмоционального состояния «страх» / «тревожность» на модификацию речевого сигнала.

Результатом данной работы стало выявление релевантных характеристик на перцептивно-слуховом уровне, соотносящихся с усилением психического напряжения с последующим влиянием на речевую деятель-ность.

Подготовка экспериментальных данных включала аудиозапись речевых высказываний дикторов (воз-расте от 17 до 20 лет) в трех ситуациях общения:

1 Эксперименты проводились под нашим руководством М.М. Зайченко и Е.А. Корсаковой (См. Collegium Linguisticum - 2008. М.: Рема, 2008).66

Page 17: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

• – спонтанная речь (описание картинки без предварительной подготовки);• – реализация высказываний на семинаре (квазиспонтанная речь);• – реализация высказываний в условиях экзамена (квазиспонтанная речь).Для получения фонограмм спонтанной речи информантам предлагалось описать картинку из каталога

Н.И. Корнилова [8]. На описание картинки каждый испытуемый затрачивал не более одной минуты. Записи квазис-понтанной речи студентов были получены в ходе семинарских занятий и экзаменов. Запись производилась на магнитную ленту с использованием магнитофона «OLYMPUS Pearlcorder S711», диктофона «SANYO TRC-960C» и сотового телефона «Sony Ericson». После накопления экспериментального материала была проведена его оцифровка с использованием программ «Adobe Audition 1.0» («Adobe System Inc.») и «Zhenilo Signal Work-shop». Данные были переведены в формат WAV. Записи, сделанные на сотовый телефон с помощью программы «WAV<>AMR», были переведены в формат WAV. Затем из большого количества полученного материала были отобраны фонограммы девяти дикторов (трех дикторов мужского пола и шести дикторов женского пола) в трех ситуациях общения. Таким образом, общее число фонограмм, которые были представлены экспертам-фонетистам для определения специфических параметров голоса и речи, составило 27 при общей длительности звучания, равной 24 мин.

В ходе эксперимента по перцептивно-слуховому анализу аудиторам необходимо было определить спе-цифические характеристики голоса и речи каждого из дикторов в трех ситуациях общения:

а) высоту голоса – голос очень низкий, голос низкий, высота ниже среднего, высота средняя, высота выше среднего, голос высокий, голос очень высокий;

б) речевое дыхание – норма, прерывистое, дискомфортное;в) силу голоса – голос слабый, сила ниже среднего, сила средняя, сила выше среднего, голос сильный;г) тембр (окраска) голоса – голос звонкий, голос глухой, голос бархатный, голос хриплый, голос взволно-

ванный, голос мягкий, голос назализованный, голос сиплый, голос певучий, голос резкий;д) манеру речи – официальная, сдержанная, спокойная, непринужденная, развязная.В процессе проведения эксперимента каждый испытуемый работал индивидуально. Фактор обсуждения

признаков с другими испытуемыми исключался.Согласно оценкам аудиторов, полученным в ходе перцептивно-слухового анализа, прослеживается тен-

денция, согласно которой высота голоса дикторов в ситуации описания картинки – средняя / ниже среднего; в ситуации ответа на семинаре – выше среднего; в ситуации ответа на экзамене – выше среднего (рис. 1).

Pitch

0

1

2

3

4

5

6

7

1 2 3 4 5 6 7 8 9

speakers

valu

es spontaneous speech

seminar answer

exam answer

very high

low

below middle

middle

above middle

high

very low

Рис. 1. Изменение высоты голоса.

Сила голоса различных дикторов в ситуации описания картинки – средняя; в ситуации ответа на семинаре – средняя / выше среднего; в ситуации ответа на экзамене – средняя / ниже среднего (рис.2).

67

Page 18: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

Voice intensity

0

1

2

3

4

5

6

1 2 3 4 5 6 7 8 9

Speakers

spontaneous speech

seminar answer

exam answer

strong voice

weak voice

below middle

middle intensity

above middle

Рис. 2. Изменение силы голоса.

Речевое дыхание у различных дикторов в ситуации описания картинки – норма; в ситуации ответа на семинаре – прерывистое; в ситуации ответа на экзамене – прерывистое (рис.3).

Breath

0

1

2

3

4

1 2 3 4 5 6 7 8 9

Speakers

spontaneous speech

seminar answer

exam answer

discomfortable

normal

broken

Рис. 3. Изменение характеристик речевого дыхания.

Манера речи различных дикторов в ситуации описания картинки (спонтанная речь) – варьируется по дикто-рам между значениями «непринужденная – спокойная – сдержанная»; в ситуации ответа на семинаре (квазиспонтан-ная речь) – «официальная»; в ситуации ответа на экзамене (квазиспонтанная речь) – «официальная» (рис. 4).

Speech manner

0

1

2

3

4

5

6

1 2 3 4 5 6 7 8 9

Speakers

spontaneous speech

seminar answer

exam answer

official

familiar

easy

clam

reserved

Рис. 4. Изменение манеры речи.

По оценкам аудиторов окраска голоса дикторов в различных ситуациях общения имеет следующие ха-рактеристики: в нейтральной ситуации общения (описание картинки) тембры голоса у дикторов друг от друга отличаются; в ситуации ответа на семинаре – у всех тембр звонкий, взволнованный; в ситуации ответа на экза-мене – взволнованный, глухой.

В заключение следует сказать, что при интерпретации данных исключались такие факторы, как тип высшей нервной деятельности испытуемых, уровень воспитания, уровень подготовки при ответах на семинаре и экзамене. Учитывались только речевые характеристики поведения в различных ситуациях общения. В итоге на первом этапе применительно к исследованию были сделаны следующие выводы:

• под влиянием эмоциональных состояний «страх»/«тревожность», которые являются типичными для ситуаций ответа на семинаре и экзамене, высота голоса повышается;

• прослеживается тенденция увеличения силы голоса в ситуации «Семинар» и уменьшения силы голо-са в ситуации «Экзамен»;

68

Page 19: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

• речевое дыхание также меняется от нормального до прерывистого и дискомфортного под влиянием эмоциональных состояний «страх»/«тревожность» в ситуациях семинара и экзамена;

• манера речи становится официальной по сравнению с нейтральной ситуацией общения, и голос мно-гих дикторов становится звонким и взволнованным в ситуации семинара; глухим и взволнованным в ситуации экзамена.

Полученные данные могут быть использованы в судебной фонетике при идентификации говорящего по голосу и речи, при идентификации эмоционального состояния говорящего, для дальнейшего сравнения с други-ми результатами, которые учитывают вербальную реализацию данных эмоций на примере других языков.

Главной задачей исследования на втором этапе был анализ характеристик речи, релевантных для рече-вой реализации таких эмоций, как «страх»/«тревожность» в русской речи. В ходе работы был проведен пер-цептивно-слуховой эксперимент, в котором приняли участие те же испытуемые.

На данном этапе аудиторы должны были отмечать особенности речи испытуемых по следующим пара-метрам:

1. темп речи (очень медленный, медленный, средний, быстрый, очень быстрый);2. паузы (очень длинные, длинные, средние, короткие, очень короткие);3. заполнение пауз (паузы незаполненные, сонант, слог, неопределенный звук, гласный);4. акцентуация (ритм):5. – сильная (ярко выраженный ритмический рисунок);6. – слабая (слабо выраженный ритмический рисунок).Для каждой фонограммы испытуемых (реализации высказываний на экзамене, на семинаре и реализации

высказываний без коннотативного эмотивного значения – описание предложенной картинки) в программе «Sound-forge» было выделено по 1 мин. Из этих фонограмм для каждого диктора были сформированы файлы, представ-ляющие собой три фонограммы трех речевых ситуаций, следовавших в определенной последовательности: описание картинки – ответ на семинаре – ответ на экзамене, общей продолжительностью 24 минуты.

Каждому аудитору был предъявлен специальный «протокол», где аудиторы отмечали те или иные харак-теристики дикторов, которых они прослушивали. Следует отметить, что запись можно было прослушивать желаемое количество раз. В процессе проведения эксперимента каждый аудитор работал также индивидуально. Фактор об-суждения признаков с другими аудиторами исключался.

В ходе перцептивно-слухового эксперимента было установлено следующее:Темп речи. В большинстве случаев в ситуации «нейтральная речь» (описание предложенной картинки)

аудиторы отмечали темп речи как средний. В ситуации «семинар» темп речи обычно быстрый. Темп речи выска-зываний на экзамене обычно отмечался также как быстрый (см. рис. 5). Общая картина временных изменений речи подтвердила результаты в [9; 10; 11].

0

1

2

3

4

1 2 3 4 5 6 7 8 9Äèêòî ðû

Òå

ìï

описание

картинкивысказывания

на семинаревысказывания

на экзамене

:Темп речи1- î ÷åí ü áûñòðûé

2- áûñòðûé

3- ñðåäí èé

4- ì åäëåí í ûé

5- î ÷åí ü ì åäëåí í ûé

Рис. 5. Изменение темпа речи.

Среднее значение темпа речи в трех речевых ситуациях отмечено большинством аудиторов. Как видно из рис. 5 наблюдается тенденция к увеличению темпа в ситуациях «семинар» и «экзамен» по сравнению с ней-тральной ситуацией (описание картинки). Темп речи в ситуациях «семинар» и «экзамен» может быть одинаковым, а может и различаться. В этом случае темп речи в ситуации «семинар» чаще быстрее, чем в ситуации «экзамен».

Паузы в речи. Данные протоколов позволили определить, что паузы в «нейтральной речи» (описание картинки) в большинстве случаях средние. В ситуации «семинар» паузы короткие или очень короткие. В ситуации «экзамен» паузы обычно короткие (см. рис. 6).

69

Page 20: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

Паузы в речи

0

1

2

3

4

5

6

1 2 3 4 5 6 7 8 9

Дикторы

Пау

зы

описаниекартинкивысказыванияна семинаревысказыванияна экзамене

Паузы1- очень короткие2- короткие3- средние4- длинные5- очень длинные

Рис. 6. Изменение паузации.

Можно выявить тенденцию к уменьшению длительности пауз в ситуациях «семинар» и «экзамен» по сравнению с «нейтральной речью», причем паузы в ситуации «семинар» чаще короче, чем паузы в ситуации «экза-мен». Иногда паузы при реализации высказывания на экзамене совпадают по длительности с паузами при опи-сании картинки.

Заполнение пауз. В ситуации «нейтральная речь» (описание картинки), как отмечали аудиторы, пау-зы часто не заполнены. В ситуации «семинар» и «экзамен» паузы заполняются гласными довольно часто. Запол-нение пауз сонантами, слогами или неопределенным звуком отмечались аудиторами во всех ситуациях очень редко.

Ритмический рисунок. В «нейтральной речи» (описание картинки) аудиторы отмечали как ярко выражен-ный, так и слабо выраженный ритмический рисунок. В ситуации «семинар» все аудиторы отметили ярко выражен-ный ритмический рисунок (усиленная акцентуация). В ситуации «экзамен» отмечали как ярко выраженный рит-мический рисунок, так и слабо выраженный ритмический рисунок.

Результаты исследования позволяют констатировать наличие определенных тенденций, но существуют так-же и отклонения от общего вектора воспринимаемых признаков, что может быть связано с:

• типом высшей нервной деятельности дикторов;• уровнем воспитания дикторов;• уровнем подготовки дикторов.Проведенный эксперимент представляет собой поиск релевантных признаков на перцептивно-слуховом

уровне, соотносящихся с усилением психического напряжения в связи с изменением ситуации с последующем влиянием на речевую деятельность.

Полученные результаты могут быть использованы для:• определения по лингвопросодическим параметрам психического состояния личности в различных

ситуациях;• использования лингвопросодических параметров при слуховой идентификации говорящего;• определения роли каждой из лингвопросодических характеристик;• выявления возможностей по определению лингвопросодических признаков, связанных с изменением

эмоционального состояния в направлении дихотомии «страх/тревожность» (своего рода слуховой детектор);

• распознавания эмоционального состояния говорящего в целях проведения криминалистической экс-пертизы;

• составления «портрета говорящего» (по Р.К. Потаповой), определения его паравербальных характе-ристик как носителя конкретного языка в конкретной ситуации общения;

• диагностирования психического и физического состояния говорящего, например, в медицинских це-лях.

Литература

1. Витт Н.В. Речь и эмоции: Учебное пособие к спецкурсу по психологии. – М.: МГПИИЯ им. М. Тореза, 1984. – 74 с.

2. Потапова Р.К., Потапов В.В. Язык, речь, личность. – М.: Языки славянской культуры, 2006. – 496 c.3. Потапова Р.К. Коннотативная паралингвистика. – М.: Триада, 1997. – 2-е изд. 1998. – 100 с.

70

Page 21: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

4. Scherer K.R. Profiles of Emotion-antecedent Appraisal: Testing Theoretical Predictions across Cultures // Cognition & Emotion. – 1997. – P. 23–37.

5. Геладзе Н.В. Модификация интонационной структуры повествовательной фразы под влиянием эмоциональ-ной окраски во французском языке // Сб. науч. тр. – Вып. 84. – М.: Тр. / МГПИИЯ им. М. Тореза, 1975. – 185 c.

6. Соколова В.С. Методические указания и задания по теоретическому курсу фонетики французского языка: Статьи. – М.: МГПИИЯ им. М. Тореза, 1983. – 20 c.

7. Fährmann R. Die Deutung des Sprachausdrucks. – Bonn, 1967. – 149 S.8. Корнилов Н.И. Моя Каракалпакия. – М.: Международная Ассоциация «Искусство Народов Мира», Галерея

«Никор», 2007. – 150 с.9. Potapova R.K., Potapov V.V. Speech temporal correlates of fear–anxiety (for Russian native speakers) // Proc. of

IAFP-Conf.-2001, Paris, 2001. – 3–5 p.10. Потапова Р.К., Потапов В.В. Временные корреляты эмоций как специфические индивидуальные параметры

идентификации говорящего в судебной фонетике // Ежегодник Росс. Акуст. Общества «Акустика речи и прикладная лингвистика». М., 2002. – 3–13 с.

11. Potapova R.K., Potapov V.V. Temporal Correlates of Emotions as a Speaker-State Specific Parameters for Forensic Speaker Identification (Speech Temporal Correlates of Fear–Anxiety for Russian Native Speakers) // SPECOM’2003 International Workshop. Speech and Computer. – M.: Russian Agricultural Academy Press, 2003. – 291–301 p.

71

Page 22: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

ПРОИЗВОДСТВО ФОНОСКОПИЧЕСКИХ И ЛИНГВИСТИЧЕСКИХ ЭКСПЕРТИЗ ПО МАТЕРИАЛАМ УГОЛОВНЫХ ДЕЛ, СВЯЗАННЫХ С ПРОЯВЛЕНИЯМИ КОРРУПЦИИ

Т.В. Назарова, А.В. Ростовская (ЭКЦ МВД России),Н.Ю. Мамаев, П.А. Манянин (ЭКЦ ГУВД по Алтайскому краю)

В рамках реализации «Национального плана противодействия коррупции», утвержденного Президен-том РФ 31 июля 2008 года, особое внимание уделяется раскрытию и расследованию уголовных дел по статьям: Злоупотребление должностными полномочиями (ст. 285), Превышение должностных полномочий (ст. 286), По-лучение взятки (ст. 290), Злоупотребление полномочиями (ст. 201), Коммерческий подкуп (ст. 204) и др. В ин-формационно-правовых материалах, посвященных анализу коррупции, подчеркивается, прежде всего, экономи-ческая направленность данных правонарушений. Специфика данных преступлений такова, что криминалисти-ческая информация имеет характеристики следа «интеллектуального объекта»1, то есть важным материалом для доказательной базы является их речевая составляющая – переговоры, договоренности и пр., относящаяся к сфе-ре компетенции экспертов-фоноскопистов, лингвистов, при этом объектами исследования являются фонограм-мы, содержащие речь интересующих следствие лиц, а также устные и письменные тексты, входящие в доказа-тельную базу. Для выявления характеристик «интеллектуального объекта» требуются глубокие специальные познания в таких областях науки, как математика, физика, электроника, радиотехника, лингвистика, логопедия, теория речевой деятельности, психология речи и др. Реалии современного общества - повсеместная компьюте-ризация, совершенствование технического оснащения как предприятий, так и персональных рабочих мест, раз-витие технологий фиксации, передачи и обработки речевой информации, изменение самого «облика» правона-рушений и психологии преступления, – таковы, что технические средства и технологии, применимые для ана-лиза фонограмм речи, должны постоянно совершенствоваться, адаптируясь к новым условиям.

Такое наукоемкое и техноемкое исследование криминалистически значимой речевой информации, со-держащейся на фонограммах речи говорящих на русском языке, а также в устных и письменных текстах, прово-дится в рамках фоноскопических и лингвистических экспертиз, производство которых налажено в экспертно-криминалистических подразделениях органов внутренних дел Российской Федерации (ЭКП ОВД). Поэтому в работе по борьбе и предупреждению преступлений коррупционного характера чрезвычайно важным становится использование следствием возможностей фоноскопических лабораторий ЭКП ОВД, ведь на вооружении экс-пертов есть необходимые экспертные методики, наработана практика проведения исследований фонограмм и текстов, содержащих информацию о коррупционных действиях, собирается богатый материал для научно-ис-следовательских и опытно-конструкторских работ, направленных на методическое и техническое совершен-ствование экспертного обеспечения разоблачения коррупции.

Фоноскопическая экспертиза относится к идентификационным видам криминалистических экспертиз (а их в криминалистике не так много), результаты которой позволяют устанавливать лицо, причастное к соверше-нию преступления. По некоторым составам преступлений (таким как, взятка, вымогательство, мошенничество, похищение людей) результаты фоноскопической экспертизы могут быть важнейшими прямыми доказатель-ствами по делу. При производстве фоноскопической экспертизы, в соответствии с задачами следствия, решают-ся вопросы о принадлежности голоса и речи исследуемого лица гражданину/гражданке, образцы голоса и речи которого предоставляются на исследование вместе со спорными фонограммами, на основании заключения экс-перта может подтверждаться факт участия/неучастия того или иного лица, например, в ситуации получения взятки или ее вымогательств, а также может устанавливаться количество лиц, принимавших участие в разгово-ре. В рамках фоноскопической экспертизы также может проводиться техническое исследование фонограмм с целью решения вопросов о наличии/отсутствии признаков монтажа записи, определения характеристик акусти-ческой или коммуникативной обстановки, в которой производится запись, наличия/отсутствия признаков инсценировки речевого события и др.

В настоящее время в ЭКП ОВД России развернута сеть фоноскопических лабораторий, включая отдел фоноскопических экспертиз ЭКЦ МВД России. В состав каждой фоноскопической лаборатории обязательно должны входить как минимум два эксперта: эксперт-акустик, имеющий высшее техническое образование и яв-ляющийся специалистом в области акустического анализа речевых сигналов, и эксперт-лингвист, специализи-рующийся в лингвистическом анализе речевых признаков. В 26 фоноскопических лабораториях имеются экс-перты-лингвисты, выполняющие задачи производства не только фоноскопических, но и лингвистических экс-пертиз.

Новый вид экспертизы и новая экспертная специальность - лингвистическая экспертиза - была введена в перечень экспертиз, выполняемых в ЭКП ОВД России, в соответствии с Приказами МВД РФ № 21 от 14 янва-ря 2005 г. и № 511 от 29 июня 2005 года. Задачей лингвистической экспертизы является исследование устных и письменных текстов для решения задач их смыслового понимания и определения в них криминалистически значимой информации, выраженной в речевой форме. Спектр вопросов, решаемых экспертами-лингвистами в рамках производства лингвистических экспертиз текстов, очень широк: ими выявляются составные элементы таких понятий, как угроза, вовлечение, вымогательство, принуждение, сговор, незаконный оборот наркотиков,

1 В.Р. Женило. Компьютерная фоноскопия. М., 1995.72

Page 23: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

драгоценных металлов, а также определяются роли и функции коммуникантов в различных ситуациях общения (что особенно актуально, например, при расследовании уголовных дел в отношении членов организованной преступной группировки) и т.д.

На исследование в рамках перечисленных выше видов экспертиз предоставляются следующие материа-лы: на фоноскопическую экспертизу - фонограммы разговоров, осуществленных участниками криминального общения в различных помещениях, в уличных условиях, а также разговоры, опосредованные какими-либо кана-лами связи коммуникантов (в частности, телефонные переговоры), зафиксированные на компакт-кассетах, ми-крокассетах, видеокассетах, оптических дисках, диктофонах и других носителях аудиоинформации, а на лин-гвистическую - устные и письменные тексты, зафиксированные на бумажных, фото, аудио- или видеоносите-лях.

Следует отметить, что производство фоноскопических экспертиз по фонограммам русской речи лиц, подозреваемых в совершении преступлений коррупционного характера, не обладает выраженной спецификой. Однако можно определить две группы проблем, с которыми сталкиваются эксперты при проведении фоноско-пических экспертиз по фонограммам речи, являющимся вещественными доказательствами в материалах уго-ловных дел по коррупционным преступлениям. Первая группа проблем определяется предоставлением на фо-носкопическое исследование фонограмм ограниченного объема и низкого качества записи, что затрудняет или делает невозможным проведение идентификационных исследований. Вторая группа проблем связана с участи-ем экспертов в судебных разбирательствах, куда эксперты вызываются для дачи пояснений в связи с привлече-нием стороной защиты специалистов, «оценивающих» заключение эксперта.

Возникновение проблем первой группы – низкое качество и ограниченный объем речевого материала лиц, представляющих интерес для оперативных служб или следствия, вызвано следующими причинами. С од-ной стороны, такие характеристики фонограмм обусловлены особенностями процесса их фиксации:

• использованием, например, при проведении оперативно-розыскных мероприятий, аппаратуры, тех-нические характеристики которой не соответствуют требованиям качества, поэтому речевой сиг-нал, фиксируемый на такой аппаратуре, имеет существенные искажения;

• использованием цифровой аппаратуры с некорректным форматом записи,• неправильным использованием аппаратуры, в результате чего на фонограмме фиксируется слиш-

ком низкий или высокий уровень записи и признаки, свойственные неустойчивой работе канала за-писи.

С другой стороны, ограниченный объем и низкое качество фонограмм является следствием коммуника-тивной ситуации осуществления должностными лицами действий, противоречащих закону, что проявляется в маскировании речи следующими способами:

• изменением естественных свойств речи (говорящий шепотом или измененным голосом, произно-сит слова по слогам и др.);

• сведением к минимуму произнесенных элементов речи (использование намеков, иносказаний, про-пуск слов или применение каких-либо «условных» обозначений и др.), что часто сопровождается сменой канала передачи информации с аудитивно воспринимаемого на визуальный;

• организацией «особой» обстановки коммуникации (использование шумового фона, изоляция от «посторонних глаз и ушей» и др.).

Для повышения эффективности исследования подобных фонограмм и для обеспечения полноты иссле-дования речи, специалистами ЭКЦ МВД России был проведен ряд научно-исследовательских работ1, в ре-зультате чего были разработаны методы адаптивного выбора режимов анализа и обработки речевого сигнала, расширена база лингвистических признаков идентификационной системы «Диалект» путем введения признаков компонентного анализа тембрально-мелодических характеристик речи, а также введения блока признаков, ха-рактеризующих говорящего как коммуниканта, которые вносятся в лингвистический анализ, кроме того, при-знаков ситуации общения, которые используются при решении вопросов технического исследования фоно-грамм. Реконструкция коммуникативной ситуации позволяет корректно интерпретировать причины выявлен-ных различий в совокупности индивидуальных речевых признаков говорящего, вступающего во взаимодей-ствие с различными собеседниками в различных ситуациях общения.

Однако залогом успешности экспертного исследования является качество предоставляемых материа-лов, поэтому важнейшей задачей является обеспечение оперативными и следственными подразделениями опти-мальных условий для записи фонограмм, что предотвратит искажение или утрату речевых признаков.

Вторая группа проблем возникает перед экспертами-фоноскопистами уже после завершения произ-водства экспертизы. Практика показывает, что на этапе судебных разбирательств именно по уголовным делам, связанным с проявлениями коррупции, со стороны защиты «коррупционеров» все чаще привлекаются специа-листы, перед которыми ставится задача «оценки заключения эксперта» и подготовки заключения специалиста. Специалист, как известно, при получении задания на производство заключения, не дает подписку, предупре-

1 Хуртилов В.О., Назарова Т.В., Панасюгина Л.Е., Лебедев К.А., Ремизова Н.В., Авдюхина О.А., Алёшина В.А. Криминалисти-ческое исследование фонограмм ограниченного объема и низкого качества записи. М., 2007; Хуртилов В.О., Назарова Т.В., Лебедев К.А., Авдюхина О.А., Алёшина В.А. Криминалистическое исследование тембрально-мелодических характеристик го-лоса и речи. М., 2007; Назарова Т.В., Гримайло Е.А., Ростовская А.В. Блок коммуникативных характеристик речи говорящих на русском языке в системе идентификационных лингвистических признаков. М., 2009.

73

Page 24: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

ждающую об уголовной ответственности за дачу ложного заключения. Как показал проведенный в ЭКЦ МВД России анализ результатов судебных рассмотрений уголовных дел, в которых доказательствами являлись за-ключения экспертов-фоноскопистов ЭКП ОВД, а контраргументами выступали заключения специалиста (со-держащие критические замечания по поводу заключения эксперта), аргументы, изложенные в заключении спе-циалиста, оказывались менее значимыми для вынесения последующих судебных решений по сравнению с аргу-ментами государственных экспертов. Подвергавшиеся анализу заключения специалиста, как правило, представ-ляют собой поверхностные, научно не последовательные, логически не обоснованные суждения по поводу тек-ста заключения экспертов и материалов, предоставленных экспертам на исследования, без проведения соответ-ствующих исследований самих фонограмм звучащей речи. Так как оценка заключения эксперта является преро-гативой суда, в тех же случаях, когда возникают сомнения в выводах эксперта, назначается повторная фоноско-пическая экспертиза. Учитывая же возможность участия недобросовестных «специалистов», освобождаемых от ответственности за дачу ложного заключения, привлечение «специалистов», а не государственных экспертов на различных этапах раскрытия и расследования уголовных дел, связанных с проявлениями коррупции, а также на стадии судебного разбирательства нельзя считать целесообразным.

Так как не исключено, что привлечению «специалистов» предшествует сговор с обвиняемыми, направ-ленный на выработку мер, порочащих заключение государственного эксперта, имеется мнение1, что «процесс оперативно-розыскного обеспечения судебного разбирательства должен являться продолжением процесса опе-ративно-розыскного обеспечения предварительного расследования, что должно найти отражение в криминали-стической методике расследования…»2.

Таким образом, несмотря на то, что производство и дальнейшее прохождение в суде фоноскопических экспертиз по материалам уголовных дел, связанных с проявлениями коррупции, сопряжено с рядом проблем, вызванных перечисленными выше причинами, результаты экспертных исследований, выполненных в ЭКП ОВД, успешно и эффективно используются при раскрытии и расследовании указанных преступлений.

Признаки коммуникативной природы коррупционных преступлений встречаются в тематической литера-туре в таких контекстах, как: «При подкупе подразумевается обоюдное соглашение сторон», «предварительная договоренность об оплате услуг», «не оговаривают условия получения ценностей», «по предварительному сгово-ру», «с вымогательством взятки» и др. Так как в определениях слов «коррупция», «взятка», «подкуп», приводи-мых в толковых словарях русского языка, имеется общий компонент для данных определений – установка на убе-ждение/побуждение (коррупция → подкуп/подкупить → склонить → убедить; взяточничество → вымогательство → требование → просьба и т.д.), криминалистическое значение приобретают признаки речи, свидетельствующие о наличии самой побудительной установки (наличие побуждения, определение его формы и оттенков значения), что остается за рамками фоноскопической, но решается при производстве лингвистической экспертизы. Когда подследственный не отрицает факт разговора его с другим лицом, тем не менее у следственных органов имеется потребность в выявлении лингвистическими методами признаков коррупционных преступлений, назначается лин-гвистическая экспертиза.

Коррупция как использование служебного положения в личных целях так или иначе предполагает участие минимум двух лиц, для которых такое положение дел выгодно: начальник – подчиненный, должностное лицо – проситель (схема коррупционных отношений может быть более сложной). В экономике широко известна модель коррупционных отношений «поручитель (принципал) – исполнитель (агент) – опекаемый (клиент)»3. Эта модель соотносится с распределением ролей и функций коммуникантов в ситуации побуждения к каким-либо действиям. В имеющейся в распоряжении экспертов-лингвистов ЭКП ОВД «Типовой методике судебной лингвистической экспертизы»4 подробно отражен путь решения подобных вопросов. Например: «Имеются ли в представленном тексте признаки побуждения к каким-либо действиям? Если да, то каковы роли и функции собеседников в пред-ставленной речевой ситуации, каков характер волеизъявления участников коммуникации (просьба, предложение, требование, принуждение и др.) и о каких действиях и их субъектах, событиях и их участниках, а также обстоя-тельствах действий или событий идет речь?». При этом экспертами характеризуется коммуникативная ситуация по составу участников, условиям и способам реализации коммуникативной задачи; выявляется участник комму-никации, который направляет действие (побуждение) на другого/других участника/участников коммуникации – адресанта побуждения; определяется другой/другие участник/участники коммуникации, которые выражают от-ветную реакцию на побуждение – адресата/адресатов побуждения; определяются оттенки побуждения, которые создаются устойчивыми коммуникативными конструкциями, интонацией, лексическим значением глагола, контекстом (ситуацией) и могут конкретизироваться как требование, просьба, совет, предложение, предостереже-ние, распоряжение и др. На основе полученных данных дается характеристика партнерам коммуникации (говоря-

1 Мазунин Я.М. Проблемы теории и практики криминалистической методики расследования преступлений, совершаемых ор-ганизованными преступными сообществами (преступными организациями): Автореф. Дисс.... д-ра юрид. наук. Екатеринбург, 2006. 2 Теория оперативно-розыскной деятельности: Учебник / Под ред. К.К. Горяинова, В.С. Овчинского, Г.К. Синилова. М., 2006.3 Материалы: Центр антикоррупционных исследований и инициатив «Трансперенси Интернешнл-Р» (http://www.transparency.org.ru) Юрий Латов.4 Гримайло Е.А., Назарова Т.В., Мамаев Н.Ю., Коршиков А.П., Ростовская А.В. / Под редакцией к.ю.н., доцента, Заслуженного юриста РСФСР В.Ф. Статкуса. Типовая методика судебной лингвистической экспертизы: Методические рекомендации. М., 2009.74

Page 25: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

щего и слушающего), чье взаимодействие выражается в их ролевых функциях. В центре внимания таких исследо-ваний денотативный, иллокутивный и экстралингвистический компоненты текста.

Как показывает практика, эксперты-лингвисты региональных ЭКП ОВД всё чаще привлекаются для производства лингвистической экспертизы как доказательства по делам, связанным с коррупцией. Так, опыт в проведении лингвистической экспертизы по материалам уголовных дел, связанных с коррупцией, накоплен и в ЭКЦ ГУВД по Алтайскому краю, чья практика производства экспертиз и взаимодействия со следственными подразделениями показывает, что типовые формулировки вопросов корректируются в ходе консультаций сторо-ны, выносящей постановление, с экспертами, приобретая конкретизирующий характер. Например: «Идет ли речь в представленном разговоре о передаче денежных средств от одного собеседника к другому? Если да, то кто в данном разговоре является адресатом передачи денежных средств, а кто передающим денежные средства? Как в тексте характеризуется предназначение этих денежных средств, каковы условия передачи денежных средств?», «Имеются ли в разговорах признаки побуждения к совершению каких-либо действий (или к несовершению каких-либо действий) в обмен на получение денежных средств? Если да, то о каких действиях идет речь? Если да, то кто является субъектом побуждения, кто является объектом побуждения, каков характер волеизъявления имеет место в данных разговорах (требование, просьба, предложение, предостережение, угроза?»

Анализ речевого материала, предоставляемого в рамках производства экспертиз, позволяет классифици-ровать акты коммуникации, осуществляемые при коррупционном взаимодействии, по следующим параметрам:

• по степени импликации1 референтной2 ситуации (тексты могут быть эксплицитными, имплицитны-ми, частично имплицированными). Например, при наличии установленных тарифов за услуги в си-туации «проситель – посредник» все содержательные элементов могут быть эксплицированы: та-лон техосмотра стоит столько-то, права – столько-то, за срочность – надбавка 20 процентов. В дру-гих случаях может отмечаться частичная или полная импликация содержательных элементов раз-говора: предмета речи, условий сделки, формы оплаты и т.п.;

• по количеству участников (проситель – должностное лицо, проситель – посредник – исполнитель, проситель – представитель просителя – посредник – начальник – исполнитель);

• по форме взаимной выгоды (деньги – услуга или услуга – услуга);• по инициатору коррупционных отношений (проситель – должностное лицо). Выявление инициато-

ра побуждения, лица, от которого исходит импульс каузации в лингвистическом исследовании, например, в ситуации дачи - получения взятки, оказывается решающим для следователей и суда при ответе на вопрос о наличии провокации или вымогательстве взятки;

• по способу решения проблемы (конструктивному или деструктивному).В общем виде коррупционное взаимодействие в коммуникативном аспекте происходит в 2 этапа: 1) актуализация некоторой проблемной ситуации одним из участников общения (проблема с больнич-

ным листом, экзаменом, земельным участком, службой в армии, нарушением ПДД и т.д.); 2) снятие проблемной ситуации (сопровождается ситуационным смещением, «мутацией» – профес-

сиональный дискурс3 подменяется дискурсом торга).Виды взаимодействия можно разделить на два противоположных – кооперацию и не-кооперацию (дру-

гими словами: согласие и конфликт, приспособление и оппозицию и т.д.)4; при этом кооперация, или коопера-тивное взаимодействие, рассматривается как координация единичных сил участников, сотрудничество; не-коо-перация рассматривается как соперничество, борьбу за достижение больших выгод и базируется на приоритете интересов одного над другим. Таким образом, при конструктивном (кооперативном) способе решения пробле-мы субъект, получающий ценности, вникает в ситуацию, задаёт уточняющие вопросы, инструктирует, называет «стоимость услуг» и пр.; субъект, дающий ценности, согласен с условиями, консультируется, запрашивает га-рантии «качества услуг» у получающего. При деструктивном (конфликтном) способе решения проблемы субъ-ект, получающий ценности, применяет в речи угрозы, требования, вымогательство.

Одной из типичнейших ситуаций коррупционного взаимодействия – ситуации дачи (получения) взятки - соответствует следующий набор экстралингвистических характеристик5:

а) партнеры по общению. В речевой ситуации дачи (получения) взятки характеристика позиций парт-неров по общению обусловлена в первую очередь сферой официально-деловой коммуникации, которой задают-ся рамки отношений коммуникантов. Коммуниканты не равноправны – одним из участников коммуникации яв-ляется должностное лицо, которое обладает более высоким уровнем владения ситуацией в силу того, что упол-номочено на выполнение определенных должностных обязанностей. Связь между партнерами по коммуника-ции осуществляется на основе актуализированной референтной ситуации общения (предмета общения). При взаимодействии позиции партнеров, как правило, характеризуются одновременным совмещением ролей офици-ально-деловой и межличностной сфер коммуникации, поэтому типичным в подобной ситуации является стрем-

1 Имплицитный – «подразумеваемый, невыраженный» [Ахманова О.С. Словарь лингвистических терминов. М, 2007].2 Референтный – соотносящийся с внеязыковой действительностью, который имеет в виду говорящий, произнося данный рече-вой отрезок.3 Дискурс - речь, рассматриваемая как целенаправленное социальное действие [Арутюнова Н.Д. Лингвистический экциклопе-дический словарь. М., 1990]48 Андреева Г.М. Социальная психология. М., 1999. 5 Стилистический энциклопедический словарь русского языка / под ред. М.Н. Кожиной. М., 2006.

75

Page 26: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

ление одного либо обоих участников коммуникации поменять социально-ролевой статус свой и партнера в сто-рону установления меньшей официальности. Данное стремление может быть эксплицировано в высказываниях типа: «ну все мы люди», «войдите в мое положение», «давайте по-другому (по-хорошему)» и «ну что мы не люди», «я могу вам помочь по-дружески (по-человечески)» и т.п. За счет этого в речевой ситуации одновремен-но могут формироваться два несовпадающих уровня взаимоотношений, социально-ролевая амбивалентность, при этом с точки зрения ожиданий коммуникантов данные взаимоотношения не всегда имеют зеркальный ха-рактер, то есть ожидания коммуниканта относительно позиции партнера по общению могут не совпадать с ре-альным положением дел;

б) референтная ситуация, представляющая собой фрагмент объективной действительности, с которым соотнесено референциальное содержание высказывания. Актуализированная в речевой ситуации дачи (получе-ния) взятки референтная ситуация включает в себя схему определенных действий должностного лица в ситуа-ции. Референтная ситуация также характеризуется амбивалентностью, которая может проявляться, с одной сто-роны, в наличии различных точек зрения коммуникантов на референтную ситуацию, с другой стороны, в несо-ответствии сложившегося (реального) и желательного положений дел для одного либо обоих участников ком-муникации, что влечет изменение в действиях также одного либо обоих участников коммуникации. Репрезента-ции данных ситуаций в разговоре собеседниками могут сопровождаться их оценкой: «Я не могу так работать. Мне нужна спокойная работа», «Вы толкаете меня на должностное преступление»);

в) деятельностная ситуация, в рамках которой происходит речевое взаимодействие. Деятельностная си-туация, как правило, включает установление договоренности относительно разрешения референтной ситуации, сопровождаемое передачей денежных средств1 или документов. С попыткой «завуалировать» определенные те-матические компоненты коммуникации связано большое количество дейктических элементов в тексте (указа-ний на актуальный объект без называния его) в смысловой организации разговоров речевой ситуации дачи (по-лучения) взятки. В рамках деятельностной ситуации коммуникантам могут соответствовать роли получателя, передающего, а также роли посредников;

г) предметно-ситуативный фон, т.е. место и время общения, все то, что происходит вокруг, присутству-ющие при общении люди, отсылки к социальной, политической и историко-культурная ситуации. Место, если оно не совпадает с местом работы должностного лица, выбирается, как правило, исходя из потребности обще-ния «с глазу на глаз», что может маркироваться в разговоре наличием особых договоренностей: «Куда-нибудь в помывочную, чтобы там более менее могли разговаривать друг друга не боясь». Время общения может совпа-дать и не совпадать со значимыми моментами референтной ситуации (например, дача взятки может осуще-ствляться непосредственно после правонарушения); кроме того, речевой ситуации дачи (получения) взятки мо-жет предшествовать другое речевое событие, в котором была достигнута договоренность между коммуниканта-ми. В связи с этим в содержательном плане разговора могут присутствовать общие пресуппозиции коммуни-кантов.

д) канал связи, который может быть акустическим или визуальным, предполагающим наличие или от-сутствие непосредственного контакта между коммуникантами. Общение в рамках речевой ситуации дачи (по-лучения) взятки происходит обычно при наличии непосредственного контакта между коммуникантами, может сопровождаться переходами с устного на письменный канал в целях маскировки значимых содержательных элементов коммуникации.

Таким образом, в целом речевое событие дачи (получения) взятки определяется позициями партнеров по общению, проблемным характером референтной ситуации, наличием актуального объекта (например, со значени-ем денежных средств) в деятельностной ситуации, а также признаками маскировки значимых содержательных элементов, характеризующими связанные с речевым событием предметно-ситуативный фон и канал связи.

Поскольку в разговоре могут быть актуализированы иные ситуации и ролевые функции, не связанные с интересующим следствие событием, то для оптимизации времени производства экспертизы и всестороннего анализа необходимо:

• с одной стороны, тесное взаимодействие со следственными органами: поставленные перед экспер-тами вопросы должны быть корректны и исключать из анализа события, не относящиеся к рефе-рентной ситуации;

• с другой - исследование роли субъекта не только как участника разговора (например, адресанта просьбы), но и его роли в ситуации, так называемой ситуативной роли (например, источник реко-мендаций обратиться к данному лицу). При таком подходе будут проанализированы роли как непо-средственных участников разговора, так и тех лиц, о которых идёт речь в разговоре и имеющих от-ношение к рассматриваемой ситуации.

Отметим также, что определенную трудность при проведении лингвистической экспертизы представ-ляет необходимость разграничения лингвистических (языковедческих) и уголовно-правовых толкований целого ряда слов (понятий), используемых в соответствующих статьях УК РФ. Необходимо подчеркнуть, что при производстве лингвистической экспертизы не используется юридическая терминология, так как квалификация тех или иных признаков в соответствии со статьями УК выходит за пределы компетенции эксперта-лингвиста.

1Здесь и далее: а также ценных бумаг, иного имущества или выгод имущественного характера.76

Page 27: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

При назначении лингвистической экспертизы следует помнить, что в ряде случаев для решения вопро-сов экспертам необходима дополнительная информация, например, результаты фоноскопической экспертизы по идентификации лиц, участвующих в разговоре, сведения о пространственно-временных рамках записи раз-говоров, результаты автороведческой экспертизы по идентификации автора письменных текстов или реквизиты предоставленных печатных изданий, сведения о пространственно-временных рамках написания, издания предо-ставленных текстов или др. Кроме того, если поставленные вопросы не входят в компетенцию эксперта-лингви-ста, а относятся к смежным областям знаний, эксперт может предложить лицу, назначившему экспертизу, пере-формулировать вопросы либо назначить комплексную экспертизу с привлечением экспертов иных специализа-ций: фоноскопия (идентификация и/или техническое исследование фонограмм), автороведение, почерковеде-ние, техническое исследование документов, фототехническое исследование, видеотехническое исследование.

Учитывая высокую наукоемкость фоноскопических и лингвистических экспертиз и необходимость про-ведения глубокого исследования объемных материалов, сроки производства данных экспертных исследований длительные. Для достижения наилучших результатов при раскрытии и расследовании преступлений коррупци-онного характера и повышения эффективности всех мероприятий по противодействию коррупции, требуется согласованное взаимодействие экспертных, оперативных и следственных подразделений правоохранительных органов. Такая согласованность может быть достигнута, например, путем консультативного взаимодействия следователей и экспертов перед назначением экспертиз по оптимальным формулировкам вопросов примени-тельно к тому речевому материалу, который предстоит исследовать. Создание же оперативно-розыскными службами благоприятных условий, обеспечивающих запись таких фонограмм, которые будут соответствовать предъявляемым экспертами критериям пригодности, позволит значительно повысить эффективность мероприя-тий, осуществляемых правоохранительными органами по противодействию коррупции.

СРЕДСТВА РЕЧЕВОГО ВОЗДЕЙСТВИЯ (ИСПОЛЬЗОВАНИЕ УЛОВОК)1

Д. филол. наук, проф. М.В.Хитина (Московский государственный лингвистический унивеситет)

В практике производства экспертиз, материалом для которых выступает звучащая речь, возникают во-просы, связанные с наличием/отсутствием воздействия одного партнера по коммуникации на другого и ре-зультатом этого воздействия (совершения определенных поступков). Это может быть как самостоятельным во-просом в экспертизе, так и дополнительным, необходимым для установления факта, кто из говорящих является ведущим, а кто – ведомым в данном разговоре.

Воздействие (в данном случае речевое) может иметь разные цели, однако в ходе коммуникации присут-ствует один из участников разговора, который сознательно (а иногда неосознанно) осуществляет воздействие, и другой, который является объектом воздействия. Таким образом инициатор воздействия может вынудить объект воздействия совершить некоторые, выгодные для инициатора воздействия действия, или изменить его мнение о чем-либо или о ком-либо и т.д.

Одним из способов, позволяющих оказать влияние на партнера по коммуникации, является использова-ние специфических приемов воздействия, названных уловками-манипуляциями. В настоящее время отмечается их активное применение, в частности, в деловом общении. Задачей данной работы является выделение уловок, которые являются наиболее эффективными, для использования в разговорной речи (РР).

В качество основного объекта исследования в работе рассматривается устно-речевая диалоговая комму-никация. Целью исследования является анализ коммуникации данного вида с точки зрения достижения цели диалога, а также изучение и отбор способов и средств, позволяющих достичь этого оптимальным способом в разговорном диалоге.

В большинстве случаев под речевым воздействием понимают речевое общение в аспекте его целе-направленности, мотивационной обусловленности.

Диалог – это особая разновидность коммуникативного акта (КА), его границы определяются достиже-нием какой-либо цели. Выделяют следующие компоненты КА: коммуниканты, коммуникативный текст (в слу-чае диалога – диалогический текст), процессы вербализации и понимания, обстоятельства данного КА, практи-ческие цели, коммуникативные цели (Потапова 1997). Диалог предполагает наличие цели (ей), которой пыта-ются достичь коммуниканты в данном КА. Целью может послужить передача имеющейся у говорящего инфор-мации или, наоборот, получение ее от собеседника, попытка убедить или разубедить его, выразить пережива-ния и эмоции и т.д. Важно учитывать, что цель является необходимым условием языкового взаимодействия.

Наиболее важным понятием в данной коммуникации является понятие стратегии. Стратегия речевого пове-дения охватывает всю сферу построения процесса коммуникации, когда ставится целью достижение определенных долговременных результатов. В самом общем смысле языковая стратегия включает в себя планирование процесса речевой коммуникации в зависимости от конкретных условий общения и личностей коммуникантов, а также пред-ставляет собой комплекс речевых действий, направленных на достижение коммуникативных целей. Разграничивают общие и частные стратегии. Основной можно назвать стратегию, которая на данном этапе коммуникативного взаи-модействия является наиболее значимой с точки зрения иерархии мотивов и целей. В большинстве случаев к основ-ным стратегиям относятся те, которые непосредственно связаны с воздействием на адресата, его модель мира, систе-

1 При написании статьи были использованы материалы дипломных работ Д.Дивлятшиной и И.Обуховой, выполненные под ру-ководством автора.

77

Page 28: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

му ценностей, его поведение (как физическое, так и интеллектуальное) (Иссерс 2006). Вспомогательные стратегии способствуют эффективной организации диалогового взаимодействия, оптимальному воздействию на адресата.

Очевидно, что семантические (когнитивные) стратегии соотносятся с целями первого порядка, то есть не-посредственными целями воздействия, а все остальные коррелируют с второстепенными целями. Диалоговый тип речевых стратегий обусловлен желанием говорящего управлять коммуникативной ситуацией. Цели, обращенные к сфере ресурсов говорящего, скорее всего реализуются в стратегиях семантического и прагматического типа.

О.К.Иссерс считает, что имеет смысл также разграничивать два типа целей, которые отражают существен-ные мотивы человеческого поведения. Первостепенными являются цели воздействия, ради которых, собственно, и завязалась коммуникация. Эти цели позволяют сегментировать процесс общения, выявить стратегически значимые единицы и понять, о чем общение. Осознание первостепенных целей стимулирует рассмотрение иных, второстепен-ных целей, последние являются производными от разнообразных мотивов человеческой деятельности.

В диалоге собеседники, являясь соавторами, не только стремятся к самовыражению, но и воздействуют друг на друга, при этом естественным является тот факт, что некоторые воздействуют на партнера по коммуни-кации несознательно, другие же сознательно используют техники для того, чтобы «навязать» собеседнику свою волю. Такое скрытое управление человеком против его воли, приносящее инициатору одностороннее преиму-щество, называется манипуляцией. Инициатора управляющего воздействия называют управляющим субъектом, или просто субъектом, или отправителем воздействия. Соответственно, адресат воздействия называется управ-ляемым объектом, или просто объектом (Шейнов 2004: 3-4). Быть субъектом речевого воздействия – значит ре-гулировать деятельность своего собеседника (не только физическую, но и интеллектуальную). При помощи речи побуждают партнера по коммуникации начать, изменить, закончит какую-либо деятельность, влияют на принятие его решений или на его представление о мире.

Приемы воздействия чаще всего обращены и на сознательную и на подсознательную сторону психики (Шейнов 2004). Проблема осознанности речевых действий обсуждается достаточно часто. Так В.И. Карасик (2002) разграничивает намеренное (интенциональное) и побочное (неинтенциональное) воздействие. Намерен-ное речевое воздействие может осуществляться посредством:

• авторитета, законной власти носителя институционально более высокого статуса;• манипуляции (т.е. маскируемой власти);• убеждения, аргументации;• силы (физической или психической).Тактика – это конкретная реализация стратегии, которая действует на отдельных участках диалога.

Тактики бывают двух видов: психологические и коммуникативные. К психологическим тактикам относятся уловки. Уловкой-манипуляцией называется всякий прием, с помощью которого хотят облегчить общение для себя и/или затруднить его для оппонента (Панкратов 2004). Выделяют четыре источника манипулирования (Шейнов 2005): 1) эксплуатация потребностей человека; 2) использование человеческих слабостей; 3) использо-вание особенностей психики; 4) использование стереотипов. Основные виды стратегий воздействия: положи-тельные стратегии, предощущение хорошего, приятные переживания, лесть адресату, негативные переживания, возмущение, недовольство, запугивание, предостережение, шок, «прямая команда» (Борисова 2005).

Формирование убеждений объясняется образованием динамических стереотипов. Повлиять на убежде-ния можно двумя методами: внушением и убеждением (переубеждением). При внушении осуществляется воз-действие на слушателя, вызывающее вначале сильное возбуждение в ограниченной области коры головного мозга при одновременном торможении в остальной его части, затем – целенаправленную психологическую раз-рядку. Сначала у слушающего активизируется стремление к определенной цели, затем предлагается план ее до-стижения. Внушение быстро приводит к результату, но он недолговечен.

Приемы убеждения могут быть обращены на сознательную и подсознательную стороны психики. Структурно, психика – это единство трех компонентов: сознания, подсознания и моторики. Поэтому для воз-действия на собеседника нужно воздействовать на его сознание, возбудить подсознание (главным образом эмо-циональную сторону) и включить соответствующую деятельность. Успешное применение приема зависит так-же от психологического состояния собеседника. Лучшему восприятию речи способствуют следующие фоновые факторы: релаксация, благоприятная обстановка, эмоциональная напряженность, взаимопонимание на фоне идентификации (идее взаимного переживания чего-то общего), «игривое» настроение. Естественно, каждый конкретный фон предлагает выбор соответствующих приемов воздействия. Тактика убеждения зависит и от типа собеседника (позитивный, вздорный, всезнайка, болтун, трусишка, хладнокровный собеседник, незаин-тересованный, «важная птица», «почемучка») (Панкратов 2001).

Существует четыре типа убеждающего воздействия: информирование, разъяснение, доказательство, опровержение. Авторы выделяют 10 риторических методов (это технические методы, позволяющие достичь цели убеждения). Среди них: прямое обращение к собеседнику, метод извлечения выводов, метод сравнения и др. Также выделяют 15 спекулятивных приемов (уловок), которые используются преимущественно в аргумен-тационной деятельности (преувеличение, техника анекдота, использование авторитета и т.д.).

Всю совокупность уловок можно свести в три группы (Панкратов 2004): организационно-процедурные (их 13), логические (их 6), психологические (их 40). Помимо уловок можно применять и методы нейролингви-стического программирования (НЛП). В частности, это касается тех приемов, которые можно использовать для

78

Page 29: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

скрытого управления человеком. Воздействие на адресата в этом случае происходит и на сознательном, и на бессознательном уровнях (Шейнов 2005). Кроме того, можно рассматривать языковые модели, имеющие харак-тер воздействия и часто применяемые в диалогах (например, использование перформативных высказываний с глаголами «просьбы», с глаголами «убеждения», модели уговоров с аргументацией-упреком и др.).

Достичь поставленной цели в любом диалоге коммуникантам удается далеко не всегда, поскольку каж-дый из участников коммуникации может иметь свою цель, свой взгляд на предмет общения и, соответственно, использует все те средства, которые позволяют решить поставленную задачу. Поэтому в случае конфликта це-лей в лучшем положении оказывается тот из коммуникантов, чьи знания и умения по достижению поставлен-ной цели оказываются применены наиболее эффективно.

Для проведения эксперимента было отобрано 40 психологических, 6 логических уловок, 10 уловок-ма-нипуляций (языковых моделей) и 7 уловок, чаще всего используемых в рекламе.

Целью эксперимента являлось выявление наиболее эффективных, используемых, распознаваемых уло-вок, а также определение зависимости между эффективностью, частотой использования и распознаванием уло-вок. Ключевая цель: выявить наиболее эффективные (для использования) уловки для устно-речевого общения. Для психологических уловок использовались следующие критерии: частота использования (из общего списка выбирались наиболее частотные); понятность для информантов; простота использования; возможность при-менения в споре и др., а также в бытовом диалоге.

Логические уловки выбирались на основе сходных критериев: частота использования (отбирались наи-более частотные); понятность для информантов; возможность использования в неформальном общении.

Языковые модели и уловки-стратегии отбирались на основе такого критерия, как частота использова-ния (отбирали наиболее частотные).

Методика проведения эксперимента и оценки результатовВ качестве информантов в пилотном эксперименте выступали студенты ОПЛ МГЛУ, выполнявшие за-

дания в соответствии со следующей инструкцией: на специально подготовленных бланках в каждой из 4-х ко-лонок указать номер уловки; ее эффективность (по мнению информанта); ответить на вопрос, использует ли ее информант и использовали ли эту уловку против информанта. Информантам указывался номер уловки, описы-валась сама уловка и, в случае необходимости, давались необходимые пояснения по поводу ее интерпретации.

Полученные результаты были сведены в таблицу и подсчитано максимальное и минимальное значение голосов, отданных за каждую уловку в каждом столбце (таблица max/min голосов). Далее было определено, сколько уловок из приведенных являются эффективными/неэффективными, наиболее/наименее используемы-ми, наиболее/наименее «заметными», а также рассмотрено соотношение между эффективностью уловок и ча-стотой их использования, соотношение частоты использования и «заметности», соотношение эффективности уловок и «заметности».

Интерпретация полученных результатовИз рассмотренных 73-х уловок эффективными являются двадцать, среди них следует отметить психоло-

гические уловки, такие как: «раздражение оппонента», «лесть или комплимент», «ложный стыд» и т.д. Десять из них являются наиболее используемыми («чтение мыслей на подозрение», «лесть или комплимент», «лестные обороты речи», «подмена истинности полезностью», «видимая поддержка», «полуправда», использование пер-формативных высказываний с глаголами просьбы, использование сравнения, использование повторов, вопроси-тельных, восклицательных конструкций, а также конструкции «что ли». Двадцать семь из уловок наиболее за-метны при использовании (следовательно, их эффективность значительно уменьшается, например, использова-ние непонятных слов и терминов, «ссылка на авторитет», «двойная бухгалтерия» и т.д.).

Необходимо также отметить, что из рассматриваемых 4-х блоков уловок самыми используемыми, по-нятными, употребляемыми, эффективными являются психологические уловки.

На основе результатов проведенного исследования можно сделать следующие выводы:1. Если уловка эффективна, то она распознаваема, но не обязательно часто используема. Следовательно,

для оказания влияния надо использовать как эффективные, так и неэффективные уловки (незнакомые, неизвест-ные).

2. Основываясь на полученных результатах и промежуточных выводах можно сказать, что наиболее эф-фективными (незаметными для нас) уловками при использовании в неподготовленной диалогической речи яв-ляются:

79

Page 30: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

Хотя уловки, которые помечены символом *, являются, по мнению испытуемых, средне распознавае-мыми, мы все же рекомендуем их использовать, так как логические уловки сами по себе сложны для распозна-вания в диалоге.

3. Рекомендуется использовать также чисто психологические уловки, которые являются незаметными, не направлены на срыв коммуникации, но употребляются в сочетании с эффективными уловками. Среди них

«Ошарашивание темпом обсуждения»

Ошарашивание темпом

0

1

2

3

4

1 2 3

1 эффективность ,2 использование,3 распознаваемость

колич

еств

о о

тдан

ных

голос

ов

«Гладко было на бумаге, да забыли про овраги»

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

1 2 3

«Подмена истинностью полезностью»

0

1

2

3

4

5

6

7

1 2 3

«Неопределенность тезиса»

0

0.5

1

1.5

2

2.5

3

3.5

1 2 3

«Несоблюдение закона достаточного основа-ния»*

0

1

2

3

4

5

6

1 2 3

«Порочный круг в доказательстве»*

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

1 2 3

Ряд1

80

Page 31: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

«Лесть или комплимент»

4.4

4.6

4.8

5

5.2

5.4

5.6

5.8

6

6.2

1 2 3

«Ложный стыд»

0

1

2

3

4

5

6

7

1 2 3

«Откровенность заявления»

0

1

2

3

4

5

6

1 2 3

«Мнимая невнимательность»

0

1

2

3

4

5

6

1 2 3

«Лестные обороты речи»

0

1

2

3

4

5

6

1 2 3

Также следует обратить внимание на уловку «Умалчивание», которая является важнейшей в искусстве дипломатии. Искусство состоит в том, что, уходя от правды, коммуникант не прибегает ко лжи.

«Умалчивание»

0

1

2

3

4

5

6

7

1 2 3

81

Page 32: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

Что касается языковых моделей, то нужно сказать, что все они являются хорошо распознаваемыми, поэтому необходимо избегать их и искать другие языковые средства для выражения перечисленных уловок. Из четвертого блока можно посоветовать использовать чисто психологическую уловку

Литература

1. Борисова Е.Г. Алгоритмы воздействия. – М.: Межд. ин-т рекламы, АО «Московия», 2005.2. Иссерс О.С. Коммуникативные стратегии и тактики русской речи. – М.: УРСС, 2006.3. Карасик В.И. Языковой круг: личность, концепты, дискурс. – Волгоград: Изд-во «Перемена», 2002. 4. Панкратов В.Н. Психотехнология управления людьми. – М.: Изд-во Института психотерапии, 2001.5. Панкратов В.Н. Манипуляции в общении и их нейтрализация. – М.: Изд-во Института Психо-

терапии, 2004. 6. Потапова Р.К. Речь: коммуникация, информация, кибернетика: Учеб. пособие для вузов. – М.: Радио

и связь, 1997.7. Шейнов В.П. Скрытое управление человеком (Психология манипулирования). – М.: ООО «Издатель-

ство АСТ», Мн.: Харвест, 2005.

ПЕРСПЕКТИВНЫЕ НАПРАВЛЕНИЯ КРИМИНАЛИСТИЧЕСКОГО ИССЛЕДОВАНИЯ ЗВУКОЗАПИСЕЙ НА ЭТНИЧЕСКИХ ЯЗЫКАХ

К. филол. н. Т.И. Голощапова (Экспертно-криминалистическое управление ФСКН России)

В течение длительного времени проблема противодействия этнической преступности в аспекте судеб-ной фоноскопической экспертизы остается актуальной и крайне сложной. Одним из основных и наиболее весо-мых вещественных доказательств при расследовании преступлений, совершенных группой лиц, установлении лидеров преступного сообщества являются звукозаписи телефонных и иных переговоров и результаты прове-денных по отождествлению конкретных лиц по голосу и речи фоноскопических экспертиз. Однако внутри группировок, сформированных по этническому принципу, переговоры, как правило, ведутся только на родном языке. До момента образования ФСКН России не было никаких методических наработок для проведения иден-тификационных исследований голоса и речи лиц, говорящих на иных языках, кроме русского. Ни в одном из го-сударственных экспертных учреждений органов исполнительной власти Российской Федерации не существова-ло практики проведения идентификационных исследований по голосу и речи на нерусском языке, тем более ставилась под сомнение принципиальная возможность проведения подобных исследований специалистом, не владеющим языком, на котором требуется провести исследование. Деятельность этнических преступных груп-пировок и их лидеров оставалась безнаказанной, поскольку не было возможности эффективно использовать звукозаписи телефонных переговоров в качестве вещественных доказательств и доказать причастность кон-кретных лиц к совершенным преступлениям.

Поскольку транспортировка и сбыт наркотических средств во многих областях России практически мо-нополизированы преступными этническими группировками, внутри которых установлена строгая конспирация: сроки поставки и объём партий оговариваются условными фразами, все переговоры происходят на этническом языке, в 2005 году остро встал вопрос о необходимости проведения судебных фоноскопических экспертиз по идентификации лиц на таджикском языке. ЭКУ 9 Департамента ФСКН России были подготовлены и внесены предложения в Федеральную целевую программу «Комплексные меры противодействия злоупотреблению нар-котиками и их незаконному обороту на 2005-2009 годы» по разработке НИОКР «Разработка аппаратно-про-граммного комплекса по идентификации лиц, говорящих на разных языках (цыганском, таджикском и др.) и представляющих оперативный интерес для правоохранительных органов».

В рамках научно-исследовательской и опытно-конструкторской работы исполнителем - ООО «Центр речевых технологий» (г. Санкт-Петербург) - была проведена обширная работа по сбору речевых баз дикторов на таджикском, узбекском и цыганском языках с учетом диалектов, особое внимание было уделено социолин-гвистическим факторам, таким как пол, возраст дикторов, их образование и место проживания. На этом матери-але проводилась апробация методов идентификации, оценка и отбор идентификационно значимых устойчивых признаков. Разрабатываемый в течение 4 лет аппаратно-программный комплекс по идентификации лиц, говоря-щих на различных диалектах таджикского, цыганского и узбекского языков (далее – АПК «Этнос»), основан на последних российских и зарубежных разработках в области исследования речевого сигнала, в частности, комплексном использовании трех направлений: активно развивающихся во всем мире автоматических методов,

«Приятные переживания»

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

1 2 3

82

Page 33: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

автоматизированных и экспертно-аудитивных (слуховых и лингвистических) методов идентификации дикто-ров. На рисунке 1 приводится блок-схема проведения идентификационных исследований на АПК «Этнос».

Автоматические методы (построение математической модели речевого сигнала диктора, сравнение ста-тистик основного тона голоса, сравнение спектрально-формантных представлений голоса), проверенные на представительных речевых базах в АПК «Этнос», являются наиболее перспективными при решении задач отождествления иноязычного диктора по голосу и речи, поскольку, пользуясь данными методами, эксперт мо-жет не владеть языком, на котором говорит идентифицируемое лицо. Однако автоматические методы иденти-фикации диктора наиболее чувствительны к техническим параметрам речевого сигнала и для их успешного функционирования необходимо выполнение ряда условий. И спорная, и образцовая фонограммы должны быть получены с одного типа канала и, что не менее важно, при одном и том же эмоциональном состоянии диктора.

К сожалению, с учетом качества передачи через каналы связи (например, при записи с трубок сотовых телефонов) фонограммы, получаемые в результате оперативно-разыскных мероприятий, в большинстве случаев не соответствуют требованиям, предъявляемым к качеству звукозаписи для проведения идентификации автома-тическими методами.

Применение автоматизированных (метод «формантного выравнивания» опорных фрагментов, сравне-ние мелодических структур опорных фрагментов), и экспертно-аудитивных методов при решении задач иден-тификации иноязычного диктора требует точной сопоставимости реплик по стилистической и коммуникатив-ной направленности. Как показали исследования, проводимые экспертами органов наркоконтроля, эффектив-ность применения данных методов, а также достоверная интерпретация результатов сравнения во многом опре-деляется способностью эксперта выявлять необходимые для исследования фрагменты в сопоставимых участках речи и напрямую зависит от уровня владения экспертом разговорной и диалектной нормой в области фонетики исследуемого языка. Для принятия решения о тождестве голосов иноязычных лиц на сравниваемых фонограм-мах автоматизированными и экспертно-аудитивными методами эксперту необходимо составить фонетическую транскрипцию исследуемых образцов голоса и речи и спорной фонограммы, оценить степень идентификацион-ной значимости зафиксированных совпадений и различий, учесть целый ряд произносительных особенностей исследуемого этнического языка и, главное, дифференцировать широкие групповые признаки, характерные для

83

Page 34: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

большинства носителей конкретного языка, от узкоидентификационных. Поэтому анализ речи, проводимый указанными методами, требует от эксперта специальных знаний и подготовки.

Аппаратно-программный комплекс построен по принципу интерактивной программной среды, включа-ющей специализированный звуковой редактор для записи, воспроизведения и текстовой расшифровки фоно-грамм, а также систему идентификации «Этнос» в составе программного модуля «Мастер методики» и мульти-медийный справочник. Пример интерактивной страницы перечня лингвистических признаков приведен на ри-сунке 2. Справочная мультимедийная система содержит статьи по всем признакам, используемым при иденти-фикации методами аудитивного и лингвистического анализа, с описаниями и звуковыми эталонами, словарь терминов на таджикском языке, словарь фонетических терминов, краткое описание и рекомендации по исполь-зованию методов идентификации АПК «Этнос».

Рис. 2. Пример интерактивной страницы перечня лингвистических признаков.

С 2005 года с применением методов, заложенных в АПК «Этнос», экспертами ЭКУ 9 Департамента ФСКН России выполнено более 300 экспертиз по идентификации лиц, говорящих на таджикском языке. В ре-зультате пресечена деятельность крупных преступных группировок, возглавлявшихся гражданами Республики Таджикистан, в том числе Сафаровым, по кличке Боим, и Сайдахмадовым, по которым судебные процессы ши-роко освещались в прессе. Причем только благодаря результатам фоноскопической экспертизы удалось устано-вить причастность всех членов преступного сообщества к наркобизнесу, а также достоверно установить распре-деление ролей внутри группы. К настоящему моменту им уже вынесены обвинительные приговоры, и руково-дители преступных группировок получили за совершенные преступления по 22 года лишения свободы. Сегодня практически ни одно уголовное дело, расследуемое в рамках статьи 210 УК РФ ("Организация преступного со-общества (преступной организации)"), не направляется в суд без результатов фоноскопических экспертиз.

Аппаратно-программный комплекс по идентификации лиц, говорящих на таджикском, цыганском, уз-бекском языках, разрабатываемый в течение 4 лет ООО «Центр речевых технологий», был завершен в 2008 году и поставлен на вооружение в ЭКУ 9 Департамента ФСКН России. К настоящему моменту в рамках опыт-ной эксплуатации было выполнено 5 фоноскопических экспертиз по идентификации лиц, говорящих на та-джикском языке.

Вместе с тем проведение фоноскопических экспертиз на этнических языках выявило ряд проблем, ха-рактерных для фоноскопических исследований в целом.

Во-первых, это качество фонограмм, предоставляемых для идентификации по голосу и речи. В некото-рых современных звукозаписывающих цифровых устройствах используются алгоритмы сжатия речевого сигна-ла, которые могут разрушать некоторые идентификационные признаки речи, в силу чего проведение фоноско-пических экспертиз становится невозможным. Так, например, применяемые в цифровых устройствах алгорит-84

Page 35: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

мы сжатия по формату МР3 и подобных ему (WMA, OGG и др.), основанные на преобразовании исходного звукового сигнала в соответствии с психоакустической моделью слуха человека, изначально создавались как компромисс между качеством звучания музыкального произведения и занимаемым объемом памяти. Но именно за счет алгоритма сжатия, предполагающего существенное «упрощение» звукового сигнала путем удаления из него частотных составляющих, находящихся за пределами восприятия человека, в речевом сигнале индивиду-альные признаки голоса настолько преобразуются, что сводят практически к нулю возможность идентифика-ции. В силу этого запрещены к использованию при проведении оперативно-разыскных мероприятий цифровые звукозаписывающие устройства, использующие MP-3 формат, например, цифровой диктофон «Синица». С це-лью исключения фактов использования оперативным составом при проведении оперативно-разыскной деятель-ности звукозаписывающих устройств, искажающих идентификационно значимые признаки речевого сигнала, экспертами совместно с сотрудниками оперативно-технических подразделений были разработаны технические требования к цифровой аппаратуре регистрации речевых сигналов, обеспечивающие необходимое для иденти-фикации качество речи.

В настоящее время создана постоянно действующая рабочая группа по проведению апробации образ-цов звукозаписывающей техники для решения вопроса о возможности постановки ее в дальнейшем на вооруже-ние в органы наркоконтроля. Образцы техники, ранее поставленные на вооружение и не прошедшие апроба-цию, подлежат замене либо не должны использоваться при проведении оперативно-разыскных мероприятий, если известно, что фонограммы в дальнейшем будут использоваться в качестве вещественных доказательств.

Второй проблемой предоставления фонограмм в качестве вещественных доказательств является унифи-кация форматов записи. Если фонограмма предоставляется в нестандартном формате, это может привести к за-тягиванию сроков проведения фоноскопических экспертиз. С целью предотвращения подобных фактов были выработаны единые требования к предоставлению фонограмм на фоноскопическую экспертизу, которые за-креплены в Методических рекомендациях «Порядок назначения фоноскопических экспертиз по материалам ОРМ «ПТП», разработанных ЭКУ 9 Департамента совместно со Следственным департаментом и Департамен-том специальных технических мероприятий. Указанные методические рекомендации внедрены в практику ра-боты территориальных органов наркоконтроля.

Третий фактор, влияющий на сроки производства фоноскопических экспертиз, заключается в грамот-ном, с учетом оперативной значимости и судебной перспективы, отборе объектов для исследования. С учетом высокой востребованности результатов фоноскопических экспертиз следственными подразделениями был вы-работан комплекс мер, направленных на повышении эффективности использования фонограмм в качестве ве-щественных доказательств при расследовании особо опасных преступлений. В частности группа, состоящая из следователя, оперативного сотрудника и эксперта-фоноскописта, совместно осуществляет отбор фонограмм, которые имеют наибольшее доказательственное значение и лягут в основу обвинительного заключения, из всего массива фонограмм, полученных в результате проведения оперативно-технического мероприятия «Про-слушивание телефонных переговоров».

По результатам отбора фонограмм, осуществляемого совместно следователем, экспертом и оператив-ным сотрудником, составляется протокол отбора фонограмм. Учитывая тяжесть совершенных преступлений и объем материала, при отборе фонограмм для проведения фоноскопических экспертиз рекомендовано придер-живаться следующих критериев: при расследовании уголовных дел, возбужденных по ст. 228, 228.1 УК РФ, предоставлять на исследование по 3-5 фонограмм на одно лицо; при расследовании уголовных дел, возбужден-ных по ст. 210 УК РФ – по 5-7 фонограмм на каждое интересующее лицо.

Самой главной проблемой является подготовка экспертных кадров. Эксперт-фоноскопист должен обла-дать знаниями в разных областях науки: прикладной физики, радиоэлектроники, математики, лингвистики, ло-гопедии, психологии, криминалистики и других, поэтому требования к уровню подготовки сотрудников, прово-дящих идентификацию по голосу и речи, достаточно высоки. По сложившейся практике на должности экспер-тов-фоноскопистов подбираются кандидаты, имеющие филологическое и инженерное образование, далее им приходится осваивать весь комплекс смежных знаний для получения экспертной специальности «Идентифика-ция по голосу и речи». Как правило, подобное обучение требует значительных временных и материальных за-трат. К тому же эксперты, имеющие базовое филологическое образование, профессионально владеют только русским языком. С учетом потребностей оперативных и следственных подразделений в производстве фоноско-пических экспертиз на этнических языках необходимо пересмотреть подходы к обучению экспертов-фоноско-пистов. Настало время, когда необходимо обучать фоноскопистов в формате 5-летнего высшего профессио-нального образования, в этом случае была бы возможность освоить профессионально не только русский, но и любой другой, входящий в сферу оперативной заинтересованности правоохранительных органов, язык. По ин-формации, полученной из оперативных подразделений, наиболее востребованными на сегодняшний день этни-ческими языками являются таджикский, азербайджанский, киргизский, литовский, латышский, цыганский. Та-кой комплексный подход позволил бы в полной мере обеспечить потребности оперативных и следственных подразделений правоохранительных органов в производстве фоноскопических экспертиз на этнических языках.

Решение вышеперечисленных проблем требует тесного взаимодействия всех заинтересованных подраз-делений, участвующих в раскрытии и расследовании преступлений, начиная от оперативно-технических подразделений, которые стараются обеспечить надлежащее качество получаемых в результате оперативно-ра-зыскных мероприятий фонограмм, оперативных и следственных подразделений, обеспечивающих грамотный отбор значимых для доказывания фонограмм, заканчивая экспертно-криминалистическими подразделениями,

85

Page 36: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

разрабатывающими новые экспертные методики. Реализация комплекса вышеуказанных мер позволяет оптими-зировать процесс направления фонограмм на фоноскопическую экспертизу и развивать новые, наиболее вос-требованные, направления исследования голоса и речи, в частности идентификацию иноязычных дикторов. Тем более, что в руках экспертов-фоноскопистов появился надежный инструментарий по доказыванию причастно-сти к совершенным преступлениям лиц, говорящих не только на русском, но и на этнических языках.

Борьба с этнической преступностью актуальна не только в сфере незаконного оборота наркотиков, но и защиты безопасности государства, в том числе предотвращении террористических актов, и при расследовании преступлений общеуголовной направленности. Внедрение новейших научных достижений в практику эксперт-ных подразделений ФСБ и МВД России, пресечение деятельности группировок, сформированных по этниче-скому принципу, привлечение к уголовной ответственности максимального числа лиц, входящих в их состав, будет способствовать существенному сокращению преступности в Российской Федерации.

ПРОСОДИЧЕСКИЕ КОРРЕЛЯТЫ ЭМОЦИОНАЛЬНЫХ СОСТОЯНИЙ И КОММУНИКАТИВНЫХ НАМЕРЕНИЙ В РЕЧИ ДИКТОРОВ-БИЛИНГВОВ

И.В. Курьянова (Экспертно-криминалистическое управление ФСКН России)

Необходимость рассмотрения смысловой просодии как компонента языковой системы и как компонен-та определенной лингвокультуры, теоретическая и практическая разработка этой проблемы с целью выявления тех ключевых компонентов просодии, в которых влияние коммуникативной целеустановки диктора наиболее заметно и результативно, представляется важной и перспективной задачей современной лингвистики. Важность этого аспекта определяется тем, что именно просодия «дает общающимся (говорящему и слушающему) первую ориентацию в понимании смысла высказывания во время акта речевой коммуникации» (Потапова 2003:20). Изучение просодической организации коммуникативного намерения приобретает особую актуальность при анализе криминогенной ситуации в регионах Российской Федерации: подобные исследования диктуются по-требностями судебной практики по делам, связанным с расследованием особо тяжких преступлений. Исследо-вание параметров речевого сигнала для проведения фоноскопических экспертиз на этническом языке (таджик-ском, азербайджанском, цыганском и т.д.) требуют новых фундаментальных подходов (Голощапова 2007:710).

Существует не столь значительное количество работ этого направления, и в частности, по теории речевых актов. Зачастую фонетический аспект языка, а точнее просодия, практически выпадает из поля зрения прагматики. В связи с этим представляется перспективным отнесение комплекса проблем, находящихся на стыке фонетики и прагматики, к особой области исследования звучащей речи – прагмафонетике, или фонопрагматике.

Просодия является одним из важнейших элементов паралингвистики, во многом определяющим произ-носительную структуру высказывания. Значимость данного явления языка легко объяснима: просодические ха-рактеристики часто определяют значение высказывания, его интерпретацию слушающим, возникновение пони-мания между говорящим и слушающим (другими словами – акта коммуникации). Именно просодия во многом определяет коннотативный смысл высказывания, концептуальную установку говорящего и играет огромную роль в диалогическом взаимодействии и интерпретации смысла сообщения.

В языковом сознании представителей таджикской и русской лингвокультур существуют определенные просодические модели выражения и интерпретации смысла и иллокутивного компонента высказываний, кото-рые имеют ряд специфических черт и способны влиять на успешность понимания коммуникативной интенции носителем другого языка.

В процессе коммуникации наиболее ярко отражены особенности выражения и восприятия смысла вы-сказывания, так как реализация коммуникативных интенций говорящего полностью зависит от восприятия со-держания информации слушающим. Одним из постулатов речевого воздействия (как раздела психолингвисти-ки) является то, что «в каждом акте речевого общения можно увидеть процесс достижения некоторой нерече-вой цели, которая в итоге соотносится с регуляцией деятельности собеседника» (Тарасов 1990:3). Каждой ком-муникативной деятельности предшествует коммуникативное намерение, которое с учетом соотнесенности партнеров и содержания коммуникации уплотняется во внутриязыковую концепцию (Потапова 2002: 29).

Так, практически все супрасегментные признаки можно наблюдать в речи абсолютного большинства носителей как русской разговорной нормы, так и таджикской. И это связано, прежде всего, с коммуникативным намерением говорящего. Например, признак «постепенно восходящий мелодический рисунок в специальном во-просе» может преобразовать как русское высказывание «Что он там говорит?», так и аналогичное таджикское «Вай уща чи гуфтестай?», из специального вопроса в риторический.

В языковой коммуникации принято различать два вида целей, которые может преследовать говорящий, – ближайшую (явную), непосредственно выражаемую говорящим, и более отдаленную (скрытую) побудитель-ную причину, нередко воспринимаемую как целевой подтекст, подчас трудно разгадываемый. Непосредствен-ный интерес для исследования представляют высказывания с имплицитным содержанием, так как в условиях конкретного коммуникативного акта высказывание может содержать количественно бóльшую или даже иную информацию, нежели та, которая обусловлена лексико-грамматическим значением модели предложения.

Результаты исследований, проводимых в теории речевых актов, показали, что человек воспринимает рече-вое сообщение адекватно намерению говорящего по неким речевым компонентам, которые часто не совпадают с их формально-грамматическим выражением, т.е. с тем, что говорится «буквально». Часто средствами импликации

86

Page 37: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

истинной цели сообщения являются не столько лексико-грамматические, сколько фонетические и просодические единицы. В ряде коммуникативных ситуаций экспликативный аспект сообщения теряет свою релевантность, когда для адекватной интерпретации высказывания важно не то, о чем говорится, а то как говорится.

Говоря о категории имплицитности как одной из категорий изучения спонтанной разговорной речи, профессор Р.К. Потапова подчеркивает роль просодических характеристик в анализе высказывания. Чем больше имплицитности, тем меньше в речи грамматикализованности. «Здесь нельзя опираться только на план содержания, а следует переходить к плану выражения, так как с уменьшением грамматикализованности увели-чивается вес просодических характеристик высказывания. Многочисленные эксперименты показали, что имен-но интонация играет значительную роль в анализе высказывания» (Потапова 2002: 105).

Поэтому изучение и сопоставительный анализ просодического оформления высказывания в речевом поведении русскоязычных и иноязычных дикторов способствует выявлению некоторых особенностей адекват-ного понимания смысла высказывания и коммуникативной интенции говорящего, в том числе со стороны тех, для кого рассматриваемый язык является неродным. Для адекватной интерпретации устного сообщения необхо-димо выявить его коннотативные значения, которые передаются не только лингвистическими, но также пара-лингвистическими средствами, а иногда и исключительно ими.

Считается, что вклад просодии в речевое общение лучше всего определяется на уровне высказываний, прагматики и эмоций. В многочисленных исследованиях выделены следующие пять функций просодии:

• выразить намерение говорящего;• сконцентрировать внимание на отдельных частях высказывания;• снять неоднозначность неясных высказываний;• выделить основные синтаксические границы и категории;• выразить эмоциональное состояние говорящего.Таким образом, целесообразным представляется утверждение положения о том, что просодические

средства способны различать целеустановки в конкретных конструкциях, а также являются необходимым компонентом при формировании смысла и коммуникативной целеустановки высказывания.

Поясним нашу точку зрения примером:Таджикский язык: «Бахтиёр гуфтестай вай пга бега миёд зангуш задан лозимай».Русский язык: «Бахтиёр говорит он прилетает завтра вечером надо ему позвонить».Отсутствие знаков препинания, соответствующее отсутствию просодического оформления высказыва-

ния в речи, не позволяет понять, кто прилетает, а кто об этом говорит, относится ли «завтра вечером» к прилету или к необходимости позвонить.

Распознать смысл данного высказывания представляется возможным через выявление просодо-семан-темы, которая исполняет лингвистическую функцию смыслового декодирования сообщения (Потапова 2003:144).

Данную последовательность можно оформить с помощью просодических средств (например, разделить паузами на несколько сегментов) как, по крайней мере, три различных по смыслу высказывания:

1) «Бахтиёр, - гуфтестай вай, - пга бега миёд. Зангуш задан лозимай» - «Бахтиёр, - говорит он, - приле-тает завтра вечером. Надо ему позвонить» = «некто сообщает, что надо позвонить Бахтиёру, кото-рый прилетает завтра вечером».

2) «Бахтиёр гуфтестай: вай пга бега миёд. Зангуш задан лозимай» - Бахтиер говорит: «Он прилетает завтра вечером. Надо ему позвонить» = «Бахтиёр сообщает, что некто (или он сам) прилетает завтра вечером, и ему надо позвонить».

3) «Бахтиёр гуфтестай: вай пга миёд. Бега зангуш задан лозимай» - Бахтиёр говорит: «Он прилетает. Завтра вечером надо ему позвонить» = «Бахтиёр сообщает, что некто (или он сам) прилетает, и ему надо позвонить завтра вечером» и т.п.

На наш взгляд, данная последовательность станет ещё более коммуникативно-значимой и естествен-ной, если в неё внести объединение слов, связанных по смыслу мелодическим контуром, распределением значе-ний интенсивности и длительности.

Учитывая взаимосвязь и неразрывность процессов членения и интеграции речевого потока, субстанцио-нальными коррелятами данной функции просодии (функции членения) являются продолжительность пауз, раз-личия темпа, интенсивности, мелодического оформления. Например:

1) «Бахтиёр гуфтестай: вай пга миёд.//Бега зангуш задан лозимай» - Бахтиер говорит: «Он прилетает.//Завтра вечером надо ему позвонить».

2) «Бахтиёр гуфтестай: вай пга миёд./Бега зангуш задан лозимай» - Бахтиёр говорит: «Он прилетает./ Завтра вечером надо ему позвонить».

Длинная пауза в первом высказывании (//) свидетельствует о том, что передано два относительно само-стоятельных сообщения. Короткая пауза второго примера (/) сигнализирует о тесной причинно-следственной связи: «он прилетает, поэтому надо ему позвонить».

Исследование просодических средств, участвующих в формировании коммуникативного намерения и способствующих образованию коммуникативной цели высказывания, представляются чрезвычайно важной и необходимой частью адекватной интерпретации смысла речевого сообщения в целом.

87

Page 38: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

Целесообразным представляется исследование диапазона тональной конфигурации, типов фонации, тембровой структуры высказываний, интенсивности и длительности произнесения слогов, изменения мелоди-ческого контура, отражающих разнообразные модально-иллокутивные характеристики.

Исходя из коммуникативной интенции говорящего, можно классифицировать языковые единицы как прагматически нейтральные и прагматически осложненные высказывания. Прагматически нейтральные выска-зывания имеют своей целью что-либо сообщить или выяснить без какой-либо дополнительной целевой установ-ки. Именно они обычно составляют информационную часть высказывания. Но при определенных условиях ней-тральные высказывания осложняются прагматическим компонентом, который и образует их имплицитную со-ставляющую – скрытую цель сообщения.

Так, прагматически нейтральное высказывание типа «Бахтиёр говорит: «Он прилетает./ (//) Завтра ве-чером надо ему позвонить».» в определенной речевой ситуации может быть осложнено неким прагматическим компонентом и передавать совершенно иную, отличную от нейтральной (информационной), коммуникативную интенцию диктора.

Средствами экспликации истинного коммуникативного намерения сообщения являются не только лек-сико-грамматические единицы и контекстуальные условия высказывания, но и, прежде всего, фонетические и просодические средства языка. Истинное намерение говорящего может проявляться как на уровне просодо-се-мантики слова, так и на уровне просодо-семантики предложения или микротекста.

Таким образом, в зависимости от громкости, темпа произнесения второй части высказывания «Завтра ве-чером надо ему позвонить» (вне зависимости от того, произнесена она как самостоятельное сообщение или как придаточная часть высказывания), уровня высоты основного тона, мелодического контура, длительности и интен-сивности произнесения слогов-носителей фразового и синтагматического ударения, эта фраза может имплицитно выражать такие коммуникативные намерения, как требование (приказ), содержащий безоговорочность исполне-ния указанного действия, предложение (совет), включающий компонент «условности», возможности неисполне-ния действия, просьбу, в которую включен параметр вариативности поведения слушающего, и т.д.

Все цели высказывания имеют собственные, закрепленные за ними способы выражения. Имплицитные цели, которые зачастую невозможно распознать по плану содержания, могут быть эксплицированы по плану выражения, то есть по их просодическому оформлению. В экспериментально-фонетической литературе распро-странено мнение, согласно которому именно просодия дает общающимся (говорящему и слушающему) первую ориентацию в процессе акта речевой коммуникации в понимании смысла высказывания (Потапова 2002:457).

Здесь важно отметить эмоциональную составляющую высказывания, которая имеет прямое отношение к объективному и адекватному декодированию речевого сообщения в акте коммуникации. Эмоциональный на-строй говорящего может полностью изменить смысл сказанного. Помимо различных экстралингвистических факторов (жесты, мимика) эмоциональная окраска выражается через просодические характеристики речи. Это отмечают в своих работах многие исследователи (Потапова Р.К., Потапов В.В. «Язык, речь, личность», Брызгу-нова Е.А. «Коммуникативный анализ звучащей речи», Френкель О.В. «Просодическое оформление высказыва-ния как способ социальной характеризации говорящего» и др.). Существование подобной паралингвистической вариативности делает вопрос изучения взаимосвязи просодических характеристик эмоциональных состояний и коммуникативных интенций говорящего актуальным.

Исследования просодических средств оформления эмоций в речи проводились различными учеными на примере различных языков. В процессе изучения сложился набор просодических характеристик, которые мож-но считать наиболее информативными, показательными. «Просодические характеристики не равноценны в передаче коннотативных значений» (Потапова 1997:6). Среди них чаще всего выделяют частоту основного тона (ЧОТ), диапазон ее изменений и изменения контура, длительность, интенсивность изучаемого элемента (это может быть отдельный слог, слово или целая фраза).

С целью выявления просодических коррелятов эмоциональных состояний и коммуникативных намере-ний в речи дикторов-билингвов нами были отобраны аутентичные звукозаписи, содержащие речь дикторов, го-ворящих на таджикском языке. Исследование проводилось перцептивно-слуховыми и инструментальными ме-тодами.

В качестве наиболее оптимальных для исследований просодических средств оформления высказыва-ния, были выбраны просодические характеристики, представленные в книге Потаповой Р.К., Потапова В.В. «Язык, речь, личность»: громкость, темп, диапазон изменения ЧОТ, средний уровень ЧОТ, мелодический контур высоты ОТ, направление движения ОТ и число выделенных слогов.

Громкость – это легко оцениваемое и легко регулируемое свойство голоса, поэтому первая проблема при её интерпретации – определить, вызвана ли повышенная или пониженная громкость актуальным намерени-ем говорящего или является нормой для данного диктора. При этом важно понять, является ли голос естествен-но-громким или демонстративно-громким, что может служить сознательно или бессознательно для сокрытия недостаточной уверенности в своем коммуникативном намерении. Точно так же может быть вопросом, являет-ся ли слишком тихий голос истинно тихим, или служит прикрытием для достижения определенных целей.

При этом представляется целесообразным проанализировать диапазон изменения громкости голоса, что будет свидетельствовать, на наш взгляд, об уверенности/неуверенности, устойчивости/неустойчивости комму-никативного намерения.

88

Page 39: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

Р.К. Потапова отмечает следующее соотношение громкости голоса и эмоционального состояния (по убыванию степени громкости): ярость – страх – радость – тревога – тоска (Потапова, Потапов 2006: 148).

Как показали исследования голоса дикторов-билингвов, аналогично по громкости располагается вы-бранная нами триада коммуникативных интенций (от большей к меньшей): требование (приказ) – предложение (совет) – просьба – при естественной громкости голоса; просьба – предложение (совет) – требование (приказ) – при демонстративной громкости голоса (таблица 1).

При интерпретации темпа как просодического средства выражения коммуникативной целеустановки важно установить, изменен ли он вследствие осложнения прагматически нейтрального высказывания дополни-тельной определенной интенцией или обусловлен темпераментом говорящего.

Согласно данным эксперимента, проводимым Р.К. Потаповой, по темповым характеристикам наиболее четко противопоставлены две группы эмоциональных состояний: ярость, страх, тревога (быстрый темп); ра-дость и тоска (замедленный темп) (Потапова, Потапов 2006:145-149).

Учитывая исследования профессора Р.К. Потаповой, представляется целесообразным противопостав-лять по темповым характеристикам речевые акты различных целеустановок двух групп: быстрый темп (и уско-ряющийся) – выражение агрессивного намерения (например, выполнение безоговорочного требования; угроза), медленный темп (замедляющийся) – изъявления неагрессивного намерения, например, конструкции совета, просьбы (таблица 1).

В исследованиях Р.К. Потаповой по распределению просодических значений в различных эмоциональ-ных состояниях говорящего установлено, что высокий уровень и широкий диапазон высоты основного тона ха-рактерен для таких эмоционального состояния, как ярость; низкий уровень и узкий диапазон высоты основного тона – для тревоги, тоски (Потапова, Потапов 2006: 149).

Координация регистров тесно связана с коммуникативным намерением вообще. Факторы, заставляю-щие человека придавать своему голосу нехарактерную для него частоту тона (т.е. не присущую для данного диктора в момент, например, прагматически нейтральной речи), должны устанавливаться точным анализом го-лоса. Установление факта изменения основного фонетического регистра можно, на наш взгляд, интерпретиро-вать как выражение говорящим определенной коммуникативной интенции. Проведенные нами исследования позволили установить, что при выражении требования и (или угрозы) высота голоса и диапазон изменения вы-соты голоса резко увеличивается, при выражении такой коммуникативной интенции, как «просьба», высота го-лоса снижается, диапазон изменения частоты основного тона сужается (таблица 1).

Таблица 1. Изменение громкости, уровня и диапазона частоты основного тона,темпа речи в различных коммуникативных целеустановках.

Коммуникативное на-мерение

Средний уро-вень ЧОТ

Диапазон ЧОТ

Длина рече-вого отрезка

Общая интенсив-ность

Требование (приказ) 1 175 Гц 140 – 205 Гц 1,95 сек выше среднейТребование (приказ) 2 185 Гц 145 – 230 Гц 1,51 сек сильнаяТребование (приказ) 3 165 Гц 140 – 210 Гц 5,78 сек чуть выше среднейТребование (приказ) 4 190 Гц 150 – 210 Гц 3, 90 сек сильнаяТребование (приказ) 5 170 Гц 150 – 220 Гц 2,02 сек выше среднейПросьба 1 130 Гц 110 – 150 Гц 4,02 сек средняяПросьба 2 140 Гц 115 – 160 Гц 5,28 сек слабаяПросьба 3 135 Гц 115 – 175 Гц 7,27 сек слабаяПросьба 4 150 Гц 120 – 180 Гц 12,32 сек слабаяПросьба 5 145 Гц 110 – 170 Гц 8,29 сек слабая

Мелодический диапазон голоса. Согласно Р.К. Потаповой (Потапова, Потапов 2006: 149), изрезанный контур, наиболее часто резкое

нисходящее движение тона характеризует фразы, произнесенные в состоянии ярости, страха и тревоги. Плав-ный контур, плавное нисходящее движение тона в завершении отмечено во фразах, произнесенных в состоянии тоски.

Восходящая мелодика информирует об уровне компетентности говорящего, его более высоком (чем у слушающего) уровне владения ситуацией и организующей роли, что, в свою очередь, характерно для речевых актов «требований-приказов» (Безяева 2002:709). Нисходящая мелодика, а в частности, так называемая падаю-щая мелодика, означающая снижение высоты основного тона к концу предложений, с этой точки зрения, при неизмененной громкости будет характеризовать слабоволие, некую подчиненность, управляемость, что харак-терно для позиции слушающего в речевых актах требования, или позиции говорящего в речевых актах просьбы (Безяева 2002: 709).

Таким образом, представляется возможным, интерпретация мелодического диапазона голоса как сред-ства выражения коммуникативного намерения. Необходимым представляется анализ ритмичности/неритмично-сти колебаний мелодики, то есть равномерных, мотивированных/неравномерных, немотивированных повыше-ний тона, что может свидетельствовать о внутренней уверенности/неуверенности диктора в своем коммуника-тивном намерении.

89

Page 40: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

Мелодический контур исследовался нами с помощью вычисления функции периодичности (динамиче-ской кепстрограммы), который позволил проследить направление движения основного тона и мелодических перепадов.

Так, удалось установить, что для высказываний, передающим значение требования, угрозы, характерен изрезанный мелодический контур (рисунок 1). Коммуникативной целеустановке «просьба» («жалоба-просьба», «вопрос-просьба») характерен плавный мелодический контур (рисунок 2, 3).

Рис.1. Коммуникативная целеустановка требования. Тадж.: «Пагоы бояд ин мактуб ро ту бифиристед!» Русск.: «Завтра ты это письмо должен отправить!»

Рис.2. Коммуникативная целеустановка просьбы (вопрос). Тадж.: «Ту имруз метавонид ба вай занг занед?» Русск.: «Ну а сегодня хоть ты сможешь ему позвонить?»

Рис.3. Коммуникативная целеустановка просьбы (жалоба-просьба). Тадж.: «Ту ку гуфтед, пагоы меоям» Русск.: «Ты же говорил, что сможешь прихать».

Специфика использования ударения так же, как и остальные признаки, получаемые в ходе супрасег-ментного анализа, заключает в себе информацию о коммуникативном намерении говорящего.

Смыслоразличительными признаками при анализе ударения можно считать следующие: особенности расстановки выделительных акцентов; перенос логического центра высказывания на частицы и предлоги; по-словное произнесение синтагм с усилением словесного ударения; ударение на отрицательной частице и пауза после неё; нормативность/ненормативность ритмической организации слова, выражающаяся в соотношении

90

Page 41: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

длительности ударного, первого и второго предударных слогов в слове; выделение синтагматически ударного слова за счет увеличения длительности гласного; увеличение длительности заударных гласных в синтагматиче-ски ударном слове.

Число выделенных слогов в анализируемых нами фразах на таджикском языке строго различается по количеству синтагм, выделяемых в предложении. В односинтагменных предложениях в целом выделяется одно фразовое ударение. В двусинтагменных – появляется дополнительное синтагматическое ударение. Как показа-ли проводимые нами исследования, качество и место ударения может варьироваться. Чаще всего в таджикских двусинтагменных высказываниях оба ударения приходятся на конец каждой из синтагм. Если внутри синтагмы наблюдается подъем основного тона, то ударение чаще всего приходится на этот подъем. Наблюдается тенден-ция к выделению первого элемента в предложении в независимости от его функции (как правило, это выделе-ние происходит за счет дополнительного ударения, либо за счет паузы).

Таким образом, при «реконструкции» коммуникативной целеустановки с помощью различных фигур ритмического протекания речи представляется верным классификация ритмической организации высказывания на 2 группы:

• угловато-отрывистое протекание речи с разрывами слов и предложений, внезапными изменениями громкости и тона, немелодичная, чаще консонантная речь – характеризует агрессивное коммуника-тивное намерение говорящего;

• округло-текучая манера говорения, с мягкими переходами, ритмическая, мелодическая, вокализо-ванная речь, эластичный голос, легкие периодические колебания – является типичным для выраже-ния неагрессивного коммуникативного намерения.

Исследование возможности влияния иллокутивного компонента высказывания на просодическую орга-низацию речи предполагает рассмотрение просодического уровня языка как строгой системы средств, органи-зованных в конструкции, которые, в свою очередь, объединяются целеустановками.

Как показал анализ спонтанной диалогической формы коммуникации, системность просодического уровня языка предопределяется значением основных просодических единиц, которое основано на коммуника-тивной интенции говорящего и слушающего. Разное соотношение просодических единиц характеризует разные типы целеустановок.

Таким образом, просодия – это одно из средств выражения прагматических значений. Просодический контур высказывания аккумулирует грамматическую, стилистическую и прагматическую информацию, явля-ясь, порой, универсальным средством передачи как лингвистических, так и нелингвистических аспектов в про-цессе коммуникации.

Все это свидетельствует о системной организации просодического уровня как особого уровня языка – со спецификой семантики, закономерностями средств, их взаимодействия, функционирования и особенностями реализации.

Литература

1. Безяева М.Г. Семантика коммуникативного уровня звучащего языка. М.: МГУ, 2002. - 752с.2. Голощапова Т.И. Исследование иноязычной речи экспертными методами // Лингвистическая

полифония. Сборник в честь юбилея профессора Р.К. Потаповой . – М.: Языки славянских культур, 2007. – С. 710 - 725

3. Потапова Р.К. Коннотативная паралингвистика. М.: Триада, 1997. – 67с.4. Потапова Р.К. Реконструкция «портрета» говорящего по его лингво-акустическим

характеристикам// Языкознание в теории и эксперименте. Сб. науч. трудов по материалам конф. «Актуальные проблемы общего и восточного языкознания». – М., 2002.

5. Потапова Р.К. Речь: коммуникация, информация, кибернетика. 3-е изд. – М.: Едиториал УРСС, 2003. – 564 с.

6. Потапова Р.К., Потапов В.В. Язык, речь, личность. М.: Языки славянской культуры, 2006. – 496с.7. Тарасов Е. Ф. Методологические и теоретические проблемы речевого воздействия // Оптимизация

речевого воздействия. М.: Наука, 1990. – 240 с.

ОСОБЕННОСТИ ФОНЕТИКО-ФОНОЛОГИЧЕСКОЙ СТРУКТУРЫ СЛОГА (НА МАТЕРИАЛЕ ТАДЖИКСКОГО ЯЗЫКА)

Ю.А. Елемешина (Экспертно-криминалистическое управление ФСКН России)

Интерес к звучащей речи всегда был значимым в общей теории языка. Это обусловлено еще и тем, что многие речемыслительные процессы раскрывают закономерности и своеобразие протекания языкового общения, взаимодействия между коммуникантами. На протяжении уже более 30 лет этот многолетний опыт отечественных и зарубежных лингвистов-речевиков активно используется в исследовании аудиозаписей в криминалистических целях. Развитие науки и техники, в первую очередь появление автоматизированных аппаратных комплексов для анализа речевых сигналов, позволяет использовать новые методы для борьбы с преступностью, в частности в сфе-ре незаконного оборота наркотических средств. Анализ криминогенной ситуации в регионах Российской Федера-ции показал, что наиболее перспективным направлением является исследование языков народов бывших совет-

91

Page 42: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

ских республик (в частности таджикского языка), так как в последнее время именно в этих регионах все чаще происходит производство или крупномасштабное перераспределение потоков наркотических средств. Соответ-ственно, все чаще в рамках возбуждения уголовных дел по статьям 228, 210, 174 и др. Уголовного Кодекса РФ возникает насущная потребность в исследовании записей переговоров этнических преступных группировок и еди-ничных исполнителей. Назначенные по этим делам фоноскопические экспертизы речи иноязычных дикторов яв-ляются иногда единственно возможными доказательствами совершения преступления.

Современные технологии речевой коммуникации достаточно полно и детально привлекают все ракурсы речепорождения, без которых затруднительно объяснить сам процесс коммуникации, отношения партнеров в нем, когнитивные механизмы понимания, предметно-образное кодирование мысли, интерпретаций мысли и т.д. По мнению Р.К. Потаповой, «особую важность приобретает изучение механизма зависимости между просодо-семантической интерпретацией речевого высказывания адресатом, особенностями порождения речевого выска-зывания адресантом и характером протекания дискурса». (Потапова, 2006: 134). Из этого многообразия состав-ляющих феномена речевой коммуникации мы бы хотели более подробно рассмотреть слоговое построение вы-сказывания, ввиду того, что слог является ее основной минимальной сегментно-структурной единицей.

С лингвистической точки зрения в фонемных языках, к которым принадлежат все европейские языки и большинство языков мира, включая и таджикский язык, языковой единицей является отдельная фонема. Слог - основная и наименьшая единица звуковой структуры слова в артикуляторном отношении. Слово может состо-ять из одного или нескольких слогов. По составу слог может быть простой единицей (состоит из одной фоне-мы) или сложной (состоит из нескольких фонем). Кроме того, слог – это наименьшая единица, в которой реали-зуются компоненты акцентно-ритмической структуры слова – словесного ударения.

Фонетическая структура синтагмы, как правило, маркируется интенсивностью. Каждая же синтагма имеет вершину интенсивности, которая приходится на ударный слог главного по смыслу слова. Ударный слог произносится обычно медленней, чем безударные. С помощью выделенного речевой динамикой слога возмож-но деление синтагмы на ядро и периферию. В связи с этим имеет место дифференциация временного процесса говорения. Слог является хорошо распознаваемой фонетической единицей. «Вследствие того, что слог пер-цептивно вычленим из континуума речевых знаков, он играет большую роль и в языкознании в целом, и в фо-нетике, в частности» (Потапова, 2006: 20).

Членение на слоги присуще всем языкам: артикуляторно-слуховые основы слогообразования универ-сальны. Универсальны и артикуляторные средства слогоделения, хотя само строение слогов, список их типов, правила слогоделения в разных языках могут быть различными.

Слог состоит из фонем, часть которых выступает как носитель смыслоразличительных признаков, как ядро, как слогообразующий элемент слога, или является слогоносителем. Слогоносителем в зависимости от языка могут быть:

1. гласный; 2. дифтонг, трифтонг; 3. согласный; 4. многофонемная группа "гласный + согласный".«Нет ни одного языка, в котором гласные не функционировали бы в качестве слогоносителей. В

большинстве языков мира гласные являются единственно возможными слогоносителями слова» (Трубецкой, 1960: 19).

Слог в общем случае состоит из вокалической вершины и консонантных склонов. Вершиной слога может быть и сонорный согласный («л/ба», «ме/тр») – такие сонорные называются слоговыми, или вокализованными.

Слоговая структура таджикского языка исключает стечения более двух согласных (СV или CVC).В таджикском языке присутствуют все четыре структурные типа слогов: • полностью открытый «у»,• полностью закрытый «бар», «дорд» с подтипами CVC «кач», CVCC «касб»,• прикрытый в начале «ба», «ки»,• прикрытый в конце «аср» с подтипами VC «ид», VCC «умр».Слогообразующим элементом в таджикском языке, так же как и в русском, является гласный.Преобладающими являются такие типы слогов, как CV, CVC, CVCC «пок», «пур», «гук», «рост», «гарб».В речевом потоке слоги типа CVC и CVCC трансформируются в более простые типа CV и CVC: «де-

вор» – «де-во-ри хо-на»; «бод-ринг» – «бод-рин-ги то-за».В типичных структурах таджикского языка представлены только прикрытые слоги. Для слова в целом

характерно консонантное начало, одна из типичных структур начинается с сочетанием с согласных. Конец сло-ва может быть и открытым, и закрытым. Однако в числе типичных нет структур с конечными сочетаниями со-гласных. Сочетания согласных более обычны в середине слова и в непосредственном соседстве с ударным глас-ным, чаще всего-перед ним.

Для таджикского слога не допускается стечение согласных в начале слова и стечение более двух глас-ных, это возможно только в случаях стыка двух морфем: «бо-одоб». Также не характерно стечение более двух согласных в середине слова.

92

Page 43: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

В заимствованиях из русского языка при наличии двух и более согласных, в разговорной речи между ними или между первым из них появляется эпентетический гласный «и/у»: «трактор – тирактур», «стакан – истакон», «школа – ишкола».

Основные отличия фонетической системы таджикского языка от русского состоят в отсутствии каче-ственной редукции безударных гласных и в нерегулярности количественной редукции (зависимость ее от типа гласного и закрытости-открытости слога, а не от позиции по отношению к ударению). Отсутствие качественной редукции гласных в таджикском языке означает, что как в ударном, так и в безударном положении таджикские гласные характеризуются полным стилем произнесения. Количественная редукция в таджикском языке суще-ствует, однако используется нерегулярно. Так называемые «устойчивые» гласные /е/, /о/, /υ/ никогда не сокра-щаются, вне зависимости от их позиции в слове. Напротив, так называемые «неустойчивые» гласные /а/, /и/, /у/ могут подвергаться значительному сокращению в предударном прикрытом слоге, особенно сильному в контек-сте других согласных (вплоть до выпадения). При этом в закрытом слоге такие гласные практически не сокра-щаются.

Например, в слове «назар» («взгляд») ударение падает на второй (последний) слог, и длительность предударного /а/, как неустойчивого в предударном прикрытом в начале слоге, существенное сокращается. Напротив, в слове «жола» («град») предударный гласный /о/, относящийся к классу устойчивых, не теряет свое-го качества и не сокращается (его длительность может даже превышать длительность ударного /а/). В слове «шарбат» («сок») неустойчивый гласный находится в закрытом слоге, поэтому сокращению не подвергается – по длительности может не отличаться от ударного.

Принципы и средства слогоделения таджикского языка достаточно сложно выделить эмпирическим пу-тем, однако можно сказать, что единственный интервокальный согласный относится к последующему гласно-му, а сочетания согласных в начале слов образуют слог с последующим за ним гласным. Основными наиболее часто встречающимися типами гласных являются «а», «о», «и», из согласных – переднеязычные, губные и на-зальные.

В таджикском языке ударение обычно падает на последний слог: ода΄м (человек), талаба΄ (ученик). Ударение не падает на последний слог в следующих частицах и словах, которые произносятся слитно с предше-ствующим словом (энклитики):

1. изафет: г΄ули сурх (красный цветок); 2. суффикс -е, выражающий неопределенность: од΄аме (некий человек); 3. послелог -ро: ман ин ки΄тобро хондам (я прочитал эту книгу); 4. местоименные суффиксы -ам, -ат, -аш, -атон, -ашон: ки΄тобам (моя книга) (исключение: в сочета-

нии с местоимением «худ» (сам) ударение падает на эти суффиксы: ху΄дам (я сам);5. формы глагола-связки -ам, -и, -аст, -ем, -ед, -анд: ман талаба΄ам (я ученик), ту тала΄ба ӣ (ты уче-

ник);6. соединительный союз -у//-ю: кито΄бу дафтар (книга и тетрадь). Ударение не падает также на следующие союзы и частицы:• соединительный союз ҳам (также, тоже): ман ҳам меравам (я тоже пойду);• подчинительный союз ки (что): ӯ гуфт, ки имр ӯ з дарс мешавад (он сказал, что сегодня занятия

состоятся); • вопросительную частицу -м ӣ: падарат меояд-м ӣ? (придет ли твой отец?). В личных глагольных

формах с приставкой ме- главное ударение падает на последний слог, а добавочное - на приставку.Частица на-, выражающая отрицание при глаголах, принимает основное ударение, добавочное падает

на последний слог глагольной формы: на΄мегира΄м (я не возьму). Глаголы простого прошедшего времени име-ют параллельное произношение либо у дарением на основе, либо с ударением на окончании: ра΄фтам//рафта΄м.

В словах, заимствованных из русского и других языков, ударение может падать на разные слоги: тра΄к-тор, институ΄т. В русских словах, давно вошедших в разговорную речь, ударение падает на последний слог: самово΄р, картошка΄.

Однако в потоке речи словесное ударение несколько стирается и главным становится фразовое. Оно приходится либо на конец синтагмы, либо на середину слова с повышением на последнем гласном, либо на ко-нец повествовательного предложения с понижением тона (Файзов, 1992).

Все фонетические характеристики реализуются, прежде всего, во временном распределении. Всякий ре-чевой сегмент, в том числе и слог, характеризуется некоторой протяженностью во времени, необходимой для его физической реализации, дальнейшей фонетической «идентификации» и затем установления его лингвисти-ческого статуса. Различают общую длительность слога, включая согласные, и длительность его слогообразую-щей части, то есть гласного. Общая длительность слога в большинстве случаев в языковом противопоставлении не участвует, в отличие от длительности гласного, которая является количественным показателем всего слога.

Известно, что в потоке речи гласные таджикского языка могут значительным образом видоизменяться, однако формантная структура звуков, имеющая основное значение для опознавания, всегда остается неизмен-ной. На восприятие таджикских гласных большое значение имеют значение F1 и F2, так как значение третьей форманты F3 может колебаться в широких пределах, не имея категориальной отнесенности к звуку в целом, из-за отсутствия противопоставления гласных по огубленности в пределах одного ряда.

93

Page 44: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

Таблица 1. Средние частоты формант в Гц гласных таджикского литературного языка (Файзов, 1992).Гласные звуки F1 F2 F3

а 657 1332 1909о 449 923 1909э 447 1919 2770у 325 884 1686и 300 2275 2985

Исследование междикторских вариативностей акустических параметров гласных звуков таджикского языка проводилось на записях спонтанной речи трех дикторов-мужчин в нейтральном эмоциональном состоя-нии, родным языком которых был таджикский.

Таблица 2. Средние частоты формант в Гц гласных по данным диктора I (в потоке речи)Гласные звуки F1 F2 F3 F4

а 639 1408 2280 3429о 492 1045 2224 3338э 520 1901 2581 3378у 436 1245 2509 3390и 291 2042 2538 3400

Таблица 3. Средние частоты формант в Гц гласных по данным диктора II (в потоке речи)Гласные звуки F1 F2 F3 F4

а 690 1362 2540 3300о 500 1100 2500 3220э 398 1891 2610 3440у 400 880 2390 3400И 385 2050 2909 3435

Таблица 4. Средние частоты формант в Гц гласных по данным диктора III (в потоке речи)Гласные звуки F1 F2 F3 F4

А 595 1384 2682 3736О 528 1125 2496 3485Э 486 2040 2700 3580У 435 890 2470 3680И 410 2040 2650 3700

Таблица 5 Диапазон значений формантных треков гласного [а] по данным трех дикторов[А] F1 F2 F3 F4

min max разброс min max разброс min max разброс min max разбросДиктор 1 499 770 271 1240 1484 244 2182 2645 463 3220 3654 434Диктор 2 470 770 300 1025 1770 745 2280 2970 690 3045 3730 685Диктор 3 490 645 155 1185 1600 415 2443 2865 422 3510 3930 420

Таблица 6. Диапазон значений формантных треков гласного [э] по данным трех дикторов[Э] F1 F2 F3 F4

min max разброс min max разброс min max разброс min max разбросДиктор 1 390 660 270 1710 2055 345 2480 2735 255 3265 3530 265Диктор 2 320 510 190 1755 1960 205 2515 2735 220 3400 3570 170Диктор 3 410 585 175 1655 1860 205 2620 2865 245 3510 3640 130

Таблица 7. Диапазон значений формантных треков гласного [о] по данным трех дикторов[О] F1 F2 F3 F4

min max разброс min max разброс min max разброс min max разбросДиктор 1 395 650 255 881 1075 194 2035 2490 455 3240 3505 265Диктор 2 495 510 15 980 1290 310 2500 2555 55 3000 3440 440Диктор 3 445 570 125 860 1535 675 2470 2550 80 3485 - -

Таблица 8. Диапазон значений формантных треков гласного [и] по данным трех дикторов[И] F1 F2 F3 F4

min max разброс min max разброс min max разброс min max разбросДиктор 1 228 320 92 1900 2240 340 2440 2660 220 3225 3510 285Диктор 2 320 450 130 1435 2240 805 2415 2910 495 3175 3745 570Диктор 3 355 440 85 1830 2125 295 2500 2755 255 3675 3715 40

94

Page 45: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

Таблица 9. Диапазон значений формантных треков гласного [у] по данным трех дикторов[У] F1 F2 F3 F4

min max разброс min max разброс min max разброс min max разбросДиктор 1 270 634 364 1185 1350 165 2360 2680 320 3345 3450 105Диктор 2 375 450 75 870 890 20 2360 2420 80 3365 3455 90Диктор 3 320 585 265 865 950 85 2350 2670 320 3680 - -

Из вышеперечисленных измерений следует, что средние значения формант F1 и F2 у разных дикторов существенно не различаются. В то же время разброс значений формантных треков всех проанализированных гласных звуков у каждого из информантов достаточно велик. Это связано в первую очередь с тем, что анализ проводился не на изолированно произнесенных словах, а выбранных из определенного контекста. На значения формант повлияли не только правила коартикулиции в слоге, но и само построение высказывания, синтагмати-ческое и фразовое ударения, логические акценты, интонационное оформление диктором всего предложения в целом и каждого отдельного слова в частности.

Относительно литературного изолированного произнесения этих же звуков процент различий не-большой – около 10-15%. Из этого следует, что данные анализа гласных в изолированно произнесенных словах являются эталонными для сопоставления и изучения тех же гласных в других фонетических условиях.

Не менее важным является установление характера взаимосвязи между сегментами слогового типа вну-три слова. Для исследования корреляции по длительности между сегментами высказывания эффективнее всего представляется взять сегменты по наиболее распространенным в таджикском языке слоговым схемам CV, VC, CVC. На основании полученных данных будет возможно сделать следующие выводы:

• проследить динамику изменений длительности слогов во времени;• определить влияние коартикуляции на характер временной корреляции между звуками в слоге.

Таблица 10. Средние значения длительности характерного участка гласных таджикского литературного языкаГласные звуки Длительность, мс

а 211-381о 300-406э 252-398у 187-446и 263-471υ 260-381

Таблица 11. Средние значения длительности характерного участка гласных в потоке речи(по данным для трех дикторов)

Гласные звуки Длительность, мса 66-115о 76-101э 88-135у 72-102

Из приведенных выше измерений видно, что в потоке речи все гласные таджикского языка довольно значительно изменяются по длительности. Это связано в первую очередь с процессами коартикуляции внутри слова. Также на длительность гласного в слоге значительное влияние оказывают соседние согласные звуки. Например, звонкие и щелевые согласные увеличивают длительность гласного звука, смычные взрывные, наобо-рот, уменьшают ее. «Таким образом, непосредственный фонетический контекст в слоге оказывает влияние на временную организацию составляющих всей структуры» (Потапова, Линднер, 1991: 161).

Известно, что для точной реализации всех артикуляторных признаков речевому аппарату человека необходимо больше времени, поэтому ударные слоги несколько длиннее безударных. Однако для таджикского языка это не совсем верно. Так как устойчивые гласные в любом контексте характеризуются полным стилем произнесения, даже в безударной позиции их длительность может превышать длительность ударного неустой-чивого гласного. То есть безударные слоги несут на себе такую же высокую степень информативности, которая свойственна и ударным слогам. По этим причинам безударные слоги произносятся при таких же импульсах управления, влияющих на дыхание и голос. Тем самым во многих словах таджикского языка ритмическая диф-ференциация между ударными и безударными слогами, обусловленная интенсивностью произнесения и дли-тельностью, либо совсем отсутствует, либо очень незначительна. Звуки практически ничего не теряют из своих своеобразных черт из-за этого импульса управления соседних звуков и проявляются как специфические звуко-вые особенности. Тем самым правило «восходящей звучности» в таджикском языке практически не осуще-ствляется. Каждый слог имеет свою мелодическую структуру, которая относит слог в высшие структурные еди-ницы (Потапова, Линднер, 1991: 204).

Результаты проведенной работы могут быть обобщены следующим образом:• Слог – минимальный воспроизводимый отрезок речи, служащий ее ритмизации. Само выделение

слогов возможно благодаря количественному контрасту.

95

Page 46: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

• Слог, по крайней мере открытый, является наиболее просто и надежно выделяемой линейной еди-ницей из речевого потока таджикского языка.

• Природа слога остается предметом многочисленных артикуляторных исследований, не только в общем языкознании, но и в прикладных направлениях.

• В пределах слога реализуются дифференциальные признаки фонем.• Слог является сферой реализации просодических явлений, в частности ударения. Несмотря на то,

что в таджикском языке имеется динамическое ударение, оно сопровождается другими средствами выделения слога – главным образом изменением длительности гласного.

Используя все вышеперечисленные данные, можно объективно утверждать, что подготовленный специ-алист достаточно уверенно может идентифицировать речевые сегмента незнакомого ему языка. Таким образом, становится ясным, что при дальнейшей разработке и изучении данной проблемы возможность идентификации иноязычного диктора по голосу и речи экспертом, не владеющим данным языком, с привлечением специалиста по данному языку, становится все более реальной.

Литература

1. Антипова А.М. Ритмическая система английской речи. М., 1984.2. Голощапова Т.И. Исследование иноязычной речи экспертными методами // Лингвистическая

полифония. Сборник статей в честь юбилея профессора Р.К. Потаповой / Отв. ред. чл.-корр. РАН В.А. Виноградов. – М.: Языки славянских культур, 2007. – С.710-726.

3. Зиндер Л.Р. Общая фонетика. М., 1979.4. Златоустова Л.В., Потапова Р.К., Потапов В.В., Трунин-Донской В.Н. Общая и прикладная

фонетика. М., 1997. – 416с.5. Кодзасов С.В., Кривнова О.Ф. Общая фонетика. М., 2001. – 592с.6. Кульшарипова Р.Э. Звуковые ресурсы речевого воздействия. www.ksu.ru.7. Потапова Р.К. Слоговая фонетика германских языков. М., 1986.8. Потапова Р.К., Потапов В.В. Язык, речь, личность. М., 2006. – 496с.9. Потапова Р.К., Линднер Г. Особенности немецкого произношения. М., 1991. – С.10-222.10. Расторгуева В.С. Краткий очерк грамматики таджикского языка - Таджикско-русский словарь, М.,

1954.11. Современный русский язык: Учебник: Фонетика. Лексикология. Словообразование. Морфология.

Синтаксис.-2-е изд., испр. и доп. /Л.А. Новиков, Л.Г. Зубкова, В.В. Иванов и др.; под общ. ред. Л.А. Новикова. – СПб.,1999. – 864с.

12. Трубецкой Н.С. Основы фонологии. М., 1960.13. Хитина М.В. Делимитативные признаки устно-речевого дискурса. М., 2004. – 160с.14. Файзов М. Гласные звуки таджикского литературного языка (акустический и количественный

анализ). Душанбе, 1992.

ИСПОЛЬЗОВАНИЕ МЕДИА-СРЕДСТВ ДЛЯ ОБУЧЕНИЯ ЛИНГВИСТОВ НА ПРИМЕРЕ "ПОСОБИЯ ДЛЯ ЭКСПЕРТОВ-ФОНОСКОПИСТОВ"

К.филол.н., Т.С. Комарова (ЭКЦ ГУВД по Челябинской области)

Современное состояние информатизации общества и технического процесса показывает, что с каждым годом появляются новые средства записи. При этом сфера применения фоноскопической экспертизы все расширяется. Опыт проведения такого вида экспертиз говорит о том, что их назначение возможно практически по всем видам преступлений. В последнее время особенно актуальным становится решение вопросов по проти-водействию коррупционной и экстремистской деятельности, но в тоже время остаются на разрешении экспер-тов и исследования, связанные с вымогательством, угрозами, убийствами мошенничеством и др.

Фоноскопической экспертизе в решении таких вопросов отводится существенная роль, зачастую заклю-чение эксперта-фоноскописта является единственным и важнейшим доказательством по делу. Например, в производстве по делам, связанным с мошенничеством с банковскими карточками. В таких случаях, голос лица, звонившего в банк и записанный регистратором телефонных звонков, является криминалистически-значимой информацией о совершенном. В связи с увеличением количества заданий на проведение фоноскопической экс-пертизы, а также с увеличением объема работы (зачастую эксперт вынужден проводить исследование по нескольким сотням, а иногда и тысячам фонограмм), возникает острая необходимость в расширении штата и обучении вновь поступивших на службу экспертов.

В то же время анализ методической оснащенности фоноскопических лабораторий показывает, что наря-ду с обширным теоретическим материалом (Методические пособия: Блок коммуникативных характеристик речи говорящих на русском языке в системе идентификационных лингвистических признаков; Криминалисти-ческое исследование тембрально-мелодических речевокальных характеристик и др.) отмечается явный недоста-ток в практическом материале, который можно было бы использовать в нескольких ключах. Во-первых, для

96

Page 47: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

обучения вновь поступивших на службу экспертов-фоноскопистов, а во-вторых, использовался бы опытными экспертами как база образцов ненормативной речи.

В то же время повышение эффективности использования результатов судебной фоноскопической экс-пертизы как источника доказательств по уголовным делам, в которых фигурируют фонограммы как веществен-ные доказательства или документы, неразрывно связано с уровнем подготовленности экспертов. В настоящий момент сложилась такая практика, что на базе ЭКЦ ГУВД по Челябинской области проходят первичные стажи-ровки экспертов из соседних регионов. Анализ уровня подготовленности экспертов-лингвистов показал, что су-щественные затруднения при производстве фоноскопических экспертиз возникают во время анализа фонетиче-ского уровня языка. Затруднения при обучении возникают как на этапе выделения криминалистически-значи-мых признаков, так и на этапе их описания.

В связи с чем на материале наглядных пособий, схем и таблиц, используемых в процессе подготовки экспертов-лингвистов1, было решено создать учебно-методическое пособие, в котором бы содержался не толь-ко теоретический материал касательно особенностей, отклонений и нарушений фонетической стороны русской речи, но были бы представлены и примеры, иллюстрирующие те или иные положения. Для полного освоения одного лишь описательного теоретического материала недостаточно. Для этого необходим "живой образец", который наглядно, объективно показывает все стороны (внешнюю и внутреннюю) речевого нарушения, откло-нения, особенности. Именно поэтому было принято решение о создании коллекции видео- и аудиоматериалов, которая потом затем была систематизирована и вошла в качестве "живого образца" в будущее пособие.

Учебно-методическое пособие создавалось экспертами ЭКЦ ГУВД по Челябинской области и под руко-водством заместителя начальника 17 отдела ЭКЦ МВД Российской Федерации Назаровой Т.В. Первоначаль-ным этапом написания пособия стали разработка концепции пособия, отбор и описание теоретических положе-ний, положенных в его основу.

На втором этапе работы экспертами были отсняты видео- и записаны аудиоматериалы, которые после были систематизированы в соответствии с выработанной на первом этапе концепцией. Заключительным этапом работы над пособием стало оформление его в виде презентации и апробация в ходе стажировки экспертов-лин-гвистов на базе ЭКЦ МВД Российской Федерации.

В дополнение к данному пособию экспертами фоноскопической лаборатории ЭКЦ ГУВД по Челя-бинской области был создан учебно-информационный фильм, в котором одним из эпизодов является описание работы с пособием.

Таким образом, настоящее пособие имеет практическую значимость в нескольких аспектах, во-первых, для обучения лингвистов специфике анализа фонетического уровня русского языка, а во-вторых, служит базой образцов ненормативного произношения звука, группы звуков, просодической стороны речи. Создание данного пособия направ-лено на повышение качества подготовки экспертных кадров, что в свою очередь повысит качество исследования.

Материал учебно-методического пособия дается в соответствии с апробированной на базе ЭКЦ ГУВД по Челябинской области программой подготовки лингвистов. От изучения нормативного произношения в ас-пекте механизмов речеобразования к особенностям его нарушения. При этом в процессе создания пособия учи-тывался и тот факт, что все эксперты-лингвисты имеют соответствующее базовое образование (филологиче-ское, логопедическое, педагогическое, лингвистическое). Поэтому нет необходимости изучения фонетической системы русского языка с азов.

При создании пособия авторы стремились к совмещению теоретического материала с иллюстративным, что обеспечивало комплексный подход к изучению некоторых аспектов фонетики русского языка.

Содержание учебного пособия, его структура предусматривают создание максимальных возможностей для активизации самостоятельной исследовательской работы экспертов. Таким образом, обучение возможно как под руководством более опытных экспертов-наставников, так и в режиме самостоятельной работы.

При разработке пособия авторы опирались на существующую научно-методическую литературу2.Переходим к рассмотрению собственно структуры и содержания пособия. Учебное пособие реализовано на

базе программы из стандартного пакета офисных программ MS Office – MS PowerPoint. Также для полноценной ра-боты с учебным пособием необходимо наличие программ для воспроизведения звуковых и видеофайлов.

Интерфейс пособия интуитивно понятен, гиперссылки для перехода к иллюстративному материалу оформлены несколькими способами:

1. Выделением цветом и подчеркиванием (напр., слайд …)2. Использованием специальных интерактивных "кнопок":

1 Далее: лингвистов2 Логопедия: Учебное пособие для студентов пед.ин-тов по спец. "Дефектология" / Л.С.Волкова, Р.И.Лалаева, Е.М.Мастюкова и др.; Под ред. Л.С.Волковой. – М.: Просвещение, 1989. – 528с.; Фомичева М.Ф. Воспитание у детей правильного произноше-ния. – М.: Просвещение, 1989. – 239с.; Ф.К.Гужва. Современный русский литературный язык. – Киев: Вища школа, 1973. – 241с.; Введение в языковедение: Учебник для вузов / А.А.Реформатский; Под ред. В.А.Виноградова. – 5-е изд., испр. – М.: Ас-пект Пресс, 2005. – 536с.; Современный русский язык: Учеб. Для филол.спец.высших учебных заведений / В.А.Белошапкова, Е.А.Брызгунова, Е.А.Земская и др.; Под ред. В.А.Белошапковой. – 3-е изд., испр. и доп. – М.: Азбуковник, 1999. – 928с.; Прав-дина О.В. Логопедия. Учеб.пособие для студентов дефектолог. фак-тов пед. ин-тов. Изд. 2-е, доп. и перераб. – М.: Просвеще-ние, 1973. – 272с.; Филичева Т.Б. и др. Основы логопедии: Учеб.пособие для студентов пед.ин-тов по спец. "Педагогика и пси-хология (дошк.)" /Т.Б.Филичева, Н.А.Чевелева, Г.В.Чиркина. – М.: Просвещение, 1989. – 223с.

97

Page 48: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

- для перехода к видео- / аудиофрагменту, содержащему интересующий звук/группу звуков в потоке речи;

- для перехода к текстовой информациии, в которой содержится подробное описание механизма нарушения;

- для перехода к видео- / аудиофрагменту, содержащему артикуляционный уклад звука/ группы звуков.

Нужно заметить, что иллюстративный материал в данном пособии доступен и в другом режиме работы. Допустим, что перед нами эксперт с опытом работы, которому необходимо уточнить особенности произнесе-ния того или иного звука. Для этого ему достаточно обратиться к каталогу, в котором содержится пособие. Ви-део- и аудиоматериалы там поименованы в соответствии с названием нарушения. Например, в папке "носовые р и р'" содержатся видеофайлы с записью указанных нарушений звукопроизношения. Прослушивая и просматри-вая медиафайлы и воспроизводя артикуляцию, эксперт может определить тип нарушения и описать его в прото-коле лингвистического анализа в заключении эксперта.

Для начинающего лингвиста при его обучении предусмотрена следующая схема работы с указанным посо-бием. Для начала ему предлагается ознакомиться и изучить нормативную артикуляцию системы гласных и соглас-ных звуков русского языка. Данная информация представлена в виде таблиц, на которые можно перейти либо по ги-перссылке со страниц пособия, либо открыв соответствующую папку.

Информация о нормативной артикуляции гласных звуков русского языка структурирована по следующим параметрам:

• приводится схематичный профиль с изображением положения артикуляторных органов в момент произнесения того или иного звука;

• приводится транскрипция звука;• описывается участие в артикуляции губ;• указывается на положение языка при артикуляции, ряд и подъем;• описывается положение небной занавески;• описывается работа голосовых складок в момент артикуляции. (См. Таблицу 1).

Таблица 1.

Профиль ЗвукУчастие в арти-

куляции губЯзык

положение языка подъем ряд

Небная за-навеска

Голосовые складки

[а] нелабиализо-ванный: губы нейтральные

Язык свободно лежит на дне ротовой полости, кон-чик языка касается нижней челюсти, боковые края ка-

саются коренных зубов, задняя часть пассивна

нижний средний Закрывает проход в носовую полость

Сомкнуты, вибрируют

Информация о нормативной артикуляции согласных звуков русского языка структурирована по следу-ющим параметрам:

• приводится схематичный профиль с изображением положения артикуляторных органов в момент произнесения того или иного звука;

• приводится транскрипция звука;• описывается участие в артикуляции губ;• указывается на положение языка при артикуляции, ряд и подъем;• описывается работа мягкого неба;• описывается работа голосовых складок в момент артикуляции;• указывается способ и место образования звука. (См. таблицу 2).

Таблица 2.

Профиль Звук Губы Язык Мягкое нёбоГолосовые

складкиСпособ об-разования

Место образо-вания

[б]

сомкнуты нейтральный нёбная занавеска закрывает проход в носовую полость

(звук ротовой)

вибрируют (звонкий)

смычный, взрывной

губно-губной

98

Page 49: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

Таблица 3.

Конфигурация языка

Звук Кончик/ передняя часть спинки Средняя часть Задняя/ корневая часть Боковые края[а] касается нижней челюсти нейтральна нейтральна касаются коренных зубов

При работе с таблицами нормативной артикуляции гласных и согласных звуков русского языка экспер-ту предлагается моделировать произнесение того или иного звука, запоминая положение артикуляторных орга-нов. После усвоения нормативной артикуляции следует перейти к изучению нарушений звукопроизношения.

Прежде всего, необходимо усвоить признаки звуков, в соответствии с которыми описываются наруше-ния звукопроизношения. В данном пособии они разделены на две группы. В первую – артикуляционные (при-знаки произнесения) – входят способ и место образования звука, его твердость или мягкость (параметр палата-лизации), звонкость/глухость (параметр работы голосовых связок), конфигурация языка, участие ротовой/носо-вой полостей. Вторая группа, названная акустические (признаки звучания), была выделена в связи со специфи-кой экспертной работы. Проводя лингвистический анализ голоса и речи диктора, эксперт в подавляющем большинстве случаев не может свериться с положением его артикуляторных органов в момент фонации, поэто-му для описания нарушений звукопроизношения рекомендуется описывать характеристики слухового восприя-тия звуков. Например, недостаточно свистящие [c, з], раскатистый [р], свистящий призвук у [ш, ж] и др.

Усвоив параметры, по которым может происходить нарушения звукопроизношения рекомендуется перейти к изучению видов нарушений. Выделяются два типа нарушений звукопроизношения – фонетические и фонематические. К первому виду относятся отсутствие звука в речи и ненормативное произнесение звуков вследствие неправильно сформировавшихся артикуляторных позиций. Ко второму виду относятся замены (по-следовательные замены одного звука на другой) и смешения (непоследовательные взаимозамены звуков, возни-кающие вследствие недостаточно развитого фонематического слуха).

При изучении видов нарушения звукопроизношения эксперту важно четко усвоить разницу между ними, так как в дальнейшем это поможет правильно определить и описать то или иное нарушение у диктора и верно его квалифицировать.

Следующим этапом работы с учебно-методическим пособием является изучение отдельных видов нару-шений звукопроизношения, распределенных по группам звуков (например, искажения [к, к’] (каппацизмы), [г, г’] (гаммацизмы), [х, х’] (хиттизмы) или замены [р], [р’] (параротацизмы) и др.). Классификация видов наруше-ний звукопроизношения, предлагаемая в пособии, приводилась в соответствии с классической логопедической систематизацией, поэтому в пособии приводятся как лингвистические, так и соответствующие им логопедиче-ские термины. Такое сопоставление терминологий было использовано намеренно во избежание неверного при-менения логопедических понятий лингвистами.

Работа над изучением нарушений отдельных звуков может быть построена следующим образом. Проде-монстрируем его на примере искажений [с, с’, з, з’, ц, ш, ж, щ, ч] (сигматизмов). Эксперт изучает приведенный в пособии список искажений1, для указанной группы он следующий:

• межзубный;• призубный;• боковой;• носовой;• с дополнительной губно-зубной артикуляцией;• верхний (для группы свистящих звуков);• нижний (для группы шипящих звуков);• губно-губной;• горловой (гортанный); • свистящий;• шипящий; • щечный.При этом рекомендуется пользоваться интерактивными кнопками. Например, изучая межзубный вид сигма-

тизма, эксперт может просмотреть видеофрагменты, ознакомиться с текстовой информацией о данном нарушении (См. Таблицу 4) и самостоятельно смоделировать нарушенный звук, опираясь на полученную информацию.

Таблица 4.Артикуляция Звучание

Кончик языка находится между верхними и нижними резцами

Слышится тупой недостаточно свистящий/шипя-щий звук

Подобным образом предлагается проработать все виды нарушений, особое внимание уделяя отработке навыков артикуляции тех или иных звуков, а также изучению особенностей слухового восприятия искажаемого звука.

1 Нужно заметить, что по причине высокой междикторской вариативности список нарушений может быть гораздо шире, чем приведенный в пособии. Здесь указаны лишь основные виды.

99

Page 50: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

Изучение другого вида нарушений звукопроизношения - замен одних звуков на другие - можно также продемонстрировать на примере замен [с, с’, з, з’, ц, ш, ж, щ, ч] (парасигматизмов). Для изучения этого типа на-рушений необходимо четко представлять себе признаки звуков, в соответствии с которыми описываются нару-шения звукопроизношения, так как замены звуков могут происходить как по одному из них, так и в сочетании. Данные о видах замен звуков представлены в виде таблицы с транскрипционными значками, отражающими за-мену по тому или иному признаку (См. Таблицу 5).

Таблица 5 [c], [с’] [з], [з’] [ц] [ш] [ж] [щ] [ч]

По месту [х], [х’], [ш], [щ], [ф], [ф’]

[γ], [ж], [в], [в’]

[ч], [х], [к], [п,] [ф]

[х], [с], [ф] [γ], [з], [в] [х’], [с’], [ф’]

[х’], [к’], [д’], [в’], [ц]

По способу [т], [т’] [д], [д’] [т], [с], [тс] [т] [д] [т’], [шч], [цт]

[т’], [щ], [с’]

По твердо-сти/мягкости

[с] на [с’][с’] на [с]

[з] на [з’] [з’] на [з]

[т’с’] [щ] [ж’] [ш] недостаточно мягкий [ч], [ш]

По резонатор-ной полости

носовые звуки [н], [н’]

По звонко-сти/глухости

[з], [з’] [с], [с’]

[дз] [ж] [ш] [ж] [д’ж’]

Подобным образом предлагается изучить искажения и замены всех групп звуков, при этом учитывая, что у одного человека могут сочетаться как нормативные, так и ненормативные варианты произнесения одного и того же звука. Например, одновременно могут проявляться боковое и нормативное произнесение [с, з], что может быть обусловлено различиями в коммуникативной ситуации и/или заострением внимания на своей арти-куляции, являться следствием логопедической коррекции ранее нарушенного звука у диктора.

Нужно учитывать, что в речи конкретного диктора нарушения звукопроизношения могут затрагивать как одну группу звуков, так и несколько. Например: свистящие и шипящие; свистящие и шипящие и сонорные; сонорный [л] + сонорный [р]; и др. При более сложных нарушениях звукопроизношения могут сочетаться несколько видов искажений при произнесении одного звука. Например: боковой и одноударный плюс дополни-тельная губная артикуляция звука [р]; межзубный и боковой плюс дополнительная губная артикуляция звука [л]; нижний и боковой [ш].

При сложных нарушениях в речи одного человека могут проявляться все виды нарушений звукопроиз-ношения: отсутствие, искажение, замена, смешение. Как следствие, разборчивость такой речи снижена. Задача эксперта в таком случае, предельно четко определить и описать каждое из нарушений, а также учесть при ана-лизе позицию нарушаемого звука (в сочетании с определенными согласными, гласными, конец/начало слова, позиция по отношению к определенному звуку), выявить в результате некоторые закономерности произнесения нарушаемого звука и отразить их в лингвистическом протоколе экспертного заключения.

Ненормативное произнесение звуков может быть вызвано нарушением иннервации мышц речевого аппарата, которое также может быть причиной нарушения тембра, силы голоса, мелодики, речевого дыхания, расстановки и длительности пауз.

Причиной нарушения звукопроизношения, тембра, силы голоса, мелодики, речевого дыхания, расста-новки и длительности пауз также могут быть нарушения строения речевого аппарата. Например: расщелина твёрдого и/или мягкого нёба (ринолалия); выдвижение верхней челюсти вперед (прогнатия); выдвижение ниж-ней челюсти вперед (прогения); различные патологии органов дыхания и др.

Патология речи может проявляться в нарушении ее темпа: во-первых, патологически ускоренный темп речи (в секунду произносится 20-30 звуков при норме 10-12) - тахилалия; во-вторых, патологически замедлен-ный темп речи – брадилалия. А также в нарушении темпо-ритмической организации - заикании. В пособии при-водится классическая логопедическая классификация видов заикания:

1. тоническое – короткое толчкообразное или длительное спазматическое сокращение мышц. Прояв-ляется в безмолвии: "т-ополь, -осень" или вокализованной паузе: "т-о-о-о-поль";

2. клоническое – ритмическое повторение одних и тех же судорожных движений мышц. Проявляется в ритмическом повторе звуков, слогов: "то-то-тополь, в-в-в-в школу";

3.тоно-клоническое – сочетание клонических и тонических судорог с преобладанием тонических;4. клоно-тоническое – сочетание клонических и тонических судорог с преобладанием клонических.Человеческая речь является сложным феноменом, допускающим широкую междикторскую вариатив-

ность. В связи с этим возникает сложность с описанием возможных видов нарушений звукопроизношения, не вошедших в пособие. Но, четко усвоив нормативную артикуляцию звуков русской речи и научившись модели-ровать искажение, представляя при этом механизм его образования, эксперт сможет описать широкий спектр особенностей звукопроизношения.

Нужно сказать, что неоценимым плюсом использования данного пособия экспертами-лингвистами яв-ляется тот факт, что при обучении задействуется не один вид анализатора (как при чтении), а их совокупность. Так, при просмотре видео-, и прослушивании аудиофрагментов задействуются слуховые и зрительные анализа-

100

Page 51: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

торы и виды памяти, при моделировании отдельных видов нарушений – кинетические и кинестетические. Подобное сочетание приводит в итоге к тому, что у лингвиста формируется целостное восприятие и понимание изучаемых фонетических и просодических особенностей русской речи.

Учебно-методическое "Пособие для экспертов-фоноскопистов" прошло презентацию на ежегодном се-минаре-совещании экспертов-фоноскопистов по теме "Новые направления деятельности фоноскопических ла-бораторий: производство лингвистических экспертиз и ведение регионального фоноучета", проходившем в 2008 году на базе ЭКЦ ГУВД по Иркутской области и было распространено среди его участников.

В феврале 2009 года пособие было рассмотрено на заседании научно-практической секции в ЭКЦ МВД Российской Федерации, где было признано передовым опытом и получило рекомендации – внедрить и распро-странить.

По результатам апробации были получены отзывы из нескольких регионов. Например, из Алтайского края и Калужской области: "В отделе фоноскопических экспертиз ЭКЦ ГУВД по Алтайскому краю недавно прошли стажировку и вступили в должность два эксперта филолога. В условиях нарастающего объема и слож-ности поступающих на экспертизу материалов особую актуальность получают учебные материалы, адаптирую-щие современные научно-теоретические достижения под решение конкретных экспертных задач.

Специфика подготовки специалиста филолога классическим ВУЗом не предусматривает обучение его уверенным навыкам анализа звучащей речи, выявления особенностей произнесения звуков и т.п. Поэтому сего-дня отмечается острая необходимость в материалах, обучающих в доступной форме знаниям из области логопе-дии.

Применение в обучении молодых сотрудников "Логопедического пособия для экспертов-фоноскопи-стов. Москва-Челябинск, 2008" способствовало более эффективному и оперативному проведению их качествен-ной профессиональной подготовки в части освоения перцептивного метода лингвистического анализа речевых признаков на фонетическом уровне. Следует отметить, что пособие содержит существенный массив новой, по-лезной информации и для опытных сотрудников.

Экспертами Алтайского края отмечаются такие положительные качества пособия, как системность освещения проблематики, доступная, удобная форма презентации собранного материала. В целях адаптации ло-гопедической информации (см. например, подробную классификацию сигматизмов) и терминологии авторами пособия звук описывается с учетом различения признаков произнесения (артикуляции) и признаков звучания; рассмотрены сложные случаи сочетания искажений у одного диктора. Главную же ценность в работе имеет прилагаемый видео и аудио иллюстративный материал.

В то же время предлагается расширить базу речевых признаков примерами произнесения звуков в раз-личных условиях, с учётом вносимых искажений распространенных трактов записи, а также обогатить структу-ру пособия такими позициями, как "Тембр", "Сбои речепорождения", "Фонетические стили произношения" и др. Модель, структура настоящего пособия позволяет (и изначально предусматривает) такую возможность, что, бесспорно, относится к его достоинствам". "В 2008 году экспертами фоноскопической лаборатории ЭКЦ УВД по Челябинской области было написано логопедическое пособие, в котором авторы отразили наиболее часто встречающиеся нарушения произнесения согласных звуков русского языка.

Начинается пособие с описания нормативного положения артикуляторных органов при произнесении определенного звука. Далее авторы непосредственно переходят к описанию встречающихся в речи человека нарушений произнесения звуков. К каждому конкретному описанию нарушения звука приложены звуко- и видеофайлы, с помощью которых можно услышать, как произноситься звук и увидеть в каком положении при произнесении определенного звука находятся артикуляторные (произносительные) органы.

Единственный недостаток в данной работе, некоторые звуковые файлы плохо различимы.Используя в своей работе данное пособие, эксперты-фоноскописты смогут более точно

охарактеризовать нарушение определенного звука".Предлагаемое пособие, несмотря на четкую структуру, является открытой системой и в настоящее вре-

мя экспертами ЭКЦ ГУВД по Челябинской области проводится постоянная работа над расширением и попол-нением пособия.

О СОЗДАНИИ ЧАСТОТНОГО АТЛАСА ИНДИВИДУАЛЬНЫХ АРТИКУЛЯЦИОННЫХ ОСОБЕННОСТЕЙ ПРОИЗНЕСЕНИЯ ЗВУКОВ РЕЧИ

Д.т.н., профессор В.Р. Женило, О.М. Винькова, В.В. Наумова, А.В.Полякова (Московский государственный лингвинистический университет)

Когда эксперт-фоноскопист проводит криминалистическую экспертизу идентификации личности по речи, то он использует разные виды исследования следов речевого сигнала. В настоящее время они условно разделяют-ся на интегральные методы анализа и на микроанализ. Под интегральным анализом обычно понимается исследо-вание выборочных статистических характеристик отдельных измеримых параметров речевого сигнала, например, средней величины, стандартного отклонения или коэффициента вариации частоты основного тона голоса, частоты первой или второй форманты, длительности фонационных участков речевого сигнала и т.п.

Под микроанализом обычно понимается исследование спектральных переходов широкополосных соно-грамм, на которых хорошо отражается динамика следов формант (частот свободно затухающих колебаний воз-

101

Page 52: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

душного столба полости речевого тракта), отражающих динамику артикуляции говорящего. На целесообраз-ность и информативность следов артикуляции указывали многие исследователи ещё в 70-е годы прошлого века [2, 5]. А в экспертно-криминалистической практике идентификации личности по речевому сигналу этот, по-современному говоря, микроанализ широко применялся в конце 80-х годов того же века. Практика всегда пока-зывала и показывает высокую информативность спектральных переходов при условии, что найденные особен-ности спектральных переходов, например, на триадах звуков речи - гласный-согласный-гласный (ГСГ) - устой-чивы в речи обследуемого диктора.

Каждый эксперт-криминалист по-своему оценивает информативность и, как следствие, информацион-ную значимость того или иного устойчиво повторяющегося спектрального перехода у обследуемого диктора. Эта оценки, зачастую, носит субъективный характер и существенно зависит от практического опыта эксперта. Но, в любом случае, каким бы большим ни был практический опыт эксперта-криминалиста, перед ним всегда возникает один и тот же вопрос - какие и сколько индивидуальных признаков надо найти у испытуемого, чтобы можно было в итоге утверждать, что "обнаруженная совокупность признаков является достаточной для приня-тия решения о тождестве следов речи на спорной фонограмме и на образцах речи подозреваемого".

Теоретически, если требуется идентифицировать личность по речевому сигналу русской речи, то началь-ная неопределённость такой ситуации оценивается с помощью энтропии и составляет не более 29 шеннонов1. Каждый устойчивый идентификационный признак снимает некоторую неопределённости или, говоря иначе, при-носит эксперту некоторое количество информации. И из теории следует, что для идентификации личности по рус-ской речи потребуется, например, не менее 29-ти бинарных независимых признаков, значения которых равноверо-ятны. Но, как правило, найти у произвольного диктора такое количество бинарных независимых признаков, име-ющих, к тому же, и равновероятные возможные значения практически невозможно. Поэтому чаще используются сложные признаки, оценить информативность которых, зачатую, оказывается очень сложно. Рассмотрим этот во-прос на примере информативности спектральных переходов на триадах звуков речи ГСГ.

Предположим, что эксперт-криминалист обнаружил у исследуемого диктора устойчиво повторяющую-ся особенность спектральных переходов какой-то триады звуков ГСГ. Спрашивается - какое количество инфор-мации он получил? Или иначе - на сколько он снизил неопределённость в своём исследовании?

Эксперты-криминалисты с большим опытом2 обычно находят ответ на этот вопрос интуитивно. Но и для них далеко не всегда легко ответить на вопрос - какова суммарная информативность обнаруженных им ин-дивидуальных признаков говорящего, чтобы можно было остановиться и сказать: "Обнаруженной совокупно-сти индивидуальных признаков достаточно для принятия решения о тождестве говорящих на разных фонограм-мах".

Пожалуй, ни один эксперт-криминалист не отказался бы иметь атлас всех возможных триад звуков ГСГ, в котором бы не только показывались соответствующие примеры звучащих сонограмм, но приводились бы и статистические данные о частоте встречаемости идентификационных признаков в этих триадах. К сожале-нию, такого атласа у экспертов фоноскопистов пока ещё нет. Хотя, примеры в других видах экспертиз имеются, например, в почерковедении3.

Чтобы представить себе - как может выглядеть технология составления и использования частотного атласа звуковых триад живой речи, авторы данного доклада предприняли попытку составления для примера лишь очень малого число некоторых типов звуковых триад ГСГ. При этом оказалось, что можно предложить несколько разных способов классификации и кодировки вариантов проявления следов звуковых триад на широкополосных сонограм-мах. Это говорит о том, что, возможно, каждая конкретная звуковая триада ГСГ должна описываться своим набором отличительных признаков. Эта особенность может быть хорошо описана с помощью современного языка объектно-ориентированного программирования, в котором понятие «класс объектов» является ключевым.

В пробном эксперименте по составлению частотного атласа триад звуков принял участие 51 человек мужского и женского пола в возрасте от 16 до 60 лет, для которых русский язык является родным. Такая под-борка испытуемых не случайна, так как одной из целей исследования было, по возможности, максимально охватить возможные вариации произнесения триад.

Непосредственно исследовательская часть данной работы заключалась в выявлении артикуляторных особенностей дикторов при помощи специальной звуковоспроизводящей и звукообрабатывающей аппаратуры на фразах с сопоставимым контекстом, которые более информативны для идентификации, чем признаки, вы-численные на отрезках речи с произвольным контекстом.

1 Для получения этой оценки предполагается, что говорящих на русском языке примерно столько, каково было население СССР в момент его распада - 250 миллионов человек. А если это число удвоить, считая, что такое же число русскоговорящих может находиться за рубежом, то получится, что русскоговорящих на земном шаре не более 500 миллионов человек. Предпо-лагая, что с равной вероятностью на спорной фонограмме могут оказаться следы речи любого человека из этого числа (не об-ращая внимание на их возраст и другие особенности), получается, что такая оценка начальной неопределённости (энтропии)

равна следующей величине: шеннонов.2 В рассматриваемом нами случае значение критерия "большой опыт" может составлять около 10 и более лет.3 Следует отметить, что почерковедческий атлас способов написания только лишь первых заглавных букв предложения (с ука-занием частоты встречаемости конкретного способа написания буквы) имеет очень большой объём. И составить его суще-ственно проще, по сравнению с фоноскопическим атласом, поскольку для этого можно обойтись только лишь бумажной тех-нологией, чего нельзя сделать в фоноскопии.102

Page 53: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

Каждая триада исследовалась с целью поиска некоторых признаков, которые позволили бы произвести классификацию типов произнесения данного сочетания звуков. Помимо этого была рассчитана частота встреча-емости каждого признака.

При помощи двух программ, визуализирующих речевой сигнал - SW (Signal Workshop) и CSL (Comput-er Speech Laboratory) - был произведён спектральный анализ трёх разных типов триад. Каждая из этих про-грамм имеет свои достоинства и недостатки, поэтому при проведении анализа они использовались в комплексе, таким образом, предоставляя исследователю весь набор необходимых функций.

При анализе спектральных характеристик речи испытуемых в данном исследовании использовался комплекс инструментального и лингвистического исследований, а именно, функции вышеназванных программ применялись в совокупности с акустико-фонетическим неавтоматизированным анализом с большей опорой на последнем. Главным инструментом исследователя выступало его зрение и способности синтеза и классификации.

За основу объекта анализа была взята динамика структуры формант звуковой триады. Понятия форман-ты (максимума) и антиформанты (минимума концентрации энергии в спектре звука) тесно связаны. Форма ан-тиформанты определяется двумя соседними формантами (либо нижней границей частотного описания звука - нулевой частотой), поэтому, можно сказать, что эти два признака коррелируют.

Следующий этап исследования представлял собой ручное исследование спектрограмм с отображенной формантной динамикой и выявление параметров, пригодных для их классификации. Для проведения этого этапа исследования необходимо было, прежде всего, рассмотреть спектрально-временные особенности анализируемых звуков. При этом исследователи руководствовались книгой “Динамические спектры речевых сигналов” [4]. Эта книга представляет собой атлас спектрограмм звуков и наиболее частотных сочетаний русской речи.

Далее излагаются принципы построения отдельных видов триад ГСГ звуков речи.Триада «ударный гласный заднего ряда низкого подъема – билабиальный смычно-проходной носовой

сонорный согласный – безударный гласный» [΄ама].Были исследованы спектрограмм 78-ми записей речи 22 дикторов мужского и 29 дикторов женского

пола разного возраста и социального положения. Все они неоднократно произносили тестовую фразу «Мама намыла мою малину».

В первую очередь была измерена длительность каждой триады. Далее трезвучие было разбито на участки, соответствующие отдельным звукам. Была измерена длительность каждого звука в триаде, после чего была вычислена и проанализирована их относительная длительность. Далее было проанализировано отношение длительности ударного слога к длительности всего сегмента. В среднем длительность ударного слога у мужчин составляет 47%, а ее значения варьируются от 30% до 60%, у женщин же средняя длительность ударного слога составила 48%, при диапазоне от 34% до 55%. Было вычислено количество дикторов, которым свойственно бо-лее длительное произношение ударного звука, и тех, кому свойственно менее отчетливое и выраженное по дли-тельности произношение ударного гласного. На основе этих данных можно сделать вывод: для части дикторов преобладает такой тип произношения, когда ударный звук [а] преобладает по длительности.

Количество таких дикторов составило 59% от общего числа среди мужчин, и 52% среди женщин. Была выде-лена другая группа дикторов, для которых длительность всех трех звуков в триаде оказалось примерно одинаковой.

Данная группа включает 41% среди мужчин и 48% среди женщин. На основе результатов предыдущих исследований [4] можно сделать вывод о том, что тип произношения с более выраженным ударным звуком в большей степени соответствует литературному стилю произношения, для которого характерно отчетливое произношение всех звуков.

Следующим признаком, по которому возможно классифицировать спектрограммы трезвучия, является дина-мика второй форманты на участке [΄а]. В результате анализа спектрограмм были выделены три типа произношений:

1. F2 на данном участке стабильна, и перепад частоты форманты составляет менее 70-100 Гц;2. F2 обладает изменчивой динамикой, перепад частоты более 100 Гц;3. Четкий след F2 не прослеживается.Далее был проведен подсчет частоты встречаемости каждого типа. Оказалось, что среди всех спектро-

грамм к первому типу (стабильная F2) можно отнести 41% спектрограмм дикторов мужского пола и 42% спек-трограмм дикторов женского пола, что в сумме составляет 45% от числа всех исследуемых спектрограмм. Вто-рой тип произношения (когда для F2 характерно снижение частоты в пределах около 70Гц) встречается у 50% дикторов-мужчин и у 48% дикторов-женщин. Наконец, третий тип (след F2 нечеткий) встречается менее часто: к этому типу принадлежат 9% спектрограмм дикторов-мужчин и 10% женщин.

Понижение частоты второй форманты наблюдается на всех спектрограммах, поскольку оно обусловле-но коартикуляционным влиянием последующего носового звука [м]. Однако такая формантная динамика выра-жена у разных дикторов в разной степени, что и легло в основу выделения данного критерия классификации.

В данной работе исследовалась выраженность спектральных переходов на участке [΄ам]. Анализ спек-трограмм показал, что в некоторых случаях спектральный переход выражен достаточно четко. В других же слу-чаях спектральный переход нечеткий, и между спектрами сегментов [΄а] и [м] обнаруживается мало различий. По этому признаку спектрограммы также были разделены на две группы. Доля говорящих, для которых харак-терен четкий спектральный переход, составила 55%. Соответственно, нечеткий спектральный переход харак-терен для 45% говорящих.

103

Page 54: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

На заключительном этапе исследования, после того, как были найдены критерии классификации, были разработаны и исследованы комбинации признаков. Целью этого этапа была разработка идентификационного кода, соответствующего определенному типу произношения исследуемой звуковой триады.

Суммируя полученные результаты, можно составить следующую таблицу 1, включающую критерии классификации и их возможные значения. В таблице 1 помимо этого приводятся условные обозначения, с по-мощью которых и кодируется тип произнесения.

Таблица 1. Критерии классификации триад звуков и их возможные значения.Критерий классификации Возможные значения

Длительность ударного сегмента (L = length)

1 – ударный сегмент преобладает по длительности во всем трезвучии

0 – длительности каждого сегмента примерно равны

Динамика F2 (D = dynamics)

2 - F2 «падает»

1 - F2 стабильна

0 - F2 не прослеживается

Выраженность спектрального перехода (St = spectral transition)

1 – спектральный переход выражен

0 – спектральный переход не выраженДанные о частоте встречаемости разных возможных комбинаций признаков (классов исследуемой триа-

ды) приведены в таблице 2.

Таблица 2. Коды и частоты встречаемости разных классов триады звуков [΄ама].

№№Код и частота встречаемости

Примеры сонограмм

1L(1)D(2)St(1)

10%

2L(1)D(2)St(0)

12%

3L(0)D(2)St(1)

16%

4L(0)D(2)St(0)

8%

5L(1)D(1)St(1)

16%

104

Page 55: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

6L(1)D(1)St(0)

12%

7L(0)D(1)St(1)

6%

8L(0)D(1)St(0)

12%

9L(1)D(0)St(1)

4%

10L(1)D(0)St(0)

2%

11L(0)D(0)St(1)

4%

12L(0)D(0)St(0)

0%Среди исследованных спектрограмм не встретился

Триада «закрытый гласный переднего ряда – звонкий фрикативный согласный – закрытый гласный переднего ряда» («ижи»).

Для выявления индивидуальных признаков артикуляции говорящими триады «закрытый гласный переднего ряда – звонкий фрикативный согласный – закрытый гласный переднего ряда» («ижи») были проведё-ны следующие эксперименты.

На запись испытуемым была предложена фраза «Эти жирные сазаны ушли под палубу». В рамках данного исследования внимание было сконцентрировано на анализе поведения первой и вто-

рой формант. В результате анализа динамических спектрограмм произнесения триады «ижи» разными диктора-ми в ходе данного эксперимента были выявлены следующие идентификационно значимые признаки:

1. Динамика частот формант.2. Динамика интенсивности формант.3. Форма антиформанты.1. Динамика частот формант.Анализируя поведение первой и второй формант на речевом отрезке «ижи», обгаружено, что на соно-

граммах всех испытуемых первая форманта имеет форму прямой, параллельной оси времени.

105

Page 56: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

Исследуя динамику второй форманты, установлено, что она обычно принимает следующие формы:• ниспадающая кривая;• ниспадающая прямая;• парабола.Также был сформирован отдельный класс дикторов (его назвали «Прочее»), не поддающихся группо-

вой классификации, обладающих индивидуальной совокупностью идентификационных признаков.2) Динамика интенсивности формант.Под динамикой интенсивности формант подразумеваются различные степени усиления резонансных

частот речевого тракта на данном речевом отрезке (и, как следствие, различия в их визуализации на спектро-грамме). Так как в цели исследования входил анализ «поведения» первой и второй формант, то на материале триады «ижи» был сделан вывод, что наименее устойчивой динамикой интенсивности обладает отрезок речево-го сигнала, соответствующий реализации фонемы «ж». Это объясняется тем, что, в то время как гласные с до-статочной степенью надёжности могут характеризоваться при помощи первых двух формант, формантная ха-рактеристика согласных очень сложна и трудноопределима.

Классификация полученных спектрограмм была проведена по уровню интенсивности формант на дан-ном речевом отрезке (фактически основанием служит наличие/отсутствие на спектрограмме речевого отрезка, соответствующего аллофону фонемы «ж», следов первой и второй формант).

Обнаружено, что практически возможны следующие комбинации:• непрерывность обеих формант на всей протяженности исследуемого речевого отрезка;• непрерывность первой форманты при отсутствии второй на участке спектра звука, соответствую-

щего фонеме «ж»;• непрерывность второй форманты при отсутствии первой на участке спектра звука, соответствую-

щего фонеме «ж»;• обе форманты прерываются на участке спектра звука, соответствующего фонеме «ж».Был также сформирован отдельный класс дикторов («Прочее»), спектрограммы которых не поддаются

классификации по предложенным признакам.3) Форма антиформанты.Этот признак отличается от двух предыдущих тем, что два предыдущих признака коррелируют с дан-

ным, а если быть точнее, являются для него определяющими. Так, принимая во внимание обе вышеописанные классификации, можно провести следующую классификацию антиформант по их форме:

• прямоугольная;• в виде прямоугольной трапеции;• Т-образная;• в виде перевёрнутой буквы Т;• крестообразная;• прочее.Прямоугольный вид антиформанты объясняется соответствующей динамикой первой и второй формант

(обе практически параллельны оси времени) и одинаковым уровнем интенсивности сигнала на всём речевом от-резке (что объясняет непрерывность обеих формант на отрезке произнесения триады «ижи»). Тем же можно объяснить и присутствие на сонограммах антиформанты в виде прямоугольной трапеции, за тем лишь исключе-нием, что в этом случае вторая форманта имеет ниспадающую динамику.

Следующие три вида антиформанты (Т-образная, в виде перевёрнутой буквы Т и крестообразная) опре-деляются исключительно динамикой интенсивности формант, а именно, комбинацией прерывности/непрерыно-сти первой и второй формант.

К классу «Прочее» были отнесены антиформанты, форму которых однозначно определить невозможно по различным причинам.

Статистическая оценка частоты встречаемости полученных характеристик.На основании осуществлённой классификации дикторов по полученным признакам была получена

оценка частоты встречаемости того или иного признака на всём множестве испытуемых. Установлено, что наиболее часто встречается динамика второй форманты в виде ниспадающей прямой,

наименее часто – параболическая форма динамики второй форманты. Чаще всего встречается случай, когда на спектре звука, соответствующего фонеме «ж» визуализируется вторая форманта при отсутствии первой, что в свою очередь, определяет Т-образную форму антиформанты как наиболее часто встречающуюся. Наличие же на соответствующем участке спектра первой форманты при отсутствии второй у незначительного количества испытуемых объясняет наименьшую частоту встречаемости антиформанты, условно обозначенной как имею-щей форму перевёрнутой буквы Т.

Также важно отметить, что значительное количество испытуемых (приблизительно пятая часть) была отнесена к классу «Прочее», так как невозможно было однозначно произвести классификацию сонограмм их речи по предложенным признакам.

Кодировка полученных идентификационных признаков.

106

Page 57: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

Создание общей системы кодировки – нелёгкий процесс, так как перед исследователем встаёт сразу несколько задач, такие как, например, выбор алфавита для буквенного обозначения, если оно необходимо, проблема комбинации буквенных и численных обозначений, проблема наличия/отсутствия смысла кода (если рассматривать его с точки зрения трёхсторонней концепции знака: знаконоситель – смысл – референт), а также, пожалуй, самые главные из проблем – проблема удобства восприятия и использования и проблема возможно-сти дальнейшего дополнения кодовой системы. Важно также заранее представлять, каким будет конечный вид криминалистического частотного атласа, так как это позволит избежать тех ошибок, которые могут возникнуть в процессе его разработки и оформления.

В рамках данного исследования предлагается следующая система кодировки полученных идентифика-ционных признаков:

1) типовой признак маркируется буквой (при необходимости несколькими буквами) кириллицы, как правило, являющейся заглавной буквой одного из слов, входящих в название типового признака, и, так или иначе, ассоциирующейся с ним:• Ф - динамика форманты;• И - динамика интенсивности форманты;• А – форма (структура) антиформанты.При необходимости уточнения, динамика какой форманты или форма какой антиформанты имеется в

виду, перед буквенным символом ставится число, соответствующее номеру форманты/антиформанты (напри-мер, кодировка динамики второй атиформанты будет иметь вид «2Ф», первой антиформанты – «1A»).

2) частные признаки обозначаются цифрами. Для кодирования динамики форманты:Для кодирования динамики форманты:• 1 - ниспадающая кривая;• 2 – ниспадающая прямая;• 3 – вид параболы.Для кодирования динамики интенсивности формант:• 1 - непрерывность второй форманты при отсутствии первой на участке спектра, соответствующем

аллофону фонемы «ж»;• 2 - непрерывность обеих формант на всей протяженности спектра речевого отрезка;• 3 - непрерывность первой форманты при отсутствии второй на участке спектра, соответствующем

аллофону фонемы «ж»;• 4 - обе форманты прерываются на участке спектра, соответствующем аллофону фонемы «ж».Для кодирования формы (структуры) антиформанты:• 1 - крестообразная;• 2 - перевёрнутая буква Т;• 3 - прямоугольная трапеция;• 4 – прямоугольник;• 5 – Т-образная.Комбинация «типовой идентификационный признак - частный идентификационный признак» записывается

в виде Xn, где X – буквенный код типового признака, n – численный код частного признака. Если код представляет собой комбинацию буквенных обозначений типовых признаков, они располагаются в алфавитном порядке.

Например, если сонограмме произнесения диктором триады «ижи» могут быть приписаны следующие идентификационные признаки:

• динамика второй форманты имеет вид ниспадающей прямой:• антиформанта имеет Т-образную форму;• вторая форманта непрерывна, первая форманты прерывается на участке спектра, соответствующем

аллофону фонемы «ж»,то эта триада приобретает следующий код в соответствие с системой, описанной выше: 1А5И12Ф2.

Данные о частоте встречаемости разных возможных комбинаций признаков (классов исследуемой триа-ды) приведены в таблице 3.

Таблица 3. Коды и частоты встречаемости разных классов триады звуков «ижи».

№№Код и частота встречаемости

Примеры сонограмм

11А1 И4

8%

107

Page 58: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

21А2 И3

5%

31А3

8%

41А4

14%

51А5 И1

45%

6И2

22%

72Ф1

35%

82Ф2

39%

92Ф3

10%

Триада “гласный – губно-губной смычный взрывной звонкий согласный - гласный” «аба».

108

Page 59: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

В исследовании приняли участие 45 человек: из них - 20 мужчин и 25 женщин. Средний возраст испы-туемых составлял примерно 35-40 лет. Все испытуемые принадлежали к лингвистической сфере и не страдали патологиями речи. Испытуемые произносили одну и ту же тестовую фразу “Баба забыла бадью в бане”.

В качестве параметров классификации были выбраны особенности динамики первых двух формант в гласных до и после согласного, наличие или отсутствие идентификационных ключей1 и взаимное расположение формант безударного гласного. Для каждого параметра было предусмотрено несколько значений:

1) Динамика первых двух формант в гласном до и после согласного. Для описания этого параметра ис-пользовались первые буквы терминов, используемых для обозначения фразовых тонов в английском языке (например, Rise-Fall или Rise). В том случае, если для описания динамики формант подходящего термина не было, были введены новые термины, аналогичные существующим (например, Straight). В итоге получилось 4 основных класса обозначения:

a) R (от английского “Rise”) – использовалось для описания спектрограмм, на которых наблюдался подъем первых двух формант;

б) RF (от английского “Rise-Fall”) – использовалось для описания спектрограмм, на которых значения первых двух формантных частот перед согласным увеличивались, а после понижались;

в) RS (от английского “Rise-Steady”) – описывает спектрограммы, на которых формантные частоты перед согласным увеличиваются, а после согласного сохраняется четкая формантная структура с ровными фор-мантами;

г) S (от английского “Steady”) – на спектрограммах и до, и после согласного сохраняется четкая фор-мантная структура с ровными формантами.

2) Идентификационные ключи. Спетрограммы оценивались по принципу выраженности/невыраженно-сти идентификационных ключей, характерных для сочетания “а-б-а”. При этом выраженность обозначалась единицей, а невыраженность нулем.

3) Взаимное расположение формант в безударном гласном. Так же, как и предыдущий, этот параметр может принимать два значения: форманты расходятся или идут параллельно. Для обозначения использовались первые буквы анлийских слов “parallel” (для параллельности) и “divergence” (для расхождения).

В результате исследования для рассматриваемой группы испытуемых были сгенерированы трехпозици-онные коды. Затем с помощью программ Microsoft Excel была найдена частота встречаемости каждого кода. 13 различных кодов составили следующую частотную картину (см. рис. 1).

0

0,05

0,1

0,15

0,2

0,25

0,3

Произносительные типы

Час

тота

вст

ре

чае

мо

сти

S1P S1D S0D RS1P RS0P RS0D RF1P RF1D RF0P RF0D R1P R1D R0D

Рис. 1. Частота встречаемости произносительных типов.

Из диаграммы видно, что самыми часто встречающимися оказались коды:- S1D – ровная формантная структура, присутствуют идентификационные ключи, форманты после со-

гласного расходятся;- RF0T – подъем-спад формант, отсутствие идентификационных ключей, форманты после согласного

идут параллельно.Эти два наиболее частотных кода характеризуют общую динамику мужского и женского типов произ-

ношения, так как, в общем, для низких мужских голосов характерна четкая формантная структура, а для высо-ких женских – наоборот, нечеткая с постоянной формантной динамикой. Остальные типы произнесения оказа-лись менее продуктивными. Полученные данные подтверждаются и диаграммами, построенными отдельно для испытуемых-мужчин (рис. 2) и для испытуемых-женщин (рис. 3).

1 Спектральные ключи, характеризующие сочетания звуков “гласный - губно-губной смычный взрывной согласный”, заложе-ны не только в спектре самого взрыва, но и в характере изменения формантных характеристик окружающих его гласных.

109

Page 60: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

0,15

0,35

0,05 0,05

0,25

0,1

0,05

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

Произносительные типы

Час

тота

вст

реч

аем

ост

иS1P S1D RS0D RF1P RF1D R1P R1D

Рис. 2. Частота встречаемости произносительных типов у мужчин.

0,04

0,12

0,04

0,08

0,12

0,04

0,44

0,08

0,04

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

Произносительные типы

Час

тота

вст

реч

аем

ост

и

S1P S1D S0D RS1P RS0P RF1D RF0P RF0D R0D

Рис. 3. Частота встречаемости произносительных типов у женщин.

Таблица 4. Коды и частоты встречаемости разных классов триады звуков «аба».

№№Код и частота встречаемости

Примеры сонограмм

1 S1P

2 S1D

110

Page 61: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

3 S0D

4 R1D

5 RS1P

6 RS0P

7 RF1P

8 RF1D

9 RF0P

10 RF0D

111

Page 62: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

Речевые информационные технологии

11 R1P

12 R0D

13 RS0D

ЗаключениеИспользовать данные о частоте встречаемости того или иного класса реализации триады звуков можно

по-разному. Приведём лишь один пример возможного использования без применения, каких бы то ни было, средств автоматизации поиска и расчёта информативности обнаруженного признака.

Предположим, что на спорной фонограмме речи неизвестного лица или на образцах устной речи подо-зреваемого эксперт обнаружил относительно часто повторяющуюся триаду [΄ама] (из таблицы 2). И предполо-жим, что на широкополосной сонограмме вид этой триады достаточно устойчив от реализации к реализации. Для примера, предположим, что этот вид произнесения триады относится к классу L(1)D(2)St(1). Частота встре-чаемости этого класса произнесения триады [΄ама] равна 10%.

Предположим, что общее число возможных вариантов произнесения этой триады равно N. И перед на-чалом идентификационного исследования у нас нет никаких априорных данных о том, какое конкретно произ-несения триады нам встретится. Поэтому будем считать все варианты произнесения триады равновероятными. В этом случае начальная неопределённости будет равна H0=log2(N). После отнесения триады к конкретному классу L(1)D(2)St(1) оставшееся множество возможных вариантов произнесения триад сузится до 0,1*N. Неопределённость этой ситуации составит уже H1=log2(0,1*N). Это означает, что эксперт получил следующее количество информации: H= H0- H1 =-log2(0,1)=3,32 шеннона.

Таким образом, только лишь одна устойчиво проявившаяся на спорной фонограмме триада некоторого класса снизила начальную неопределённость ответа на вопрос - сколько идентификационных признаков надо найти на фонограмме для идентификации личности по устной речи – с 29-ти шеннонов до 25,68 шеннонов. И если кроме этого признака эксперт найдёт ещё восемь подобных по информативной ёмкости признаков, то найденной совокупности из девяти идентификационных признаков будет достаточно для принятия решения о возможности идентификации личности по исследуемой фонограмме его устной речи.

Очевидно, что составление описанного выше частотного атласа трезвучий устной русской речи потре-бует очень большого объёма работ по созданию базы речевых сигналов с последующей ручной сегментацией и классификацией всех возможных типов триад звуков. Остальная же часть работ, связанная с подсчётом частоты встречаемости классов и коэффициентов их корреляции, может быть проведена в автоматическом режиме.

Изложенный в докладе подход формирования атласа широкополосных сонограмм триад ГСГ потребует ещё долгих коллективных обсуждений. Чтобы эти обсуждения не ограничивались только лишь временными рамками проведения конференций, подобных настоящей, предлагается всем желающим высказывать своё мне-ние на форуме сайта www.zhenilo.narod.ru в разделе "Беседка".

Литература

1. Бондарко Л.В. Звуковой строй современного русского языка / Л.В. Бондарко. – М.: Просвещение, 1977.

2. Вокодерная телефония. Методы и проблемы / Под ред. А.А.Пирогова. - М.: Связь, 1974.

112

Page 63: РАСПРЕДЕЛЕННАЯ СИСТЕМА ФОНОУЧЕТА VOICENET IDzhenilo.narod.ru/main/ips/2009_speech.pdf · Метод Параметры сигнала Продолжительность

______________________________________________________________________________________ Речевые информационные технологии

3. Гитлин В. Идентификация диктора по частотам формант, измеренным синхронно с основным тоном / Валерий Гитлин // Proceedings XIth ICPhS. – Tallinn Estonia, U.S.S.R., 1987. – August 1-7

4. Деркач М.Ф., Гумецкий Р.Я., Гура Б.М., Чабан М.Е. Динамические спектры речевых сигналов. - Львов: Вища школа, 1983

5. Жариков Ю.Ф., Мохнев С.П. Идентификация дикторов по параметрам спектральных переходов речевых сигналов // Автоматическое распознавание слуховых образов: Материалы Всесоюзной школы-семинара (АРСО-1О). - Тбилиси, 1978.

6. Зиндер Л.Р. Общая фонетика / Л.Р. Зиндер. – Ленинград: Изд-во Ленин. ун-та, 19607. Лингвистическая полифония: Сборник статей в честь юбилея профессора Р.К.Потаповой / Отв.

ред. чл.- корр. РАН В.А. Виноградов. – М: Языки славянских культур, 2007.8. Орлова В.Ф. Теория судебно-почерковедческой идентификации // Труды ВНИИСЭ. Вып.6. - М.:

ВНИИСЭ МЮ СССР, 1973.9. Панов М.В. Современный русский язык – фонетика. – Москва: Высшая школа, 197910. Рамишвили Г.С. Автоматическое опознавание говорящего по голосу. - М.: Радио и связь, 198111. Broderick P.K., Rennick R.J., Semi-Automatic Speaker Identification System // Proc. 9-th Annual Carnachan

Conference on Electronic Crime Countermeasures. - Lexington: University of Kentucky, 1975.12. Hollien H. The acoustics of crime: the new science of forensic phonetics. - New York and London: Universi-

ty of Florida, Plenum Press, 1990.13. Kaylab Instruction Manual / KayPENTAX. – NJ USA, 2007.14. Paul J.E., Rabinowitz A.S. Development of analytical methods for a semi-automatic speaker identification

system // Proc. 9-th annual Carnachan conference on electronic crime countermeasures. - Lexington: Uni-versity of Kentucky, 1975.

15. Rose Ph. Forensic Speaker Identification - New York, Taylor & Francis, 2002.

113