Чего уж и говорить о полезности таких программ людям с ограниченным зрением. Любой текст с интернет-сайтов, электронных книг или документов можно перенести в интерфейс синтезатора голосовой речи, установленного на ПК, ноутбуке, планшете или смартфоне, и такая программа воспроизведёт информацию компьютерным голосом.
Как работают программы синтеза голосовой речи?
При воспроизведении текста голосом на Windows-компьютерах необходим целый набор программных компонентов - пакет голосовых функций Microsoft Speech API, голосовой движок, а также программа, служащая интерфейсом голосового движка.
1. Microsoft Speech API
Основа работы программ синтеза речи – Microsoft Speech API. SAPI 4 и SAPI 5 – программные пакеты голосовых функций, разработанные компанией Microsoft специально для работы синтезаторов речи на компьютерах с установленной Windows. Эти версии не совместимы друг с другом. SAPI 4 – версия, написанная ещё под Windows 2000. Для Windows ХР и следующих эволюционных продолжений операционной системы от Microsoft предназначена версия пакета голосовых функций SAPI 5. С SAPI 5 сегодня работает большая часть голосовых движков, но есть и такие, функционированию которых требуется установка SAPI 4. Начиная с XP, все версии Windows в своём составе уже имеют предустановленный SAPI 5. Пакеты голосовых функций SAPI 4 И SAPI 5 можно скачать отдельно с сайта Microsoft.
Часто дистрибутивы голосовых движков, помимо инсталляторов самих движков, в комплекте поставки содержат инсталляторы SAPI 4 и SAPI 5.
2. Голосовые движки
Text To Speech Engine, голосовой (речевой) движок, голосовой модуль – эти названия программного компонента по типу системного драйвера, который обеспечивает преобразование электронного текста в речь. Именно голосовые движки и проговаривают текст голосом того или иного диктора. Наряду с Microsoft Speech API голосовые движки также являются базой, позволяющей функционировать программам синтеза голосовой речи. Голосовые движки не имеют интерфейса взаимодействия с пользователем. Работать с голосовым движком – настраивать скорость речи, громкость, высоту голоса и т.п. – можно в программах синтеза речи.
Голосовые движки можно скачать либо непосредственно на официальных сайтах их разработчиков, либо на других веб-ресурсах в Интернете. Голосовые движки с качественным произношением речи – это, как правило, платные программные продукты. В большинстве случаев бесплатные голосовые движки платным будут уступать в качестве.
Рассмотрим популярные голосовые движки на русском языке.
Acapela Elan TTS Digalo Nikolai (Николай) – голосовой движок, «говорящий» мужским голосом. Несколько зомбированный, лишённый эмоций и оттенков произношения, местами делающий неправильно ударения в словах, тем не менее, голос Николая стал классикой у многих любителей прослушивания книг с помощью синтезаторов речи. Это один из старых голосовых движков. В своё время он выделялся качеством из числа чрезмерно роботизированных голосов с невнятным произношением, которые могли предложить другие голосовые движки на рынке софта.
ScanSoft RealSpeak Katerina (Катерина) – это мягкий женский голос с правильным произношением и ударением в словах. Но в настройках программы синтеза речи изначально лучше выбрать большую скорость воспроизведения речи. При настройках голоса по умолчанию складывается впечатление, что диктор разговаривает несколько заторможено, как будто после инсульта.
Acapela Group Alyona (Алёна) – это женский звонкий голос с бархатистым оттенком. Алёна воспроизводит текст с выражением и практически без ошибок в произношении.
Loquendo Olga (Ольга) – ещё один приятный женский голос, несколько деловитый, с внятным произношением.
Ivona Tatyana/Maxim (Татьяна и Максим) – женский и мужской голоса, одни из лучших по качеству воспроизведения голосовой речи на рынке софта.
Увы, сколь бы совершенным ни был голосовой движок, в любом случае ему будет далеко до живой речи, и это необходимо понимать. В этом деле главное привыкнуть к голосу диктора, чтобы мелкие огрехи воспринимались как что-то естественное, например, как разговорный акцент.
3. Программы синтеза голосовой речи
Программы синтеза голосовой речи, как упоминалось, служат интерфейсом голосовых движков. Примеры таких программ для системы Windows - Balabolka, Demagog, Говорилка.
Их интерфейс представлен в виде примитивного текстового редактора, куда можно переносить текст для его воспроизведения с помощью голосового модуля.
Функцию воспроизведения текста голосом поддерживают некоторые программы-читалки для Windows, в частности, это CoolReader и ICE Book Reader. Прослушивание интернет-публикаций посредством голосового модуля возможно в браузере Google Chrome. Для этого в последний необходимо установить расширение SpeakIt!.