Розбираємось із сучасними системами розпізнавання мови в Linux. Два сервіси розпізнавання мови та перекладу в текст онлайн Голосове розпізнавання мови для програми асистент

«Хотілося б одразу сказати, що із сервісами розпізнавання маю справу вперше. І тому розповім про сервіси, з обивательської точки зору» - зазначив наш експерт - «для тестування розпізнавання я використав трьома інструкціями: Google, Yandex та Azure».

Google

Відома IT-корпорація пропонує протестувати свій продукт Google Cloud Platform у режимі онлайн. Опробувати роботу сервісу може безкоштовно будь-хто. Сам продукт зручний і зрозумілий у роботі.

Плюси:

  • підтримка більш як 80 мов;
  • швидка обробка імен;
  • якісне розпізнавання в умовах поганого зв'язку та за наявності сторонніх звуків.

Мінуси:

  • є труднощі при розпізнаванні повідомлень з акцентом і поганою вимовою, що робить систему важкою у використанні кимось, крім носіїв мови;
  • відсутність виразної технічної підтримки сервісу.

Yandex

Розпізнавання мови від Yandex надається у кількох варіантах:

  • Хмара
  • Бібліотека для доступу з мобільних додатків
  • «Коробкова» версія
  • JavaScript API

Але будемо об'єктивними. Нас насамперед цікавить не різноманітність можливостей використання, а якість розпізнавання мови. Тому ми скористалися пробною версією SpeechKit.

Плюси:

  • простота у використанні та налаштуванні;
  • гарне розпізнавання тексту російською;
  • система видає кілька варіантів відповідей і через нейронні мережі намагається знайти найбільш схожий правду варіант.

Мінуси:

  • при потоковому обробці деякі слова можуть визначатися некоректно.

Azure

Система Azure розроблена компанією Microsoft. На тлі аналогів вона сильно виділяється рахунок ціни. Але, будьте готові мати справу з деякими труднощами. Інструкція, представлена ​​на офіційному сайті чи неповна, чи застаріла. Адекватно запустити сервіс так і не вдалося, тому довелося скористатися стороннім вікном запуску. Однак навіть тут для тестування вам знадобиться ключ від сервісу Azure.

Плюси:

  • щодо інших сервісів Azure дуже швидко обробляє повідомлення в режимі реального часу.

Мінуси:

  • система дуже чутлива до акценту, насилу розпізнає не від носіїв мови;
  • система працює лише англійською мовою.

Підсумки огляду:

Зваживши всі плюси та мінуси ми зупинилися на Яндексі. SpeechKit дорожчий за Azure, але дешевше за Google Cloud Platform. У програмі від Google було помічено постійне покращення якості та точності розпізнавання. Сервіс самовдосконалюється за рахунок технологій машинного навчання. Однак, розпізнавання російськомовних слів та фраз у Яндекса на рівень вищий.

Як використовувати розпізнавання голосу у бізнесі?

Варіантів використання розпізнавання маса, але ми зупинимо вашу увагу на тому, що, в першу чергу, вплине на продаж вашої компанії. Для наочності розберемо процес розпізнавання на реальному прикладі.

Нещодавно, нашим клієнтом став один, відомий всім SaaS сервіс (на прохання компанії, ім'я сервісу не розголошується). За допомогою F1Golos вони записали два аудіоролики, один із яких був націлений на продовження життя теплих клієнтів, інший – на обробку запитів клієнтів.

Як продовжити життя клієнтів за допомогою розпізнавання голосу?

Найчастіше SaaS сервіси працюють за щомісячною абонентською платою. Рано чи пізно період пробного користування або оплаченого трафіку - закінчується. Тоді виникає необхідність продовження послуги. Компанія ухвалила рішення попереджати користувачів про закінчення трафіку за 2 дні до закінчення терміну користування. Оповіщення користувачів відбувалося через голосове розсилання. Ролик звучав так: «Доброго дня, нагадуємо, що у вас закінчується період оплаченого користування сервісом ХХХ. Для продовження роботи сервісу скажіть - так, для відмови від послуг скажіть ні».

Дзвінки користувачів, які вимовили кодові слова: ТАК, ПРОДОВЖИТИ, ХОЧУ, ДЕТАЛЬНІШЕ; були автоматично переведені на операторів компанії. Так, близько 18% користувачів продовжили реєстрацію завдяки лише одному дзвінку.

Як спростити систему обробки даних за допомогою розпізнавання мовлення?

Другий аудіоролик, запущений тією самою компанією, мав інший характер. Вони використовували голосове розсилання, щоб знизити витрати на верифікацію номерів телефону. Раніше вони перевіряли номери користувачів за допомогою дзвінка-роботу. Робот просив користувачів натиснути певні кнопки на телефоні. Проте з появою технологій розпізнавання компанія змінила тактику. Текст нового ролика звучав так: «Ви зареєструвалися на порталі ХХХ, якщо ви підтверджуєте свою реєстрацію, скажіть так. Якщо ви не надсилали запит на реєстрацію, скажіть ні». Якщо клієнт вимовляв слова: ТАК, ПІДТВЕРДЖУЮ, АГА або КІНЦЕВО, дані про це моментально переводилися в CRM-систему компанії. І запит на реєстрацію підтверджувався автоматично за кілька хвилин. Використання технологій розпізнавання знизило час одного дзвінка з 30 до 17 секунд. Тим самим, компанія знизила витрати майже вдвічі.

Якщо вам цікаві інші способи використання розпізнавання голосу, або ви хочете дізнатися більше про голосові розсилки, переходьте за посиланням. На F1Golos ви зможете оформити перше розсилання безкоштовно та дізнатися на собі, як працюють нові технології розпізнавання.

Для того щоб розпізнати мовленнята перевести її з аудіо або відео до тексту, існують програми та розширення (плагіни) для браузерів. Однак навіщо все це, якщо є онлайн-сервіси? Програми треба встановлювати на комп'ютер, більш того, більшість програм розпізнавання мови далеко не безкоштовні.


Велика кількість встановлених у браузері плагінів сильно гальмує його роботу та швидкість серфінгу в інтернеті. А послуги, про які сьогодні йтиметься, повністю безкоштовні і не вимагають установки - зайшов, користувався і пішов!

У цій статті ми розглянемо два сервіси перекладу мови в текст онлайн. Обидва вони працюють за подібним принципом: Ви запускаєте запис (дозволяєте браузеру доступ до мікрофона на час користування сервісом), говорите в мікрофон (диктуєте), а на виході отримуєте текст, який можна скопіювати в будь-який документ на комп'ютері.

Speechpad.ru

Російськомовний онлайн сервіс розпізнавання мови. Має докладну інструкцію щодо роботи російською мовою.

  • підтримку 7 мов (російська, українська, англійська, німецька, французька, іспанська, італійська)
  • завантаження для транскрибації аудіо або відео файлу (підтримуються ролики з YouTube)
  • синхронний переклад іншою мовою
  • підтримку голосового введення розділових знаків та перекладу рядка
  • панель кнопок (зміна регістру, переклад на новий рядок, лапки, дужки тощо)
  • наявність персонального кабінету з історією записів (опція доступна після реєстрації)
  • наявність плагіна до Google Chrome для введення тексту голосом у текстовому полі сайтів (називається «Голосове введення тексту — Speechpad.ru»)

Dictation.io

Другий онлайн сервіс перекладу мови до тексту. Іноземний сервіс, який, тим часом, чудово працює з російською мовою, що вкрай дивно. За якістю розпізнавання мови не поступається Speechpad, але про це трохи пізніше.

Основний функціонал сервісу:

  • підтримка 30 мов, серед яких присутні навіть угорська, турецька, арабська, китайська, малайська та ін.
  • авторопознання вимови розділових знаків, перекладу рядка та ін.
  • можливість інтеграції зі сторінками будь-якого сайту
  • наявність плагіна для Google Chrome (називається "VoiceRecognition")

У справі розпізнавання мови найважливіше значення має саме якість перекладумовлення в тексті. Приємні «плюшки» та похвоти – не більше ніж добрий плюс. То чим же можуть похвалитися в цьому плані обидва сервіси?

Порівняльний тест сервісів

Для тесту виберемо два непростих для розпізнавання фрагмента, які містять нечасто вживані у мові слова і мовні звороти. Спочатку читаємо фрагмент поеми «Селянські діти» М. Некрасова.

Нижче представлений результат перекладу мови у тексткожним сервісом (помилки позначені червоним кольором):

Як бачимо, обидва сервіси практично з однаковими помилками впоралися з розпізнаванням мови. Результат дуже непоганий!

Тепер для тесту візьмемо уривок із листа червоноармійця Сухова (к/ф «Біле сонце пустелі»):

Відмінний результат!

Як бачимо, обидва сервіси дуже гідно справляються з розпізнаванням мови – вибирайте будь-хто! Схоже що вони навіть використовують один і той же движок - вже схожі у них виявилися допущені помилки за результатами тестів). Але якщо Вам потрібні додаткові функції типу підвантаження аудіо/відео файлу та перекладу його в текст (транскрибація) або синхронного перекладу озвученого тексту іншою мовою, то Speechpad буде найкращим вибором!


До речі, ось як він виконав синхронний переклад фрагмента поеми Некрасова англійською мовою:

Ну а це коротка інструкція по роботі зі Speechpad, записана самим автором проекту:

Друзі, чи Вам сподобався даний сервіс? Чи знаєте Ви якісніші аналоги? Діліться своїми враженнями у коментарях.


Чи знали ви, що технології розпізнавання голосу існують уже 50 років? Півстоліття це завдання вирішують вчені і лише в останні кілька десятиліть до його вирішення підключилися IT-компанії. Результатом останнього року роботи став новий рівень точності розпізнавання та масове використання технології у повсякденному та професійному житті.

Технологія у житті

Щодня ми користуємося пошуковими системами. Ми шукаємо де пообідати, як дістатися до потрібного місця або намагаємося знайти значення невідомого терміну. Технологія розпізнавання голосу, яку використовують, наприклад, Google або Яндекс.Навігатор, допомагає нам витрачати на пошук мінімум часу. Це просто та зручно.

У професійному середовищі технологія допомагає спростити роботу кілька разів. Наприклад, у медицині мова лікаря перетворюється на текст історії хвороби та рецепт відразу на прийомі. Це заощаджує час на занесення інформації про пацієнта до документів. Вбудована в бортовий комп'ютер автомобіля система реагує на запити водія, наприклад допомагає знайти найближчу заправку. Для людей з обмеженими можливостями актуальним є впровадження систем у програмне забезпечення побутових приладів для управління ними за допомогою голосу.

Розвиток систем розпізнавання голосу

Ідея розпізнавання мови виглядала багатообіцяюче за всіх часів. Але вже на етапі розпізнавання чисел та найпростіших слів дослідники зіштовхнулися з проблемою. Суть розпізнавання полягала у побудові акустичної моделі, коли мова представлялася як статистична модель, яка порівнювалася з готовими шаблонами. Якщо модель відповідала шаблону, система приймала рішення про те, що команда або число розпізнане. Зростання словників, які могла розпізнати система, вимагало збільшення потужностей обчислювальних систем.

Графіки зростання продуктивності комп'ютерів та зниження помилки розпізнавання в системах розпізнавання голосу англомовної мови
Джерела:
Herb Sutter. The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software
https://minghsiehee.usc.edu/2017/04/the-machines-are-coming/



Сьогодні алгоритми розпізнавання доповнилися мовними моделями, що описують структуру мови, наприклад, типову послідовність слів. Навчання системи відбувається реальному мовному матеріалі.

Новим етапом у розвитку технології стало застосування нейронних мереж. Система розпізнавання влаштована в такий спосіб, що кожне нове розпізнавання впливає точність розпізнавання у майбутньому. Система стає навчальною.


Якість систем розпізнавання голосу

Стан справ у розвитку технології сьогодні виражається метою: від розпізнавання мови до розуміння. Для цієї мети обрано і ключовий показник – відсоток помилок у розпізнаванні. Варто сказати, що такий показник застосовується й у розпізнаванні мови однієї людини іншою. Ми пропускаємо частину слів, зважаючи на інші фактори, наприклад, контекст. Це дозволяє нам розуміти навіть без розуміння значень окремих слів. Для людини показник помилки розпізнавання дорівнює 5,1%.

Іншими складнощами у навчанні системи розпізнавання мови розуміння мови будуть емоції, несподівана зміна теми розмови, використання сленгу та індивідуальні особливості того, хто говорить: темп мовлення, тембр, вимова звуків.


Світові гравці ринку

Декілька світових гравців ринку платформ розпізнавання голосу добре відомі. Це Apple, Google, Microsoft, IBM. Ці підприємства мають достатні ресурси для досліджень і великою базою для навчання власних систем. Наприклад, Google використовує мільйони пошукових запитів, які користувачі із задоволенням задають самі. З одного боку, це підвищує точність розпізнавання, а з іншого – накладає обмеження: система розпізнає мовлення відрізками по 15 секунд і розраховує на «питання широкого профілю». Помилка розпізнавання Google – 4,9 %. IBM цей показник дорівнює 5,5%, а у Microsoft - 6,3% на кінець 2016 року.

Платформу для застосування у професійних галузях розробляє американська компанія Nuance. Серед сфер застосування: медицина, юриспруденція, фінанси, журналістика, будівництво, безпека, автомобільна сфера.

У Росії Центр мовних технологій – найбільший виробник професійних засобів розпізнавання голоси та синтезу промови. Рішення компанії запроваджено у 67 країнах світу. Основні напрямки роботи: голосова біометрія – ідентифікація голосу; мовні системи самообслуговування – IVR, що застосовуються у кол-центрах; синтезатори мови. У російська компанія працює під брендом SpeechPro і проводить дослідження з розпізнавання англомовної мови. Результати розпізнавання входять до ТОП-5 результатів за величиною помилки.


Цінність розпізнавання голосу у маркетингу

Мета маркетингу – вивчення потреб ринку України та організація бізнесу відповідно до ними збільшення прибутковості та ефективності. Голос цікавить маркетологів у двох випадках: якщо говорить клієнт та якщо говорить співробітник. Тому об'єкт вивчення для маркетологів та сфера застосування технології – телефонні дзвінки.

Сьогодні аналітика телефонних переговорів розвинена погано. Дзвінки не тільки потрібно записувати, а й прослуховувати, оцінювати і потім аналізувати. Якщо організувати запис нескладно – це може будь-яка віртуальна АТС або сервіс коллтрекінгу – організувати прослуховування дзвінків складніше. Це завдання вирішує або окрема людина у компанії, або керівник кол-центру. Прослуховування дзвінків також дають на аутсорсинг. У будь-якому разі похибка в оцінці дзвінків – проблема, яка ставить під сумнів результати аналітики та прийняті на їх основі рішення.

З моменту, коли було винайдено комп'ютер, людство мріє спілкуватися з ним звичною мовою – за допомогою голосу. Пересічний житель планети Земля знати не хоче ні про які клавіатури та миші. Йому треба, щоб комп'ютер розумів його з півслова - причому буквально. Просто, швидко, зрозуміло! Коли фантасти вигадують історії про те, як комп'ютери через сотню-другу років почнуть за наказом ходити в магазини, масажувати нам п'яти і чухати спинки, розробники програмного забезпечення повільно, але чітко рухаються до реалізації цього задуму. І якщо без чухання під лопаткою доведеться поки обійтися, то керувати різними програмами за допомогою голосу і навіть надиктовувати комп'ютеру цілі текстові файли вже дуже навіть можна. Програм для панібратського відносини з ПК поки що не дуже багато, але ті, що є, стрімко розвиваються. Ще рік тому описані у статті утиліти - більш ранні їх версії - являли собою дуже сумне видовище. Сьогодні ж вони підросли, змужніли – це вже не якісь зацьковані мокрі та голодні цуценята, а життєрадісні вовченята, які через рік-два перетворяться на вовків голосового управління комп'ютером.

Dragon Naturally Speaking 8
Унікальна у своєму роді утиліта. Титанік і цепелін "мовних" програм в одному флаконі. Пекельна суміш із розпізнавача голосу, звукового управління комп'ютером та вчителя правильної вимови англійських слів. Але давайте про все по порядку.
Утиліта англомовна, тому працювати вміє виключно з англійськими словоформами. Теоретично можна навчити Dragon Naturally Speakingвеликому і могутньому, але, на жаль і ах, використовувати це можна лише для голосового управління РС. Виступити в ролі російської стенографістки утиліта не зможе - на які б хитрощі ви не пішли. Натомість розмовна англійська схоплює на раз. За заявами розробників програма розпізнає до 95% слів. Цифра, звичайно, завищена, але не так сильно, як конкуренти. Натягнувши DNS на тембр свого голосу (для цього доведеться витратити близько години часу, надиктовуючи різні слова), ви навчіть його розуміти навіть дуже складні мозок подрібнення, включаючи англійський мат. Ось тільки одне "але"... Вимовляти будь-яку фразу потрібно чітко. Як ви не проходили курсів артикуляції? Тоді доведеться потренуватися самостійно. Будьте впевнені - через пару-трійку днів лінгвістичних битв з DNS ви будь-якого англійця вразите чистотою вимови. Думаєте, жартуємо? Анітрохи! DNS - ідеальний засіб для тренування правильної вимови - десь сфальшивили, відразу видає попередження.
Тепер щодо голосового управління. Тут DNS також не підкачав. Програму вдалося нацькувати майже на всі наявні у нас на редакційних комп'ютерах утиліти. Спочатку він мертвою хваткою вчепився в горло всім складовим пакетом MS Office. Відкрив після голосового наказу Excel та Word, а також решту програм. Потім настав час мережевих програм. The Bat!, ICQ, різні інтернет-браузери підкорилися DNS з першого разу На завершення ми випробували утиліту в роботі з різномасним утилітами того ж класу - справився і оком не моргнув. Забавно, коли одна програма управління голосом запускає іншу таку ж утиліту. До речі, зверніть увагу: нічого не варто настроїти DNS на запуск улюблених ігор. Вимовляйте в мікрофон "Warcraft" - і він відразу завантажується. Головне, не забувайте перед тим, як командувати, навчити програму пов'язувати конкретне слово з тією чи іншою утилітою (налаштовується в меню Accuracy Center).
Крім згаданого, в програму вбудовано безліч різних дрібних смаколиків, начебто необов'язкових, але які помітно розширюють можливості утиліти. Як, наприклад, розпізнавання тексту з wav або mp3-файлу? Завантажуєте англомовну пісню, де не можете розібрати якісь слова, а DNS видає вам їх у текстовому вигляді.
Співати дифірамби DNS можна майже до безкінечності. Це єдина програма в огляді, яка впоралася майже з усіма текстами і продемонструвала навіть більше можливостей, ніж ми чекали від неї. Однозначний "мастхев" і "іспешеліюз".
Плюси:Просто, зручно, з безліччю наворотів та смаколиків.
Мінуси:За реєстрацію 30-денної trial-версії просять майже $200 , Що, м'яко кажучи, не скромно. Утиліта не розуміє російської - але це лихо майже всіх аналогічних програм.
Резюме:Мабуть, найкраща програма для розпізнавання мови та голосового керування комп'ютером. Якби не висока ціна, то була б просто ідеальною.
Realize Voice 4.1
Незважаючи на те, що творці позиціонують Realize Voiceяк такий собі мультикомбайн, що однаково легко справляється з розпізнаванням мови, управлінням додатками і синтезом речитативу, детальне тестування показало, що творці перебільшують можливості продукту. Як розпізнавач мови утиліта показала себе дуже слабко. Відсоток точного визначення слів з наступним перекладом текстову форму - дуже низький. Навіть тривалі розправи над навчальним модулем ні до чого не привели. Багато слів і виразів програма розуміти відмовляється. І бути б RV негайно лінчованим і розіп'ятим, якби не... унікальні можливості в області голосового управління різними програмами. Тут RV натужився і дав таку фору іншим утилітам, що ми хіба що не аплодували стоячи. Програма легко налаштовується на запуск будь-якої сторонньої утиліти (хоч Word, хоч ICQ, хоч який-небудь драйвер) та ще й підтримує роботу з макросами. З їхньою допомогою можна витворяти таке, що й подумати страшно. На одну голосову команду, яку, до речі, можна зробити російською, дозволено повісити, наприклад, таку багатоступінчасту функцію: відкрити поштовий клієнт, підвантажити спам-фільтр, зайти на сервер, завантажити всі листи з заголовками російською мовою, всі з заголовками англійською і з заголовками довшими за 20 символів - видалити. Це лише для прикладу. Загалом складність макросів нічим не обмежена. Головне лише встигати фантазувати. Єдине, що Realize Voice натягнути не вдалося, - на голосове управління всередині комп'ютерних ігор. Але у звичайних додатках – жодних проблем.
Як бонус RV пропонує, як би це м'якше висловитися, інтегральну функцію голосової організації робочого простору. Це по-науковому, а якщо російською, то голосом можна не тільки запускати додатки та керувати їхньою роботою, але й у будь-який момент підвантажувати інші утиліти, перемикатися між вікнами, закривати програми... Іншими словами, Бобік за командою "Апорт!" не тільки втікає за кісточкою, але ще дорогою зазирне в магазин за молоком, викине сміття, оплатить телефонний рахунок і придбає вашій дівчині квіти.
Плюси:Унікальні функції голосового керування, підтримка складних макросів, простота використання.
Мінуси:Слабкий модуль розпізнавання мови. Ціна $50.
Резюме:Програма створена для голосового керування комп'ютером. Жаль, що розробники пожертвували іншими важливими функціями утиліти.
Dictation 2004 v. 4.4
Утиліта-середнячок. Той самий випадок, коли і причепитися, начебто, нема до чого, але на тлі конкурентів виглядає не дуже. Dictation 2004непогано справляється з розпізнаванням мовлення, хоча тягатися, наприклад, з Dragon Naturally Speaking не може: останній б'є по самому незахищеному місцю Dictation 2004 - по відсотку правильного вгадування слів. З цим у програми не все гаразд, додаткове навчання хворобу лікує, але не повністю. Можна поставити утиліті “п'ять” за вміння керувати програмами, але це буде оцінка за старанність, а не за майстерне володіння предметом, як це робить Realize Voice. Розробники напирають на те, що програма тісно інтегрована з Word, але ми цього не помітили – від роботи з іншими утилітами нічим не відрізняється. Нарешті, Dictation 2004 хочеться почухати за вушком за те, що він вміє непогано розпізнавати мову з wav-файлів, але Dragon Naturally Speaking робить це краще. Єдина ж унікальна функція “Диктанта” – вміння розпізнавати мову безпосередньо з різних зовнішніх джерел (диктофона, плеєра, музичного центру – навряд чи комусь знадобиться). Ось і виходить, що ну всім хороший Dictation 2004, а віддавати за нього зелений полтинник ($ 50) шкода.
Плюси:Вміє розпізнавати мову безпосередньо з різних зовнішніх пристроїв.
Мінуси:Середні показники з усіх функцій.
Резюме:Дешево, але не дуже сердито. Утиліта-середнячок, сіра мишка у світі програм розпізнавання мови.
Горинич ПРОФ 3.0
"Горинич" - вітчизняна технологія. Вже за одне вміння працювати з великим і могутнім програму можна ставити на п'єдестал. Але – будемо об'єктивними. Утиліта побудована на двох модулях, що відповідають за розпізнавання надиктованої в мікрофон мовлення та за команди різним додаткам. Жорстке тестування показало, що проблеми з російською мовою у “Горинича”, на жаль, є - якщо проводити аналогії із закордонними програмами та їх рівнем знання англійської, то вітчизняний продукт працює десь на рівні Dictation 2004. Тобто все чудово, але запинки трапляються. Важливий момент - в утиліту вбудований блок самонавчання: що більше ви приділяєте увагу “Гориничу”, то краще він вас розуміє і менше обурюється вашій неправильній російській вимові. Ми відчували характер утиліти лише кілька годин, і за цей час, як нам здалося, програма справді стала тямущою. Можливо, при більш тривалому спілкуванні результати будуть ще кращими.
Тестування "командних" умінь "Горинича" пройшло без сучка, без задирки. Утиліта не намагається претендувати на мега-інтегральну систему, реалізовані лише основні функції управління програмами – жодних складносурядних макросів писати не доведеться, але те, що є, – на тверду п'ятірку. Запуски, відключення програм, виклики додаткових вікон – казковий змій з усім упорався і від демонстрації сприйнятливості утримався.
У природі зустрічається дві версії підступного Горинича – полегшена (Light), що продається в jewel-упаковці за ціною близько $5 (ідеально підходить для домашнього користування) та повноцінний коробковий варіант за $49 (для дому функцій явний перебір).
Плюси:Російськомовність, ергономічний інтерфейс, функція самонавчання, наявність недорогої полегшеної версії.
Мінуси:Середні показники за всіма функціями, але тільки на тлі зарубіжних конкурентів серед вітчизняних утиліт аналогів немає.
Резюме:Чудова російськомовна програма. Через брак гідних вітчизняних аналогів - чи не єдиний варіант для тих, хто зовсім не товаришує з англійською.
Чого чекати? Чого боятися?
Незважаючи на відносну схожість "голосових" програм, вони використовують різні алгоритми розпізнавання мови, її декодування та виведення на екран у вигляді тексту. Зазвичай в одну утиліту вбудовано кілька алгоритмічних ядер, які відповідають різні функції утиліт. Залежно від того, який із компонентів у даній програмі спрограмований ретельніше, утиліта справляється краще з тими чи іншими функціями. Найчастіше "голосові" програми вміють працювати за двома основними напрямками.
1) Розпізнавання російської чи англійської мови та конвертація голосу в текстовий файл. Найскладніша у реалізації функція - зрозуміло, для розробників. Програм, які володіють цією навичкою досконало, на жаль, поки що не існує.
2) Голосове керування комп'ютером. Якась проста - чи не дуже проста, а багатоступінчаста - дія "асоціюється" з якоюсь голосовою командою. Після цього достатньо вимовити заповітне слово або фразу, і комп'ютер негайно виконає відповідну операцію.
Зверніть увагу, що навіть демоверсії описаних у статті програм займають щонайменше 50 Мб. Це пов'язано з великим обсягом “словникового запасу” - щоб зрозуміти сказане слово, утиліта вже має його “знати”. Не сподівайтеся, що "мовні" програми будуть швидко бігати на слабких машинах. Для комфортної роботи з більшістю подібних утиліт необхідно мати сучасний комп'ютер і хорошої якості мікрофон.

* * *
Теоретично ви підковані, справа - за практикою. Запасайтесь утилітами, встановлюйте, освоюйте. Ринок програм розпізнавання мови молодий, тому утиліти поводяться як діти малі. За ними треба доглядати, вчасно міняти їм підгузки, стежити, щоб вони вчасно впізнавали нові слова (в усіх програмах є модуль навчання нових виразів), пестити і плекати. Що виросте зі скачаного з Мережі чи купленого дистрибутива – залежить тільки від вас. Якщо не приділятимете достатньо часу налаштуванню та навчанню програми - зросте норовливий і хуліганистий юнак. Витратите кілька годин на вивчення документації, лазіння по менюшках, роботі з мікрофоном - виростіть старанного молодика, який скрізь ходитиме за вами і глаголити: “ Чого бажаєте, тату?! Кашки? Огірків малосольних?”.

Представляємо чотири способи перетворити мову на текст, використовуючи безкоштовні програми та програми.

Перетворення мови на текст безпосередньо в Word

За допомогою Microsoft Dictate можна диктувати і навіть перекладати текст прямо в Word.

  • Завантажте та встановіть безкоштовну програму Microsoft Dictate.
  • Потім відкрийте – у ньому з'явиться вкладка Dictation. Натиснувши на неї, ви побачите значок мікрофона з командою Start.
  • Поруч знаходиться вибір мови. Виберіть російську мову та почніть запис. Намагайтеся вимовляти слова максимально чітко, і вони з'являться у документі.

Перетворюємо мову на текст за допомогою Speak a Message

Безкоштовна програма Speak A Message записує вимовлений текст, а потім розшифровує його. Основні мови програми – англійська, німецька, іспанська та французька, але є й мультимовна версія.

  • Встановіть програму та натисніть кнопку «Запис». Вимовте весь текст, а потім натисніть «Стоп».
  • Під кнопкою запису поруч із записаними файлами ви знайдете функцію "Транскрипція" - "Мова в текст".
  • Скопіюйте готовий текст та вставте його у потрібний текстовий редактор. Але не забудьте перевірити те, що записала програма — іноді вона припускається помилок.

Перетворюємо мову на текст без спеціальних програм

В операційній системі Windows 8 і 10 вам не потрібне додаткове програмне забезпечення для перетворення голосу на текст.

  • Натисніть клавішу Windows та введіть «Розпізнавання мовлення». Потім відкрийте відповідний запит і дотримуйтесь вказівок програми.
  • Після завершення установки запустіть програми та диктуйте прямо в документі Word. Для цього просто натисніть кнопку мікрофона і почніть говорити.

Перетворення мови на текст через програму

Якщо ви хочете диктувати тексти та отримувати їх у надрукованому вигляді прямо на ходу, використовуйте спеціальні програми.

  • Android та iOS вже інтегрували у свої системи функцію розпізнавання мови. Коли ви відкриваєте програму для створення нотаток і починаєте набирати текст, використовуйте піктограму мікрофона, щоб запустити розпізнавання голосу.
  • Є й інші програми для аналогічної мети, наприклад Dragon Dictation, доступне для Android та iOS.