Државата на Linux препознавање на глас

by Гери Новел

Вовед

Поминав многу време истражување за статии и доста често мислам за предметот за една статија, додека одење до железничката станица или кога надвор и за воопшто.

Една вечер додека одев на 1,5 километри до станицата од мојата работа, помислив: "Зар не би било добро ако би можел да го сними она што сакам да го кажам, а потоа да го авторизирам автоматски во текстуална датотека која подоцна може да ја уредим и форматирам" .

Поминав многу долги часови во потрага по различни опции на располагање за препознавање на глас и диктат, вклучувајќи снимање директно преку микрофон користејќи софтвер за диктат во Линукс, снимање на датотеката во MP3 или WAV формат и конвертирање преку командната линија, како и користење на Chrome и апликациите на Android.

Оваа статија ги истакнува моите сознанија по неколкудневните напори.

Опции за Linux

Обидувајќи се да пронајдете софтвер за диктанција и препознавање на глас во Линукс не е толку лесно како што може да биде, а достапните опции не се толку умни.

Оваа страница на Википедија има листа на потенцијални опции, вклучувајќи CMU Сфинкс, Јулиј и Симон.

Јас го користам SparkyLinux кој се базира на Дебианското тестирање во моментот и можам да ви кажам дека единствен пакет за препознавање глас кој е достапен во складиштата е Сфинкс.

Матичните програми на Линукс што ги завршив се обидував да ги направам PocketSphinx, што ги коригирав WAV-датотеките во текст и Freespeech-VR, која е апликација за питон, која ви овозможува да снимате директно од микрофон.

Јас, исто така, се обидов неколку Хром апликации, вклучувајќи VoiceNote II и Dictanote.

Конечно се обидов на "Апликации за Android" и "Диктација и е-пошта" и "Дикција за разговор и разговор".

Freespeech-VR

Freespeech-VR не е достапен во стандардните складишта. Јас ги преземав датотеките од тука.

По преземањето и извлекувањето на содржината на zip датотеката отворив терминал и отидов во папката каде што се додадени датотеките.

Ја напишав следнава команда за отворање на freespeech-vr.

sudo python freespeech-vr

Имам пар слушалки со доста пристоен микрофон и прилично јасен јужен англиски акцент.

Следниот текст се појави во прозорецот freespeech-vr:

Добредојдовте во единицата кучиња на исходот Денес Имам обезбедување на како да се управува со тестови Мора да се тестира Кога на текст Употребува системски начин Говор I До секој поединечен беше само во Да се надеваме на престој и на начини на едно кокошки златно како систем Еа кога ќе ми го именува следното телефонче телефонски телефонирај Оваа датотека Доволно е доволно телефонски на телефонот во раце-простор Сфинксот Оди што не се телефони ќе се дели А обучени и алатки Користете го говорот Кога ќе завршите Кажете А користена датотека Последна приказна А И користејќи го од кога е многу како успех Овој Линукс беше како да се избегнувате

Јас само би сакал да кажам сега дека ова не е веб-страницата на Единицата за кучиња и во никој момент не споменав ништо со Златните кокошки. Всушност, се обидов да го опишам процесот на користење на софтвер за препознавање на глас.

Јас се обидов на софтверот неколку пати, вклучувајќи различни теренот и брзината, но точноста беше лоша.

PocketSphinx

PocketSphinx е во можност да ја преземе датотеката WAV и да ја претвори во текст користејќи ја командната линија.

PocketSphinx е достапен преку складиштата на Debian и треба да биде достапен за повеќето дистрибуции.

Главното прашање што го најдов со PocketSphinx е дека ви е потребен одреден степен во концептите за препознавање на глас, јазични датотеки, речници и како да го обучите системот.

По инсталирањето на PocketSphinx, треба да отидете на веб-страницата на CMU Sphinx и да прочитате колку што е можно повеќе информации. Исто така, треба да ја преземете следната датотека со модел.

Американски англиски генерички јазик модел

(Ако не сте мајчин јазик англиски јазик изберете јазик јазик кој е соодветен за вас).

Документацијата за PocketSphinx и Sphinx воопшто е тешка за разбирање за лицето што лежи, но од она што можам да направам од датотеките на речникот се користат за да се обезбеди листа на можни зборови и јазични модели имаат список на потенцијални изреки.

За да ги тестирам PocketSphinx, користев снимање на мојот сопствен глас, фрагмент од Ал Пачино во "The Devils Advocate" и фрагмент од "Морган Фримен". Поентата на ова беше да се обидат различни гласови и за мене нема никој кој може да ја раскаже приказната толку јасно како Морган Фримен и никој не дава линија како Ал Пачино.

За PocketSphinx да работи, потребна е WAV-датотека и треба да биде во одреден формат. Ако датотеката е во MP3 формат, користете ја командата ffmpeg за да ја претворите во WAV-формат:

ffmpeg -i inputfilename.mp3 -кодовец pcm_s16le -ар 16000 outputfilename.wav

За да ја стартувате PocketSphinx користете ја следнава команда:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -mm cmusphinx-5.0-en-us.lm 2> глас2.log

pocketsphinx_continuous зема WAV-датотека и го конвертира во текст.

Во погорната команда, pocketsphinx е решен да користи речник датотека наречена "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" со јазичниот модел "cmusphinx-5.0-en-us.lm". Датотеката што се конвертира во текст се нарекува voice2.wav (што е снимање што го направив со мојот глас). Конечно, 2> го става целосниот излезен излез што не ви е потребен во датотека наречена voice2.log. Вистинските резултати од тестот се прикажуваат во терминалниот прозорец.

Резултатите со мојот глас се како што следува:

добредојде на следниот за добро Не оваа недела предмет за кој софтвер за препознавање во една минута

Резултатите не се толку ужасни како кај freespeech-vr, но сепак не се навистина корисни. Јас потоа се обидов да го користам PocketSphinx со Ал Пачино, но ова воопшто не резултираше со резултати.

Конечно се обидов да го користам гласот на Морган Фриман од филмот "Брус Семоќниот" и тука се и резултатите:

000000000: ние ќе за неа
000000001: дали се толку тешки, што денес, сега, ова е најмногу што сме биле живи, јас сум дел од жешкото
000000002: во лифтот кој е клучот од малку бејзбол или знаат што да направат во животот
000000003: кои се оние што ќе закрепнат
000000004: тие не го напишаа
000000005: имаат право на мене
000000006: мора да имате правила
000000007: Ве очекував
000000008: и тој научил тука дека е илустрација е убиецот Божиќна забава
000000009: излегува еден од начините за пишување o. газ мислев дека малкумина секогаш носат еден
000000010: како проблемот обединет нема да му даде добро, јас сум ги проценувал во тој момент кога ние не направивме сè што мислите дека сум во светот ќе домови и сум го видел тоа
000000011: татко кој го има
000000012: што многу за ова
000000013: дали тоа е дадено
000000014: се што вие што не паѓаат за многу
000000015: право на есен
000000016: добро држи само за мене
000000017: тоа е несреќно ако мислам дека и тие ќе имаат дека тоа ќе сето тоа што се омажило на не беше ние не го сакам, за разлика од начинот

Мојот тест тешко може да се смета за научен, а развивачите на PocketSphinx може да наведат дека не го користам софтверот правилно. Постои и техника наречена говорна обука која може да се користи за да се создадат подобри речници и јазични датотеки.

Моето најважно мислење е дека тоа е премногу тешко за стандардна секојдневна употреба.

VoiceNote II

VoiceNote II е апликација за Chrome која користи API за препознавање на Google Voice.

Ако користите прелистувачи на Chrome или Chromium, можете да инсталирате VoiceNote II преку веб-продавницата .

Иконите на VoiceNote II се изложени на чуден начин како што треба да го поставите јазикот на дното на прозорецот и копчето за уредување исто така е на дното, но копчето за снимање е во горната десна позиција.

Првото нешто што треба да направите е да изберете јазик и ова може да се постигне со кликнување на иконата на светот.

За да започнете со снимање, кликнете на иконата за микрофон и започнете да зборувате во вашиот микрофон. За најдобри резултати открив дека говорот полека беше клучен, така што софтверот ќе има шанса да продолжи.

Резултатите не беа големи како што може да се види подолу:

Здраво и добредојде за поврзување. About.com денес статии за глас на текстот конверзија dunelm farrell рецесија 2008 како конверзии и тоа рече добро поддржан на најдобар начин го најдов глас текст додаток за да се покаже 2014debian или rpm пакет го отвори говор тип на говор за текст отворете го ако сакате да изберете против избра во Edinburgh француски германски да ве однесе време во Обединетото Кралство на морето на микрофонот, што завршивте да го пишувате вашиот текст како текстуална датотека за својот успех, и тоа е многу стандарден англиски акцент од јужно од Англија најдобро за тоа, но одам на textvia оваа torrentalong со вистински документ и можете да видите за грешките што ви прават за слушање пријатели

Dictanote

Dictanote е уште една апликација на Chrome која може да се користи за диктат цели и наидов како интуитивна, но резултатите не беа подобри од VoiceNote II.

Ја користав само демо верзијата на Dictanote која спречува да креирате нови документи, но ви овозможува да разговарате над текстот што веќе е во уредувачот. Јас бев во можност да го тестирам препознавањето на гласот, но резултатите не беа подобри од VoiceNote II и затоа не се пријавив за про верзијата.

Диктат и пошта

"Диктација и пошта" е Андроид апликација која користи мајчин API за препознавање на глас.

Резултатите од "Диктацијата и поштата" беа многу подобри од било која друга програма што се обиде до оваа точка.

Здраво добредојде во Linux за., Денес зборуваме за конвертирање на звук во текст

Трикот со "Диктацијата и поштата" е да зборувате полека и изговарајте, како и со уште еден акцент.

Откако ќе завршите со разговорот можете да ги испратите резултатите до себе.

Диктација за разговор и разговор

Другата Андроид апликација за која се обидов беше "Диктацијата за разговор и разговор".

Интерфејс за оваа апликација беше најдобриот од купот и препознавањето на гласот многу добро работеше. По снимањето на диктатот, успеав да ги споделам резултатите на различни начини, вклучително и преку е-пошта.

добредојде на linux about.com денес зборуваме за конвертирање на говор во текст

Како што можете да видите горе наведениот текст е толку јасен колку што веројатно може да очекувате. Бавно е полесно да зборуваме.

Резиме

Мајчин Линукс има некој начин да оди во однос на препознавањето на глас и конкретно диктирање. Постојат некои апликации кои го користат API на Google Voice, но сеуште не се наведени во складиштата.

Апликациите ChromeOS се малку подобри, но досега најдобрите резултати беа постигнати со помош на мојот Android телефон. Можеби телефонот има подобар микрофон и затоа софтверот за препознавање глас има подобри шанси за конверзија.

За препознавање на гласот да стане навистина употреблив, треба да биде поинтуитивен со помалку поставување потребно. Вие не треба да треба да се збркате со јазични модели и речници со цел да бидете разбирливи.

Сепак, го ценам фактот дека целата уметност за препознавање на гласот е многу предизвик, бидејќи секој има поинаков глас и има толку многу дијалекти од регионот до регион во една земја што никогаш не се грижи за стотиците јазици што се користат во целиот свет.

Затоа, мојата анализа е дека софтверот за препознавање на глас сѐ уште работи во тек.