? Un server di sintesi vocale è un computer collegato in rete che richiede un utente umano per l'input mediante comandi vocali. Questi server si basano su molte tecnologie di base complessi, come text-to -speech , sintesi vocale e riconoscimento vocale . Imparare a conoscere queste tecnologie , e come lavorare insieme , può dare un migliore apprezzamento per il complesso funzionamento interno del server di sintesi vocale . Speech Synthesis Server
molti call center utilizzano i server di sintesi vocale per i chiamanti percorso dal menu principale di un operatore umano che lavora in un reparto specifico . Questi server sono in genere in grado di produrre discorso così come la comprensione di esso. Server di sintesi vocale sono utilizzati anche nelle applicazioni Web per renderli più accessibili e interattivi .
Speech Synthesis Engine
Un motore di sintesi vocale accetta input in forma di testo preprogrammata o comandi in tempo reale e le uscite del linguaggio riconoscibile. Motori di sintesi vocale che processo preprogrammati testo spesso eseguono una singola attività , come ad esempio informare i visitatori che una certa area è off-limits . Motori di sintesi vocale che accettano i comandi in tempo reale sono utilizzati per fornire i portatori di handicap con un mezzo per comunicare , e sono utilizzati anche in sistemi di telecomunicazione . La voce che si sente da questi sistemi è una combinazione di campioni di voce umana e gli algoritmi che creano l'illusione di discorso liscio .
Riconoscimento vocale
riconoscimento vocale sistemi funzionano in direzione opposta . Essi interpretano il discorso di un essere umano e di convertirlo in testo . Sistemi di riconoscimento vocale utilizzano un metodo di lettura discorso di un umano che si basa su probabilità . Per esempio, in un semplice sistema di riconoscimento vocale , dove gli unici input accettabili sono " sì" o "no", il computer è in grado di calcolare la probabilità che un utente sta dicendo l'uno o l' altro . Ciò è possibile perché il sistema di riconoscimento vocale può confrontare i suoni fonetici di ciascun ingresso con un database di campioni . Il principio è lo stesso per i sistemi con molti ingressi , anche se la probabilità di errore è maggiore .
Text - to-Speech
Text - to-Speech è una tecnologia che converte il testo in forma riconoscibile nel suo equivalente fonetico , quindi converte in suono che utilizzano altoparlanti. Una gran parte di questo processo si occupa di interpretare il testo e scomponendola in pezzi . Ogni pezzo può essere composto da più parole , e rappresenta frasi singole . In questo modo , il motore di text-to- speech in grado di rendere il discorso che suona naturale agli ascoltatori umani . Motori di text-to -speech sofisticati rompere ulteriormente queste unità in singole sillabe , completi di passo e informazioni sulla durata .