Teks-na-spraak, ook genoem TTS, is 'n vorm van ondersteunende tegnologie wat gemak en gemak in die lewe bring. Die stelsel lees digitale tekste hardop en duidelik genoeg uit sodat 'n persoon dit kan verstaan. TTS staan ​​ook bekend as hardop-lees-tegnologie, wat algemeen aanvaar word vir sy buigsaamheid. Dit is 'n enkele aanraking weg, waar die webwerf se teks in oudio omskakel.
Die stelsel brei uit oor alle toestelle soos slimfone, skootrekenaars, rekenaars en tablette, wat as ideaal beskou word vir kinders, die publiek ouer as 20 en mense met gestremdhede. Die stryd van lees en stres van oë teenoor elektroniese toestelle is alles weg met TTS terwyl fokus, leer en die gewoonte om aanlyn te lees deur te luister, verhoog word. As jy dus 'n blogger, leser of webwerf-eienaar is, is TTS sagteware wat jou horison van kennis sal uitbrei. Maar wat is die voordele daarvan om 'n stem vir alles te hê, geen beperking en geen grens nie? Dit word geskei volgens die gebruikers aangesien hulle die persoon is wat die dienste gebruik.
Om mense toe te laat om met masjiene te praat, is 'n langdurige droom van mens-rekenaar-interaksie. Die vermoë van rekenaars om natuurlike spraak te verstaan, is in die laaste paar jaar 'n omwenteling ondergaan deur die toepassing van diep neurale netwerke (bv. Google Voice Search). Die generering van spraak met rekenaars - 'n proses waarna gewoonlik verwys word as spraaksintese of teks-na-spraak (TTS) — is nog grotendeels gebaseer op sg aaneenlopende TTS, waar 'n baie groot databasis van kort toespraakfragmente van 'n enkele spreker opgeneem word en dan weer saamgevoeg word om volledige uitsprake te vorm. Dit maak dit moeilik om die stem te verander (byvoorbeeld om na 'n ander spreker oor te skakel, of die klem of emosie van hul spraak te verander) sonder om 'n hele nuwe databasis op te neem.
Die TTS-proses behels verskeie fases:
Daar is verskeie tipes TTS-tegnologie, insluitend:
GSpeech bied baie kenmerke, insluitend aanlyn, SaaS, teks-na-spraak (TTS)-oplossings op die perseel vir 'n wye verskeidenheid bronne soos webwerwe, mobiele toepassings, e-boeke, e-leermateriaal, dokumente, alledaagse klantervaring, vervoer ervaring, en nog baie meer. Hoe 'n besigheid, organisasie en uitgewers wat TTS-tegnologie integreer bevoordeel word.
TTS-tegnologie bied groter toeganklikheid vir individue met visuele gestremdhede, disleksie of leesprobleme, wat hulle in staat stel om toegang tot inligting te verkry en makliker te kommunikeer.
Deur 'n alternatiewe manier te bied vir gebruikers om jou inhoud te verbruik, kan jy jou WordPress-webwerf se soekenjinoptimalisering (SEO) verbeter. Dit is veral belangrik vir gebruikers wat op skermlesers staatmaak om op die web te navigeer.
TTS-tegnologie kan die gebruikerservaring verbeter deur 'n meer natuurlike en intuïtiewe manier van interaksie met toestelle te bied, wat die behoefte aan handmatige tik of lees verminder.
TTS-tegnologie kan 24/7 kliëntediens verskaf, gereelde vrae beantwoord en inligting op 'n meer doeltreffende en effektiewe manier aan kliënte verskaf.
TTS-tegnologie kan produktiwiteit verhoog deur take soos data-invoer, transkripsie en lees te outomatiseer, wat tyd vir belangriker take vrystel.
TTS-tegnologie kan verskeie tale ondersteun, wat dit 'n waardevolle hulpmiddel maak vir besighede en organisasies wat wêreldwyd funksioneer.
TTS-tegnologie kan leesbegrip verbeter deur gebruikers toe te laat om na teks te luister terwyl hulle die geskrewe woord volg, wat dit makliker maak om komplekse inligting te verstaan.
TTS-tegnologie kan oogstremming en moegheid verminder deur 'n alternatief vir lees en tik te bied, wat dit 'n waardevolle hulpmiddel maak vir individue wat lang ure voor skerms deurbring.
TTS-tegnologie kan betrokkenheid verhoog deur 'n meer interaktiewe en meeslepende ervaring te bied, wat dit 'n waardevolle hulpmiddel maak vir opvoedkundige en vermaaklikheidstoepassings.
TTS-tegnologie kan 'n mededingende voordeel bied deur 'n unieke en innoverende manier van interaksie met toestelle te bied, wat jou produk of diens van die kompetisie onderskei.
Dit het gelei tot 'n groot aanvraag vir parametriese TTS, waar al die inligting wat nodig is om die data te genereer in die parameters van die model gestoor word, en die inhoud en kenmerke van die spraak kan beheer word via die insette na die model. Tot dusver het parametriese TTS egter geneig om minder natuurlik as aaneenlopend te klink. Bestaande parametriese modelle genereer tipies oudioseine deur hul uitsette deur seinverwerkingsalgoritmes wat bekend staan ​​as vokoders.
WaveNet verander hierdie paradigma deur die rou golfvorm van die oudiosein, een monster op 'n slag, direk te modelleer. Behalwe dat dit meer natuurlik klinkende spraak lewer, beteken die gebruik van rou golfvorms dat WaveNet enige soort klank kan modelleer, insluitend musiek.
Navorsers vermy gewoonlik die modellering van rou klank omdat dit so vinnig tik: tipies 16,000 XNUMX monsters per sekonde of meer, met belangrike struktuur op baie tydskale. Die bou van 'n heeltemal outoregressiewe model, waarin die voorspelling vir elkeen van daardie steekproewe deur al die voriges beïnvloed word (in statistiek-gesproke word elke voorspellende verspreiding gekondisioneer op alle vorige waarnemings), is duidelik 'n uitdagende taak.
Egter PixelRNN en PixelCNN modelle, wat vroeër gepubliseer is, het getoon dat dit moontlik was om komplekse natuurlike beelde te genereer, nie net een pixel op 'n slag nie, maar een kleurkanaal op 'n slag, wat duisende voorspellings per beeld vereis. Dit het ons geïnspireer om ons tweedimensionele PixelNets aan te pas by 'n eendimensionele WaveNet.
Die bogenoemde animasie wys hoe 'n WaveNet gestruktureer is. Dit is 'n ten volle konvolusionele neurale netwerk, waar die konvolusionele lae verskeie dilatasiefaktore het wat sy ontvanklike veld eksponensieel met diepte laat groei en duisende tydstappe dek.
Tydens opleiding is die invoerreekse werklike golfvorms wat van menslike sprekers aangeteken is. Na opleiding kan ons die netwerk monster om sintetiese uitinge te genereer. By elke stap tydens steekproefneming word 'n waarde getrek uit die waarskynlikheidsverdeling wat deur die netwerk bereken is. Hierdie waarde word dan teruggevoer na die invoer en 'n nuwe voorspelling vir die volgende stap word gemaak. Die opbou van monsters een stap op 'n slag soos hierdie is rekenaarmatig duur, maar ons het gevind dat dit noodsaaklik is vir die generering van komplekse, realisties klinkende klank.
Ons het opgelei WaveNet sommige van Google se TTS-datastelle gebruik sodat ons die werkverrigting daarvan kan evalueer. Die volgende figuur toon die kwaliteit van WaveNets op 'n skaal van 1 tot 5, in vergelyking met Google se huidige beste TTS-stelsels (parametriese en aaneenskakelend), en met menslike spraak gebruik Gemiddelde meningtellings (MOS). MOS is 'n standaardmaatstaf vir subjektiewe klankgehaltetoetse, en is verkry in blinde toetse met menslike proefpersone (vanaf meer as 500 graderings op 100 toetssinne). Soos ons kan sien, verminder WaveNets die gaping tussen die moderne kuns en prestasie op menslike vlak met meer as 50% vir beide Amerikaanse Engels en Mandaryns Chinees.
Vir beide Chinees en Engels word Google se huidige TTS-stelsels as een van die beste wêreldwyd beskou, dus is dit 'n groot prestasie om op beide met 'n enkele model te verbeter.
GSpeech het AI-stemsintese-algoritme, wat van die mees gevorderde en realistiese in die besigheid is. Die meeste stemsintetiseerders (insluitend Apple se Siri) gebruik wat genoem word aaneenlopende sintese, waarin 'n program individuele lettergrepe stoor - klanke soos "ba", "sht" en "oo" - en dit op die vlug saamvoeg om woorde en sinne te vorm . Hierdie metode het oor die jare redelik goed geword, maar dit klink steeds steil.
WaveNet, in vergelyking, gebruik masjienleer om klank van nuuts af te genereer. Dit ontleed eintlik die golfvorms vanaf 'n groot databasis van menslike spraak en herskep hulle teen 'n tempo van 24,000 2016 monsters per sekonde. Die eindresultaat sluit stemme in met subtiliteite soos lippeklappe en aksente. Toe Google vir die eerste keer WaveNet in XNUMX onthul het, was dit veels te berekeningsintensief om buite navorsingsomgewings te werk, maar dit is sedertdien aansienlik verminder, wat 'n duidelike pyplyn van navorsing tot produk toon.