Simon Poghosyan is die stigter en uitvoerende hoof van GSpeech, 'n webgebaseerde KI-platform wat help om aanlyn inhoud meer toeganklik te maak deur teks in natuurlikklinkende klank in meer as 70 tale om te skakel. Met 'n agtergrond in VLSI-ontwerp en 'n sterk belangstelling in programmering en gebruikerservaring, het Simon GSpeech geskep om die manier waarop webwerwe stemgeaktiveerde inhoud kan aanbied, te vereenvoudig.
Vandag genereer GSpeech elke maand sowat 200 miljoen karakters oudio en word dit in meer as 70 lande gebruik, met sy aanpasbare oudiospelers wat maandeliks meer as 200,000 1 keer gespeel word. Nadat dit onlangs meer as XNUMX miljard karakters oudio in totaal gegenereer het, groei GSpeech steeds vinnig. Die platform is ontwerp om maklik te integreer – met slegs 'n enkele reël kode – en ondersteun skeppers, opvoeders en besighede om hul inhoud meer inklusief en boeiend te maak.
Jou agtergrond in VLSI-ontwerp (Baie Grootskaalse Integrasie) en vroeë programmeringservaring het 'n sterk tegniese fondament gelê. Wat het jou geïnspireer tot die verskuiwing van mikro-elektronika na die bou van KI-aangedrewe sagteware, en hoe het dit gelei tot die skepping van GSpeech?
My passie vir probleemoplossing het op hoërskool begin, gedryf deur 'n liefde vir wiskunde en fisika. Daardie belangstelling het my gelei om 'n Baccalaureusgraad (2009) en Meestersgraad (2011) in VLSI-ontwerp van die Staatsingenieursuniversiteit van Armenië te verwerf, in samewerking met Synopsys Armenië. Die studie van fisika het my opgelei in presisie en analitiese denke, maar dit was gedurende my tweede jaar dat ek programmering ontdek het – beginnende met die Pascal-taal – en dadelik verlief geraak het daarop. My vriend en ek sou kursuswerkopdragte voltooi sodra ons dit ontvang het, al het ons ses maande gehad om klaar te maak. Toe, vir die pret, het ons die opdragte van ander studente begin doen.
Hierdie passie het my dieper in sagteware-ontwikkeling gelei. Ek het begin met webwerf-skepping en toe my eie CMS gebou. Nadat ek verskeie projekte in prosesoutomatisering en die ontwerp van databestuursargitekture voltooi het, het ek besef hoeveel ek daarvan hou om digitale oplossings vir webkoppelvlakke te bou. Deur die 2GLux-projek het ek saamgewerk met Edvard Ananyan - skepper van die gewilde GTranslate vertaaldiens en 'n skoolvriend van Quantum Gimnasium. Hy het my aan die WordPress- en Joomla-ekosisteme bekendgestel, en die konsep vir GSpeech het by hom ontstaan. Daardie vroeë werk het gelei tot die eerste weergawe van ons hulpmiddel, wat gebruikers in staat stel om na teks op 'n webblad te luister, en die saadjie geplant het vir wat later 'n volwaardige KI-platform sou word. Teen 2023 het ek gevestig Smarts Club LLC te skaal GSpeech in 'n globale KI-klankoplossing, wat meer as 70 tale ondersteun. Die Humanity Unionse lof vir GSpeech se rol in die verbetering van hul platform vir burgerlike betrokkenheid se toeganklikheid weerspieël my missie om digitale gapings deur KI te oorbrug – 'n visie wat gewortel is in my vroeë programmeringsdae.
GSpeech het oorspronklik begin as 'n hulpmiddel om siggestremde gebruikers te ondersteun. Hoe het daardie vroeë missie die platform se evolusie tot 'n volwaardige KI-teks-na-spraak-oplossing beïnvloed?
Die fokus op toeganklikheid het die ontwikkeling van hoëgehalte, intydse KI-klank, vertaling in meer as 70 tale, en naatlose webwerf-integrasie via 'n eenvoudige kodebrokkie gedryf. Hierdie missie het gelei tot funksies soos aanpasbare klankspelers, taal- en stemkeusepanele, konteksbewuste terugspeel, klankaflaaie en gedetailleerde gebruiksstatistieke – insluitend land-, stad-, toesteldata en terugspeelantalise oor tyd – alles ontwerp om inhoud meer inklusief en boeiend te maak. Nadat ek meer as 100,000 2023 reëls kode geskryf het, het ek die GSpeech Cloud Console in XNUMX bekendgestel – 'n skaalbare oplossing wat inklusiwiteit met gevorderde funksionaliteit balanseer, wat besighede en skeppers bemagtig om hul inhoud toeganklik, veeltalig en interaktief oor die web te maak.
Wat was van die grootste tegniese uitdagings waarmee jy te kampe gehad het tydens die ontwikkeling van die GSpeech Cloud Console?
Een van die grootste uitdagings in die ontwikkeling van die GSpeech Cloud Console was die ontwerp van 'n skaalbare argitektuur vir intydse, veilige, hoëgehalte KI-klankgenerering. Dit het innoverende oplossings vereis om relevante inhoud van die web te haal, klank op ons bedieners te verwerk en dit in die wolk te stoor vir vinnige, betroubare aflewering. Die implementering van robuuste sekuriteitsmaatreëls, soos enkripsie en toegangsbeheer, was van kritieke belang om dinamiese, gebruikersgegenereerde inhoud te beskerm.
Nog 'n struikelblok was om intydse vertaling moontlik te maak deur middel van gevorderde neurale enjins. Ons moes lae-latensie, akkurate vertalings verseker terwyl ons 'n intuïtiewe koppelvlak bou wat gebruikers toelaat om tale en voorkeur-stemprofiele vir terugspeel te kies, met die voorkeur van gebruikersgerief en verpersoonliking. Laastens het ons 'n oudio-sjabloon-skepperassistent ontwikkel met verskeie aanpasbare speler-aansigte, wat gebruikers toelaat om unieke, visueel aantreklike spelers te ontwerp wat op hul webwerwe afgestem is. Die balansering van buigsaamheid, werkverrigting en gebruiksgemak oor toestelle heen was 'n lonende uitdaging.
Met intydse vertaling in meer as 70 tale en meer as 230 natuurlikklinkende stemme. Hoe verseker jy stemgehalte en handhaaf jy akkuraatheid oor so 'n diverse taalversameling?
Om konsekwente stemkwaliteit te handhaaf, integreer ons verskeie gevorderde teks-na-spraak (TTS) modelle wat voortdurend geoptimaliseer en opgedateer word. Hierdie veeltalige enjins hanteer gemengde taal inhoud met hoë akkuraatheid. Ons rol ook meer as 100 nuwe stemvibrasies uit om gebruikers selfs meer ekspressiewe en natuurlik klinkende opsies te gee. Elke maand genereer GSpeech meer as 200 miljoen karakters klank, wat gebruikers in meer as 70 lande bedien, met ons aanlyn spelers wat meer as 200,000 XNUMX keer per maand gebruik word – en groei. Hierdie skaal verseker deurlopende terugvoer en werklike toetsing, wat direk ons afstemming en kwaliteitskontroles beïnvloed.
Kan jy vir ons verduidelik hoe GSpeech KI en masjienleer benut om lewensgetroue stemsintese te lewer? Hoe hou jy tred met die vinnige vooruitgang in neurale stemtegnologie?
GSpeech gebruik gevorderde KI en masjienleer, wat verskeie moderne teks-na-spraak-modelle integreer om lewensgetroue stemsintese te produseer. Hierdie modelle, geoptimaliseer vir natuurlikheid en veeltalige ondersteuning, verwerk teksinsette om hoëgehalte-klank met realistiese intonasie en ritme te genereer, selfs vir gemengde-taal inhoud. Ons verbeter die gebruikerservaring deur aanpasbare stemstyle vir diverse tale aan te bied. Ons het ook TTS-aliasse geïntegreer, wat gebruikers toelaat om persoonlike reëls te definieer vir hoe sekere woorde of frases in klank weergegee word - byvoorbeeld, die vervanging van spesifieke terme om meer akkurate uitspraak of frasering te verkry. Om op hoogte te bly van neurale stemtegnologie, evalueer en integreer ons voortdurend die nuutste ontwikkelings, werk ons saam met bedryfsleiers en beplan ons om eie modelle in die toekoms te ontwikkel, wat verseker dat GSpeech aan die voorpunt van stemsintese-innovasie bly.
Hoe belangrik is stemafstemming, toonhoogtebeheer en terugspeelaanpassing vir jou gebruikers – en wat is die gebruiksgeval waarop jy die trotsste is waar hierdie kenmerke werklik uitblink?
Stemafstemming, toonhoogtebeheer en terugspeel-aanpassing is van kritieke belang vir ons gebruikers, wat hulle in staat stel om unieke, hoëgehalte-stemstyle te skep wat op hul spesifieke behoeftes afgestem is, van nuus- en blogwebwerwe tot toeganklike e-leerinhoud. Die voortdurende integrasie van meer as 100 nuwe stemvibes verbeter dit verder en bied gebruikers ongeëwenaarde buigsaamheid om werklik kenmerkende stemopnames te skep. Ek is die trotsste op GSpeech Studio, 'n nuwe klankredigerings- en genereringsplatform wat ek ontwikkel. Dit stel gebruikers in staat om verskeie klankkanale te skep, dit met agtergrondmusiek te meng en gepoleerde stemopnames uit te voer, wat skeppers bemagtig om professionele klank vir diverse toepassings te produseer. 'n Brief van 'n gesiggestremde student, waarin hy GSpeech bedank het vir die moontlikmaking van onafhanklike studie deur middel van aangepaste klank, het my diep geraak. Hierdie gebruiksgeval wys hoe hierdie kenmerke inhoud toeganklik en transformerend maak, 'n doelwit wat ek sedert my vroeë programmeringsdae nagestreef het.
GSpeech bied naatlose integrasies met WordPress, Shopify, Wix en meer. Wat was jou strategie om die platform plug-and-play te maak vir skeppers en besighede oor verskillende ekosisteme?
Ons strategie vir GSpeech se inprop-en-speel-integrasies met platforms soos WordPress, Shopify en Wix het gefokus op eenvoud, versoenbaarheid en skaalbaarheid. Ons het liggewig, modulêre inproppe en kodebrokkies ontwikkel wat naatloos integreer en minimale opstelling vereis – dikwels net 'n paar klikke. Dit beteken dat duisende artikels en dinamiese inhoudblokke onmiddellik stemondersteuning kan kry – sonder handmatige moeite. Ons bied hoogs buigsame, pragtig ontwerpte spelers wat oor toestelle aanpas, insluitend selfone, tablette en rekenaars. Ons spelers is nie net aanpasbaar nie, maar ook geoptimaliseer vir toeganklikheid en gebruikersbetrokkenheid. Vir WordPress het ons die GSpeech-wolkdashboard direk in die administrasiepaneel ingebed via ons inprop, wat bestuur vir gebruikers stroomlyn. Gedetailleerde dokumentasie en intuïtiewe dashboards lei nie-tegniese gebruikers deur installasie en aanpassing. Gereelde toetsing verseker konsekwente werkverrigting oor diverse ekosisteme, wat skeppers en besighede bemagtig om moeiteloos KI-aangedrewe teks-na-spraak by te voeg.
As jy terugkyk op die reis van 2012 tot vandag, wat was die grootste mylpaal vir jou persoonlik of professioneel in die bou van GSpeech?
Die grootste mylpaal vir GSpeech was die generering van 1 miljard karakters van hoëgehalte KI-klank, wat ons wêreldwye impak op toeganklikheid ten toon stel. Net so betekenisvol was die terugvoer wat ons ontvang het van organisasies soos die Humanity Union, wat GSpeech geprys het vir die verbetering van hul sosiale verantwoordelikheidsplatform, en van blogeienaars wat dit 'n "spelwisselaar" vir gebruikersbetrokkenheid genoem het. Meer as 110 vyfster-resensies oor platforms soos WordPress en AppSumo in onlangse maande weerspieël hierdie groeiende vertroue.
GSpeech word nou ook aktief gebruik deur die Namangan streekstatistiekdepartement in Oesbekistan — 'n regeringsinstelling met beduidende verkeer en sigbaarheid op nasionale vlak. Om te sien hoe 'n openbare liggaam ons tegnologie so breed aanvaar, was 'n betekenisvolle mylpaal en 'n kragtige teken van vertroue in ons oplossing.
As 'n Christen en iemand wat in die Armeense kerk dien, probeer ek ook om ander geloofsgebaseerde inisiatiewe te ondersteun waar moontlik. Ek bied dikwels GSpeech gratis aan Christelike webwerwe aan as 'n manier om hul boodskap meer effektief te versprei en die Skrif meer toeganklik te maak deur middel van oudio. Dit is my klein bydrae tot iets groters. Terselfdertyd is ek geëerd om saam te werk met toegewyde bedieninge soos Die Koord — 'n Messiaanse gemeente en gewaardeerde GSpeech-kliënt — wie se missie en inhoud die krag van die Skrif in aksie weerspieël.
Hierdie oomblikke – wanneer tegnologie 'n brug vir geloof, begrip en insluiting word – herinner my hoekom ons GSpeech in die eerste plek gebou het.
Watter rol sien jy wat GSpeech in die toekoms van digitale media sal speel, veral namate oudio-inhoud en stemkoppelvlakke meer dominant word?
Ek sien GSpeech as 'n leier in die maak van digitale media meer toeganklik en boeiend deur KI-aangedrewe stemtoegang tot die web moontlik te maak. Ons doel is om die hele aanlyn-ervaring te transformeer, sodat webwerwe natuurlik stem-interaktief, inklusief en veeltalig word. Met net een reël kode kan webwerf-eienaars duisende artikels in stemopnames omskep. Vooruitskouend ontwikkel ons GSpeech Studio in 'n kragtige en unieke platform vir klankopwekking en -redigering, wat gebruikers in staat stel om veelvuldige steminhoud te skep met agtergrondmusiek, effekte en presiese afstemming. Ons wil die web werklik hoorbaar, intuïtief en universeel toeganklik maak.
GSpeech is onlangs op AppSumo bekendgestel en het reeds 'n byna perfekte gradering van vroeë gebruikers verdien. Wat het die reaksie van die AppSumo-gemeenskap vir jou beteken, en hoe beplan jy om op hierdie momentum voort te bou?
Die bekendstelling van AppSumo het GSpeech aan miljoene bekendgestel, en die byna perfekte gradering is ongelooflik bevestigend. Gebruikers, soos diegene wat aanlynkursusse aanbied, prys ons intuïtiewe gereedskap en responsiewe ondersteuning, wat terugvoer van die Humanity Union weerspieël. 'n Blog-eienaar het ons stemme "werklik boeiend" en vertalings "indrukwekkend" genoem. Hul positiewe terugvoer bevestig die waarde van ons KI-aangedrewe teks-na-spraak-oplossing en voed my passie vir die projek. Die ondersteuning van kliënte tydens die bekendstelling het ook nuwe idees aangewakker, veral vir GSpeech Studio, wat geïnspireer is deur gebruikersversoeke vir gevorderde klankbewerking- en uitvoerfunksies. Voortaan beplan ek om op hierdie momentum voort te bou deur aktief na ons gemeenskap te luister, hul terugvoer te integreer en innoverende funksies te ontwikkel om toeganklikheid en betrokkenheid te verbeter, en te verseker dat GSpeech steeds ontwikkel as 'n transformerende instrument vir skeppers en besighede.
Laastens, watter raad sou jy gee aan jong ontwikkelaars of entrepreneurs wat toeganklike, KI-aangedrewe gereedskap in vandag se vinnig ontwikkelende tegnologielandskap wil bou?
Aan jong ontwikkelaars en entrepreneurs, my raad is om jou hart in jou werk te stort en 'n werklike probleem te identifiseer waar jy 'n unieke, slim oplossing kan bied. Begin klein, neem bestendige stappe vorentoe en luister aandagtig na kliënteterugvoer – hulle sal jou pad lei. Behandel jou gebruikers soos vertroude vriende, gee jou alles en bly geduldig. Omarm KI-tegnologieë as kragtige bondgenote; wanneer dit wyslik gebruik word, versterk hulle jou vermoë om impakvolle, toeganklike gereedskap te skep. Bou met passie, volharding en 'n verbintenis om 'n verskil te maak, en jy sal oplossings skep wat werklik saak maak.
Dankie aan Antoine Tardif vir die onderhoud. Jy kan die volledige onderhoud hier lees: verenig.ai.