Ovidiu D. Popica

Cum funcționează transcrierea speech to text în limba română cu algoritmul dezvoltat de un startup românesc

Thumbnail

Un startup IT din București a reușit să dezvolte un algoritm speech to text pentru limba română cu o acuratețe a transcrierii ce depășește 95%, potrivit fondatorilor.

Adrian Ispas, co-fondator și CEO al startup-ului spune într-un interviu video pentru StartupCafe.ro că algoritmul de transcriere pentru limba română se bazează pe o tehnologie dezvoltată intern și este mai performant decât algoritmii speech to text ai unor companii mari precum Google, Microsoft sau Amazon.

Adrian Ispas a explicat că numele startup-ului este de fapt un acronim al tehnologiei pe care se bazează algoritmul speech-to-text pentru limba română: Video Audio Transcribe Index și Search (VATIS) adică ideea originală, de la care fondatorii au plecat în martie 2020. 

Ca și alte aplicații similare de transcriere a vocii în limba română, aplicația antreprenorilor poate transcrie preînregistrări audio-video în formate obișnuite precum wav., mp3. mp4. sau mov., dar poate prelua și sunet pe care este capabilă să îl transcrie cu acuratețe foarte ridicată, în timp real.

Am discutat cu Adrian Ispas, în studioul video Hotnews.ro/StartupCafe.ro, printre altele despre: 

  • felul în care lucrează algoritmul de transcriere audio pentru limba română și cum a fost dezvoltat

  • versiunile disponibile și scenariile de utilizare pentru diferite nevoi de transcriere

  • planurile de dezvoltare ale startup-ului și viziunea fondatorilor în domeniile ML și AI

Nota redactorului: transcrierea interviului video a fost realizată cu un cont de test, pe un fishier audio preînregistrat, iar ilustrațiile din materialul video final cu transcrierea în timp real. Textul din articol a fost, ulterior, editat și adaptat pentru publicare.

StartupCafe.ro: Adrian Ispas CEO Vatis Tech și cofondator al firmei, ce aduce nou algoritmul vostru de transcriere? 

Adrian Ispas: Ce aducem noi, nou în piață, cu această tehnologie, este nivelul de acuratețe foarte ridicat, în sensul că algoritmul nostru de transcriere reușește să depășească procente de 95%, în cazul în care audio are o calitate destul de bună. 

De exemplu, cum ar fi să transcriem acest material audio media. 

StartupCafe.ro: Să vorbim un pic despre acuratețe, pentru că e un diferențiator important; pentru piața românească e critic. Voi spuneți așa: ” i-am bătut pe cei din Big Tech”. C um i-ați bătut? Cu ce i-ați bătut? 

Adrian Ispas: I-am bătut cu foarte multă muncă, cu foarte multă dedicare, cu foarte multă atenție la detalii și prin faptul că tehnologia asta am construit-o noi, toate procesele din spate sunt construite de noi, de la momentul în care luăm datele pentru a antrena acești algoritmi la modul în care ținem datele, cum le pregătim pentru antrenare, după ce reguli le corectăm, validăm, modul în care facem antrenarea. 

Cum arată speech to text pentru limba română

Am plecat de la cele mai bune practici din literatura de specialitate, din domeniul de speech recognition, le-am adaptat la limba română, la condițiile limbii române, și la specificul limbii române și practic ne-am construit tot pipeline-ul ăsta în spate, care ne-a făcut să fim, să zic așa, foarte buni pe partea asta de acuratețe. 

Deci, e un mix între cum ne-am construit toată infrastructura din spate, cum gestionăm toate lucrurile astea, de toate lecțiile pe care le-am învățat pe parcurs, toate optimizările pe care le-am făcut și de foarte multă dedicare, muncă și dorință să livrăm un produs de calitate care până acum nu exista pe piața din România iar oamenii se chinuiau cu ceea ce aveau. 

StartupCafe.ro: Voi ați atras o finanțare, în toamna anului 20 21, dacă nu mă înșel , 200.000 de euro ca să dezvoltați produsul. Poți să dezvolți cu 200000 de euro, ce- ați făcut voi? 

Adrian Ispas: Da, poți să dezvolți. Pentru că, cum ziceam mai devreme, noi ne-am construit intern tot pipeline-ul ăsta de dezvoltare al algoritmului. Și, asta înseamnă de la modul în care luăm datele - avem, intern echipa noastră de validare de date, echipa noastră de construcție efectivă a algoritmului. 

Toate lucrurile astea sunt construite, intern, de noi și optimizate de noi. Și, astfel, o investiție de genul (acesta) a fost mai mult decât suficientă să punem pe picioare tehnologia pentru limba română. 

Și, toate lecțiile învățate pe parcurs ne permit să optimizăm și să ducem dezvoltarea asta pe o altă limbă. Adică, cu toate procesele pe care le-am implementat deja, să o ducem la câteva zeci mii de euro, pe o altă limbă. Adică mult, mult mai ieftin. 

StartupCafe.ro: Când spui ”noi” cine sunteți voi, de fapt, și câți sunteți în total, oameni care contribuie la proiect? 

Adrian Ispas: Sunt peste peste 10 oameni în momentul de față. Și aici e, pe de o parte, echipa core, de fondatori, eu împreună cu Alex și Emanuel care am fondat startup-ul în 2020; recent, acum 3 luni s-a alăturat echipei noastre și Gabriel, pe partea de business development, care să ne ajute cu această direcție, echipa noastră de machine learning engineers și echipa de validatori de date. 

Deci, în total, peste 10 oameni contribuie, zi de zi, la ceea ce punem în mâinile voastre . 

StartupCafe.ro: O mică precizare tehnică: validatorii de date ce sunt? Niște oameni care ascultă și văd dacă ce a transcris algoritmul corespunde cu ce se aude pe bandă sau în înregistrarea digitală?

Adrian Ispas: Exact așa funcționează. Ca să înțelegeți cum construim noi lucrurile în spate, avem un flow de continous learning (n.r. - învățare continuă). 

Ce înseamnă asta? Înseamnă că algoritmul nostru ia un audio, îl transcrie, în mod automat, apoi acel transcript ajunge în platforma noastră de validare de date și mai trece pe la un om. 

Acel om, practic, corectează greșelile pe care le-a făcut algoritmul. 

Odată corectate greșelile astea, se duce din nou acel audio cu acel text în planul de antrenare. Și, astfel, algoritmul învață mereu și mereu din propriile greșeli pe care le face. Și, data viitoare, sunt șanse mai mici să le facă. 

StartupCafe.ro: De câte ori, până acum, ați reantrenat algoritmul? Practic, la ce versiune suntem? 

Adrian Ispas: În momentul de față, suntem la versiunea a treia a algoritmului. Prima versiune am scos-o anul trecut, undeva în aprilie, spre toamnă am mai scos încă o versiune, iar acum recent, lunile trecute, am scos versiunea a treia, care este versiunea completă, în sensul că acuratețea este la un nivel foarte mare. 

Avem foarte multe layere de postprocesare de după, în sensul că se adaugă automat punctuație, se scrie cu litere mari, se identifică persoane, brand-uri, entități, se identifică speakerii în audio. Adică transcript-ul respectiv e împărțit pe speakeri în mod automat. 

Toate lucrurile astea au venit în ultima versiune. 

Transcrierea VATIS în română: limitări

StartupCafe.ro: Ca orice algoritm, are și el niște limitări. Ce nu poate algoritmul vostru în ultima versiune? 

Adrian Ispas: În momentul de față, una dintre limitări sunt porțiunile de audio în care speakerii vorbesc unul peste altul. 

Adică, dacă noi, acum, începem și vorbim unul peste altul, algoritmul deja începe să aibă câteva probleme de transcriere, pentru că nu se aude foarte clar. Până la urmă și pentru noi, ca oameni, să transcriem o discuție în care vorbim unul peste altul nu e cel mai ușor task . 

În al doilea rând, mai contează și calitatea audio. Dacă calitatea audio este foarte slabă sau, în acel audio, speaker-ul respectiv este foarte depărtat de microfon, se aude foarte încet, algoritmul începe să aibe mici probleme pentru că, din nou, este un context de transcriere destul de dificil și, de obicei, dă fail în momentul în care și noi, ca oameni, ar fi dificil să transcriem anumite audio-uri. 

StartupCafe.ro: ”Dă fail”... Transcrie și englezisme? 

Adrian Ispas: Parțial. 

StartupCafe.ro: L-ați învățat și asta... :) 

Adrian Ispas: Parțial. Adică, l-am învățat în set de englezisme, el încearcă să le transcrie, are un vocabular de englezisme mai comune și, dacă sunt pronunțate destul de OK, ar trebui să se descurce fără prea mari probleme.

Unde poate fi utilă folosirea speech recognition

StartupCafe.ro: În afară de transcriere a unei discuții obișnuite există și algoritmi specializați pe legal, pe medical, sau pe altceva? 

Adrian Ispas: Da. În momentul de față, avem un algoritm beta pe zona de legal și lucrăm, deja, la o primă versiune mai îmbunătățită a acestui beta. 

În același timp, am început să lucrăm la o versiune specializată pe apeluri telefonice. Știm că într-un apel telefonic calitatea audio este, de obicei, mai slabă calitativ decât discuțiile sau materialele audio din zona de media și avem în plan să începem dezvoltarea și pe verticala de medical unde, din nou, sunt niște termeni foarte specifici domeniului și algoritmul are nevoie de mici indicații ca să înțeleagă termenii . 

Adică, gândiți-vă că e ca un om. Dacă n-a auzit termenii respectivi niciodată, e greu să-i pronunțe, să îi scrie, să îi înțeleagă. 

StartupCafe.ro: Cum arată planurile voastre? Care care ar fi verticalele sau zonele cărora voi le propuneți acest produs? 

Adrian Ispas: Aplicabilitatea unei soluții de speech-to-text și, mai ales, a unei soluții de speech-to-text de foarte mare acuratețe este destul de mare. 

Pe lângă domeniile astea pe care le-am menționat până acum, de exemplu zona de legal, care poate fi folosită atât de avocați, oameni individuali din domeniul ăsta - și putem să ne gândim la zona de tribunale, unde există grefieri care, pur și simplu, transcriu manual toate acele ședințe de judecată -, putem să ne gândim și la domenii mai, să zicem așa, puțin SF și care o să definească lumea de mâine. 

Putem să ne gândim la funcționalități de search-by-voice, sau order-by-voice sau pick-by-voice, tot felul de automatizări care se fac prin intermediul vocii, care e o modalitate și un canal de comunicare foarte natural pentru noi, ca oameni și, până la urmă, va fi o interacțiune normală dintre noi și computere, în viitor. 

StartupCafe.ro: V-ați raportat, atunci când ați făcut anunțul performanței produsului vostru, la cei mari din Big Tech. Google are un motor speech-to-text, Microsoft la fel, Amazon, mai sunt și alții... Veți coopera cu ei? 

Adrian Ispas: În momentul de față, tehnologiile sunt total independente, adică tehnologia pe care o avem noi este o tehnologie proprietară, dezvoltată în totalitate de noi. Nu se folosește de nimic din ceea ce au dezvoltat ceilalți. 

Practic, puteți să le priviți ca pe componente total separate. Pur și simplu, Google are speech recognition engine-ul lor, Microsoft la fel, Amazon la fel, noi la fel. 

Însă, ceea ce am făcut noi diferit față de ei, în primul rând, e că l-am perfecționat foarte bine pe limba română - și urmează să-l perfecționăm și pe alte limbi - și am reușit să optimizăm foarte mult partea de costuri astfel încât să aducem un preț foarte bun pe această tehnologie și care să-ți permită să automatizezi procese la scală foarte mare, cu o tehnologie care, cu celelalte soluții Big Tech, e destul de costisitor, dacă ne gândim aici la direcția de call center sau dacă vrem să implementăm interactive voice response. 

De exemplu, sunăm într-un call center și vrem să vorbim cu un roboțel ca să nu mai intrăm direct în contact cu un agent. Putem să vorbim cu acel roboțel, avem o problemă, îi spunem roboțelului problema noastră. În momentul de față, ce există în call center sunt pur și simplu acele opțiuni: pentru problema 1, apasă tasta 1; pentru problema 2, apasă tasta 2 și așa mai departe. 

StartupCafe.ro: Mesaje pre-înregistrate de fapt... 

Adrian Ispas: Exact, mesaje pre-înregistrate. Dar, imaginați-vă cât de mult s-ar putea rezolva problemele astea dacă implementezi un sistem de interactive voice response, pentru că respectivele companii, respectivele call centere au deja un knowledge base (n.r. - o bază de informații) cu problemele comune și știu, pentru fiecare problemă, ce trebuie să facă. Doar că nu au o tehnologie fiabilă și eficientă din punct de vedere al costurilor să implementeze și s-o pună în mâinile oamenilor . 

StartupCafe.ro:Domeniul fintech-urilor e interesant pentru voi, ca direcție de dezvoltare? 

Adrian Ispas: Da. În momentul de față, avem un client din zona de banking care folosește tehnologia noastră pentru a-și transcrie ședințele interne de management. 

Dar sunt direcții de dezvoltare tot pe aceeași verticală: zona de call center, zona de meeting-uri interne, zona de alte materiale... De exemplu, putem să ne gândim la materiale de marketing pe care le face zona asta de bancar; sunt tot felul de materiale de marketing pe care le fac și pot să generezi foarte ușor un transcript pentru ele, o subtitrare, să o pui pe social media. 

Și știm foarte mult că în momentul de față tot mare parte din conținutul audio-video de pe youtube să zicem, sau de pe facebook e consumat mai degrabă fără audio și predominant cu subtitrare. 

StartupCafe.ro: Țintiți și creatorii individuali? Youtuberi, vloggeri? 

Adrian Ispas: În momentul de față, tehnologia noastră, poate fi folosită și de creatori individuali, în special prin intermediul platformei web. 

E un segment de piață pe care îl luăm în considerare, dar am început, cumva, cu zona de de enterprise, pentru că aici am văzut o oportunitate mai mare și, până la urmă, noi suntem un startup deep-tech, o infrastructură de speech recognition, targetăm foarte mult volume foarte mari de date și vrem să automatizăm procese întregi de ordinul miilor sau zecilor de mii de ore pe lună. 

StartupCafe.ro: Apropo, câte minute, ore s-au transcris, prin platforma voastră, până acum? 

Adrian Ispas: Undeva peste 2 milioane de minute ... Și, în fiecare zi, peste 100 de ore.

Model de business și planuri de dezvoltare 

StartupCafe.ro: Modelul vostru de business, acum, e cam așa: îmi deschid un cont, am niște opțiuni de plată, pot să cumpăr și cu ora, dar aveți și un API. E de vânzare? 

Adrian Ispas: Tehnologia noastră poate fi folosită în mai multe moduri. Poate fi folosită în platforma web, în care vă deschideți, pur și simplu, un cont. Aveți, by default, 10 ore pe care le folosiți. 

Apoi, puteți să cumpărați fie la oră - e un sistem pay as you go la 2 euro pe oră -, fie cu un commitment sub formă de abonament în sensul că, dacă știți că aveți un volum de - cum avem noi structura de abonamente - 250 de ore, 500 de ore, 1.000 de ore pe lună, vă alegeți abonamentul cel mai potrivit, în funcție de nevoile pe care le aveți. 

Apoi, tehnologia poate fi folosită atât on-cloud, cât și on-premise. Putem să ne gândim la sectoare în care datele sunt extrem de sensibile sau politicile de manipulare a datelor sunt extrem de sensibile, cum ar fi zona guvernamental, unde legal nu ai voie să scoți datele acelea pe un cloud sau pe internet. 

Poate fi folosită în ambele variante, on-cloud și on-premise, și poate fi folosită și prin API, atât on-cloud, cât și on-premise, în special pentru zona de automatizări. 

StartupCafe.ro: Cum arată planurile voastre financiare, pentru anul acesta și pe termen mediu ? 

Adrian Ispas: Anul acesta vrem să ridicăm o nouă rundă de finanțare pentru a intra în noi market-uri. Și ne uităm la Spania, Franța, Polonia, sunt câteva dintre dintre ele. Și mai avem și un short list cu alte țări la care ne uităm. 

Vrem să ridicăm o rundă de finanțare, undeva între jumătate de milion și 700.00 de euro , care să ne permită dezvoltarea pe aceste limbi și să ne permită, în același timp, accelerarea și acapararea pieței din România. 

StartupCafe.ro: Pe limbile de circulație internațională o să aveți viață grea, competiția e dură. Cum o să vă descurcați? 

Adrian Ispas: Cu competiția și acolo e foarte mult spațiu de îmbunătățit . Există, pe limbile internaționale, acest algoritm de bază dezvoltat la o acuratețe destul de ok, în jur 80-90%. 

Dar, sunt foarte multe alte verticale unde e nevoie de perfecționare. După cum ziceam mai devreme, zona de legal, zona de medical, zona de call center și verticale care, în momentul de față, sunt satisfăcute cu acuratețe destul de mică: în jur de optzeci și ceva la sută și de la 80% până la 90-95% poate părea un procent destul de mic. 

Dar, procentul ăsta de 10-15% în plus, face o diferență enormă între ” poate fi folosit, cu adevărat transcript-ul ăla” sau ” nu poate fi folosit și mai degrabă ne încurcă”. 

Job-urile și inteligența artificială: viziunea unui IT-ist

StartupCafe.ro: La final, povestește-ne puțin despre tine. Ai un master în inteligență artificială. De ce inteligența artificială? Cum ai ajuns la asta? 

Adrian Ispas: Pasiunea pentru lucruri mai..., nu știu, dificile pentru mine, lucruri care pot avea un impact mai mare în societate. Iar inteligența artificială este genul de tehnologie care poate avea un impact foarte mare, pozitiv în societate și va redefini modul în care arată lumea de mâine. 

Inclusiv tehnologia de speech recognition (n.r.- recunoașterea vorbirii), pe care noi o dezvoltăm acum, va redefini foarte mult modul în care arată lumea de mâine. 

Gândiți-vă cât de ușor putem interacționa cu telefoanele noastre, cu laptopurile noastre, având o tehnologie de genul (acesta), cât de ușor putem să automatizăm procese, cât de mult timp ne salvează că, până la urmă, tehnologia noastră e de zece ori mai rapidă decât un om care ar sta efectiv să facă task-ul ăsta manual. 

Și e de cel puțin zece ori mai eficientă, ieftină, din punct de vedere al costurilor, decât să pui pe cineva, să plătești, să-ți facă toată treaba asta de transcriere manuală. 

StartupCafe.ro: Dacă un grefier sau o funcționară de la recepția unei clinici medicale ți-ar spune: ” mă lași fără job!” Ce i-ai răspunde? 

Adrian Ispas: Asta e ideea, că nu lăsăm pe nimeni fără job , dimpotrivă, le dăm timp înapoi pe care pot să-l folosească pentru task-uri mult mai importante pentru ei, pentru taskuri care îi ajută să crească mult mai mult. 

Adică, putem să ne gândim înapoi în istorie cum era cu acele centraliste la care pur și simplu sunai, spuneai că vrei să vorbești cu nu știu cine și așa mai departe. 

Nu putem să zicem că tehnologia a lăsat neapărat pe cineva fără job, ci pur și simplu a automatizat un proces care n-avea sens să fie făcut la momentul respectiv manual și le-a dat libertatea acelor oameni să se focuseze pe alte lucruri, să devină mai buni, ei pentru ei, și să-și dezvolte skills-uri noi. 

Parallax

Vizualizari
5832
Conţinut
Parerea ta despre articol
Adauga comentariu

- Ultimele știri -

 


  Ultimele știri