Spoločnosť Microsoft vyvinul zo začiatku tajný generátor reči na báze umelej inteligencie s názvom VALL-E 2, ktorý je taký presvedčivý, že ho firma z etických dôvodov ani len nemôže sprístupniť verejnosti. Tento inovatívny text-to-speech (TTS) systém dokáže reprodukovať ľudský hlas len na základe niekoľkých sekúnd zvukového záznamu. Informoval o tom portál LiveScience.

V štúdii, ktorá bola uverejnená ešte 17. júna na serveri arXiv výskumníci Microsoftu uviedli, že VALL-E 2 dosahuje „presnú a prirodzenú reč v presnom hlase pôvodného hovoriaceho, porovnateľnú s ľudským výkonom„. Táto technológia predstavuje významný pokrok v oblasti syntézy reči bez potreby veľkého množstva tréningových dát, tzv. zero-shot TTS.

Dve kľúčové vlastnosti VALL-E 2 – Repetition Aware Sampling a Grouped Code Modeling – umožňujú tomuto systému dosahovať neuveriteľne realistické výsledky. Prvá z nich zlepšuje spôsob, akým AI konvertuje text na reč tým, že rieši opakovanie tokenov, čo zabraňuje nekonečným slučkám zvukov. Druhá zvyšuje efektívnosť znižovaním počtu individuálnych tokenov, ktoré model spracováva v jedinej sekvencii.

Na hodnotenie výkonu VALL-E 2 výskumníci použili vzorky z knižníc reči LibriSpeech a VCTK, pričom výsledky prekonali všetky predchádzajúce systémy zero-shot TTS v oblasti robustnosti, prirodzenosti a podobnosti hlasu.

Umelá inteligencia VALL-E 2 je len pre vyvolených 

zlá umelá inteligencia
Zdroj: OpenAI

Napriek mimoriadnym schopnostiam sa Microsoft rozhodol nesprístupniť širokej verejnosti VALL-E 2 kvôli rizikám spojeným so zneužitím, ako sú podvody s hlasovou identifikáciou či impersonácia. VALL-E 2 bol označený za čisto výskumný projekt, ktorý nie je plánovaný na začlenenie do komerčného účelu.

V budúcnosti by však táto technológia mohla nájsť uplatnenie v rôznych oblastiach, od vzdelávania a zábavy až po interaktívne hlasové odpovedajúce systémy a chatboty. Microsoft však zdôrazňuje, že ak by sa mala technológia použiť, musí obsahovať protokoly na zabezpečenie súhlasu hovoriaceho a detekciu syntetizovanej reči.

Na záver už iba dodáme, že hoci je od Microsoftu veľmi správne, že túto AI nesprístupnil bežným ľuďom, treba si uvedomiť, že keď to zvládol on, zrejme to v krátkom čase zvládne aj iná firma, ktorá zamestnáva šikovných vývojárov zameraných na umelú inteligenciu.

Aj preto je už teraz jasné, že vstupujeme do novej éry, v ktorej si aj podvodníci budú mydliť ruky. Použiť niečo takéto sa dá napríklad v banke (cez rôzne online služby na identifikáciu hlasom), ale pokojne aj na vaše kontakty. Ide o extrémne nebezpečný vynález, pred ktorým nás zrejme môžu ochrániť len jeho vývojári podobne, ako to urobil Microsoft. Nechajme sa prekvapiť, ako to dopadne.

Prečítajte si tiež  Black Friday je tu: Získajte doživotnú licenciu na Windows 10 už za 14 eur a na Microsoft Office za 24 eur

Nezabudnite tiež na náš SvetApple bazár, v ktorom nájdete viac ako 1 000 inzerátov na rôzne Apple zariadenia. Tie sem môžete pridať úplne zadarmo kliknutím na tento odkaz.

Môže ťa zaujímať
- Reklama -