Meta Voicebox AI to Dall-E do zamiany tekstu na mowę

Dziś jesteśmy o krok bliżej do ponadczasowej przyszłości celebrytów, którą zawsze obiecywano (od kwietnia). Meta zaprezentowała Voicebox, swój model konfiguracji zamiany tekstu na mowę, który obiecuje zrobić dla słowa mówionego to, co ChatGPT i Dall-E zrobili z szacunkiem dla generowania tekstu i obrazu.

Zasadniczo jest to generator tekstu na wyjście, podobnie jak GPT lub Dall-E – tylko zamiast tworzyć piękną prozę lub obrazy, wypluwa klipy audio. Meta definiuje system jako „nieregresywny model automatycznego dopasowywania przepływu, wyszkolony do wypełniania mowy, biorąc pod uwagę kontekst audio i tekstowy”. Został przeszkolony na ponad 50 000 godzin niefiltrowanego dźwięku. W szczególności Meta wykorzystała nagraną mowę i tekst z szeregu audiobooków należących do domeny publicznej napisanych w języku angielskim, francuskim, hiszpańskim, niemieckim, polskim i portugalskim.

Według naukowców ten zróżnicowany zestaw danych pozwala systemowi na generowanie bardziej konwersacyjnej mowy, niezależnie od języków używanych przez każdą ze stron. „Nasze wyniki pokazują, że modele rozpoznawania mowy wyszkolone na sztucznej mowie generowanej przez skrzynkę głosową działają prawie tak dobrze, jak modele wyszkolone na prawdziwej mowie”. Co więcej, generowana komputerowo mowa była wykonywana przy zmniejszonym współczynniku błędów wynoszącym zaledwie 1 procent, w porównaniu z redukcją od 45 do 70 procent w obecnych modelach zamiany tekstu na mowę.

System został najpierw nauczony przewidywania sylab mowy na podstawie otaczających je sylab, a także tekstu sylaby. „Po nauczeniu się wypełniania mowy z kontekstu model może zastosować to w zadaniach generowania mowy, w tym w tworzeniu fragmentów w środku nagrania audio bez konieczności całkowitego odtwarzania danych wejściowych” – wyjaśnili badacze Meta.

Podobno Voicebox może również aktywnie edytować klipy audio, eliminować hałas z mowy, a nawet zastępować źle wymawiane słowa. „Osoba może zidentyfikować każdą początkową część mowy, która jest zepsuta przez hałas (np. – stwierdzili naukowcy.

READ Wyciek God of War Ragnarok ujawnia grafikę koncepcyjną Odina

Generatory zamiany tekstu na mowę są już dostępne od minuty — w ten sposób Twoi rodzice korzystający z TomToms byli w stanie udzielać Ci nieuchwytnych wskazówek dojazdu głosem Morgana Freemana. Nowoczesne iteracje, takie jak wygłosił przemówienie Lub AI Voice Prime firmy Elevenlab Są o wiele bardziej zdolne, ale wciąż wymagają stosów materiału źródłowego, aby właściwie naśladować ich tematykę – a następnie kolejną górę różnych danych dla każdego. licencjat. ostatni. Temat, nad którym chcesz ćwiczyć.

Voicebox tak, dzięki nowej metodzie treningu TTS bez przycinania. Wyniki testów porównawczych nie są nawet bliskie, ponieważ sztuczna inteligencja Meta podobno przewyższa obecny stan techniki zarówno pod względem przejrzystości (1,9% wskaźnika błędów w porównaniu z 5,9%), jak i „podobieństwa dźwięku” (złożony wynik od 0,681 do 0,580 w SOA), każdy Działa nawet 20 razy szybciej niż dzisiejsze najlepsze systemy zamiany tekstu na mowę.

Ale nie ustawiaj jeszcze swoich celebrytów w kolejce, ani aplikacja Voicebox, ani jej kod źródłowy nie zostały w tej chwili udostępnione publicznie, potwierdził Meta w piątek, powołując się na „potencjalne ryzyko niewłaściwego użycia” pomimo „imponującego użycia”. Przypadki generatywnych modeli mowy”. Zamiast tego firma udostępniła serię przykładów dźwiękowych (patrz powyżej/poniżej) jako dodatek do wstępnej pracy badawczej programu. Zespół badawczy ma nadzieję, że w przyszłości technologia znajdzie zastosowanie w protetyce dla pacjentów z uszkodzonymi strunami głosowymi oraz NPC w grze i asystentów cyfrowych.

Konrad Borkowski

Konrad Borkowski jest autorem serwisu Biotworzywa.com.pl, gdzie zajmuje się tworzeniem przystępnych i rzetelnych materiałów dotyczących aktualnych wydarzeń z kraju i ze świata. W swoich tekstach porusza tematy związane z polityką, gospodarką, technologią, sportem, kulturą i stylem życia. Koncentruje się na jasnym przekazie, użytecznych informacjach i historiach istotnych dla czytelników. Jego celem jest dostarczanie czytelnikom aktualnych, przejrzystych i angażujących treści.

READ Po prawie trzech dekadach Microsoft podnosi maksymalny rozmiar partycji FAT32 w systemie Windows

Google Translate przechodzi największą metamorfozę od lat. Aplikacja na Androida z nowym wyglądem

Google One z AI tanieje. Firma obniża ceny i zwiększa przestrzeń na dane

mObywatel z nową wyszukiwarką. Wystarczy wpisać jedno słowo

Google Translate przechodzi największą metamorfozę od lat. Aplikacja na Androida z nowym wyglądem

Samsung szykuje nie tylko nowy zegarek. Galaxy Watch Ultra 2 i tajemniczy Galaxy Able nadchodzą

Były twórca Halo ujawnia kulisy pracy w Xboxie: „To był absurdalny pomysł”

Google One z AI tanieje. Firma obniża ceny i zwiększa przestrzeń na dane

Dodaj komentarz Anuluj pisanie odpowiedzi

More Stories

Google Translate przechodzi największą metamorfozę od lat. Aplikacja na Androida z nowym wyglądem

Google One z AI tanieje. Firma obniża ceny i zwiększa przestrzeń na dane

mObywatel z nową wyszukiwarką. Wystarczy wpisać jedno słowo

You may have missed

Google Translate przechodzi największą metamorfozę od lat. Aplikacja na Androida z nowym wyglądem

Samsung szykuje nie tylko nowy zegarek. Galaxy Watch Ultra 2 i tajemniczy Galaxy Able nadchodzą

Były twórca Halo ujawnia kulisy pracy w Xboxie: „To był absurdalny pomysł”

Google One z AI tanieje. Firma obniża ceny i zwiększa przestrzeń na dane