5 listopada, 2024

Świat Biotworzyw

Informacje o Polsce. Wybierz tematy, o których chcesz dowiedzieć się więcej

Meta Voicebox AI to Dall-E do zamiany tekstu na mowę

Meta Voicebox AI to Dall-E do zamiany tekstu na mowę

Dziś jesteśmy o krok bliżej do ponadczasowej przyszłości celebrytów, którą zawsze obiecywano (od kwietnia). Meta zaprezentowała Voicebox, swój model konfiguracji zamiany tekstu na mowę, który obiecuje zrobić dla słowa mówionego to, co ChatGPT i Dall-E zrobili z szacunkiem dla generowania tekstu i obrazu.

Zasadniczo jest to generator tekstu na wyjście, podobnie jak GPT lub Dall-E – tylko zamiast tworzyć piękną prozę lub obrazy, wypluwa klipy audio. Meta definiuje system jako „nieregresywny model automatycznego dopasowywania przepływu, wyszkolony do wypełniania mowy, biorąc pod uwagę kontekst audio i tekstowy”. Został przeszkolony na ponad 50 000 godzin niefiltrowanego dźwięku. W szczególności Meta wykorzystała nagraną mowę i tekst z szeregu audiobooków należących do domeny publicznej napisanych w języku angielskim, francuskim, hiszpańskim, niemieckim, polskim i portugalskim.

Według naukowców ten zróżnicowany zestaw danych pozwala systemowi na generowanie bardziej konwersacyjnej mowy, niezależnie od języków używanych przez każdą ze stron. „Nasze wyniki pokazują, że modele rozpoznawania mowy wyszkolone na sztucznej mowie generowanej przez skrzynkę głosową działają prawie tak dobrze, jak modele wyszkolone na prawdziwej mowie”. Co więcej, generowana komputerowo mowa była wykonywana przy zmniejszonym współczynniku błędów wynoszącym zaledwie 1 procent, w porównaniu z redukcją od 45 do 70 procent w obecnych modelach zamiany tekstu na mowę.

System został najpierw nauczony przewidywania sylab mowy na podstawie otaczających je sylab, a także tekstu sylaby. „Po nauczeniu się wypełniania mowy z kontekstu model może zastosować to w zadaniach generowania mowy, w tym w tworzeniu fragmentów w środku nagrania audio bez konieczności całkowitego odtwarzania danych wejściowych” – wyjaśnili badacze Meta.

Podobno Voicebox może również aktywnie edytować klipy audio, eliminować hałas z mowy, a nawet zastępować źle wymawiane słowa. „Osoba może zidentyfikować każdą początkową część mowy, która jest zepsuta przez hałas (np. – stwierdzili naukowcy.

READ  Dom, który król Karol kupił dla przyjaciela zmarłej królowej

Generatory zamiany tekstu na mowę są już dostępne od minuty — w ten sposób Twoi rodzice korzystający z TomToms byli w stanie udzielać Ci nieuchwytnych wskazówek dojazdu głosem Morgana Freemana. Nowoczesne iteracje, takie jak wygłosił przemówienie Lub AI Voice Prime firmy Elevenlab Są o wiele bardziej zdolne, ale wciąż wymagają stosów materiału źródłowego, aby właściwie naśladować ich tematykę – a następnie kolejną górę różnych danych dla każdego. licencjat. ostatni. Temat, nad którym chcesz ćwiczyć.

Voicebox tak, dzięki nowej metodzie treningu TTS bez przycinania. Wyniki testów porównawczych nie są nawet bliskie, ponieważ sztuczna inteligencja Meta podobno przewyższa obecny stan techniki zarówno pod względem przejrzystości (1,9% wskaźnika błędów w porównaniu z 5,9%), jak i „podobieństwa dźwięku” (złożony wynik od 0,681 do 0,580 w SOA), każdy Działa nawet 20 razy szybciej niż dzisiejsze najlepsze systemy zamiany tekstu na mowę.

Ale nie ustawiaj jeszcze swoich celebrytów w kolejce, ani aplikacja Voicebox, ani jej kod źródłowy nie zostały w tej chwili udostępnione publicznie, potwierdził Meta w piątek, powołując się na „potencjalne ryzyko niewłaściwego użycia” pomimo „imponującego użycia”. Przypadki generatywnych modeli mowy”. Zamiast tego firma udostępniła serię przykładów dźwiękowych (patrz powyżej/poniżej) jako dodatek do wstępnej pracy badawczej programu. Zespół badawczy ma nadzieję, że w przyszłości technologia znajdzie zastosowanie w protetyce dla pacjentów z uszkodzonymi strunami głosowymi oraz NPC w grze i asystentów cyfrowych.