ElevenLabs ma bardzo duży problem - jest Gemini 3.1 Flash TTS

Najważniejsze | Newsy

17 kwietnia 2026

autor: Wojciech Piechocki

Opinie: 0

ElevenLabs ma bardzo duży problem - jest Gemini 3.1 Flash TTS

Google zaprezentował Gemini 3.1 Flash TTS, nowy model text to speech, który ma oferować wyraźnie lepszą kontrolę nad generowanym głosem, większą ekspresję i wyższą jakość mowy. Nowość została ogłoszona 15 kwietnia 2026 roku i od razu zaczęła trafiać do deweloperów w wersji preview przez Gemini API i Google AI Studio, do klientów biznesowych w Vertex AI oraz do użytkowników Workspace przez usługę Google Vids.

Najważniejszą zmianą w Gemini 3.1 Flash TTS są tak zwane audio tags, czyli znaczniki dodawane bezpośrednio do tekstu, które pozwalają precyzyjnie sterować stylem głosu, tempem wypowiedzi i sposobem interpretacji treści. Google chce w ten sposób dać twórcom i firmom znacznie większą kontrolę nad tym, jak brzmi wygenerowana wypowiedź. Chodzi już nie tylko o samo odczytanie tekstu, ale o nadanie mu określonego charakteru, tonu i emocji.

Firma podkreśla, że to jej najbardziej naturalny i ekspresyjny model TTS do tej pory. W materiale podano też wynik 1211 punktów Elo w rankingu Artificial Analysis TTS, który opiera się na ślepych ocenach użytkowników porównujących jakość syntetycznej mowy. Google zaznacza również, że model został umieszczony w najbardziej atrakcyjnym segmencie zestawienia Artificial Analysis, łącząc wysoką jakość generowania mowy z niskim kosztem.

Gemini 3.1 Flash TTS wspiera ponad 70 języków i oferuje natywne generowanie dialogów z wieloma mówcami. Takie scenariusze są dziś coraz częściej potrzebne w materiałach marketingowych, aplikacjach głosowych, filmach instruktażowych, systemach obsługi klienta czy narzędziach edukacyjnych. Google pozycjonuje nowy model jako platformę dla przedsiębiorstw budujących bardziej zaawansowane usługi audio.

W Google AI Studio deweloperzy dostają dodatkowe narzędzia, które mają stawiać ich w roli reżysera. Można definiować kontekst sceny, opisywać środowisko i sposób prowadzenia dialogu, przypisywać różnym postaciom odrębne profile głosowe, a także dodawać notatki sterujące tempem, tonem i akcentem. Gotowe ustawienia można potem wyeksportować jako kod do Gemini API, aby zachować ten sam styl i brzmienie głosu w różnych projektach oraz na różnych platformach.

Google mocno akcentuje też aspekt bezpieczeństwa. Wszystkie materiały audio wygenerowane przez Gemini 3.1 Flash TTS mają być znakowane za pomocą SynthID. To niewidoczny dla użytkownika watermark osadzany bezpośrednio w sygnale audio, który ma ułatwiać wykrywanie treści wygenerowanych przez AI i ograniczać ryzyko dezinformacji.

Opinie:

Rekomendowane:

Test Chery Tiggo 8 PHEV Prestige – luksusowy SUV, siedem miejsc, 279 KM za 160 tysięcy

Najważniejsze | Newsy | Recenzje

6 lipca 2026

Test Chery Tiggo 8 PHEV Prestige – luksusowy SUV, siedem miejsc, 279 KM za 160 tysięcy

Test Chery Tiggo 4 Hybrid — chiński SUV za 100 tysięcy, który mocno miesza w segmencie B

Najważniejsze | Newsy | Recenzje

29 czerwca 2026

Test Chery Tiggo 4 Hybrid — chiński SUV za 100 tysięcy, który mocno miesza w segmencie B

Rozmawialiśmy z członkiem zarządu PLAY – światłowodowe plany operatora są bardzo ambitne

Najważniejsze | Newsy

29 czerwca 2026

Rozmawialiśmy z członkiem zarządu PLAY – światłowodowe plany operatora są bardzo ambitne

Sprawdziliśmy elektrycznego Xpeng G6 Long Range Pro 296 KM – niesamowity luksus w atrakcyjnej cenie

Najważniejsze | Newsy | Recenzje

22 czerwca 2026

Sprawdziliśmy elektrycznego Xpeng G6 Long Range Pro 296 KM – niesamowity luksus w atrakcyjnej cenie

Akcje partnerskie:

Orange to nie tylko światłowody i komórki – rozmawiamy o najnowocześniejszych usługach dla klientów biznesowych operatora

Akcje partnerskie | Newsy

13 lipca 2026

Orange to nie tylko światłowody i komórki – rozmawiamy o najnowocześniejszych usługach dla klientów biznesowych operatora

Nowa wakacyjna oferta - Orange kusi światłowodem, telewizją i Amazon Prime

Akcje partnerskie | Newsy

1 lipca 2026

Nowa wakacyjna oferta w Orange

Roborock RockMow Z1 Z115 – test kosiarki automatycznej z napędem 4WD - ambitny debiut Roborocka w ogrodzie

Akcje partnerskie | Newsy

29 czerwca 2026

Roborock RockMow Z1 Z115 – test kosiarki automatycznej z napędem 4WD - ambitny debiut Roborocka w ogrodzie

Dreame X60 Pro Ultra Complete – konkurencja będzie musiała skopiować jego nowości

Akcje partnerskie | Newsy

26 czerwca 2026

Dreame X60 Pro Ultra Complete – konkurencja będzie musiała skopiować jego nowości

Zabraliśmy Galaxy A57 5G do San Francisco – sprawdziliśmy, czy sprzedażowy hit sprawdza się jako wakacyjny aparat i kamera

Akcje partnerskie | Newsy

26 czerwca 2026

Zabraliśmy Galaxy A57 5G do San Francisco – sprawdziliśmy, czy sprzedażowy hit sprawdza się jako wakacyjny aparat i kamera

Wakacje zacznijmy od wprowadzenia kilku prostych zasad

Akcje partnerskie | Newsy

25 czerwca 2026

ElevenLabs ma bardzo duży problem - jest Gemini 3.1 Flash TTS

Opinie:

Rekomendowane:

Test Chery Tiggo 8 PHEV Prestige – luksusowy SUV, siedem miejsc, 279 KM za 160 tysięcy

Test Chery Tiggo 4 Hybrid — chiński SUV za 100 tysięcy, który mocno miesza w segmencie B

Rozmawialiśmy z członkiem zarządu PLAY – światłowodowe plany operatora są bardzo ambitne

Sprawdziliśmy elektrycznego Xpeng G6 Long Range Pro 296 KM – niesamowity luksus w atrakcyjnej cenie

Akcje partnerskie:

Orange to nie tylko światłowody i komórki – rozmawiamy o najnowocześniejszych usługach dla klientów biznesowych operatora

Nowa wakacyjna oferta w Orange

Roborock RockMow Z1 Z115 – test kosiarki automatycznej z napędem 4WD - ambitny debiut Roborocka w ogrodzie

Dreame X60 Pro Ultra Complete – konkurencja będzie musiała skopiować jego nowości

Zabraliśmy Galaxy A57 5G do San Francisco – sprawdziliśmy, czy sprzedażowy hit sprawdza się jako wakacyjny aparat i kamera

Wakacje zacznijmy od wprowadzenia kilku prostych zasad