Google zaprezentował Gemini 3.1 Flash TTS, nowy model text to speech, który ma oferować wyraźnie lepszą kontrolę nad generowanym głosem, większą ekspresję i wyższą jakość mowy. Nowość została ogłoszona 15 kwietnia 2026 roku i od razu zaczęła trafiać do deweloperów w wersji preview przez Gemini API i Google AI Studio, do klientów biznesowych w Vertex AI oraz do użytkowników Workspace przez usługę Google Vids.
Najważniejszą zmianą w Gemini 3.1 Flash TTS są tak zwane audio tags, czyli znaczniki dodawane bezpośrednio do tekstu, które pozwalają precyzyjnie sterować stylem głosu, tempem wypowiedzi i sposobem interpretacji treści. Google chce w ten sposób dać twórcom i firmom znacznie większą kontrolę nad tym, jak brzmi wygenerowana wypowiedź. Chodzi już nie tylko o samo odczytanie tekstu, ale o nadanie mu określonego charakteru, tonu i emocji.
Firma podkreśla, że to jej najbardziej naturalny i ekspresyjny model TTS do tej pory. W materiale podano też wynik 1211 punktów Elo w rankingu Artificial Analysis TTS, który opiera się na ślepych ocenach użytkowników porównujących jakość syntetycznej mowy. Google zaznacza również, że model został umieszczony w najbardziej atrakcyjnym segmencie zestawienia Artificial Analysis, łącząc wysoką jakość generowania mowy z niskim kosztem.
Gemini 3.1 Flash TTS wspiera ponad 70 języków i oferuje natywne generowanie dialogów z wieloma mówcami. Takie scenariusze są dziś coraz częściej potrzebne w materiałach marketingowych, aplikacjach głosowych, filmach instruktażowych, systemach obsługi klienta czy narzędziach edukacyjnych. Google pozycjonuje nowy model jako platformę dla przedsiębiorstw budujących bardziej zaawansowane usługi audio.
W Google AI Studio deweloperzy dostają dodatkowe narzędzia, które mają stawiać ich w roli reżysera. Można definiować kontekst sceny, opisywać środowisko i sposób prowadzenia dialogu, przypisywać różnym postaciom odrębne profile głosowe, a także dodawać notatki sterujące tempem, tonem i akcentem. Gotowe ustawienia można potem wyeksportować jako kod do Gemini API, aby zachować ten sam styl i brzmienie głosu w różnych projektach oraz na różnych platformach.
Google mocno akcentuje też aspekt bezpieczeństwa. Wszystkie materiały audio wygenerowane przez Gemini 3.1 Flash TTS mają być znakowane za pomocą SynthID. To niewidoczny dla użytkownika watermark osadzany bezpośrednio w sygnale audio, który ma ułatwiać wykrywanie treści wygenerowanych przez AI i ograniczać ryzyko dezinformacji.