Jest nowy model do generowania grafiki - to on zastąpi Sorę

Newsy
Opinie: 0
Jest nowy model do generowania grafiki - to on zastąpi Sorę

 

OpenAI zaprezentowało ChatGPT Images 2.0. To nowy model generowania obrazów, który według firmy ma wyraźnie poprawiać precyzję wykonywania złożonych poleceń, lepiej odwzorowywać układ obiektów, skuteczniej renderować gęsty tekst i tworzyć grafiki w różnych proporcjach, od bardzo szerokich po pionowe formaty pod mobile. OpenAI podkreśla też większą spójność kompozycji oraz bardziej dopracowany wygląd gotowych materiałów.

Jedną z najważniejszych zmian ma być lepsza praca z językami innymi niż angielski. OpenAI przyznaje, że wcześniejsze modele były mocniejsze w angielskim i innych językach opartych na alfabecie łacińskim, a słabsze tam, gdzie tekst był bardziej złożony. W Images 2.0 firma deklaruje poprawę w renderowaniu tekstu w językach nielatynoskich, szczególnie po japońsku, koreańsku, chińsku, hindi i bengalsku. Model ma też lepiej radzić sobie z materiałami, w których język jest integralną częścią projektu, na przykład w plakatach, komiksach, diagramach czy planszach objaśniających.

 

OpenAI mocno akcentuje także wzrost jakości stylistycznej i realizmu. ChatGPT Images 2.0 ma lepiej odwzorowywać nie tylko fotorealizm, ale też charakterystyczne języki wizualne, takie jak manga, pixel art, kadry filmowe czy różne style ilustracyjne. W praktyce oznacza to większą zgodność z zadanym stylem, lepszą kontrolę nad światłem, teksturą i detalem oraz szersze zastosowanie w marketingu, storyboardach, projektowaniu gier i tworzeniu assetów wizualnych.

Nowością jest też głębsza integracja z modelami rozumującymi. OpenAI opisuje Images 2.0 jako pierwszy model obrazowy z funkcjami myślenia. Gdy w ChatGPT wybrany jest model thinking lub pro, system może korzystać z wyszukiwania w sieci dla aktualnych informacji, sprawdzać własne wyniki i tworzyć kilka różnych obrazów na podstawie jednego promptu. Firma podaje, że w takim trybie można wygenerować do ośmiu spójnych grafik jednocześnie, zachowując ciągłość postaci, obiektów i całej koncepcji wizualnej. 

ChatGPT Images 2.0 nadal może mieć problemy z zadaniami wymagającymi pełnego i spójnego modelu świata fizycznego, na przykład przy instrukcjach origami, łamigłówkach pokroju kostki Rubika, elementach ukrytych pod kątem lub odwróconych powierzchniach. Firma przyznaje również, że bardzo gęste i powtarzalne detale, takie jak drobiny piasku, nadal potrafią stanowić wyzwanie, a etykiety i diagramy mogą wymagać dodatkowej kontroli, zwłaszcza tam, gdzie liczy się absolutna precyzja strzałek i opisów.

Nowy model jest dostępny od dziś dla użytkowników ChatGPT i Codex, natomiast bardziej zaawansowane generowanie z funkcjami myślenia trafia do planów ChatGPT Plus, Pro i Business.

 

Opinie:

Rekomendowane:

Akcje partnerskie: