Alig több mint egy évvel azután, hogy az OpenAI lehetővé tette a ChatGPT felhasználók számára, hogy közvetlenül a chatbotból hozzanak létre képeket és dizájnokat, a vállalat most bejelentette a ChatGPT Images 2.0-t. Az OpenAI egy “lépésváltásként” jellemzi az új rendszert a képalkotó modellek terén, különösen ami a részletes utasítások követését, a sűrű szövegek megjelenítését, valamint a tárgyak elhelyezését és egymáshoz való viszonyítását illeti. A cég szerint ezek a képességek egy olyan eszközt eredményeznek, amely megbízhatóbb, ha a pontosság, a konzisztencia és a vizuális összhang a legfontosabb.
Az OpenAI kiemelt figyelmet fordított arra is, hogy a Images 2.0 jobban megértse és megjelenítse a nem latin betűs szövegeket. A vállalat “jelentős előrelépésekről” számol be a japán, koreai, kínai, hindi és bengáli nyelvek kezelésében. Emellett az új modell hűbben képes visszaadni a különböző vizuális nyelvek sajátos jellemzőit, ami az OpenAI szerint hasznosabbá teszi olyan feladatokhoz, mint a játékprototípusok készítése vagy a storyboard-ok rajzolása. A modell nagyobb rugalmasságot kínál a képarányok terén is, lehetővé téve akár 3:1 széles és 1:3 magas képek generálását, valamint akár 2K felbontású dizájnok létrehozását is.
Az új funkciók közé tartozik, hogy a modell egyszerre akár nyolc képet is képes előállítani. A ChatGPT Images 2.0 már ma elérhető minden ChatGPT-felhasználó számára, beleértve az ingyenes és a Go csomagokat is. A Plus és Pro előfizetők hozzáférhetnek a fejlettebb kimenetekhez. Az OpenAI a modellt az API-szolgáltatásán és a Codex kódolóalkalmazáson keresztül is elérhetővé teszi, amelyet nemrégiben frissítettek beépített képalkotási képességekkel.
Érkezik a ChatGPT Images 2.0
Az új modell első ízben rendelkezik érvelési képességekkel, ami lehetővé teszi számára, hogy például internetes kereséseket végezzen és ellenőrizze a saját kimeneteit. Ez a funkció különösen hasznos lehet olyan helyzetekben, ahol a pontosság és a konzisztencia elengedhetetlen. A vállalat szerint ezek a képességek egy olyan eszközt eredményeznek, amely megbízhatóbb, ha a vizuális összhang a legfontosabb. A modell képes például egy adott stílusban, mint a Pokémon harmadik generációjának pixel art stílusában létrehozni egy képet, ami korábban komoly kihívást jelentett a mesterséges intelligencia számára.
Egy előzetes teszt során a ChatGPT Images 2.0-nak sikerült egy teknőcpáncélos macskát létrehoznia a Pokémon harmadik generációjának pixel art stílusában, ami dicséretes teljesítmény. A modell ezután sikeresen átalakította ezt a képet átlátszó PNG formátumba, ami szintén egy olyan feladat, amivel más képalkotó modellek gyakran küzdenek. Végül a ChatGPT-nek sikerült egy négyoldalas mangát is létrehoznia a felhasználó macskájáról, amely egy napos napot élvez egy idilli városi patak partján.
A modell megjelenése nem sokkal azután történt, hogy az Anthropic is belépett a vizuális dizájn piacra a saját dizájn asszisztensével. A ChatGPT Images 2.0 elérhető a Free és Go csomagok felhasználói számára, míg a Plus és Pro előfizetők fejlettebb kimenetekhez juthatnak hozzá. Az OpenAI a modellt az API-szolgáltatásán és a Codex kódolóalkalmazáson keresztül is elérhetővé teszi, ami tovább bővíti a felhasználási lehetőségeket.

© OpenAI
Forrás: Engadget.com ↗̱

