Bár a mesterséges intelligencia (AI) ma már lenyűgöző teljesítményre képes, például fotorealisztikus képeket generál, regényeket ír és akár tudományos áttöréseket is segít elérni, egy alapvető feladat továbbra is kifog rajta: az idő leolvasása.
Tartalomjegyzék
Egy friss kutatás rávilágít arra, hogy a legfejlettebb nyelvi modellek is komoly nehézségekkel küzdenek, ha analóg órákról vagy naptárakról kell adatokat kiolvasni.
A kutatás és az AI gyengeségei
Az Edinburghi Egyetem kutatói hét ismert multimodális nagy nyelvi modellt teszteltek, amelyek képesek különböző típusú médiát értelmezni és generálni. A kutatás fő célja az volt, hogy kiderítsék, ezek az AI-modellek mennyire képesek az idővel kapcsolatos kérdések megválaszolására, ha analóg órák vagy naptárak képei alapján kell információt szolgáltatniuk. Az eredmények rávilágítottak arra, hogy a mesterséges intelligencia ezen a téren még mindig messze van az emberi képességektől.
A kutatók szerint az idő értelmezése és a vizuális információk alapján történő logikai következtetés kulcsfontosságú számos valós alkalmazásban, például események ütemezésénél vagy autonóm rendszerek működésénél. Ennek ellenére a legtöbb multimodális nyelvi modell eddigi fejlesztése főként az objektumfelismerésre, a képaláírás-generálásra és a jelenetek értelmezésére koncentrált, míg az időbeli következtetések vizsgálata háttérbe szorult.
Az AI és az analóg órák kihívásai

A kutatás során az OpenAI GPT-4o és GPT-o1, a Google DeepMind Gemini 2.0, az Anthropic Claude 3.5 Sonnet, a Meta Llama 3.2-11B-Vision-Instruct, az Alibaba Qwen2-VL7B-Instruct és a ModelBest MiniCPM-V-2.6 modelleket vetették alá teszteknek. Az AI-rendszereknek különböző analóg órákról – köztük római számokkal ellátott, szokatlan színű számlapokkal rendelkező és más speciális kialakítású órákról – kellett leolvasniuk az időt. Emellett a kutatók tíz évnyi naptárképet is bemutattak a modelleknek, és különféle időpontokkal kapcsolatos kérdéseket tettek fel nekik.
Az analóg órák esetében az AI-modellek katasztrofálisan teljesítettek: az időt csupán az esetek 25%-ában tudták helyesen leolvasni. A kutatók szerint a problémát főként az okozza, hogy a modellek nehezen ismerik fel az óramutatókat és azok szögeit a számlapon. Különösen a római számokkal ellátott órák és az olyan számlapok jelentettek kihívást, amelyek nem rendelkeztek másodpercmutatóval.
A naptárfeladat eredményei és következtetések
A kutatás nemcsak az órák, hanem a naptárak kapcsán is rávilágított az AI hiányosságaira. A modelleknek olyan kérdésekre kellett válaszolniuk, mint például „Milyen napra esik az újév napja?” vagy „Melyik az év 153. napja?”. Bár a teljesítmény itt jobbnak bizonyult, még a legjobb modell is 20%-os hibaaránnyal dolgozott.
A vizsgálat során a Google Gemini 2.0 érte el a legjobb eredményt az órák leolvasásában, míg a GPT-o1 a naptárfeladatokban volt a legpontosabb, 80%-os helyes válaszaránnyal. Ennek ellenére a kutatók szerint még mindig jelentős eltérés van az emberi és az AI-képességek között ezen a téren.
Miért fontos az AI számára az idő értelmezése?
A kutatás egyik szerzője, Rohit Saxena, az Edinburghi Egyetem Informatikai Karának doktorandusza szerint ezek az eredmények komoly problémát jeleznek az AI fejlesztése szempontjából. Az emberek már kisgyermekkorban megtanulják az órák és naptárak értelmezését, így az, hogy az AI még mindig nem képes pontosan elvégezni ezt a feladatot, komoly hiányosságot jelent.
Ha a mesterséges intelligenciát sikeresen szeretnék integrálni az időérzékeny alkalmazásokba, például az automatizált ütemezésekbe, önvezető járművekbe vagy asszisztens technológiákba, akkor ezt a problémát mielőbb orvosolni kell. Jelen állás szerint ugyan az AI képes lehet házi feladatot megoldani vagy komplex tudományos feladatokat elvégezni, de arra még nem lehet számítani, hogy pontosan beosztja az időnket.