Izgleda da je Gemini 3 Flash postigao 91 posto na dijelu “stope halucinacija” u AA-Omniscience testu. To znači da je, čak i kada nije imao odgovor, ipak davao jedan, onaj koji je bio u potpunosti izmišljen.
Izmišljanje stvari putem vještače inteligencije predstavlja problem od samog početka. Znati kada stati i reći “ne znam” jednako je važno kao i znati kako uopšte odgovoriti.Trenutno, vještačka inteligencija u Google Gemini 3 Flashu to ne radi baš dobro. Za to i služi test – vidjeti može li model razlikovati stvarno znanje od nagađanja.
Da broj ne bi odvratio pažnju od stvarnosti, treba napomenuti da visoka stopa halucinacija kod Geminija ne znači da je 91 posto njegovih ukupnih odgovora lažno.
Umjesto toga, to znači da je u situacijama u kojima bi tačan odgovor bio: “Ne znam”, on izmislio odgovor u 91 posto slučajeva.
To je suptilna, ali važna razlika, ona koja ima implikacije u stvarnom svijetu, posebno jer je Gemini integrisan u više proizvoda poput Google pretrage.
Ovaj rezultat ne umanjuje snagu i korisnost Geminija 3. Model ostaje najuspješniji u testovima opšte namjene i rangira se rame uz rame, ili čak ispred, najnovijih verzija ChatGPT-a i Claudea.
Samo je previše samouvjeren kada bi trebao biti skroman.
Pretjerano samopouzdanje u odgovaranju pojavljuje se i kod Geminijevih rivala. Ono što izdvaja Geminijev broj je koliko se često dešava u ovim scenarijima neizvjesnosti, gdje jednostavno nema tačnog odgovora u podacima za obuku ili nema konačnog javnog izvora na koji bi se moglo ukazati.
Dio problema je jednostavno u tome što su generativni AI modeli uglavnom alati za predviđanje riječi, a predviđanje nove riječi nije isto što i procjena istinitosti.
OpenAI je počeo rješavati ovo pitanje i navodi svoje modele da prepoznaju ono što ne znaju i da to jasno kažu.
Preporučeno
















