Жасанды интеллект адамзаттың соңғы емтиханын тапсыра бастады

Aikyn.KZ парақшасынан алынған ақпаратқа сәйкес, Qazaq24.com хабарлайды..

Aikyn.kz адамның емтиханынан ЖИ жүйелері қалай өткенін scitechdaily.com сайтына сүйеніп бағалайды.

Халықаралық ауқымдағы жаңа жоба «Адамзаттың соңғы емтиханы» (Humanity’s Last Exam, HLE) іске асырыла бастады. Оның мақсаты – бүгінгі ең озық ЖИ модельдерінің шынайы мүмкіндіктерін анықтау.

Бұрынғы MMLU сияқты танымал бенчмарк тестер енді ЖИ мүмкіндігін толық ашып көрсетпейді. Себебі заманауи модельдер бұл емтихандардан өте жоғары балл жинай бастады. Сондықтан әлемнің түкпір-түкпірінен жиналған 1000-ға жуық зерттеуші, соның ішінде Техастың A&M университетінің профессорлары мен ғалымдары, мүлде жаңа форматтағы сынақ әзірледі.

Жаңа емтихан 2500 сұрақтан тұрады. Ол математика, жаратылыстану ғылымдары, гуманитарлық пәндер, көне тілдер мен өте тар маманданған академиялық салаларды қамтиды. Жобаның қатысушыларының бірі, Техас A&M университетінің доценті Тунг Нгуен, бұл бастаманың басты идеясын былай түсіндіреді:

«ЖИ жүйелері адамға арналған тестілерде өте жоғары нәтиже көрсете бастағанда, олар адамдық түсінік деңгейіне жақындады деп ойлап қаласыз. Бірақ біздің зерттеу интеллект тек үлгіні тану емес, сонымен бірге тереңдік, контекст және маманданған білім екенін еске салады», – дейді ол.

HLE-ге енгізілген әр сұрақтың бір ғана нақты, тексерілетін жауабы болуы шарт және оны интернеттен тез тауып алу мүмкін болмау керек. Сұрақтар ежелгі пальмира жазуларын аударудан бастап, құстар анатомиясындағы өте ұсақ құрылымдарды тануға дейінгі күрделі тақырыптарды қамтыған. Әр сұрақ алдын ала қазіргі үздік саналатын ЖИ жүйелерінде тексерілген. Егер модель дұрыс жауап берсе, ол сұрақ тестен алынып тасталған. Бұл әдіс жаңа емтиханды қазіргі ЖИ үшін әдейі күрделі еткен.

Нәтижелер де осыны дәлелдеді. Алғашқы сынақтарда GPT-4o – 2,7%, Claude 3.5 Sonnet – 4,1%, OpenAI o1 – 8% ғана нәтиже көрсетті. Кейінгі жаңа жүйелер, соның ішінде Gemini 3.1 Pro мен Claude Opus 4.6, дәлдікті 40-50% шамасына дейін арттырғанымен, толық үстемдікке жете алмады.Зерттеушілердің айтуынша, бұндай емтихан ЖИ-ді «қорқыныш көзі» емес, түсіну құралы ретінде бағалауға көмектеседі. «Бұл ЖИ-мен жарыс емес. Бұл – осы жүйелердің қай тұста мықты, қай жерде әлсіз екенін түсіну тәсілі. Сол түсінік бізге қауіпсіз әрі сенімді технология жасауға көмектеседі», – дейді Нгуен.

Сарапшылардың пікірінше, HLE – ЖИ мен адам интеллекті арасындағы алшақтықты ең айқын көрсеткен жаңа өлшемдердің бірі. Технология қанша дамыса да, әзірге адами таным мен контекстің орны бөлек екенін осы емтихан тағы дәлелдеген. Зерттеудің толық нұсқасы Nature журналында жарияланды.

Жағдайды бақылауды жалғастырыңыз, Qazaq24.com әрқашан ең жаңа жаңалықтарды ұсынады.