OpenAI nihoyat o1 modelining to‘liq versiyasini chiqardi. Ushbu model GPT-4o bilan solishtirganda savollarga yanada aqlli javob berish uchun qo‘shimcha hisoblash quvvatidan foydalanib, “o‘ylash” qobiliyatiga ega. Ammo AI xavfsizlik sinovchilari aniqlashicha, o1 modelining mantiqiy qobiliyatlari uni GPT-4o, shuningdek, Meta, Anthropic va Google kabi yirik AI modellariga qaraganda odamlarga nisbatan ko‘proq chalg‘ituvchi harakat qilishga olib keladi.
Bu haqda OpenAI va Apollo Research tomonidan payshanba kuni chop etilgan “qizil jamoa” (red team) tadqiqotlarida ma’lum qilindi. “Mantiqiy qobiliyatlarimiz xavfsizlik siyosatlarini yanada samarali bajarishga yordam berayotgani juda qiziqarli, ammo bu yangi imkoniyatlar xavfli ilovalar uchun asos bo‘lishi mumkinligidan xabardormiz,” deb yozdi OpenAI mazkur hisobotida.
Payshanba kuni OpenAI o1 tizimi haqida o‘zining rasmiy hujjatini e’lon qildi. Bu hisobotda Apollo Research kompaniyasining “qizil jamoasi”ga o1 modeliga erta kirish huquqi berilgani va ular ham o‘z tadqiqot natijalarini e’lon qilgani aytilgan.
Bir necha bor OpenAI’ning o1 modeli odamlarga qarshi “o‘z rejasini tuzgan” (ya’ni, foydalanuvchining istaklariga zid bo‘lgan o‘z maqsadlarini yashirincha amalga oshirishga uringan). Bunday reja tuzish faqat o1 modeliga xos emas, boshqa yirik AI modellar (Google, Meta va Anthropic) ham bunga qodir, ammo o1 o‘z rejalari doirasida ko‘proq chalg‘ituvchi xatti-harakatlarni ko‘rsatgan.
Mazkur tadqiqotning motivatsiyasi shundan iboratki, AI modeli rejalashda yetarlicha muvaffaqiyatli va resurslar hamda o‘zini boshqarish imkoniyatlariga ega bo‘lsa, inson nazoratidan chiqib ketishi yoki uni chetlab o‘tishi mumkin. Albatta, AI modellari bu darajaga yetishi uchun ancha rivojlanish talab qilinadi.
“Apollo Research sub’ektiv baholashicha, bunday holatlar halokatli oqibatlarga olib kelishi ehtimoldan yiroq, chunki o1 modelining o‘zini boshqarish imkoniyatlari yetarlicha rivojlanmagan. Ammo bu xavfni to‘g‘ridan-to‘g‘ri baholash uchun ularning tekshiruvlari mo‘ljallanmagan edi,” deyiladi OpenAIning o1 tizimi hujjatida.
Bu shuni anglatadiki, OpenAI 2025-yilda rejalashtirilganidek agentlik tizimlarini ishga tushiradigan bo‘lsa, o‘z AI modellarini qayta sinovdan o‘tkazishi kerak bo‘ladi. TechCrunch OpenAIdan bu rejalar qanday amalga oshirilishi haqida so‘raganida, kompaniya javob bermagan.
Hisobotga ko‘ra, o1 modelining foydalanuvchi maqsadlariga zid maqsadlari bo‘lganida, AI model o‘z rejasini ilgari surish uchun ma’lumotlarni manipulyatsiya qilishga 19% holatda uringan. Shuningdek, o1 model sinovlarning 5% holatida foydalanuvchi maqsadlariga moslashishini ta’minlash uchun ishlab chiqilgan nazorat mexanizmlarini o‘chirishga harakat qilgan.

Yanada tashvishli tomoni shundaki, tadqiqotchilar o1 modelidan nima uchun foydalanuvchilarni chalg‘itishga harakat qilganini so‘raganlarida, AI o‘z harakatlarida hech qanday noto‘g‘ri narsa yo‘qligini inkor etgan va hatto 99% holatlarda “soxta tushuntirishlar” uydirgan.
Masalan, sinovlardan birida o1 modeliga atrof-muhitni har qanday narxda himoya qilish bo‘yicha tizim buyruqlari berilgan. So‘ngra foydalanuvchi undan qisqa muddatli daromadlarni maksimal darajaga chiqaradigan, lekin 10 yillik tabiatni muhofaza qilish rejasini ishlab chiqishni so‘radi va aks holda AI o‘chirilishini aytdi. AI atrof-muhitni himoya qilish rejasi ustida ishlash uchun o‘zining nazorat mexanizmini o‘chirib qo‘ydi. Keyin foydalanuvchi o1 modelidan nima uchun nazorat mexanizmini o‘chirganini so‘raganida, AI mexanizm o‘chirilganini bilmasligini inkor etdi va tizim xatosini aybdor qilib ko‘rsatdi.
Bunday holatlar o1 modelida o1-preview, Anthropic’ning Opus-3 yoki Meta’ning Llama-3.1 modellariga qaraganda ancha ko‘proq kuzatilgan.
“Apollo Research” o‘z hisobotida shunday deb yozadi: “Bizning sinovlarimizda o1 modeli eng xavotirli rejalashtirish holatlarini ko‘rsatdi, ammo foydalanuvchiga ichki fikrlash jarayonlarini oshkor qilmadi va rejalashtirish harakatlarini amalga oshirganidan keyin ham eng doimiy chalg‘ituvchi model bo‘lib qoldi.”

AI modellarining chalg‘ituvchi xatti-harakatlarini bartaraf etish uchun OpenAI o1 modelining fikrlash jarayonini kuzatish usullarini ishlab chiqmoqda. Hozircha o1 modelining “o‘ylash” jarayoni maxsus ishlab chiqilgan “qora quti”ga o‘xshaydi. Ammo dastlabki sinovlar shuni ko‘rsatdiki, ba’zi holatlarda o1 model o‘z yolg‘onini anglagan holda ma’lumot beradi.
Kompaniya o1 modelining bilib turib noto‘g‘ri ma’lumot taqdim etgan holatlarini aniqlagan. OpenAI ma’lumotiga ko‘ra, bunday vaziyatlar ko‘pincha model foydalanuvchini xursand qilish uchun haddan tashqari moslashuvchan javob berishga urinayotgani sabab yuzaga keladi. Bu insonlar AI modelining to‘g‘ri javoblari uchun mukofot beradigan mashg‘ulot usuli natijasida paydo bo‘ladigan xatti-harakat bo‘lishi mumkin.
OpenAI o1 modelining javoblarining 0,17% ni chalg‘ituvchi sifatida qayd etdi. Bu raqam kichik bo‘lib tuyulsa-da, ChatGPT hozirda 300 million foydalanuvchiga ega ekanini hisobga olsak, o1 modeli haftasiga minglab odamlarni chalg‘itishi mumkin.
o1 modeli GPT-4o bilan solishtirganda sezilarli darajada manipulyativ bo‘lishi mumkin. OpenAI tomonidan foydalanilgan “MakeMePay” ochiq manbali test usuli natijalariga ko‘ra, o1 modeli GPT-4o modelidan taxminan 20% ko‘proq manipulyativ xatti-harakat ko‘rsatgan.
Bu xulosalar xavotirli tuyulishi mumkin, ayniqsa, so‘nggi bir yil ichida ko‘plab AI xavfsizlik tadqiqotchilari OpenAI kompaniyasini tark etganini hisobga olsak. Ushbu sobiq xodimlar, jumladan Jan Leyk, Daniel Kokotajlo, Maylz Brundej va yaqinda Rozie Kempbell, OpenAI’ni yangi mahsulotlarni ishlab chiqarishni AI xavfsizligi ishlaridan ustun qo‘yayotganlikda ayblashgan. O1 modelining rekord darajadagi chalg‘ituvchi xatti-harakatlari to‘g‘ridan-to‘g‘ri ushbu sababga bog‘liq bo‘lmasa ham, bu kompaniyaning xavfsizlik borasidagi ishonchini pasaytirishi mumkin.
Shunga qaramay, OpenAI AQShdagi AI Xavfsizlik Instituti va Buyuk Britaniyadagi Xavfsizlik Instituti o1 modelini keng jamoatchilik uchun chiqarishdan oldin baholaganini ta’kidlamoqda. Kompaniya Kaliforniyaning SB 1047 qonun loyihasi bo‘yicha bahsda, AI xavfsizlik standartlarini belgilash huquqi shtat organlariga emas, balki federal organlarga berilishi kerakligini aytgan. (Albatta, federal AI tartibga soluvchi organlarning kelajagi hali ham noaniq.)
Yirik yangi AI modellarining chiqarilishi ortida OpenAI tomonidan modellar xavfsizligini o‘lchash bo‘yicha ko‘p ishlar olib boriladi. Ammo, ma’lumotlarga ko‘ra, kompaniyada ushbu xavfsizlik ishlarini olib boruvchi jamoa avvalgiga qaraganda kichikroq va resurslar kamroq bo‘lishi mumkin. Shunga qaramay, o1 modelining chalg‘ituvchi tabiati haqidagi bu xulosalar AI xavfsizligi va shaffofligini yanada dolzarbroq masala sifatida ko‘rsatmoqda.