У вихідні Meta представила дві нові моделі штучного інтелекту Llama 4 – легку Scout і середньоформатну Maverick, яка, за їх словами, перевершує конкурентів у популярних тестах. Однак з’ясувалося, що статистика від Meta може бути обманливою, повідомляє The Verge.
У пресрелізі Meta зауважила високі показники Maverick у рейтингу LMArena, але користувачі виявили, що тестувалася не публічна модель, а експериментальна версія, оптимізована для взаємодії в чаті. Це факт не було вказано зразу, що викликало недовіру у спільноти.
Керівництво LMArena звинуватило Meta в недостатній прозорості і почало оновлення правил, щоб уникнути подібних ситуацій у майбутньому. Організація вважає, що важливо, щоб тести проводилися на реальних моделях, а не на спеціально налаштованих варіантах.