25 февраля
OpenAI заявила, что тест, используемый для измерения навыков программирования ИИ, загрязнён — вот почему.
🧩 OpenAI объявила, что главный бенчмарк для оценки навыков программирования ИИ «запятнан» — модель могла обучаться на его заданиях. Компания планирует прекратить его использование, подчёркивая, что текущие метрики недостаточно чисты, а отрасль в целом сталкивается с проблемой измерения реальных способностей ИИ из‑за возможного «утечки» тестовых данных. Это сигнал к пересмотру подходов к оценке AI‑разработчиков.