Компания Anthropic представила BioMysteryBench — амбициозную попытку вырваться из замкнутого круга стандартных тестов вроде MMLU-Pro и GPQA, которые оценивают скорее объем зазубренной информации, чем реальные когнитивные способности. В то время как существующие инструменты, такие как BixBench или SciGym, тестируют нейросети на симуляциях и жестко структурированных данных, новый бенчмарк нацелен на самое сложное: хаотичную и неопределенную природу реальной биоинформатики. Это больше не экзамен на знание терминологии, а проверка способности модели работать в условиях «грязных» данных и решать открытые исследовательские задачи.
По словам Брианны, исследователя из группы Discovery в Anthropic, индустрия переросла Claude в роли простого справочника. Теперь цель состоит в том, чтобы выяснить, способна ли модель стать полноценным партнером, умеющим анализировать последовательности и интерпретировать биологические аномалии. На практике Claude начинает демонстрировать потенциал там, где требуется предлагать оригинальные решения для сложных систем, а не просто пересказывать содержание учебников. Тем не менее, разрыв между успешным прохождением тестов и генерацией прикладных научных гипотез все еще огромен.
В Anthropic признают: единого «экзамена на профпригодность» для ученых не существует, но BioMysteryBench максимально точно имитирует реальный процесс исследований и разработок (R&D). Claude перестает просто имитировать деятельность младшего научного сотрудника и пытается анализировать биологический шум, в котором вязнут менее продвинутые системы. Для технических директоров и руководителей лабораторий это важный сигнал: ИИ перестает быть инструментом для поиска ссылок и начинает претендовать на место в производственном цикле. Главный вопрос лишь в том, насколько надежна эта технология и не возникнут ли галлюцинации именно в тот момент, когда от модели потребуется интерпретация критической аномалии в геноме.