ArXiv вводит санкции за научный спам от нейросетей

Эпоха стремительного и бесконтрольного распространения академических знаний столкнулась с серьезным препятствием. ArXiv, фундамент современной науки, начинает зачистку платформы от «мусорного» контента, созданного искусственным интеллектом. Томас Диттерих, возглавляющий секцию компьютерных наук ArXiv, подтвердил: исследователей, уличенных в публикации текстов с неоспоримыми признаками генерации большими языковыми моделями (LLM), ждет годовой бан. Это не просто бюрократическая мера, а признание фундаментального краха модели доверия, на которой десятилетиями строилась открытая наука.

Когда в препринте всплывают галлюцинирующие ссылки или забытые служебные фразы в духе «Вот ваше резюме на 200 слов, хотите что-то изменить?», ArXiv официально признает работу недостоверной. Для авторов, решивших упростить себе задачу, это означает принудительное возвращение в эпоху жесткого контроля. По словам Диттериха, после нарушения исследователи лишаются права на мгновенную публикацию. Любые их последующие работы должны сначала пройти проверку в авторитетных рецензируемых изданиях и только после этого могут претендовать на место в архиве. Фактически это обнуляет главное преимущество современных разработок — скорость выхода на рынок.

Для бизнеса и технических руководителей этот институциональный сдвиг подсвечивает критический риск: загрязнение цепочки поставок данных. Когда открытые репозитории заполняются синтетическими ошибками, стоимость обучения новых моделей и наполнения корпоративных баз знаний резко растет. Диттерих приводит примеры вопиющей халатности, когда авторы оставляли пустые таблицы, которые нейросеть советовала «заполнить реальными числами». Теперь нельзя априори считать препринт продуктом человеческого труда, прошедшим проверку — презумпция качества мертва.

Ситуация выглядит как капитуляция автоматических систем фильтрации. Раз ArXiv признает, что алгоритмы не справляются с потоком галлюцинаций, единственным рычагом остается персональная ответственность. Внедрение внутренних фильтров верификации для R&D-команд становится вопросом выживания: если крупнейший агрегатор научных данных перестал доверять входящему потоку, компаниям тем более стоит пересмотреть свои производственные процессы.

Источник: The Verge AI →

Оцените материал

★ ★ ★ ★ ★

Генеративный ИИБольшие языковые моделиРегулирование ИИБезопасность ИИArXiv

ArXiv объявляет войну нейросетям: за LLM-спам в препринтах грозит годовой бан