Posted 28 июня, 07:56

Published 28 июня, 07:56

Modified 28 июня, 07:58

Updated 28 июня, 07:58

Сбер и SberDevices представили AI-детектор GigaChek для определения текстов от ИИ

Сбер и SberDevices представили AI-детектор GigaChek для определения текстов от ИИ

28 июня 2024, 07:56
Фото: Изображение Midjourney
За последний месяц 6% из 220 000 статей на новостных ресурсах, которые проанализировали наши специалисты, написали генеративные нейросети.

На технологической конференции GigaConf 2024 исследователи Сбера и компании SberDevices представили GigaCheck — детектор для определения авторства русскоязычных текстов.

Ключевая метрика TPR&FPR (True positive rate & False positive rate) = 0,01 — 94,7% означает, что при частоте ложных срабатываний не более 1% точность работы GigaCheck составляет 94,7%.

Сейчас GigaCheck дает обобщенную оценку авторства. Если в одном тексте использованы как фрагменты, написанные человеком, так и фрагменты, сгенерированные искусственным интеллектом, то определение авторства осуществляется по преобладающему контенту. В ближайшее время GigaCheck сможет также определять, какие именно фрагменты текста сгенерированы LLM.

Работу детектора текстов GigaCheck оценят эксперты, занимающиеся проверкой подлинности научных публикаций, диссертаций и дипломов.

Сергей Марков, управляющий директор Управления экспериментальных систем машинного обучения SberDevices:

— С помощью GigaCheck мы проанализировали 220 000 текстов новостных ресурсов за последний месяц и выявили, что в среднем 6% из них создано LLM, а в некоторых крупных изданиях превышает треть от всего опубликованного контента. До сих пор вероятность создания подобного работающего детектора текстов считалась крайне низкой. Многие эксперты расценивали эту задачу как практически нерешаемую. Для разработки такого сервиса требуются серьезные ресурсы и большие объемы данных. Но даже неограниченных ресурсов может оказаться недостаточно. Например, один из признанных лидеров в области разработки систем искусственного интеллекта, компания OpenAI, в начале 2023 года анонсировал свой детектор для англоязычных текстов, но со временем был вынужден закрыть доступ к нему из-за невысокой точности. Тем важнее достижение нашей команды.