Любопытная статья опубликована в Коммерсанте. Дзен запретил компании OpenAI использовать данные Дзена для обучения нейросетей.
Сделано это с помощью директивы, которая прописана в файле robots.txt, который есть практически на каждом сайте. Там прописываются параметры для сервисов поисковых сетей, которые поочерёдно обходят все страницы сайта — можно, например, запретить сканирование всех страниц или только определённых.
GPTBot (так называется робот OpenAI) запретили всё. В VK пояснили это заботой о пользователях:
«Решение не включать GPTBot от OpenAI в файл принято для грамотного использования технического ресурса, чтобы не создавать дополнительную нагрузку. В „Дзене“ регулярно создаются миллионы новых публикаций: как в текстах, так и в видеоформате, — мы направляем ресурсы на то, чтобы обеспечить качественный опыт нашим пользователям и авторам».
Правда, при этом Дзен не запретил обучаться на текстах авторов аналогичным роботам Яндекса и Google.
Думаю, что для развития ChatGPT такой запрет будет только полезен. Известно, что ежедневно на в Дзене размещаются сотни, а может и тысячи публикаций, созданных с помощью ChatGPT. Усилия антифрода платформы по борьбе с такими текстами практически не заметны.
Получается, что Дзен запретил GhatGPT перечитывать свои произведения 😎
Звучит забавно, но для развития языковой модели GPT, которая лежит в основе чат-бота, такой запрет будет полезен. Нейросети не должны обучаться на собственных текстах сомнительного качества.