Anthropic впервые в истории AI-компаний публично раскрыла полный набор принципов, заложенных в конституционный AI-тренинг Claude. Документ вызвал споры.
Anthropic совершила беспрецедентный шаг прозрачности: компания опубликовала полный текст «Конституции Claude» — набора принципов и правил, используемых при конституционном обучении с подкреплением (RLAIF). До этого существовало лишь академическое описание метода без конкретных формулировок.
Документ содержит 58 принципов, структурированных в три уровня: базовые права человека (не навреди, будь честен, защищай уязвимых), операционные правила (когда отказывать, как балансировать противоречивые запросы) и принципы саморефлексии (как относиться к собственному сознанию и правам).
Публикация вызвала споры в исследовательском сообществе. Критики указывают, что принципы заложены командой из Кремниевой долины без демократической легитимности. Сторонники считают это образцом для всей отрасли. Пока ни одна другая компания не раскрывала аналогичных документов.
Комментарии (0)
Комментариев пока нет. Будьте первым!