Классификация данных: что можно вводить в ИИ, а что нельзя
Перейти к разделу
Почему классификация данных — основа всего
У большинства инцидентов с ИИ есть общий знаменатель: кто-то загрузил в инструмент ИИ данные, которые там быть не должны. Исходный код, клиентские контракты, персональные данные сотрудников, финансовые отчёты. Не из злого умысла — просто потому что никто не объяснил чётко, что разрешено, а что нет. Классификация данных — ваш первый и самый важный инструмент контроля. Без неё все остальные правила бесполезны.
Хорошая новость: вам не нужна сложная система. Вам нужна простая матрица, которую любой поймёт за две минуты и применит не задумываясь. Четыре уровня, чёткие правила, конкретные примеры.
Четыре уровня чувствительности данных
Уровень 1 — Публичные данные. Информация, которая находится в открытом доступе или предназначена для публикации. Записи в блоге, маркетинговые материалы, публичная документация. Эти данные можно вводить в любой инструмент ИИ без ограничений.
You are a data privacy specialist helping me classify data for AI usage.
I will give you a list of data types my team works with.
For each, classify into one of four levels:
Level 1 (Public): Can go into any AI tool
Level 2 (Internal): Enterprise AI tools only (no training on our data)
Level 3 (Confidential): Self-hosted AI only, or anonymize first
Level 4 (Strictly Protected): Never into AI, anonymize before any processing
Also provide:
- Justification for the classification
- Anonymization method if Level 3-4
- Example of what the anonymized version looks like
Data types:
- [paste your list here]Уровень 2 — Внутренние данные. Информация, которая не является секретной, но не предназначена для широкой публики. Внутренние процессы, общие заметки по проектам, неидентифицируемые метрики. Эти данные можно вводить в одобренные инструменты ИИ с корпоративными лицензиями, гарантирующими, что данные не будут использованы для обучения.
Уровень 3 — Конфиденциальные данные. Информация, имеющая деловую ценность или правовую защиту. Клиентские контракты, исходный код, финансовые результаты до публикации, бизнес-стратегия. Эти данные можно вводить только в локальные или самостоятельно развёртываемые решения ИИ, где у вас есть полный контроль.
Уровень 4 — Строго защищённые данные. Персональные данные (GDPR), медицинские записи, учётные данные доступа, криптографические ключи. Эти данные нельзя вводить ни в какой инструмент ИИ. Без исключений. Если вам нужен ИИ для работы с этими данными, их необходимо предварительно анонимизировать.
Практическое правило: если вы будете чувствовать себя некомфортно, увидев эти данные в газете, они относятся как минимум к уровню 3. Если это может иметь юридические последствия — к уровню 4.
Как создать матрицу для вашей компании
Начните со списка типов данных, с которыми работает ваша команда. Пройдитесь по типичному рабочему дню: с какими документами, системами и информацией вы взаимодействуете? Присвойте уровень каждому типу. Конкретные примеры — ключевое: «данные клиента» слишком расплывчато. «Имя и email клиента из CRM» — это понятно. «Анонимизированное количество клиентов по сегментам» — это уже совсем другое.
Если сомневаетесь в уровне данных, всегда классифицируйте на уровень выше. Обращение с внутренними данными как с конфиденциальными ничего не стоит (вы просто используете корпоративный инструмент). Обращение с конфиденциальными данными как с внутренними может стоить вам клиента или судебного иска.
Привлеките юриста и специалиста по безопасности, если они у вас есть. Но не превращайте это в месячный проект. Базовую матрицу можно создать за один день. В ней будут пробелы. Это нормально — вы их заполните по мере появления пограничных случаев. Несовершенная матрица сегодня лучше, чем идеальная через полгода.
Типичные ошибки при классификации
Ошибка первая: слишком детальная классификация. Пятьдесят категорий означает, что никто не будет её использовать. Ограничьтесь четырьмя уровнями. Ошибка вторая: забывать о контексте. Имя сотрудника само по себе — уровень 2. Имя сотрудника плюс его зарплата — уровень 4. Сочетания данных меняют уровень. Ошибка третья: не пересматривать классификацию. Классификации устаревают — новые проекты, новые клиенты, новые регуляции. Пересматривайте ежеквартально.
Создайте краткую справочную карточку — одну страницу с таблицей: тип данных → уровень → что можно делать. Разместите её в интранете, Slack, на стене. Чем она заметнее, тем эффективнее.
Перечислите 10–15 типов данных, с которыми ваша команда работает ежедневно. Присвойте каждому уровень от 1 до 4. Для уровней 3 и 4 запишите, какая альтернатива существует (анонимизация, агрегирование, локальный инструмент). Результат станет основой матрицы вашей компании.
Подсказка
Начните с того, что ваша команда реально делает, а не с того, что должна делать. Откройте историю командного чата — какие данные там встречаются?
Просмотрите входящую почту, общие диски и проектные инструменты. Найдите 10 различных типов документов, с которыми ваша команда работает ежедневно. Для каждого: 1) Присвойте категорию чувствительности, 2) Решите, можно ли его вводить в публичный ИИ, 3) Если нет — опишите, как анонимизировать данные, 4) Определите, кто в компании должен одобрять это решение.
Подсказка
Большинство документов попадают в «серую зону». Это нормально — именно поэтому нужны чёткие правила с примерами. Документируйте свои решения как прецеденты для будущих случаев.
Для данных уровня 3–4, которые ваша команда должна обрабатывать с помощью ИИ, создайте инструкцию по анонимизации: 1) Перечислите 5 типов данных, с которыми вы часто работаете и которые относятся к уровню 3–4. 2) Для каждого опишите, как анонимизировать их перед обработкой ИИ (замените имена на «Клиент А», уберите даты, агрегируйте числа). 3) Создайте пример «до и после» для каждого типа. 4) Определите, кто в вашем рабочем процессе отвечает за анонимизацию. Протестируйте инструкцию — может ли кто-то следовать ей без дополнительной помощи?
Подсказка
Самая распространённая ошибка при анонимизации — забыть о метаданных. Документ с удалёнными именами, но с «Создан: Иван Иванов, ООО Ромашка» в свойствах — не анонимный. Проверяйте свойства файлов, заголовки писем и встроенные комментарии.
- Четыре уровня: публичные, внутренние, конфиденциальные, строго защищённые
- Сочетания данных меняют уровень чувствительности — имя плюс зарплата — это другая категория, чем просто имя
- Несовершенная матрица сегодня лучше идеальной через полгода
- Краткая справочная карточка на виду у всей команды — чем проще, тем эффективнее
- При сомнении классифицируйте на уровень выше — обращение с внутренними данными как с конфиденциальными ничего не стоит, а обратное может стоить клиента
В следующем уроке мы разбираем одобрение инструментов: как выбирать и авторизовать решения ИИ — техника, которая даст вам явное преимущество. Разблокируйте полный курс и продолжайте прямо сейчас.
2/6 завершено — продолжайте!