Klasifikace dat: Co smí do AI a co ne
Přejít na sekci
Proč je klasifikace dat základ všeho
Většina AI incidentů má společného jmenovatele: někdo nahrál do AI nástroje data, která tam neměla být. Zdrojový kód, klientské smlouvy, osobní údaje zaměstnanců, finanční reporty. Ne ze zlého úmyslu — prostě proto, že nikdo jasně neřekl, co smí a co nesmí. Klasifikace dat je váš první a nejdůležitější guardrail. Bez ní jsou všechna ostatní pravidla zbytečná.
Dobrá zpráva: nepotřebujete složitý systém. Potřebujete jednoduchou matici, kterou každý pochopí za dvě minuty a dokáže aplikovat bez přemýšlení. Čtyři úrovně, jasná pravidla, konkrétní příklady.
Čtyři úrovně datové citlivosti
Úroveň 1 — Veřejná data. Informace, které jsou veřejně dostupné nebo určené ke zveřejnění. Blogové příspěvky, marketingové materiály, veřejné dokumentace. Tato data mohou jít do jakéhokoli AI nástroje bez omezení.
Jsi specialista na ochranu dat a pomáháš mi klasifikovat data pro použití v AI.
Dám ti seznam typů dat, se kterými můj tým pracuje.
Pro každý zařaď do jedné ze čtyř úrovní:
Úroveň 1 (Veřejná): Může jít do jakéhokoli AI nástroje
Úroveň 2 (Interní): Pouze enterprise AI nástroje (žádné trénování na našich datech)
Úroveň 3 (Důvěrná): Pouze self-hosted AI, nebo nejprve anonymizovat
Úroveň 4 (Přísně chráněná): Nikdy do AI, anonymizovat před jakýmkoli zpracováním
Také uveď:
- Zdůvodnění klasifikace
- Metodu anonymizace pokud úroveň 3-4
- Příklad jak vypadá anonymizovaná verze
Typy dat:
- [vlož sem svůj seznam]Úroveň 2 — Interní data. Informace, které nejsou tajné, ale nejsou určeny pro veřejnost. Interní procesy, obecné projektové poznámky, neidentifikovatelné metriky. Tato data mohou jít do schválených AI nástrojů s enterprise licencí, které garantují, že data nepoužijí k trénování.
Úroveň 3 — Důvěrná data. Informace s obchodní hodnotou nebo právní ochranou. Klientské smlouvy, zdrojový kód, finanční výsledky před zveřejněním, obchodní strategie. Tato data mohou jít pouze do on-premise nebo self-hosted AI řešení, kde máte plnou kontrolu.
Úroveň 4 — Přísně chráněná data. Osobní údaje (GDPR), zdravotní záznamy, přístupové údaje, kryptografické klíče. Tato data nesmí jít do žádného AI nástroje. Žádné výjimky. Pokud potřebujete AI pro práci s těmito daty, musíte je nejprve anonymizovat.
Pravidlo palce: Pokud by vám bylo nepříjemné, kdyby se data objevila v novinách, patří minimálně do úrovně 3. Pokud by to mělo právní následky, patří do úrovně 4.
Jak vytvořit matici pro vaši firmu
Začněte seznamem typů dat, se kterými váš tým pracuje. Projděte si typický pracovní den: s jakými dokumenty, systémy a informacemi přicházíte do styku? Ke každému typu přiřaďte úroveň. Konkrétní příklady jsou klíčové — 'klientská data' je příliš vágní. 'Jméno a email klienta z CRM' je jasné. 'Anonymizovaný počet klientů v segmentu' je něco jiného.
V případě pochybností o úrovni dat klasifikujte vždy o úroveň výš. Zacházet s interními daty jako s důvěrnými vás nic nestojí (jen použijete enterprise nástroj). Zacházet s důvěrnými daty jako s interními vás může stát klienta nebo žalobu.
Zapojte do procesu právníka a bezpečnostního specialistu, pokud je máte. Ale nedělejte z toho měsíční projekt. Základní matice vznikne za odpoledne. Bude mít chyby. To je v pořádku — opravíte je, až narazíte na hraniční případy. Lepší nedokonalá matice dnes než dokonalá za půl roku.
Časté chyby při klasifikaci
Chyba jedna: klasifikovat příliš granulárně. Padesát kategorií nikdo nepoužije. Držte se čtyř úrovní. Chyba dvě: zapomenout na kontext. Jméno zaměstnance samo o sobě je úroveň 2. Jméno zaměstnance + jeho plat je úroveň 4. Kombinace dat mění úroveň. Chyba tři: nerevidovat. Klasifikace zastarává — nové projekty, noví klienti, nové regulace. Revidujte každý kvartál.
Vytvořte si 'quick reference card' — jednu stránku s tabulkou: typ dat → úroveň → co smím. Dejte ji do intranetu, Slacku, na zeď. Čím viditelnější, tím účinnější.
Vypište 10-15 typů dat, se kterými váš tým denně pracuje. Ke každému přiřaďte úroveň 1-4. U úrovně 3 a 4 napište, jaká alternativa existuje (anonymizace, agregace, self-hosted nástroj). Výsledek bude základ vaší firemní matice.
Nápověda
Začněte tím, co váš tým skutečně dělá, ne tím, co by měl dělat. Otevřete si historii chatu vašeho týmu — jaká data tam létají?
Projděte svůj inbox, sdílené disky a projektové nástroje. Najděte 10 různých typů dokumentů, se kterými váš tým pracuje denně. Pro každý: 1) Přiřaďte kategorii citlivosti, 2) Rozhodněte, zda může jít do veřejného AI, 3) Pokud ne, popište jak byste data anonymizovali, 4) Identifikujte, kdo ve firmě by měl toto rozhodnutí schvalovat.
Nápověda
Většina dokumentů spadá do 'šedé zóny'. To je normální — právě proto potřebujete jasná pravidla s příklady. Zdokumentujte svá rozhodnutí jako precedenty pro budoucí případy.
Pro data úrovně 3-4, se kterými váš tým potřebuje pracovat v AI, vytvořte anonymizační playbook: 1) Sepište 5 typů dat, se kterými běžně pracujete a jsou úrovně 3-4. 2) Pro každý popište, jak ho anonymizovat před AI zpracováním (nahradit jména 'Klient A', odstranit data, agregovat čísla). 3) Vytvořte příklad před/po pro každý typ. 4) Definujte, kdo je zodpovědný za anonymizaci ve vašem workflow. Otestujte playbook — dokáže ho někdo následovat bez další pomoci?
Nápověda
Nejčastější selhání anonymizace: zapomenutá metadata. Dokument se všemi odstraněnými jmény, ale s 'Vytvořil: Jan Novák, Acme s.r.o.' ve vlastnostech není anonymní. Zkontrolujte vlastnosti souborů, hlavičky emailů a vložené komentáře.
- Čtyři úrovně: veřejná, interní, důvěrná, přísně chráněná
- Kombinace dat mění úroveň citlivosti — jméno + plat je jiná kategorie než jméno samotné
- Lepší nedokonalá matice dnes než dokonalá za půl roku
- Quick reference card viditelně pro celý tým — čím jednodušší, tím účinnější
- V případě pochybností klasifikujte o úroveň výš — zacházení s interními daty jako s důvěrnými nic nestojí, opačně to může stát klienta
V příští lekci se ponoříme do Schvalování nástrojů: Jak vybrat a povolit AI řešení — technika, která vám dá jasnou převahu. Odemkněte celý kurz a pokračujte hned.
2/6 hotovo — pokračujte!