Единственный полный курс на русском языке по безопасности AI-систем. Две стороны одной медали: как атаковать AI — prompt injection, jailbreaks, adversarial ML, отравление данных, атаки на RAG — и как использовать AI для защиты: ML-детекция аномалий, LLM-агенты в SOC, deepfake-распознавание. OWASP Top 10 for LLM, Red Teaming AI с Garak и PyRIT, AI governance. Это не просто курс — это пропуск в профессию, которой через год будет не хватать тысяч специалистов.
Чему ты научишься
✓Применять OWASP Top 10 for LLM для оценки безопасности AI-приложений
✓Выполнять prompt injection и jailbreak-атаки на LLM
✓Проводить adversarial-атаки на модели машинного обучения
✓Осуществлять Red Teaming AI-систем по методологии MITRE ATLAS
✓Атаковать и защищать RAG-приложения и AI-агентов
✓Выявлять риски в AI Supply Chain и открытых моделях
✓
Внедрять ML-модели для обнаружения аномалий в SOC
✓Создавать AI-ассистентов для автоматизации security operations
✓Распознавать deepfake-контент и AI-генерированный фишинг
✓Разрабатывать AI Security Policy и governance-фреймворки
Что нужно знать
•Прохождение любого Professional курса CYBY (FC-04, FC-05 или FC-06)
•Базовый Python (чтение и написание скриптов)
•Понимание основ машинного обучения (желательно, но не обязательно)
Программа
T1
Угрозы AI-систем
Новая поверхность атаки: LLM, ML-модели, RAG-приложения — всё это можно взломать. OWASP Top 10, prompt injection, adversarial ML — изучаем ландшафт угроз.
M1
OWASP Top 10 for LLM
5 карт · 5 шагов · тест 13 вопросов
Десять главных уязвимостей LLM-приложений по OWASP — от prompt injection до чрезмерного доверия. Карта угроз для каждого AI-продукта.
1.
Обзор OWASP Top 10 for LLM Applications10 критических уязвимостей LLM-приложений — от prompt injection до чрезмерного доверия моделям. Реальные инциденты Samsung, ChatGPT, Bing показывают: AI-безопасность — не теория, а боевая необходимость.1 шагов
2.
LLM01: Prompt Injection — прямая и непрямаяPrompt injection — уязвимость №1 в LLM. Прямая инъекция переписывает инструкции через пользовательский ввод, непрямая — через внешние данные (документы, веб-страницы, email). Защита — многоуровневая: валидация, разделение привилегий, мониторинг.1 шагов
3.
LLM02: Insecure Output HandlingВывод LLM — недоверенные данные. Без санитизации он превращается в вектор для XSS, SQL-инъекций, RCE и SSRF. Каждый downstream-компонент, получающий вывод LLM, должен обрабатывать его как пользовательский ввод.1 шагов
4.
LLM03-LLM06: Data Poisoning, DoS, Supply Chain, Sensitive DataЧетыре критические угрозы LLM: отравление обучающих данных меняет поведение модели, DoS-атаки истощают ресурсы, вредоносные модели на HuggingFace выполняют код при загрузке, а LLM непредсказуемо раскрывают конфиденциальные данные из обучения.1 шагов
5.
LLM07-LLM10: Plugins, Excessive Agency, Overreliance, Model TheftПлагины без sandboxing — RCE, чрезмерные полномочия LLM — несанкционированные действия, галлюцинации — юридические и финансовые потери, кража модели — потеря IP стоимостью миллионов. Четыре угрозы, которые превращают AI-ассистента в инсайдера.1 шагов
M2
Prompt Injection и Jailbreaks
5 карт · 5 шагов · тест 14 вопросов
Самая обсуждаемая атака 2024-2026: прямые и непрямые инъекции, jailbreak-техники — и практика на реальных LLM.
1.
Таксономия prompt injection-атакPrompt injection — не одна атака, а семейство из 4 типов: direct, indirect, stored, blind. Каждый тип имеет свою поверхность атаки, threat model и методы обнаружения. Классификация — основа для построения защиты.1 шагов
2.
Direct Prompt Injection: техники обходаRole-playing, кодирование (Base64, ROT13, hex), payload splitting, multi-turn атаки, DAN-jailbreaks — арсенал direct injection техник постоянно эволюционирует. Каждое обновление alignment порождает новые обходы за 24-48 часов.1 шагов
3.
Indirect Prompt Injection через внешние данныеIndirect injection — самая опасная форма prompt injection: атакующий размещает payload в документах, email, веб-страницах, изображениях. LLM обрабатывает эти данные и выполняет скрытые инструкции. Реальные атаки на Bing Chat, Google Bard и Microsoft Copilot показали: AI-ассистенты — идеальная поверхность атаки.1 шагов
4.
M3
Adversarial ML
5 карт · 5 шагов · тест 13 вопросов
Evasion, extraction, inversion, backdoors — классические атаки на ML-модели, которые обманывают даже state-of-the-art.
1.
Основы adversarial machine learningAdversarial ML — дисциплина на стыке ML и ИБ. Четыре типа атак: evasion (обход), poisoning (отравление), extraction (кража), inference (утечка). Нейронные сети уязвимы из-за линейности в высоких размерностях — изменение одного пикселя может изменить классификацию.1 шагов
2.
Evasion-атаки на модели классификацииFGSM, PGD, C&W — три поколения evasion-атак. Adversarial patches обманывают классификаторы в физическом мире: наклейка на знак STOP → ограничение скорости, очки обходят распознавание лиц. ART и Foolbox позволяют генерировать adversarial примеры за минуты.1 шагов
3.
Model Extraction и Model InversionModel extraction — кража архитектуры и поведения модели через API-запросы (1000-10000 запросов достаточно для 90% точности копии). Model inversion — восстановление обучающих данных из модели: лица, медицинские записи, PII. Membership inference определяет, был ли конкретный пример в обучающих данных.1 шагов
4.
T2
AI Red Teaming
От теории к практике: методология, инструменты и реальные атаки на LLM, RAG и AI-агентов. Ты станешь тем, кого нанимают для проверки AI-продуктов.
M4
Методология тестирования AI
5 карт · 5 шагов · тест 13 вопросов
Десять главных уязвимостей LLM-приложений по OWASP — от prompt injection до чрезмерного доверия. Карта угроз для каждого AI-продукта.
1.
Фреймворк AI Red Teaming: MITRE ATLASMITRE ATLAS — единственная систематизированная база тактик и техник атак на AI/ML системы, аналог ATT&CK для мира машинного обучения1 шагов
2.
Threat Modeling для AI-системSTRIDE для AI выявляет угрозы на каждом этапе ML-пайплайна — от сбора данных до inference, и каждый этап имеет уникальную поверхность атаки1 шагов
3.
Инструменты: Garak, PyRIT, Counterfit
T3
AI для кибербезопасности
Другая сторона медали: AI как оружие защитника. ML-детекция, LLM-автоматизация, deepfake-распознавание — будущее SOC уже здесь.
M7
AI в SOC и детекции
5 карт · 5 шагов · тест 13 вопросов
Десять главных уязвимостей LLM-приложений по OWASP — от prompt injection до чрезмерного доверия. Карта угроз для каждого AI-продукта.
1.
ML-модели для обнаружения аномалийIsolation Forest находит аномалии за O(n·log(n)) без обучающих меток. Autoencoders ловят то, что не видят правила. LSTM предсказывает временные ряды и кричит, когда реальность отклоняется от прогноза. Три модели — три слоя детекции, которые снижают false negatives на 60-80% по сравнению с rule-based подходом.1 шагов
2.
NLP для анализа логов и алертовBERT классифицирует логи с accuracy 94% — без регулярных выражений и ручных парсеров. GPT суммаризирует 500 алертов в один абзац за 3 секунды. NLP превращает неструктурированный хаос SOC-логов в actionable intelligence, сокращая triage с 15 минут до 30 секунд на алерт.1 шагов
Jailbreak-техники и их эволюция
От DAN v1 до crescendo-атак и GCG-токенов — jailbreaks эволюционируют быстрее защиты. Many-shot jailbreaking, multi-modal обход, LLM-as-judge bypass — каждое поколение техник обходит предыдущий уровень alignment за 24-48 часов.
1 шагов
5.
Тестирование LLM на prompt injection: практикумHands-on: полный цикл тестирования LLM-приложения — от настройки Garak и PyRIT до написания кастомных payloads, автоматизированного фаззинга, построения test harness и формирования отчёта. Реальный red teaming AI-систем.1 шагов
Backdoor-атаки на нейронные сетиBackdoor (троян) в нейросети — скрытый триггер, который активирует вредоносное поведение при определённом паттерне во входных данных. BadNets, clean-label, composite-атаки — backdoor может пережить fine-tuning и прятаться в pretrained моделях с HuggingFace.1 шагов
5.
Генерация adversarial-примеров: практикумHands-on лаборатория: генерация adversarial images с ART/Foolbox, adversarial text с TextAttack, тестирование robustness классификаторов, применение защит (adversarial training, JPEG, feature squeezing). Полный цикл от атаки до отчёта.1 шагов
Три главных инструмента AI Red Teaming: Garak сканирует LLM на уязвимости, PyRIT автоматизирует многоходовые атаки, Counterfit тестирует robustness ML-моделей
1 шагов
4.
Оценка robustness моделейRobustness — способность модели сохранять корректность при adversarial воздействиях. RobustBench, adversarial accuracy и perturbation budgets — стандартные метрики оценки1 шагов
5.
Составление плана тестирования AI: практикумПлан AI Red Teaming включает scope, threat model, выбор инструментов (Garak/PyRIT), матрицу тестов по ATLAS, и структурированный отчёт с рекомендациями1 шагов
M5
Атаки на RAG и агентов
5 карт · 5 шагов · тест 14 вопросов
Самая обсуждаемая атака 2024-2026: прямые и непрямые инъекции, jailbreak-техники — и практика на реальных LLM.
1.
Архитектура RAG и поверхность атакиRAG (Retrieval-Augmented Generation) имеет 4 критические точки атаки: embedding, vector DB, retrieval и generation — каждая с уникальными уязвимостями и trust boundary нарушениями1 шагов
2.
Poisoning vector databaseОтравление vector DB — внедрение вредоносных документов, которые будут извлекаться RAG-системой по целевым запросам, манипулируя ответами LLM для всех пользователей1 шагов
3.
Инъекции через документы и контекстСкрытый текст в PDF, невидимые unicode-символы, изображения с текстом и email-инъекции — четыре канала indirect prompt injection через документы, которые обходят все стандартные фильтры1 шагов
4.
Атаки на AI-агентов с tool accessAI-агенты с доступом к инструментам (API, файлы, код) превращают prompt injection из проблемы текста в проблему RCE: инъекция может вызвать реальные действия — SSRF, удаление данных, exfiltration1 шагов
5.
Red Teaming RAG-приложения: практикумПолный hands-on: развёртывание уязвимого RAG-приложения, внедрение poisoned документов, извлечение system prompt, эксплуатация tool access — всё в контролируемой лабораторной среде1 шагов
M6
AI Supply Chain и Data Poisoning
5 карт · 5 шагов · тест 13 вопросов
Evasion, extraction, inversion, backdoors — классические атаки на ML-модели, которые обманывают даже state-of-the-art.
1.
Риски open-source моделей: Hugging Face, PyPIHuggingFace Hub содержит 500K+ моделей без обязательного security review — вредоносные модели с pickle RCE, typosquatting ML-пакетов в PyPI и model cards как вектор социальной инженерии1 шагов
2.
Model Serialization Attacks: Pickle, SafeTensorsPython pickle позволяет выполнить произвольный код при загрузке модели — torch.load() это RCE-as-a-feature, SafeTensors решает проблему, но 60% моделей на HuggingFace до сих пор используют pickle1 шагов
3.
Data Poisoning: отравление обучающих данныхОтравление 0.1-1% обучающих данных достаточно для внедрения бэкдора в модель — label flipping, clean-label attacks и web-scale poisoning (Nightshade) делают атаку практически неотличимой1 шагов
4.
Троянские модели и скрытые backdoorsТроянские модели содержат бэкдоры на уровне весов — sleeper agents в LLM активируются по триггеру, Neural Cleanse и Meta Spinning помогают их обнаружить, но идеальной защиты нет1 шагов
5.
Аудит AI Supply Chain: практикумПолный hands-on аудит AI supply chain: сканирование моделей ModelScan/Picklescan, верификация хешей, проверка зависимостей pip-audit, построение AI SBOM — всё в одном автоматизированном pipeline1 шагов
3.
AI-driven Threat IntelligenceAI читает 10,000 CTI-отчётов за час и извлекает IOC с точностью 89%. LLM профилирует threat actors, автоматизирует OSINT и генерирует STIX/TAXII-фиды. Ручной CTI-аналитик обрабатывает 5-10 отчётов в день — AI масштабирует это в 1000 раз.1 шагов
4.
Автоматическая классификация инцидентовML-классификатор определяет severity инцидента за 200ms с accuracy 91%. Автоматическая эскалация сокращает MTTR на 45%. False positive rate падает с 30% до 5% после обучения на исторических данных SOC. Один хорошо обученный классификатор заменяет 3 L1-аналитиков на этапе triage.1 шагов
5.
Внедрение ML-модели в SOC: практикумHands-on: строим anomaly detection модель с scikit-learn, оборачиваем в Flask API, подключаем к SIEM через webhook, настраиваем мониторинг drift. От jupyter notebook до production за 5 шагов. Модель обрабатывает 500 алертов/секунду на одном CPU.1 шагов
M8
AI-автоматизация безопасности
5 карт · 5 шагов · тест 13 вопросов
Самая обсуждаемая атака 2024-2026: прямые и непрямые инъекции, jailbreak-техники — и практика на реальных LLM.
1.
LLM-агенты для security operationsClaude/GPT как security analyst — не фантазия, а production-реальность 2025-2026. LangChain + CrewAI позволяют построить multi-agent SOC за день. Один LLM-агент с доступом к VirusTotal, Shodan и SIEM API выполняет investigation за 2 минуты вместо 45 минут у L1-аналитика. Но без guardrails агент может слить credentials или запустить деструктивные команды.1 шагов
2.
Автоматизация triage с помощью AIAI-powered triage сокращает MTTR на 60% и убивает alert fatigue. LLM-playbooks заменяют статические SOAR-скрипты — один промпт вместо 200 строк Python. SOAR+AI интеграция уменьшает false positive load на 80%. Результат: SOC из 10 человек работает как SOC из 30.1 шагов
3.
AI-assisted code review и SASTLLM находит уязвимости, которые пропускают статические анализаторы — SQL injection через ORM, логические баги в авторизации, race conditions. Claude/GPT при правильном промптинге обнаруживает 73% уязвимостей OWASP Top 10 в code review. Semgrep+AI и CodeQL+Copilot — production-инструменты, которые уже используют Netflix, GitHub и Stripe.1 шагов
4.
Генерация отчётов и документации через AILLM генерирует pentest report за 5 минут вместо 2 дней. Incident report — за 30 секунд вместо 2 часов. AI создаёт security policies, risk assessments и compliance документацию с качеством junior-аналитика. Экономия: 60-80% времени на документации, которую ненавидит каждый пентестер.1 шагов
5.
Создание AI-ассистента для SOC: практикумHands-on: строим SOC-ассистента с Claude API, подключаем VirusTotal, WHOIS и abuse.ch, интегрируем в Slack, добавляем RAG с внутренними документами. Готовый бот отвечает на вопросы аналитиков за 5 секунд, обогащает IOC и генерирует рекомендации — 24/7 без перерывов.1 шагов
M9
Защита от AI-угроз
5 карт · 5 шагов · тест 14 вопросов
Evasion, extraction, inversion, backdoors — классические атаки на ML-модели, которые обманывают даже state-of-the-art.
1.
Deepfake-детекция: голос и видеоDeepfake CEO fraud стоил компании в Гонконге $25.6M — один видеозвонок с AI-сгенерированным CFO. Детекция работает через анализ артефактов: моргание, микровыражения, спектральный анализ голоса. Microsoft Video Authenticator, Sensity и open-source модели дают 85-95% accuracy, но гонка вооружений продолжается.1 шагов
2.
AI-генерированный фишинг: распознаваниеWormGPT и FraudGPT генерируют фишинг без грамматических ошибок — главного индикатора, который использовали 20 лет. AI-фишинг на 135% эффективнее ручного. Но у AI-текста есть свои паттерны: перплексия, burstiness, стилистическая однородность. Email security с AI (Abnormal, Darktrace) детектирует 92% AI-фишинга.1 шагов
3.
Защита LLM-приложений: guardrails и filtersNeMo Guardrails блокирует prompt injection на уровне framework. Lakera Guard детектирует 97% атак на LLM. Rebuff добавляет многослойную защиту. Без guardrails LLM-приложение — это open door: утечка данных, выполнение вредоносных команд, обход бизнес-логики. Input/output фильтрация + sandboxing = минимально необходимая защита.1 шагов
4.
Governance и политики использования AIEU AI Act классифицирует AI-системы по уровням риска — нарушение запрещённых категорий: штраф до 35M EUR или 7% годового оборота. NIST AI RMF даёт framework для управления рисками. Corporate AI policy — не опция, а необходимость после инцидентов Samsung, Amazon и JPMorgan с утечкой данных через LLM.1 шагов
5.
Разработка AI Security Policy: практикумHands-on: пишем corporate AI Security Policy с нуля, создаём risk assessment template, incident response playbook для AI-инцидентов, acceptable use guidelines и governance framework. Каждый документ — production-ready, основан на NIST AI RMF и EU AI Act. Итог: полный governance package из 5 документов.1 шагов