Adoption

Agent Skills are supported by leading AI development tools.

VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory

artwist-polyakov/crawl4ai-seo

Name: crawl4ai-seo
Author: artwist-polyakov

plugins/crawl4ai-seo/skills/crawl4ai-seo/SKILL.md

npx skillsauth add artwist-polyakov/polyakov-claude-skills crawl4ai-seo

Clean

TrivyContainer and dependency vulnerability scanner

Clean

SemgrepStatic code analysis for vulnerabilities

Clean

mcp-scan (Snyk)Model Context Protocol security validation

Skipped

Snyk (dep)Open source security scanning

Skipped

Socket.devSupply chain security analysis

Skipped

VirusTotalMulti-engine malware detection

Skipped

CrowdStrikeAdvanced threat intelligence

Skipped

OSV-ScannerOpen Source Vulnerability database check

Skipped

OWASP Dep-Check

crawl4ai-seo

SEO-краулер для аудита сайтов и конкурентного анализа. Отвечает на вопрос: "что реально лежит на страницах и как сайт устроен изнутри".

Не заменяет SERP-инструменты (позиции, видимость) — дополняет их данными о содержимом и структуре страниц.

Что умеет

| Задача | Описание | |--------|----------| | Site inventory | Полная инвентаризация страниц: URL, status, title, H1, meta, canonical, word count | | On-page audit | Поиск проблем: пустые title/H1, дубли заголовков, битые canonical, thin content | | Internal linking audit | Граф внутренних ссылок, orphan pages (0 входящих), слабо связанные страницы | | Navigation audit | Breadcrumbs, nav-блоки, menu consistency, hub-страницы без исходящих ссылок | | Landing comparison | Сравнение shortlist URL по on-page сигналам (title, H1, content, links) | | Competitor research | Прогон страниц конкурентов через тот же pipeline, сравнение шаблонов |

Config

Глобальные defaults: config/defaults.example.json, локальный override — config/defaults.json. Подробности: config/README.md.

Правило: в defaults не храним конкретный сайт или параметры клиента. Всё site-specific приходит через launch params и фиксируется в cache/jobs/<job_id>/resolved_config.json.

Workflow

Перед любым crawl

Проверь окружение:
```
python3 scripts/doctor.py
```
Если crawl4ai/playwright не готовы — остановись на seed/discovery, не имитируй crawl.
Определи цель исследования:
- Полный аудит сайта → site inventory + navigation audit
- Аудит лендингов → landing comparison
- Анализ конкурентов → competitor research
- Аудит перелинковки → internal linking audit
Собери launch params:
- target.domain — домен исследования
- job.project — проект/клиент
- job.label — метка запуска

Основной pipeline

# 1. Создать job
python3 scripts/init_job.py --domain https://example.com --project client-a --label full-audit

# 2. Собрать seed URL из sitemap/robots
python3 scripts/seed_urls.py --job-id <job_id>

# 3. Запустить crawl
uv run --script scripts/crawl_batch.py --job-id <job_id>

# 4. Построить навигационный отчёт
python3 scripts/build_navigation_report.py \
  --seed-job-id <seed_job_id> \
  --crawl-job-id <crawl_job_id> \
  --report-dir reports/<project>/<label>

# 5. Сравнить страницы
python3 scripts/compare_pages.py --job-id <job_id>

Быстрый вариант (без отдельного init)

python3 scripts/seed_urls.py --domain https://example.com --project client-a --label quick-check
uv run --script scripts/crawl_batch.py --job-id <job_id>

Scripts

| Script | Назначение | |--------|-----------| | doctor.py | Проверка окружения: uv, Python, crawl4ai, playwright, config | | init_job.py | Создание job: job_id, launch_params.json, resolved_config.json | | seed_urls.py | Discovery URL из sitemap/robots/файла → seed.json (работает без crawl4ai) | | crawl_batch.py | Batch crawl через crawl4ai → pages.ndjson, links.ndjson, summary.json | | compare_pages.py | Табличное сравнение crawled pages по on-page сигналам | | build_navigation_report.py | Сводный навигационный аудит: orphans, weak hubs, breadcrumbs, menu drift | | common.py | Shared helpers (не запускать напрямую) |

Extracted SEO Signals

На каждую страницу (pages.ndjson) извлекаются:

On-page: title, description, keywords, canonical, robots, og:title, og:description, og:image, H1, headings hierarchy, word count.

Navigation: path depth, breadcrumbs (texts + URLs), nav blocks count, nav links count, nav URLs sample.

Links: internal/external links count. В links.ndjson — полный граф: source → target, anchor text, nofollow, same_domain.

Navigation Audit Findings

build_navigation_report.py автоматически находит:

| Проблема | Что значит для SEO | |----------|-------------------| | Orphan pages (0 входящих ссылок) | Поисковик не найдёт страницу или не передаст ей вес | | Weakly linked (1 входящая) | Страница получает минимум link equity | | Missing breadcrumbs | Нет навигационной цепочки для бота и пользователя | | Breadcrumb inconsistency | Разные trail signatures в одной секции — путаница в иерархии | | Weak nav template | Hub-страница с подозрительно малым числом nav-ссылок | | Menu inconsistency | Страницы теряют часть common nav targets (шаблон "дрейфует") | | Weak hubs | Категория/раздел отдаёт <5 внутренних ссылок | | Duplicate titles | Несколько страниц с одинаковым title — каннибализация | | Canonical mismatches | canonical указывает не на себя | | Technical junk | login-URL, php endpoints, asset-ссылки в навигационном слое | | Linked-not-seeded | Сайт линкует URL, которых нет в sitemap |

Связка с другими скиллами

| Сценарий | Скилл-партнёр | Порядок | |----------|--------------|---------| | SERP → on-page audit | yandex-search-api | Получи shortlist из SERP → прогони через crawl4ai | | Organic landings → audit | yandex-metrika | Возьми top organic pages → проверь on-page quality | | Индексация + audit | yandex-webmaster | Сравни indexed pages с crawled inventory | | Anti-block fallback | scrapedo-web-scraper | При блокировке crawl4ai — fallback через Scrape.do |

Cache Layout

cache/jobs/<job_id>/
  launch_params.json      # raw params этого запуска
  resolved_config.json    # effective config после merge defaults + params
  manifest.json           # operational state и artifact paths
  seed.json               # seed URLs и метаданные discovery
  pages.ndjson            # одна запись на страницу
  links.ndjson            # одна запись на link edge
  summary.json            # компактная сводка
  markdown/               # сохранённый markdown контент

Каждый job изолирован. Параллельные запуски по разным сайтам безопасны.

Output Hygiene

stdout: только preview и пути к файлам.
Полные данные: только в job files.
Для анализа используй rg, head, wc -l по ndjson-файлам, не поднимай browser повторно.

References

Workflow recipes and integration scenarios
Cache layout and output schema

artwist-polyakov/crawl4ai-seo

plugins/crawl4ai-seo/skills/crawl4ai-seo/SKILL.md

SEO-краулер сайтов на базе Crawl4AI. Полный аудит страниц: title, meta, H1, canonical, breadcrumbs, навигация, внутренние ссылки. Инвентаризация сайта, навигационный аудит, сравнение лендингов, анализ конкурентов. Работает для Google и Яндекс SEO (Cyrillic URL, коммерческие факторы, региональность). Связка с yandex-search-api, yandex-metrika, yandex-webmaster, scrapedo-web-scraper. Triggers: crawl4ai, seo crawl, site audit, page inventory, site inventory, on-page audit, internal links, internal linking audit, navigation audit, landing comparison, competitor analysis, competitor pages, orphan pages, technical seo, аудит сайта, краулер, перелинковка, навигационный аудит.

105 stars

development

Updated Apr 23, 2026

$ install --global

skillsauth

npx skillsauth add artwist-polyakov/polyakov-claude-skills crawl4ai-seo

Install this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.

Security Scan Results

3 of 9 scanners reported clean

Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.

Scanners Passed

Scanners in report

Clean

TrivyContainer and dependency vulnerability scanner

95%

Clean

SemgrepStatic code analysis for vulnerabilities

95%

Clean

mcp-scan (Snyk)Model Context Protocol security validation

95%

Skipped

Snyk (dep)Open source security scanning

50%

Skipped

Socket.devSupply chain security analysis

50%

Skipped

VirusTotalMulti-engine malware detection

50%

Skipped

CrowdStrikeAdvanced threat intelligence

50%

Skipped

OSV-ScannerOpen Source Vulnerability database check

50%

Skipped

OWASP Dep-Check

50%

Last scanned: Apr 23, 2026, 5:48 AM145.7s11 files scanned

SKILL.md

name:: crawl4ai-seo
description:: |
Полный аудит страниц:: title, meta, H1, canonical, breadcrumbs, навигация, внутренние ссылки.
Triggers:: crawl4ai, seo crawl, site audit, page inventory, site inventory,

crawl4ai-seo

Не заменяет SERP-инструменты (позиции, видимость) — дополняет их данными о содержимом и структуре страниц.

Что умеет

Config

Глобальные defaults: config/defaults.example.json, локальный override — config/defaults.json. Подробности: config/README.md.

Workflow

Перед любым crawl

Проверь окружение:
```
python3 scripts/doctor.py
```
Если crawl4ai/playwright не готовы — остановись на seed/discovery, не имитируй crawl.
Определи цель исследования:
- Полный аудит сайта → site inventory + navigation audit
- Аудит лендингов → landing comparison
- Анализ конкурентов → competitor research
- Аудит перелинковки → internal linking audit
Собери launch params:
- target.domain — домен исследования
- job.project — проект/клиент
- job.label — метка запуска

Основной pipeline

# 1. Создать job
python3 scripts/init_job.py --domain https://example.com --project client-a --label full-audit

# 2. Собрать seed URL из sitemap/robots
python3 scripts/seed_urls.py --job-id <job_id>

# 3. Запустить crawl
uv run --script scripts/crawl_batch.py --job-id <job_id>

# 4. Построить навигационный отчёт
python3 scripts/build_navigation_report.py \
  --seed-job-id <seed_job_id> \
  --crawl-job-id <crawl_job_id> \
  --report-dir reports/<project>/<label>

# 5. Сравнить страницы
python3 scripts/compare_pages.py --job-id <job_id>

Быстрый вариант (без отдельного init)

python3 scripts/seed_urls.py --domain https://example.com --project client-a --label quick-check
uv run --script scripts/crawl_batch.py --job-id <job_id>

Scripts

Extracted SEO Signals

На каждую страницу (pages.ndjson) извлекаются:

On-page: title, description, keywords, canonical, robots, og:title, og:description, og:image, H1, headings hierarchy, word count.

Navigation: path depth, breadcrumbs (texts + URLs), nav blocks count, nav links count, nav URLs sample.

Links: internal/external links count. В links.ndjson — полный граф: source → target, anchor text, nofollow, same_domain.

Navigation Audit Findings

build_navigation_report.py автоматически находит:

Связка с другими скиллами

Cache Layout

cache/jobs/<job_id>/
  launch_params.json      # raw params этого запуска
  resolved_config.json    # effective config после merge defaults + params
  manifest.json           # operational state и artifact paths
  seed.json               # seed URLs и метаданные discovery
  pages.ndjson            # одна запись на страницу
  links.ndjson            # одна запись на link edge
  summary.json            # компактная сводка
  markdown/               # сохранённый markdown контент

Каждый job изолирован. Параллельные запуски по разным сайтам безопасны.

Output Hygiene

stdout: только preview и пути к файлам.
Полные данные: только в job files.
Для анализа используй rg, head, wc -l по ndjson-файлам, не поднимай browser повторно.

References

Workflow recipes and integration scenarios
Cache layout and output schema

Related Skills

artwist-polyakov/knowledge-compiler

development

VerifiedTrustedCommunity

Компилирует личные книги, PDF/EPUB/TXT/Markdown и длинные материалы в прикладной Claude Code skill с картой источников, решающими правилами, плейбуками, словарём и проверкой качества. Используй, когда пользователь просит превратить книгу, документ, учебник, статью или набор заметок в рабочий скилл, личную карту знаний, прикладного советника, справочник по источнику или reusable skill.

124SKILL.mdUpdated May 8, 2026

artwist-polyakov/knowledge-compiler

artwist-polyakov/sourcecraft-publisher

development

VerifiedTrustedCommunity

Publish static page artifacts to SourceCraft Sites (Yandex infrastructure, works in Russia), with advisory image optimization and an original-image path. Use when a static page/React artifact needs to be deployed to SourceCraft under YYYY/YYYY-MM/page-slug directory layout.

124SKILL.mdUpdated Apr 23, 2026

artwist-polyakov/sourcecraft-publisher

artwist-polyakov/github-pages-publisher

development

VerifiedTrustedCommunity

Publish static page artifacts from the publisher workspace to a GitHub Pages repository using a fine-grained token, with advisory image optimization and an original-image path. Use when a React/static page artifact is already prepared and needs to be copied into the Pages repo under a strict year/year-month/page-slug directory layout, then committed and pushed, with a final public artifact URL returned.

124SKILL.mdUpdated Apr 23, 2026

artwist-polyakov/github-pages-publisher

artwist-polyakov/codex-review

development

VerifiedTrustedCommunity

Workflow кросс-агентного ревью с Codex. Triggers (RU): "кодекс ревью". Triggers (EN): "with codex review", "codex review workflow", "start codex review". ВАЖНО: при срабатывании триггера прочитай SKILL.md до любых других шагов.

124SKILL.mdUpdated Apr 23, 2026

artwist-polyakov/codex-review

Download

For Claude Desktop. Download once, then upload the file in the app — no terminal needed.

Need help? View full Cowork setup guide →

Install manually

Choose your platform

# Clone the repo
git clone https://github.com/artwist-polyakov/polyakov-claude-skills.git

# Copy into Claude Code skills folder (global)
cp -r polyakov-claude-skills/plugins/crawl4ai-seo/skills/crawl4ai-seo ~/.claude/skills/

Claude Code Skills — official skills path docs.

Repository

artwist-polyakov/polyakov-claude-skills

105 stars

Compatible with

Claude Code

OpenAI Codex CLI

ChatGPT