Claude Code Skills: De YouTube a Contexto con Skill Seekers

Resumen: Skill Seekers v3.2.0 es una CLI Python con licencia MIT que convierte tutoriales de YouTube en archivos SKILL.md para Claude Code mediante extracción de fotogramas, OCR por fotograma y mejora con IA en dos pasadas. El resultado es contexto estructurado que el agente carga automáticamente en sesiones futuras. Este artículo explica el pipeline de extremo a extremo y cómo integrarlo en tu flujo de trabajo diario con Claude Code.

El problema: Claude no vio el tutorial

Terminas un tutorial de 40 minutos sobre patrones de FastAPI. Entiendes los Depends, el ciclo de vida de la aplicación con lifespan, la inyección de dependencias correcta. Abres Claude Code, describes el proyecto y el agente te pregunta cómo quieres estructurar las dependencias. Empieza de cero.

El agente no tiene acceso a lo que acabas de ver. Puedes describir los patrones en el prompt, pero eso consume tokens y degrada el contexto disponible en sesiones largas. Puedes copiar fragmentos de código del vídeo manualmente, pero eso rompe el flujo de trabajo y es propenso a errores de transcripción. Lo que necesitas es transformar ese conocimiento en algo que Claude Code pueda cargar de forma estructurada y reutilizable.

El mecanismo que resuelve esto son los archivos SKILL.md. Si ya conoces cómo funcionan los skills, hooks y MCPs en Claude Code para entornos reales, sabes que el agente descubre los skills automáticamente en ~/.claude/skills/ sin configuración adicional. El reto es crearlos a partir de una fuente de vídeo, donde el contenido útil está disperso entre fotogramas y no existe como texto plano. Skill Seekers resuelve exactamente eso.

Qué es un SKILL.md en Claude Code

Un SKILL.md es un archivo de instrucciones estructurado que Claude Code carga cuando detecta que el contexto de la sesión activa los triggers definidos en su frontmatter YAML. No es un prompt que repites en cada conversación, es contexto persistente que el agente consulta de forma automática cuando lo necesita.

La estructura tiene dos partes: metadatos YAML entre marcadores --- y contenido Markdown con las instrucciones, patrones y ejemplos de código que el agente debe aplicar:

---
name: fastapi-dependency-injection
description: Usar cuando el proyecto implemente inyección de dependencias en FastAPI
triggers:
  - inyección de dependencias FastAPI
  - lifespan events
  - service container FastAPI
---

## Patrón de inyección de dependencias con lifespan

Usa `@asynccontextmanager` para el ciclo de vida y registra los servicios
en `app.state` durante el inicio. Evita instanciar servicios fuera de `Depends`.
Ejemplo mínimo con motor de base de datos:

El skill vive en ~/.claude/skills/fastapi-dependency-injection/SKILL.md. Claude Code lo detecta sin configuración y lo inyecta en sesiones donde el contexto activa los triggers. La carpeta puede incluir también scripts de ayuda, plantillas y archivos de referencia:

fastapi-dependency-injection/
├── SKILL.md         # Obligatorio: instrucciones y metadatos
├── scripts/         # Opcional: scripts de apoyo
├── templates/       # Opcional: plantillas de código
└── resources/       # Opcional: archivos de referencia

Crear este archivo manualmente a partir de un tutorial de 40 minutos cuesta entre 30 minutos y una hora si quieres capturar los ejemplos de código con fidelidad. Skill Seekers reduce ese trabajo a un comando de terminal.

El pipeline de vídeo a SKILL.md con Skill Seekers

Instalación

Skill Seekers está en PyPI con licencia MIT desde la versión 3.0.0. Para incluir el soporte de procesamiento de vídeo, usa el extra [video] en la instalación:

pip install "skill-seekers[video]"

La primera vez que proceses un vídeo, ejecuta el setup para instalar las dependencias de GPU correctas según tu hardware:

skill-seekers video --setup

El comando detecta automáticamente si tienes CUDA, ROCm, MPS en Apple Silicon o solo CPU, e instala la versión correcta de PyTorch sin intervención manual. En máquinas sin GPU dedicada, el pipeline usa CPU como fallback con un tiempo de procesamiento mayor pero resultados equivalentes.

Extraer el vídeo

El comando básico recibe la URL del tutorial en YouTube y un nombre para el skill resultante:

skill-seekers video \
  --url "https://www.youtube.com/watch?v=TUTORIAL_ID" \
  --name fastapi-lifespan

Si el tutorial es largo y solo te interesa una sección, usa los flags de recorte temporal para procesar únicamente ese intervalo:

skill-seekers video \
  --url "https://www.youtube.com/watch?v=TUTORIAL_ID" \
  --name fastapi-lifespan \
  --start-time 00:12:00 \
  --end-time 00:28:00

El pipeline extrae fotogramas del intervalo seleccionado y aplica OCR sobre cada uno. El motor está optimizado para contenido técnico: editores de código con temas oscuros, ventanas de terminal, diapositivas y diagramas de arquitectura. Cuando la confianza del OCR es baja en un fotograma concreto, el sistema cede el procesamiento de ese frame a Claude Vision como alternativa, lo que mejora la fidelidad del resultado sin intervención manual.

Las dos pasadas de mejora con IA

El texto crudo extraído por OCR tiene ruido inherente: caracteres mal interpretados, saltos de línea incorrectos, código con indentación rota o números confundidos con letras. La primera pasada de mejora limpia esos artefactos y reconstruye el texto con coherencia.

La segunda pasada genera el SKILL.md final. Toma el texto limpio y lo convierte en un documento estructurado con patrones de código extraídos del tutorial, mejores prácticas identificadas a lo largo del vídeo y metadatos YAML con los triggers de activación para Claude Code. El resultado típico es un archivo de 500 a 800 líneas con ejemplos de código reales y contexto suficiente para que el agente entienda cuándo y cómo aplicar los patrones.

Empaquetar e instalar el skill

Una vez procesado el vídeo, empaqueta el resultado en el formato que espera Claude Code:

skill-seekers package output/fastapi-lifespan --target claude

El comando genera la estructura de carpetas correcta con el SKILL.md y los archivos de apoyo. Mueve la carpeta resultante a tu directorio de skills:

cp -r output/fastapi-lifespan ~/.claude/skills/fastapi-lifespan

Claude Code descubre el skill en la siguiente sesión sin necesidad de reiniciar ni configurar nada más. La detección es automática.

Variantes del pipeline: playlists y múltiples fuentes

Si el contenido que quieres capturar es una playlist completa, Skill Seekers procesa todos los vídeos en secuencia y genera un SKILL.md consolidado. Es útil cuando un tema se distribuye en varias partes a lo largo de una serie de tutoriales.

La herramienta también soporta pipelines multi-fuente donde combinas vídeos con documentación oficial y PDFs en un solo skill de salida. El caso típico es complementar el tutorial de YouTube con la referencia de la API oficial: el vídeo aporta los patrones en acción, la documentación aporta los detalles de los parámetros. La combinación produce skills más completos que cualquiera de las fuentes por separado.

Para exportar el resultado en formato Markdown genérico sin pasar por la mejora con IA, puedes usar --target markdown. Esta opción no requiere ninguna clave de API y genera un documento sin estructurar que puedes editar manualmente antes de convertirlo en un SKILL.md.

Caso práctico: tutorial de n8n como contexto persistente

Tienes que construir nodos personalizados para un pipeline de n8n y necesitas ayuda de Claude Code para la implementación. Existe un tutorial de 35 minutos que cubre la API interna de n8n para nodos en TypeScript: los métodos execute y description, el manejo de credenciales, los tipos de nodo y los patrones de error.

Sin el skill, describes los patrones al agente en cada sesión. El agente puede conocer n8n de forma general, pero no los detalles específicos que mostró el tutorial ni las decisiones de diseño que el autor argumentó. Con el skill instalado, Claude Code activa el contexto del tutorial cuando detecta que estás trabajando con nodos personalizados de n8n. El agente salta directamente a la implementación con los patrones correctos en lugar de explorar la documentación desde cero.

El impacto práctico no es solo velocidad. Es coherencia: el agente aplica los mismos patrones que el tutorial estableció como preferidos, lo que reduce la fricción cuando revisas el código generado porque ya conoces el criterio de diseño que hay detrás.

Este mecanismo conecta bien con la capa de auto-memoria de Claude Code. Si te interesa ver cómo los skills de contexto estructurado interactúan con la memoria automática entre sesiones largas, el artículo sobre auto-memory persistente en Claude Code amplía ese mecanismo con detalle.

En Producción

Coste real del pipeline

En modo local, el proceso de mejora usa la instancia de Claude Code instalada en tu máquina y no consume créditos adicionales de API si tienes una suscripción Claude Code Max. El procesamiento completo de un tutorial de 20 a 30 minutos tarda aproximadamente 60 segundos en este modo.

Si optas por pasar la mejora a través de la API de Anthropic directamente, el coste por vídeo se sitúa en el rango de 0,02 a 0,08 euros según la duración y el número de fotogramas procesados. Para playlists de 10 a 15 vídeos, el coste acumulado raramente supera 1 euro. No es un gasto relevante para uso individual, pero conviene tenerlo presente si automatizas el pipeline para procesar contenido de forma recurrente.

Presupuesto de tokens del SKILL.md

Un SKILL.md de 500 líneas añade aproximadamente entre 3.000 y 5.000 tokens de contexto en cada sesión donde el agente activa sus triggers. La documentación oficial de skills recomienda no superar 500 líneas por archivo para mantener el presupuesto de contexto bajo control. Si el tutorial cubre varios temas distintos, separa el output en varios skills por área de conocimiento en lugar de generar uno monolítico.

El artículo sobre control de tokens con la statusline de Claude Code es útil para monitorizar el impacto real de los skills activos en tu presupuesto de contexto durante las sesiones. En proyectos con muchos skills instalados, el token overhead acumulado puede ser significativo.

Calidad del OCR y sus límites

El OCR funciona mejor con texto claro sobre fondo oscuro o viceversa. Los tutoriales grabados con temas de alto contraste en el editor (como el tema oscuro de VS Code con fuente grande) producen resultados más limpios que los vídeos con fondos de escritorio visibles o fuentes pequeñas.

Para vídeos grabados en resolución inferior a 1080p, la calidad del SKILL.md resultante puede ser menor de lo esperado. El fallback a Claude Vision compensa la mayor parte de los fotogramas problemáticos, pero no garantiza extracción perfecta en todos los casos. Antes de instalar cualquier skill generado desde vídeo, conviene abrir el archivo y revisar los bloques de código para corregir errores de interpretación que el pipeline no haya podido resolver.

Cuándo usar la documentación en lugar del vídeo

Si el tutorial tiene una transcripción oficial disponible o la documentación de la librería cubre los mismos conceptos, crear el skill desde esa fuente de texto produce un resultado más limpio y con menos revisión manual. Skill Seekers también soporta scraping de sitios de documentación, GitHub y PDFs como fuentes de entrada, que generan skills de mayor calidad que el OCR de vídeo porque trabajan sobre texto estructurado.

El pipeline de vídeo tiene sentido cuando el tutorial muestra código en acción que no existe en otro formato accesible: demostraciones en vivo, sesiones de debugging en tiempo real, configuraciones mostradas en pantalla sin documentación escrita equivalente.

En proyectos grandes con muchos archivos activos en contexto, el overhead de cargar varios skills simultáneamente puede ser un problema. El artículo sobre grafo de dependencias con MCP para reducir tokens en Claude Code describe estrategias complementarias para cargar solo el contexto necesario para cada tarea concreta.

Errores frecuentes y cómo resolverlos

Error: ImportError: No module named 'torchvision' al ejecutar el primer comando de vídeo.
Causa: Las dependencias de GPU no se instalaron antes de la primera ejecución.
Solución: Ejecuta skill-seekers video --setup antes de procesar cualquier vídeo. El comando detecta tu hardware e instala PyTorch con el backend correcto de forma automática.

Error: El SKILL.md generado tiene bloques de código con caracteres extraños o indentación incorrecta.
Causa: Fotogramas con baja confianza de OCR que el fallback a Vision no pudo corregir completamente, típico en vídeos de baja resolución o con fondos complejos.
Solución: Revisa el archivo antes de instalarlo. Usa --start-time y --end-time para procesar solo el intervalo relevante del tutorial en lugar del vídeo completo, lo que reduce la cantidad de fotogramas problemáticos.

Error: Claude Code no activa el skill aunque el contexto debería coincidir con los triggers.
Causa: Los triggers YAML del frontmatter son demasiado específicos o no coinciden con el vocabulario natural que usa el agente al interpretar el contexto del proyecto.
Solución: Edita la sección triggers del SKILL.md para añadir variantes más amplias. Incluye términos tanto en inglés como en español si tu proyecto mezcla ambos idiomas en comentarios y nombres de variables.

¿Funciona el pipeline con vídeos en inglés?

El pipeline funciona con cualquier idioma. El OCR extrae texto independientemente del idioma del vídeo y la segunda pasada de mejora genera el SKILL.md en el idioma del contenido original. Si prefieres el skill en español cuando el tutorial está en inglés, puedes editar el archivo resultante o incluir una instrucción de idioma en el paso de mejora antes de empaquetar.

¿Cuánto contexto añade un SKILL.md en cada sesión de Claude Code?

Un archivo de 500 líneas equivale a entre 3.000 y 5.000 tokens según la densidad de código. Claude Code solo carga el skill cuando los triggers se activan, no en todas las sesiones. Si tienes varios skills con triggers que se superponen en un mismo proyecto, el agente puede cargar varios simultáneamente y el overhead acumulado puede ser notable en proyectos con muchos archivos abiertos a la vez.

¿Puedo combinar varios vídeos en un solo skill?

Sí. Para playlists completas, el soporte de batch procesa todos los vídeos en secuencia y genera un SKILL.md consolidado. La limitación práctica es el tamaño: un skill que supera 800 líneas conviene dividirlo por subtemas para mantener el contexto manejable y evitar que el archivo completo se cargue cuando solo es necesaria una parte del conocimiento que contiene.

Conclusión

El gap entre ver un tutorial y tener al agente alineado con lo que aprendiste es un problema práctico, no teórico. Los skills de Claude Code son la capa que conecta ambas cosas, y Skill Seekers automatiza la parte que más cuesta: extraer contenido técnico de un vídeo y convertirlo en contexto estructurado.

El pipeline no es perfecto. La calidad del OCR depende de la resolución y el contraste del vídeo, y los archivos generados casi siempre necesitan una revisión antes de instalarlos. Pero reduce el trabajo de crear ese contexto de horas a minutos, y el resultado es reutilizable en todas las sesiones futuras sin coste adicional de tokens al inicio.

Si ya usas skills en Claude Code, este es el paso siguiente para que el agente aprenda de las mismas fuentes que tú. ¿Has probado a convertir algún tutorial en contexto persistente para el agente? Cuéntame cómo te ha ido en los comentarios o en Twitter @sergiomarquezp_. En el próximo artículo analizamos cómo estructurar equipos de agentes especializados con revisión cruzada de outputs antes de llegar al usuario.