




Resumen: CloudLinux busca un Ingeniero Senior de Plataforma IaaS / Kubernetes para diseñar, implementar y operar su nube privada y su plataforma Kubernetes multiinquilino. Aspectos destacados: 1. Contribuidor clave en el diseño de la nube privada y de la plataforma Kubernetes multiinquilino 2. Enfoque en ingeniería de plataformas Kubernetes, almacenamiento, redes y SRE 3. Oportunidad de impulsar mejoras y construir soluciones escalables CloudLinux es una empresa global con enfoque remoto desde el primer día. Nos guían nuestros principios: hacer lo correcto, los empleados primero, somos remotos desde el primer día, y ofrecemos infraestructura y productos de seguridad Linux de alto volumen y bajo costo que ayudan a las empresas a aumentar la eficiencia de sus operaciones. Cada miembro de nuestro equipo se apoya mutuamente y hace todo lo posible para garantizar que todos tengamos éxito. Visite nuestro sitio web para obtener más información: https://cloudlinux.com/ Buscamos un **Ingeniero Senior de Plataforma IaaS / Kubernetes** para unirse a nuestro **Departamento de Infraestructura** y convertirse en un contribuidor clave en el diseño, la implementación y la operación de nuestra nube privada y plataforma Kubernetes multiinquilino. Nuestra infraestructura soporta más de 500 VM en varios centros de datos, atendiendo a más de 20 equipos de ingeniería. Actualmente estamos evolucionando desde una plataforma de virtualización basada en OpenNebula hacia una nube multiinquilino nativa de Kubernetes con KubeVirt para la orquestación de máquinas virtuales, manteniendo la fiabilidad y la excelencia operativa durante toda la transición. Trabajará junto al Líder Técnico actual de IaaS y el Ingeniero de Redes, y deberá ser capaz de gestionar y operar de forma independiente toda la pila de IaaS (computación, almacenamiento, redes, hardware físico) si fuera necesario. Este no es un puesto exclusivo de "Kubernetes": requiere sólidas habilidades generales de infraestructura combinadas con experiencia específica en plataformas Kubernetes. **Lo que hará** **Ingeniería de Plataformas Kubernetes (enfoque principal — 40%)** * Diseñar, construir y operar una plataforma Kubernetes multiinquilino mediante Cluster API (CAPI) con proveedores de hardware físico (Metal3/Sidero). * Implementar una multiinquilinaria estricta mediante vCluster (Loft Labs) o tecnología similar, proporcionando servidores API de Kubernetes aislados por inquilino. * Implementar y gestionar KubeVirt para la orquestación de máquinas virtuales dentro de Kubernetes, incluyendo fijación de CPU, conciencia NUMA y configuración de HugePages. * Implementar infraestructura impulsada por GitOps mediante ArgoCD o Flux como única fuente de verdad para todas las configuraciones de clúster. * Implementar y gestionar Políticas como Código (Policy-as-Code) mediante Kyverno u OPA Gatekeeper para control de admisión, cuotas de recursos y políticas de seguridad. * Construir capacidades de auto-servicio mediante Crossplane u otras herramientas nativas de Kubernetes para aprovisionamiento de infraestructura. **Ingeniería de Almacenamiento (20%)** * Operar y optimizar clústeres distribuidos de almacenamiento Ceph (actualmente 1 PiB brutos, 149 OSD, Quincy 17\.2\.5\). * Gestionar despliegues a gran escala del operador Rook-Ceph sobre Kubernetes moderno (v1\.28\+). * Implementar jerarquización de almacenamiento: Ceph para almacenamiento masivo, NVMe local para cargas de trabajo de alta IOPS, LINSTOR/DRBD o TopoLVM para almacenamiento replicado ultrarrápido. * Diseñar e implementar aislamiento de E/S por VM / por inquilino en clústeres compartidos de Ceph. * Gestionar CDI (Containerized Data Importer) para el ciclo de vida de imágenes de VM en entornos KubeVirt. **Redes (15%)** * Desplegar y gestionar redes superpuestas (overlay) para la conectividad entre pods, microsegmentación y cifrado WireGuard/IPsec. * Implementar Cluster Mesh para conectividad pod-a-pod entre múltiples centros de datos. * Configurar Multus CNI y SR-IOV para soporte de múltiples NIC en VMs dentro de KubeVirt. * Trabajar con infraestructura física de red: switches Juniper (JunOS), BGP (eBGP/iBGP), EVPN/VXLAN, VLAN. * Mantener conectividad IPSec sitio-a-sitio entre centros de datos. **Fiabilidad y Operaciones (15%)** * Aplicar disciplina SRE: definir y mantener SLO con presupuestos de error, implementar gestión proactiva de capacidad con pronósticos a 6–12 meses. * Diseñar y ejecutar experimentos de ingeniería del caos para validar la resiliencia del sistema. * Participar en turnos de guardia para infraestructura IaaS (OpenNebula, Ceph, redes). * Escribir y mantener manuales operativos (runbooks), documentación de planes de recuperación ante desastres (DRP) y análisis post-mortem. * Impulsar mejoras proactivas: identificar riesgos de fiabilidad, cuellos de botella de rendimiento y tareas repetitivas (toil), y luego proponer e implementar soluciones sin esperar a incidentes. **Infraestructura como Código y Automatización (10%)** * Desarrollar y mantener módulos Terraform/OpenTofu para aprovisionamiento de infraestructura multi-nube. * Escribir playbooks de Ansible para configuración de servidores de hardware físico y gestión de flotas. * Automatizar el ciclo de vida de la infraestructura: imágenes de arranque PXE, aprovisionamiento de hardware (Foreman), gestión IPMI. * Implementar prácticas FinOps: atribución de costos, análisis de utilización de recursos, recomendaciones de ajuste óptimo (right-sizing) mediante OpenCost/Kubecost. **Requisitos** **Imprescindibles** * **Más de 5 años** en roles de ingeniería de infraestructura/plataforma, con **al menos 3 años operando clústeres Kubernetes en producción** (no solo desplegando aplicaciones sobre Kubernetes, sino construyendo y gestionando la propia plataforma). * **Experiencia en producción con al menos 3 de los siguientes:** * + KubeVirt o tecnología similar de VM sobre Kubernetes + Cluster API (CAPI) para gestión declarativa del ciclo de vida de clústeres + Cilium o Calico (CNI avanzado con integración eBPF o BGP) + Rook-Ceph u otros operadores de almacenamiento Kubernetes a gran escala (100+ OSD) ArgoCD o Flux para gestión de infraestructura impulsada por GitOps * **Conocimientos profundos de sistemas Linux:** ajuste del kernel, pila de redes (iptables/nftables, enrutamiento, agrupación, VLAN), operaciones con sistemas de archivos, resolución de problemas de rendimiento. * **Experiencia con almacenamiento distribuido Ceph:** operaciones de clúster, ciclo de vida de OSD, gestión de pools, ajuste de rendimiento, resolución de estados degradados. * **Infraestructura como Código:** Terraform/OpenTofu \+ Ansible a escala productiva. * **Experiencia con infraestructura de hardware físico:** IPMI/iDRAC, arranque PXE, configuración RAID, diagnóstico de hardware, operaciones en centros de datos. * **Fundamentos de redes:** BGP, VLAN, IPSec/WireGuard, DNS, equilibrio de carga. * **Excelente dominio oral y escrito del inglés (nivel B2 o superior)** — la documentación, los análisis post-mortem y la comunicación interdepartamental se realizan en inglés. * **Actitud proactiva:** historial demostrable de identificación de problemas antes de que se conviertan en incidentes y de impulso de mejoras sin necesidad de que se soliciten. **Deseable** * Experiencia en construcción de plataformas Kubernetes multiinquilino (vCluster, Capsule o aislamiento personalizado por espacio de nombres). * Crossplane u otra abstracción nativa de Kubernetes para infraestructura. * Políticas como Código (Policy-as-Code): Kyverno, OPA Gatekeeper o Kubewarden. * Seguridad de contenedores: firma de imágenes (Sigstore/cosign), seguridad en tiempo de ejecución (Falco), ejecución aislada (Kata Containers, gVisor). * Prácticas SRE: diseño de SLO/SLI, políticas de presupuesto de errores, ingeniería del caos (LitmusChaos, Chaos Mesh), marcos de gestión de incidentes. * FinOps: OpenCost, Kubecost, optimización de costos en la nube. * Experiencia con sistemas operativos inmutables: Talos Linux, Flatcar Container Linux o similares. * Experiencia con OpenNebula (estamos migrando desde él, por lo que comprenderlo acelera la transición). * Experiencia con LINSTOR/DRBD o TopoLVM para almacenamiento local de alto rendimiento. * Experiencia con SR-IOV y DPDK para redes aceleradas por hardware. * Experiencia en migración desde virtualización tradicional (VMware, OpenNebula, Proxmox) a Kubernetes/KubeVirt. * Pila Grafana LGTM (Mimir, Loki, Tempo) para observabilidad. * Experiencia en entornos de cumplimiento (SOC2, ISO 27001, NIS2\). * Programación en Go o Python para herramientas de infraestructura. * Experiencia en configuración de switches Juniper JunOS. **Qué buscamos** * **Actitud proactiva.** Actualmente, cerca del 50 % de la carga de trabajo de IaaS sigue siendo imprevista, incluyendo incidentes y solicitudes de soporte ad hoc. Buscamos a alguien capaz de reducir esta proporción mediante mejor automatización, controles preventivos y sistemas más resilientes. * **Enfoque de plataforma.** Busca formas de reemplazar tareas repetitivas de soporte con soluciones escalables; por ejemplo, construir flujos de auto-servicio en lugar de aprovisionar VMs manualmente, o introducir políticas automatizadas de calidad de servicio (QoS) en lugar de gestionar límites caso por caso. * **Capacidad de trabajar con la pila actual y futura.** Hoy operamos OpenNebula y Ceph mientras avanzamos hacia una plataforma nativa de Kubernetes. Este puesto requiere a alguien capaz de mantener estable el entorno actual mientras contribuye de forma práctica a la construcción de la siguiente etapa. * **Transparencia en la comunicación.** Valoramos que las discusiones técnicas, las decisiones arquitectónicas y las revisiones de incidentes ocurran en canales compartidos y formatos documentados. Esto incluye ADR (Architectural Decision Records), análisis post-mortem y actualizaciones escritas claras. * **Enfoque en el intercambio de conocimientos.** Documenta su trabajo, escribe manuales operativos (runbooks) mientras avanza y ayuda a que la plataforma sea más fácil de operar y soportar para los demás. * **Excelente comunicación en inglés.** La documentación, los análisis post-mortem, las actualizaciones en Jira, las discusiones en Slack y la colaboración interdepartamental se llevan a cabo en inglés. **Beneficios** **¿Qué obtiene usted?** * Enfoque en desarrollo profesional. * Proyectos interesantes y desafiantes. * Trabajo completamente remoto con horarios flexibles, que le permite organizar su jornada y trabajar desde cualquier ubicación del mundo. * 24 días pagados de vacaciones al año, 10 días festivos nacionales y licencias médicas ilimitadas. * Compensación para seguro médico privado. * Reembolso para coworking y gimnasio/deporte. * Presupuesto para educación. * Oportunidad de recibir una recompensa por la idea más innovadora que la empresa pueda patentar. *Al presentar su candidatura a este puesto, acepta el tratamiento de sus datos personales tal como se describe en nuestra Política de Privacidad (**https://cloudlinux.com/candidate\-privacy\-notice**), que contiene información detallada sobre cómo mantenemos y gestionamos sus datos.*


