Ingeniero Senior de Plataforma IaaS / Kubernetes (trabajo remoto a nivel mundial, desde cualquier lugar)

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

Puerta del Sol, 4, Centro, 28013 Madrid, España

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Resumen: CloudLinux busca un Ingeniero Senior de Plataforma IaaS / Kubernetes para diseñar, implementar y operar su nube privada y su plataforma Kubernetes multiinquilino. Aspectos destacados: 1. Contribuidor clave en el diseño y la operación de la nube privada y la plataforma Kubernetes 2. Enfoque en la plataforma Kubernetes, ingeniería de almacenamiento y redes 3. Oportunidad de impulsar mejoras proactivas y automatización CloudLinux es una empresa global con enfoque remoto primario. Nos guían nuestros principios: hacer lo correcto, los empleados primero, somos remotos desde el inicio y ofrecemos productos de infraestructura y seguridad Linux de alto volumen y bajo costo que ayudan a las empresas a aumentar la eficiencia de sus operaciones. Cada miembro de nuestro equipo se apoya mutuamente y hace todo lo posible para garantizar que todos tengamos éxito. Visite nuestro sitio web para obtener más información https://cloudlinux.com/ Buscamos un **Ingeniero Senior de Plataforma IaaS / Kubernetes** para unirse a nuestro **Departamento de Infraestructura** y convertirse en un contribuidor clave en el diseño, la implementación y la operación de nuestra nube privada y nuestra plataforma Kubernetes multiinquilino. Nuestra infraestructura soporta más de 500 VM en múltiples centros de datos, atendiendo a más de 20 equipos de ingeniería. Actualmente estamos evolucionando desde una plataforma de virtualización basada en OpenNebula hacia una nube multiinquilino nativa de Kubernetes con KubeVirt para la orquestación de máquinas virtuales, manteniendo la fiabilidad y la excelencia operativa durante toda la transición. Trabajará junto al Líder Técnico actual de IaaS y el Ingeniero de Redes, y deberá ser capaz de gestionar y operar de forma independiente toda la pila de IaaS (computación, almacenamiento, redes, hardware físico) si fuera necesario. Este no es un puesto exclusivamente centrado en «Kubernetes»: requiere sólidas competencias como especialista general en infraestructura combinadas con experiencia específica en plataformas Kubernetes. **Lo que hará** **Ingeniería de Plataforma Kubernetes (Enfoque principal — 40%)** * Diseñar, construir y operar una plataforma Kubernetes multiinquilino mediante Cluster API (CAPI) con proveedores de hardware físico (Metal3/Sidero). * Implementar una multiinquilinaria estricta mediante vCluster (Loft Labs) o tecnología similar, proporcionando servidores de API de Kubernetes aislados por inquilino. * Implementar y gestionar KubeVirt para la orquestación de VM dentro de Kubernetes, incluida la fijación de CPU, la conciencia NUMA y la configuración de HugePages. * Implementar infraestructura impulsada por GitOps mediante ArgoCD o Flux como única fuente de verdad para todas las configuraciones de clúster. * Implementar políticas como código (Policy-as-Code) mediante Kyverno u OPA Gatekeeper para control de admisión, cuotas de recursos y políticas de seguridad. * Desarrollar capacidades de auto-servicio mediante Crossplane u otras herramientas nativas de Kubernetes para el aprovisionamiento de infraestructura. **Ingeniería de Almacenamiento (20%)** * Operar y optimizar clústeres distribuidos de almacenamiento Ceph (actualmente 1 PiB brutos, 149 OSD, Quincy 17\.2\.5\). * Gestionar despliegues a gran escala del operador Rook-Ceph sobre Kubernetes moderno (v1\.28\+). * Implementar escalonamiento de almacenamiento: Ceph para almacenamiento masivo, NVMe local para cargas de trabajo de alta IOPS y LINSTOR/DRBD o TopoLVM para almacenamiento replicado ultrarrápido. * Diseñar e implementar aislamiento de E/S por VM / por inquilino en clústeres compartidos de Ceph. * Gestionar CDI (Containerized Data Importer) para el ciclo de vida de imágenes de VM en entornos KubeVirt. **Redes (15%)** * Implementar y gestionar redes superpuestas (overlay) para la red de pods, microsegmentación y cifrado WireGuard/IPsec. * Implementar Cluster Mesh para conectividad pod-a-pod entre múltiples centros de datos. * Configurar Multus CNI y SR-IOV para soporte de múltiples NIC en VMs dentro de KubeVirt. * Trabajar con infraestructura física de red: switches Juniper (JunOS), BGP (eBGP/iBGP), EVPN/VXLAN, VLAN. * Mantener conectividad IPSec sitio-a-sitio entre centros de datos. **Fiabilidad y Operaciones (15%)** * Aplicar disciplina SRE: definir y mantener SLO con presupuestos de errores, implementar gestión proactiva de capacidad con pronósticos a 6-12 meses. * Diseñar y ejecutar experimentos de ingeniería del caos para validar la resiliencia del sistema. * Participar en turnos de guardia para la infraestructura IaaS (OpenNebula, Ceph, redes). * Escribir y mantener manuales operativos (runbooks), documentación de planes de recuperación ante desastres (DRP) y análisis postmortem. * Impulsar mejoras proactivas: identificar riesgos de fiabilidad, cuellos de botella de rendimiento y tareas repetitivas (toil), y luego proponer e implementar soluciones sin esperar a que ocurran incidencias. **Infraestructura como Código y Automatización (10%)** * Desarrollar y mantener módulos de Terraform/OpenTofu para el aprovisionamiento de infraestructura multi-nube. * Escribir playbooks de Ansible para la configuración de servidores de hardware físico y la gestión de flotas. * Automatizar el ciclo de vida de la infraestructura: imágenes de arranque PXE, aprovisionamiento de hardware (Foreman), gestión IPMI. * Implementar prácticas FinOps: atribución de costos, análisis de utilización de recursos, recomendaciones de ajuste óptimo (right-sizing) mediante OpenCost/Kubecost. **Requisitos** **Imprescindibles** * **Más de 5 años** en roles de ingeniería de infraestructura/plataforma, con **al menos 3 años operando clústeres Kubernetes en producción** (no solo desplegando aplicaciones en K8s, sino construyendo y gestionando la propia plataforma). * **Experiencia en producción con al menos 3 de los siguientes:** * + KubeVirt o tecnología similar de VM-en-K8s + Cluster API (CAPI) para la gestión declarativa del ciclo de vida de clústeres + Cilium o Calico (CNI avanzado con integración eBPF o BGP) + Rook-Ceph u otros operadores de almacenamiento para Kubernetes a gran escala (100+ OSD) ArgoCD o Flux para la gestión de infraestructura impulsada por GitOps * **Conocimientos profundos de sistemas Linux:** ajuste del kernel, pila de red (iptables/nftables, enrutamiento, agrupación, VLAN), operaciones con sistemas de archivos, resolución de problemas de rendimiento. * **Experiencia con almacenamiento distribuido Ceph:** operaciones de clúster, ciclo de vida de OSD, gestión de pools, ajuste de rendimiento, resolución de estados degradados. * **Infraestructura como Código:** Terraform/OpenTofu \+ Ansible a escala productiva. * **Experiencia con infraestructura de hardware físico:** IPMI/iDRAC, arranque PXE, configuración RAID, diagnóstico de hardware, operaciones en centros de datos. * **Fundamentos de redes:** BGP, VLAN, IPSec/WireGuard, DNS, equilibrio de carga. * **Inglés escrito y hablado sólido (nivel B2 o superior)** — la documentación, los análisis postmortem y la comunicación interdepartamental se realizan en inglés. * **Actitud proactiva:** historial demostrable de identificación de problemas antes de que se conviertan en incidencias y de impulso de mejoras sin necesidad de que se soliciten. **Deseable** * Experiencia en la construcción de plataformas Kubernetes multiinquilino (vCluster, Capsule o aislamiento personalizado por espacios de nombres). * Crossplane o abstracción nativa de Kubernetes para infraestructura. * Políticas como código (Policy-as-Code): Kyverno, OPA Gatekeeper o Kubewarden. * Seguridad de contenedores: firma de imágenes (Sigstore/cosign), seguridad en tiempo de ejecución (Falco), ejecución aislada (Kata Containers, gVisor). * Prácticas SRE: diseño de SLO/SLI, políticas de presupuesto de errores, ingeniería del caos (LitmusChaos, Chaos Mesh), marcos de gestión de incidencias. * FinOps: OpenCost, Kubecost, optimización de costos en la nube. * Experiencia con sistemas operativos inmutables: Talos Linux, Flatcar Container Linux o similares. * Experiencia con OpenNebula (estamos migrando DESDE él, por lo que conocerlo acelera la transición). * Experiencia con LINSTOR/DRBD o TopoLVM para almacenamiento local de alto rendimiento. * Experiencia con SR-IOV y DPDK para redes aceleradas por hardware. * Experiencia en la migración desde virtualización tradicional (VMware, OpenNebula, Proxmox) a Kubernetes/KubeVirt. * Pila Grafana LGTM (Mimir, Loki, Tempo) para observabilidad. * Experiencia en entornos de cumplimiento normativo (SOC2, ISO 27001, NIS2\). * Programación en Go o Python para herramientas de infraestructura. * Experiencia en la configuración de switches Juniper JunOS. **Qué buscamos** * **Actitud proactiva.** Actualmente, aproximadamente el 50 % de la carga de trabajo de IaaS sigue siendo trabajo no planificado, incluidas incidencias y solicitudes de soporte ad hoc. Buscamos a alguien que pueda reducir esa proporción mediante una mejor automatización, controles preventivos y sistemas más resilientes. * **Enfoque de plataforma.** Busca formas de sustituir tareas repetitivas de soporte por soluciones escalables; por ejemplo, desarrollar flujos de trabajo de auto-servicio en lugar de aprovisionar VMs manualmente, o introducir políticas automatizadas de calidad de servicio (QoS) en vez de gestionar límites caso por caso. * **Capacidad para trabajar tanto con la pila actual como con la futura.** Hoy operamos OpenNebula y Ceph mientras avanzamos hacia una plataforma nativa de Kubernetes. Este puesto requiere a alguien capaz de mantener estable el entorno actual mientras ayuda a construir la siguiente etapa de forma práctica. * **Transparencia en la comunicación.** Valoramos que las discusiones técnicas, las decisiones arquitectónicas y las revisiones de incidencias tengan lugar en canales compartidos y formatos documentados. Esto incluye ADRs, análisis postmortem y actualizaciones escritas claras. * **Enfoque en el intercambio de conocimientos.** Documenta su trabajo, escribe manuales operativos (runbooks) conforme avanza y ayuda a que la plataforma sea más fácil de operar y soportar para los demás. * **Comunicación sólida en inglés.** La documentación, los análisis postmortem, las actualizaciones en Jira, las conversaciones en Slack y la colaboración interdepartamental se llevan a cabo en inglés. **Beneficios** **¿Qué obtiene usted?** * Enfoque en el desarrollo profesional. * Proyectos interesantes y desafiantes. * Trabajo completamente remoto con horarios flexibles, que le permite organizar su día y trabajar desde cualquier ubicación del mundo. * 24 días pagados de vacaciones al año, 10 días festivos nacionales y licencias médicas ilimitadas. * Compensación para seguro médico privado. * Reembolso para coworking y gimnasio/deporte. * Presupuesto para educación. * Oportunidad de recibir una recompensa por la idea más innovadora que la empresa pueda patentar. *Al presentar su candidatura a este puesto, usted acepta el tratamiento de sus datos personales tal como se describe en nuestra Política de Privacidad (**https://cloudlinux.com/candidate\-privacy\-notice**), que contiene información detallada sobre cómo mantenemos y gestionamos sus datos.*

Fuentea: indeed Ver publicación original

David Muñoz

Indeed · HR

Compañía

Indeed

David Muñoz

Indeed · HR