Ingeniero de Confiabilidad de Sitios (SRE), Referente Técnico

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

Puerta del Sol, 4, Centro, 28013 Madrid, España

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Resumen: Únase a un equipo global centrado en el diseño, la implementación y el mantenimiento de una plataforma centralizada de observabilidad, contribuyendo a aplicaciones críticas para marcas globales. Aspectos destacados: 1. Trabajar en aplicaciones críticas para importantes marcas globales. 2. Formar parte de un equipo global con más de 30 nacionalidades. 3. Oportunidad de desempeñar un trabajo flexible y orientado al rendimiento. ¿Por qué debería unirse a dLocal? dLocal permite que las empresas más grandes del mundo cobren pagos en 40 países de mercados emergentes. Las marcas globales confían en nosotros para aumentar las tasas de conversión y simplificar la expansión de pagos sin esfuerzo. Como procesador de pagos y como comerciante de registro donde operamos, hacemos posible que nuestros comerciantes incursionen en los mercados emergentes de más rápido crecimiento del mundo. Al unirse a nosotros, formará parte de un extraordinario equipo global que hace que todo esto suceda. Ser parte de dLocal significa trabajar con más de 1000 compañeros de más de 30 nacionalidades distintas y desarrollar una carrera internacional que impacta diariamente la vida de millones de personas. Somos constructores, nunca huimos de un desafío, somos centrados en el cliente y, si esto le suena familiar, sabemos que prosperará en nuestro equipo. **¿Cuál es la oportunidad?** ¡Estamos buscando un Ingeniero de Confiabilidad de Sitios (SRE) para unirse a nuestro equipo! Como Ingeniero de Confiabilidad de Sitios (SRE), se centrará en el diseño, la implementación y el mantenimiento continuo de nuestra plataforma centralizada de observabilidad, utilizando OpenTelemetry (OTEL) como su backend. Formará parte de un talentoso equipo que trabaja en aplicaciones críticas con grandes clientes como Netflix, Amazon, Nike, Facebook y más. Como Ingeniero de Confiabilidad de Sitios, siempre se espera que formule las preguntas necesarias: ¿Qué datos necesitamos para comprender cómo están funcionando nuestros sistemas? ¿Cómo recopilamos estos datos? ¿Qué patrones buscamos en los datos y qué significan? ¿A quién se debe notificar cuando cierto sistema no funciona correctamente? ¿Tenemos algún sistema del que necesitemos más datos? Un ingeniero SRE diseña sistemas y procesos para responder las preguntas anteriores y proporcionar soporte y respuesta automatizados siempre que sea posible. ### **¿Qué hará?** * **Gestionar pipelines de OpenTelemetry**: Diseñar, implementar y mantener pipelines de observabilidad en las tres señales principales: registros (logs), métricas y trazas (traces), garantizando una ingesta de datos estandarizada, escalable y eficiente. Optimizar las estrategias de ingesta para equilibrar costo, rendimiento y usabilidad. * **Empoderar a los equipos de ingeniería**: Desarrollar automatización y herramientas de autoservicio que permitan a los equipos de desarrollo instrumentar y aprovechar la observabilidad sin requerir intervención manual del equipo SRE. Impulsar la adopción de mejores prácticas, asegurando que los equipos asuman la propiedad de sus datos de telemetría. * **Apoyar la gestión de incidentes**: Ser la cara técnica de nuestro Equipo de Gestión de Incidentes, diseñando los procesos, guías operativas (playbooks), listas de verificación (checklists) y automatizaciones que deben seguir ellos y otros ingenieros durante un incidente. * **Colaborar con múltiples equipos**: Interactuar con miembros de casi todos los equipos de la empresa para comprender sus requisitos de monitoreo, alertas y SLO/SLA, y diseñar sistemas y procesos que garanticen que cumplimos o superamos dichos requisitos. Influenciar las decisiones arquitectónicas en las etapas iniciales del diseño para asegurar resiliencia y escalabilidad desde el inicio del desarrollo de software. * **Automatizar la infraestructura de observabilidad**: Aprovechar Infrastructure-as-Code (IaC) para aprovisionar y gestionar herramientas de monitoreo, reglas de alerta y nuestras configuraciones de observabilidad en los pipelines de OTEL. * **Definir estándares básicos de observabilidad**: Diseñar requisitos mínimos para servicios nuevos y existentes, garantizando que toda la infraestructura y el código de dLocal estén monitoreados de forma consistente y precisa a un nivel básico. * **Asumir la responsabilidad técnica y de seguridad**: Asumir la propiedad total de la confiabilidad de la infraestructura de dLocal, asegurando el cumplimiento de KPI clave de disponibilidad y seguridad. * **Optimizar los sistemas de alertas**: Refinar continuamente las señales de alerta para minimizar el ruido y garantizar que siempre sean accionables, reduciendo la fatiga y mejorando la eficiencia de la respuesta. ### **¿Qué habilidades necesita?** * Más de 4 años de experiencia como Ingeniero SRE o en un rol muy similar, con enfoque particular en observabilidad. * Experiencia avanzada en Kubernetes, incluidos sus componentes fundamentales, metodologías de implementación y mejores prácticas de monitoreo. * Algunos conocimientos de OpenTelemetry, incluida la configuración de recolectores OTEL, instrumentación y optimización de pipelines. * Competencia con herramientas de monitoreo y registro como Grafana, Prometheus, Loki, New Relic o Datadog. * Experiencia práctica con herramientas IaC (Terraform) y soluciones CI/CD basadas en GitOps (ArgoCD, GitHub Actions o similares). * Experiencia integrando plataformas de gestión de incidentes (PagerDuty, Jira) con flujos de trabajo de alertas automatizados. * Capacidad sólida de scripting (Python, Go o similares) para automatizar tareas de observabilidad. * Mentalidad orientada a la resolución de problemas, con capacidad para colaborar con equipos multifuncionales para impulsar mejoras en la confiabilidad. **Destacará si tiene:** * Experiencia en la nube, especialmente en **AWS** y cargas de trabajo basadas en ECS. * Experiencia gestionando **pipelines de observabilidad a gran escala** en entornos de alto volumen de tráfico. * Conocimientos de **Configuration-as-Code (Ansible, Chef o SaltStack)** para gestionar configuraciones en instancias heredadas. * Experiencia en **monitoreo del rendimiento de bases de datos**, especialmente en entornos distribuidos a gran escala. ¿Qué ofrecemos? Además de los beneficios personalizados que ofrecemos en cada país, dLocal lo ayudará a prosperar y dar ese paso extra ofreciéndole:* Flexibilidad: contamos con horarios flexibles y estamos guiados por el rendimiento. * Industria fintech: trabaje en un entorno dinámico y en constante evolución, con mucho por construir y potenciar su creatividad. \- Programa de bonos por referidos: nuestros talentos internos son los mejores reclutadores \- refiera a alguien ideal para un puesto y obtenga una recompensa.* Aprendizaje y desarrollo: obtenga acceso a una suscripción Premium a Coursera. * Clases de idiomas: ofrecemos clases gratuitas de inglés, español o portugués. * Presupuesto social: recibirá un presupuesto mensual para relajarse con su equipo (presencial o remoto) y fortalecer sus vínculos. * Casas dLocal: ¿quiere alquilar una casa para pasar una semana en cualquier lugar del mundo trabajando junto con su equipo? ¡Lo tenemos cubierto! **Flexibilidad en su forma de trabajar:** Nos enfocamos en el impacto y la productividad más que en horarios fijos. Esto significa que nuestros equipos tienen horarios flexibles y, según su rol y ubicación, combinarán momentos de concentración autogestionada con encuentros presenciales en nuestros centros de colaboración. ¿Qué sucede después de postularse? Nuestro equipo de Adquisición de Talento está comprometido con brindar la mejor experiencia posible a los candidatos, así que no se preocupe: definitivamente recibirá noticias nuestras. Revisaremos su currículum y lo mantendremos informado por correo electrónico en cada etapa del proceso. Además, puede visitar nuestra página web, LinkedIn y YouTube para conocer más sobre dLocal. Podemos utilizar herramientas de inteligencia artificial (IA) para apoyar partes del proceso de contratación, como revisar solicitudes, analizar currículums o evaluar respuestas. Estas herramientas asisten a nuestro equipo de reclutamiento, pero no sustituyen el juicio humano. Las decisiones finales de contratación siempre las toman personas. Si desea más información sobre cómo se procesan sus datos, contáctenos.

Fuentea: indeed Ver publicación original

David Muñoz

Indeed · HR

Compañía

Indeed

David Muñoz

Indeed · HR

Empleos similares

Ingeniero de Confiabilidad de Sitios (SRE), Referente Técnico

Descripción

Compañía

Empleos similares

Gestor/a tecnológico

Técnico/a electromecánico/a cualificado/a

Auxiliar de ayuda a domicilio

Electricista

Limpiador/a centro de salud fines de semana

Export Manager