DevOps / SRE - Prometheus, Grafana
Trabaja con nosotros!
Resumen
Únete a nuestro equipo de Site Reliability Engineering como Site Reliability Engineer, donde implementamos y optimizamos herramientas que permiten un monitoreo automatizado y eficiente, proporcionando la información necesaria para corregir errores y asegurar en todo momento el correcto funcionamiento de nuestros productos en la nube en ambientes productivos.
Tendrás el desafío de garantizar la estabilidad, disponibilidad y desempeño de infraestructuras cloud productivas mediante el diseño e implementación de soluciones de monitoreo y visualización de indicadores de desempeño de las plataformas para garantizar la continuidad de la operación de grandes centros de datos, que soportan las aplicaciones e infraestructura críticas e ininterrumpidas que desplegamos.
Este rol está disponible para trabajo remoto desde las siguientes ubicaciones: México, Chile, Argentina, Colombia, Uruguay y Perú.
Responsabilidades
Diseñar, implementar y optimizar soluciones de monitoreo para infraestructuras cloud.
Definir, analizar e implementar dashboards para visualizar indicadores de desempeño críticos.
Garantizar el correcto funcionamiento de entornos cloud productivos, especialmente basados en tecnologías open-source como Kubernetes y OpenStack.
Atender y escalar incidencias críticas de plataforma al equipo de ingeniería senior o desarrollo de productos.
Supervisar y administrar entornos de desarrollo y testing.
Desarrollar, implementar y operar pipelines y herramientas de CI/CD para supervisión y actualización de imágenes en entornos productivos.
Requerimientos
Formación y experiencia:
Estudios de Ingeniería Informática, Ingeniería de Sistemas, Computación o título afín.
Experiencia relacionada de al menos 3 años en cargos relacionados con la gestión, optimización y monitoreo de infraestructuras en la nube, especialmente con tecnologías como Kubernetes y/o OpenStack, y el manejo de incidencias y entornos productivos.
Experiencia en el diseño y soluciones de monitoreo para infraestructuras cloud, así como gestión del desempeño y coordinación de incidencias críticas con el equipo de desarrollo.
Conocimientos Específicos / Requisitos Técnicos:
Uso y configuración de herramientas de monitoreo (Prometheus, Grafana, Elasticsearch, Kibana).
Conocimiento en monitorear elementos externos como routers, switches, clusters, kubernetes, VMs.
Uso y creación de imágenes de contenedores con Docker (intermedio).
Saber crear imágenes con un Dockerfile
Conocer el ciclo de vida de contenedores Docker
Uso y administración de clusters de Kubernetes.
Automatización (scripting) con Bash y/o Python.
Linux intermedio
Comandos básicos, manipulación de archivos, red, etc.
Experiencia con Shell scripting (Bash).
Idioma: Inglés intermedio (Escritura/Lectura)
Deseables
Experiencia Cloud Público (AWS, GCP, Azure) o Privado (Openstack)
Experiencia en metodologías ágiles (Scrum, Kanban, etc.)
Capacidad de adaptar open-source existente.
Certificaciones en Linux, OpenStack y/o Kubernetes
Integración de proyectos de código abierto
Conocimientos básicos en Networking
Sobre nosotros
En Whitestack somos líderes en Latinoamérica en el desarrollo de soluciones Telco Cloud, Open Networking e infraestructura digital híper-escalable. Trabajamos con tecnologías de código abierto como OpenStack, Kubernetes, Open Source Mano, Ceph, Prometheus, ONOS y muchas otras y colaboramos activamente con organizaciones globales como ETSI, la Open Infrastructure Foundation, el Telecom Infra Project y el Open Compute Project. Impulsamos la transformación digital en la región mediante estándares de clase mundial, grandes implementaciones para operadores y un fuerte compromiso con la innovación.
Además, somos un Great Place to Work, donde la colaboración y el desarrollo personal son parte esencial de nuestra cultura.
¿Por qué unirte a Whitestack?
🌎 Proyección internacional: Participa en iniciativas globales y viaja para colaborar con equipos en distintos países.
⚖️ Equilibrio real: Diseñamos políticas que se ajustan a tu estilo de vida y te permiten trabajar con autonomía y propósito.
📈 Crecimiento claro: Te ofrecemos una línea de carrera sólida en liderazgo y tecnología.
Salud primero: Seguro médico privado para ti y tu familia.
📚 Aprendizaje sin límites: Acceso a cursos, libros, materiales y reembolso de certificaciones.
🌐 Idiomas para el mundo: Cursos de idiomas para que tu crecimiento no tenga fronteras.
💻 Tecnología en tus manos: Renovamos tu equipo cada 3 años... ¡y es tuyo al finalizar el período!
🏆 Reconocimiento al esfuerzo: Bonos por rendimiento y éxito en proyectos.
🎉 Tiempo para ti: 15 días de vacaciones mínimo, un día libre por tu cumpleaños y descansos extra antes de Fiestas Patrias, Navidad y Año Nuevo.
🤝 Conexión y diversión: Presupuesto para actividades recreativas e integración.
💡 Cultura de innovación: Tus ideas importan. Promovemos la participación estratégica desde cualquier rol.
Conoce más sobre nuestras prestaciones aquí.
- Departamento
- Product Development
- Puesto
- Site Reliability Engineer
- Ubicaciones
- Argentina, Chile, Colombia, México, Perú, Uruguay
- Estado remoto
- Completamente remoto
- Tipo de empleo
- Tiempo completo
- Nivel de empleo
- Profesionales
Acerca de Whitestack
Whitestack es una empresa de tecnología con presencia en Latinoamérica, especializada en nubes privadas y virtualización de redes.
Nos destacamos por impulsar soluciones basadas en código abierto, ayudando a operadores de telecomunicaciones, proveedores de aplicaciones y grandes empresas a modernizar su infraestructura.
Además, somos un Great Place to Work, lo que significa que valoramos a nuestro equipo, fomentamos el crecimiento profesional y creamos un ambiente de trabajo colaborativo, diverso e inspirador.