DevJobs

DevOps & AI Infrastructure Engineer

Overview
Skills
  • Python Python
  • TensorFlow TensorFlow
  • PyTorch PyTorch
  • Ubuntu Ubuntu
  • Linux Linux
  • CI/CD CI/CD
  • Jenkins Jenkins
  • Kubernetes Kubernetes
  • Docker Docker
  • Grafana Grafana
  • Ansible Ansible
  • Multi-stage builds
  • NVIDIA Drivers
  • RHEL
  • Configuration Management
  • NVML
  • ArgoCD
  • Run:ai
  • Prometheus Prometheus
  • KubeFlow
  • GitLab CI
  • OpenShift
  • Dockerfiles
חברת Commit מחפשת DevOps & AI Infrastructure Engineer לתפקיד מאתגר ומרתק בחזית הטכנולוגיה בצפון הארץ.

במסגרת התפקיד, תחזוקה ואופטימיזציה של חוות ה-GPU הארגונית, תוך הנגשת משאבי המחשוב לפרויקטי ה-AI השונים בארגון.

הצטרפו אלינו לעשייה בעלת משמעות אמיתית והשפעה רחבה.

תחומי אחריות:

  • Onboarding לפרויקטים: ליווי צוותי פיתוח ו-Data Science בתהליך הכניסה לעבודה בחווה, החל מהגדרת הדרישות ועד להרצה מלאה.
  • בניית Docker Images: יצירה ותחזוקה של Image-ים מורכבים המותאמים לעבודה עם GPU (שימוש ב-NVIDIA Docker, CUDA, וכדומה) המותאמים לסטנדרטים הארגוניים.
  • ניהול ותפעול שוטף: ניהול ותפעול חוות ה-GPU על גבי סביבת OpenShift, כולל ניטור ביצועים, הקצאת משאבים ופתרון תקלות מורכבות.
  • אופטימיזציית משאבים: הטמעה וניהול של פתרונות תזמון וניהול תור (כמו Run:ai) למיקסום הניצולת של כרטיסי ה-GPU היקרים.
  • אוטומציה ו-CI/CD: בניית Pipelines להפצה מהירה של מודלים וסביבות עבודה.

Requirements:

דרישות סף :

ניסיון מוכח ב-OpenShift: שליטה מעמיקה בניהול קלאסטרים, Deployment, וניהול Storage/Networking בסביבת OpenShift (או Kubernetes ברמה גבוהה מאוד).

מומחיות ב-Docker: ניסיון מעשי בכתיבת Dockerfiles מורכבים, ניהול Multi-stage builds ואופטימיזציה של גדלי Images.

הכרות עם עולם ה-Linux: שליטה מלאה במערכות הפעלה Linux (RHEL/Ubuntu) ברמת ה-Kernel והדרייברים (בדגש על NVIDIA Drivers).

ניסיון ב-Automation: עבודה עם כלי CI/CD (כגון Jenkins, GitLab CI, או ArgoCD) וכלי Configuration Management (כגון Ansible).

יתרונות משמעותיים:

Run:ai: ניסיון קודם בעבודה עם מערכת Run:ai לניהול והקצאת GPU – יתרון גדול מאוד.

AI/MLOps Background: הכרות עם ספריות ו-Frameworks כמו PyTorch, TensorFlow, ו-KubeFlow.

ניטור (Monitoring): ניסיון בעבודה עם Prometheus ו-Grafana בדגש על ניטור GPU Metrics (NVML).

Python: יכולת כתיבת סקריפטים לאוטומציה ואינטגרציה של כלים.
Commit