Site Reliability Engineer, ML System

薪資範圍:面議(經常性薪資達4萬元)

公司名稱: Dcard

期待看到你具備 3 年以上 SRE、DevOps 或相關領域工作經驗。 精通容器化技術(如 Docker)和容器編排工具(如 Kubernetes)。 熟悉任一雲計算平台(AWS、GCP、Azure)的部署與管理。 熟練任一監控工具(如 Prometheus、Grafana)和警告設置。 具備紮實的程式能力(Python、Golang、Shell Script)以及自動化工具的經驗。 Dcard 是在年輕族群有極高滲透率與影響力的社群平台。我們致力於打造一個讓每個人都可以放心分享自己故事的地方,讓平凡人分享不平凡故事的新世代社群服務。我們的用戶來自世界各地,除了既有社群服務與版圖,我們也正全力擴張發展新型業務及跨國市場。 面對快速變化的社群生態,我們期待更多優秀的人才加入 Dcard。為了達成這個目標,我們需要熟悉機器學習基礎設施且具備卓越維運能力的 Site Reliability Engineer, ML(Data) System 加入,負責設計、實施並維護支持機器學習模型和系統的可靠性與可用性。此職位將與數據科學家、ML 工程師及平台工程團隊密切合作,確保機器學習工作負載穩定、高效地運行。 一起打造被千萬人喜愛與使用的產品! 為什麼你該加入 Dcard? Dcard 產品從抽卡延伸至社群論壇、廣告等,服務對象從大學生到所有年輕人。我們正在以成長型思維打造一個快速成長、持續擴展影響力的組織。團隊聚焦長期使命願景與戰略,一同專注目標並持續突破。我們面向世界,在不同領域創造更多的發展與機會,也不滿足於現有版圖。我們需要你的加入,幫助 Dcard 在更多領域提供價值給使用者。 你將在團隊參與⋯ 機器學習產品維運 確保機器學習管道(ETL、模型訓練與推理)的穩定性和性能。 監控模型運行時的資源使用(CPU、GPU、記憶體、存儲),並進行優化。 平台可靠性 架構和維護分布式計算系統(如 Kubernetes、TensorFlow Serving、PyTorch Lightning)。 設計並實現自動化部署和持續集成/持續交付(CI/CD)流程。 性能優化與故障排除 優化模型訓練時間與推理延遲,並確保資源利用率最大化。 調試與解決系統故障及模型性能異常。 基礎設施管理 管理雲端及本地資源(如 GCP、AWS、Azure 或自建集群),確保穩定運行。 監控與警告 實施監控方案(如 Prometheus、Grafana)來觀測模型性能與基礎設施健康狀況。 設置即時警告,快速應對系統異常。 跨團隊協作 與數據科學家、ML 工程師合作,支持新模型的部署與監控需求。 提供維運指導和工具,提高團隊運行效率。

公司地址:

臺北市大安區光復南路102號14樓

其他:

如果你擁有以下能力,那就更棒了! 有分散式系統或大規模機器學習基礎設施設計經驗。 了解模型版本控制及推理服務優化。 熟悉機器學習框架(如 TensorFlow、PyTorch、XGBoost)和工作流管理工具(如 Airflow、Kubeflow)。 有處理實時流數據(如 Kafka、Spark Streaming)的經驗。 為什麼要加入我們? 我們是充滿熱情的跨國團隊,用成長型思維打造快速成長的組織。 擁有高頻率的溝通文化,夥伴間頻繁地討論合作並給予回饋,發揮自己的影響力。 彈性的工作氛圍,不論身在團隊擔任任何角色,將擁有彈性工時安排的空間。 持續學習是 Dcard 的核心精神,夥伴能隨時取得書籍、課程講座、國內外 Conference 等資源。 注意事項 如果團隊覺得有機會合作,一起讓 Dcard 往更高的目標邁進,我們會儘速聯絡你! 若不符合職位需求的面試者,將不另行通知。 如果尋找到合適的人選加入,職缺可能會提前關閉。 如果人選在申請過程中提供不實資訊,Dcard 有權取消雇用提議。 在 Dcard,每位夥伴都是平等的,我們重視每個人的多元性。Dcard 致力於打造一個多元與共融的環境,尊重並且包容每一位夥伴。我們相信,平等與多元能夠帶來無限創新的可能。因此,我們的招聘流程提供每位應徵者平等的就業機會,並落實無歧視的就業環境。 -2025-03-04
應徵