GENDAのデータサイエンティスト開発体験向上の取り組み
2025-11-07
1.1. 自己紹介
| 名前 |
馬渡 大樹 (Mawatari Daiki) |
| 所属 |
株式会社GENDA - IT戦略部 |
| 職種 |
データエンジニア / MLOpsエンジニア |
| GitHub |
@i9wa4 |
- 所属
- 株式会社GENDA (データエンジニア / MLOpsエンジニア)
- PIVOT株式会社 (データエンジニア 業務委託)
- 好き
- Vim
- tmux
- ゲームセンター
- Happy Hacking Keyboard
1.2. 発表概要
今回の発表内容
- GENDAのデータサイエンスチームがレコメンドモデル開発環境をAWS ECSからDatabricksに移行した事例を紹介します
- インターン生の学習負荷軽減と開発体験向上を実現した取り組みです
参考記事
2.1. AWS ECS環境の構成
2.2. インターン生の学習コスト
AWS特有の知識が必須
- Docker、ECR、ECSタスク実行、CloudWatch Logsなど多岐にわたる技術スタック
- インフラ学習に時間を費やし、本来の機械学習に集中できない状況
- データサイエンスを学びたいインターン生にとって大きな負担
学習の優先順位の問題
- 本来学ぶべきはモデル開発やデータ分析
- しかし実際にはコンテナやクラウドインフラの知識習得が先行
- 限られたインターン期間で本質的なスキルを学ぶ時間が減少
2.2-2. 学習時間の配分比較
2.3-2. 開発サイクルの比較
3.1. Databricks環境の構成
3.2. AWSの学習コストがゼロに
3.3. 開発体験の向上
3.4. 本番運用までがスムーズ
3.5. 移行前後の比較
3.6. インターン生の声
4.1. ロードマップ
5.1. まとめ
移行の効果
- インターン生の学習コストを大幅削減(学習時間配分: 30% → 90%が本質的スキルに)
- 開発サイクルの高速化(50分以上 → 1-2分、約25-50倍速)
- 本質的なスキル習得に集中できる環境の実現
重要なポイント
- 開発体験は生産性に直結する
- ツール選択は学習コストも考慮すべき
- インタラクティブな環境が学習を加速する
今後の方向性
- データエンジニアとの連携強化
- 生成AI活用による更なる効率化
- 継続的な開発環境の改善