今日は育児のためほとんど何もできていないので,以前購入して読めてなかった「実践AWSデータサイエンス」の1章を軽く読んだ.

普段AWSを活用して推薦システムや検索エンジン,または検閲システムなどを構築していてその中で機械学習モデルを開発しているので,既に知識として持っている部分もあったけど,1章を読み始めても新しい発見やふむふむというところがいくつもあって,ちょっと読み進めてみようと思う.どちらかというとリファレンスになる部分が大きいのかなと思った.

全体から個人的に気になった部分をかいつまんでいるので,気になる人は是非書籍を読んで欲しいです!

1.1 クラウドコンピューティングのメリット

今やなくてはならない存在であるクラウドの恩恵を多分に受けているので,改めて感謝🙏

最近はAmazonでも活用されている機械学習サービスをAWSで気軽に活用できるようになっているので,今後ますますAIが気軽に社会実装されていってより洗練されたサービスに進化して欲しいと思う.

1.1.2 コスト削減

実験的なモデルの学習だったりなら,スポットインスタンスを使ってコスト削減するのが良いなと思う.最大90%の割引を受けられるみたいなので.ただ,途中で学習止まるみたいなことあるので,機能名を忘れたけど,一時結果を保存できる設定を入れておかないと常に学習が最初から始まってハマった記憶があるので,注意が必要だと思う.

あとは,リザーブドインスタンスやSaving Plansで前払いすることでコスト削減するのも大事!

1.1.3 伸縮自在性

モデルのリクエストが増えた場合,ホスティングリソースを自動的にスケールアップする,もしくはリクエストが減った場合にスケールダウンするAutoScale機能は便利だなと思う.よしなに調整してくれるので便利でありがたいなと思うけど,もう少し柔軟にしたいと思った時もあったので,そこまで過信するのは良くないかも知れない.

1.2 データサイエンスのパイプラインとワークフロー

機械学習のワークフローに対応したサービスがあるので,その辺りは良くわかってるなーという誰目線で言ってるんだという感じだけど素晴らしい👏

Untitled

パイプラインの紹介が始めにあって,Kubeflow PipelinesだったりAirflowのマネージドサービスであるAWS MWAA (Amazon Managed Workflows for Apache Airflow)とかは使ったことないので,使ってみたいなという雑感.AWSには実験管理としてはSageMaker Experimentsがあるけど,MLflowのマネージドサービスとか出てくれると非常に嬉しいなーという気持ち.今は自分でEC2, Fargateとかでホスティングしないといけないので,その運用管理とか少人数のMLチームだとわざわざするのどうなんだろうか?(もちろん使い倒してバリバリ活用するならいいのだけど)と思うこともあるので.

1.3 MLOpsのベストプラクティス

後半ではMLOpsの話が大きく取り上げられているのでそちらに期待.AWSもロードマップと成熟度を公開しているので,この辺りは力を入れていく領域だと思うので期待していきたい!

MLOps foundation roadmap for enterprises with Amazon SageMaker | Amazon Web Services

1.3.1 運用上の優秀性