目次を見るとデータセットの品質・バイアスやドリフトをAWS SageMakerを使ってハンズオン形式で学習できるのが気になったので,この章を読もうと思いました.
この章はAmazon Customer Reviews Datasetを使って,データウェアハウスにクエリを実行して結果を可視化したりとSQLコードを載せてくれていて,ハンズオンで使い方を学ぶ感じです.
AWS Data WranglerとSageMaker Data Wranglerは関係ないみたいで,名前が似過ぎててややこしい笑
SageMaker Data Wranglerは名前の通りでSageMakerのサービスと一緒に使うものなので,その辺りの違いかな.
データの品質がクリティカルなのは,データエンジニア,データサイエンティスト,機械学習エンジニアといったデータを活用してアウトプット/アウトカムを出すメンバーで,自分達が苦労しないためにもデータ品質の問題を検出することは必要になってくる.アプリケーションチームはデータ品質が必ずしも優先事項でない+実際の補完だったり対処方法まで理解しているわけではないと思うので,ここはデータに関連している職種のメンバーがフォローして行くのが良いなと思う.
このデータの問題を発見するために,DeequとPyDeequをここでは紹介している.共にAWSの2つのOSSになる.
Deequ は、特徴量エンジニアリングからモデルの訓練、本番稼働のモデルサービングまで、モデルの完全なエンドツーエンドのライフタイムを通して、継続的にデータを分析します。
学習時と分布が違った本番データを検知することができたりする(Training-Serving skew(共変量シフト)を検知する).
ここではAmazonの1億5千万件以上のデータを扱うので,Sparkクラスターで実行することが書かれているが,実際はもっと少量のデータになりそうなので,Sparkを使わなくても良さげかなと思ったりする.
Deequがサポートしている指標の一部.これはオリジナルの関数を実装できたりするのかな?
Deequはこれらの計算した指標を時系列でトラッキングしてデータの品質の低下を検出した場合にパイプラインを停止したりとハンドリングできるのと,後追いで時系列の分析ができるので変化の気づきが得られるのは良さそう.あとこれらはMetricsRepositoryに保存される仕組みになっているとのこと.
この章では,不均衡データを題材にして分析を進めている.