目次を見るとデータセットの品質・バイアスやドリフトをAWS SageMakerを使ってハンズオン形式で学習できるのが気になったので,この章を読もうと思いました.

この章はAmazon Customer Reviews Datasetを使って,データウェアハウスにクエリを実行して結果を可視化したりとSQLコードを載せてくれていて,ハンズオンで使い方を学ぶ感じです.

5.1 AWSのデータ探索ツール

AWS Data WranglerとSageMaker Data Wranglerは関係ないみたいで,名前が似過ぎててややこしい笑

SageMaker Data Wranglerは名前の通りでSageMakerのサービスと一緒に使うものなので,その辺りの違いかな.

5.5 Amazon SageMakerとApache Sparkを使ってデータ品質の問題を検出する

データの品質がクリティカルなのは,データエンジニア,データサイエンティスト,機械学習エンジニアといったデータを活用してアウトプット/アウトカムを出すメンバーで,自分達が苦労しないためにもデータ品質の問題を検出することは必要になってくる.アプリケーションチームはデータ品質が必ずしも優先事項でない+実際の補完だったり対処方法まで理解しているわけではないと思うので,ここはデータに関連している職種のメンバーがフォローして行くのが良いなと思う.

このデータの問題を発見するために,DeequPyDeequをここでは紹介している.共にAWSの2つのOSSになる.

Deequ は、特徴量エンジニアリングからモデルの訓練、本番稼働のモデルサービングまで、モデルの完全なエンドツーエンドのライフタイムを通して、継続的にデータを分析します。

学習時と分布が違った本番データを検知することができたりする(Training-Serving skew(共変量シフト)を検知する).

ここではAmazonの1億5千万件以上のデータを扱うので,Sparkクラスターで実行することが書かれているが,実際はもっと少量のデータになりそうなので,Sparkを使わなくても良さげかなと思ったりする.

Untitled

Deequがサポートしている指標の一部.これはオリジナルの関数を実装できたりするのかな?

Untitled

Deequはこれらの計算した指標を時系列でトラッキングしてデータの品質の低下を検出した場合にパイプラインを停止したりとハンドリングできるのと,後追いで時系列の分析ができるので変化の気づきが得られるのは良さそう.あとこれらはMetricsRepositoryに保存される仕組みになっているとのこと.

5.6 データセットのバイアス検出

この章では,不均衡データを題材にして分析を進めている.