このTweetを見かけて,LinkedInのモニタリングソリューションの話が面白そうだったので読もうと思いました.
https://twitter.com/EvidentlyAI/status/1559859080595787777
LinkedInのData Qualityに向けての取り組みの話,最近業務でも検索基盤を構築したり,安定したデータ連携を目指しての運用を頑張っているので,Data Qualityは興味のある領域.
こんなこと言いたい!競合優位性のためにはMLは最早必須になりつつあるので,そのためのデータだったりデータの品質は特に大事な要素の1つ.これだけデータを重要視していて,そのための努力を重ねている組織で働きたいと思う.
Data is at the heart of all our products and decisions at LinkedIn and the quality of our data is vital to our success.
データレイクにあるデータが1エクサバイトを超えるとのことで,様々なデータソースからの取り込みとこのサイズのデータを効率良く扱うナレッジは豊富そうに思う.
データ品質の問題に関しては2つ挙げている
ここの記事では,メタデータの方に焦点を当てていて,データの品質をどのように監視するかを紹介してくれている.
よくあるユースケースに対して,意識しておくことを紹介してくれている.
データ取り込みの時間差があったりすると,それが遅延した場合に後続に影響したり,参照している他のパイプラインに影響でたりのお話.
データの可用性に関して,SLAにコミットメントできなかった場合に,パイプラインにとってビジネス上の意味があるのかだったり,アラートメールに疲弊する話が紹介されている.
SLAとかは今やってる検索基盤でもデータ連携の処理時間だったり,Jobの実行状態を監視したり,その可視化周りはやっていきたい.