このTweetを見かけて,LinkedInのモニタリングソリューションの話が面白そうだったので読もうと思いました.

https://twitter.com/EvidentlyAI/status/1559859080595787777

LinkedInのData Qualityに向けての取り組みの話,最近業務でも検索基盤を構築したり,安定したデータ連携を目指しての運用を頑張っているので,Data Qualityは興味のある領域.

こんなこと言いたい!競合優位性のためにはMLは最早必須になりつつあるので,そのためのデータだったりデータの品質は特に大事な要素の1つ.これだけデータを重要視していて,そのための努力を重ねている組織で働きたいと思う.

Data is at the heart of all our products and decisions at LinkedIn and the quality of our data is vital to our success.

データレイクにあるデータが1エクサバイトを超えるとのことで,様々なデータソースからの取り込みとこのサイズのデータを効率良く扱うナレッジは豊富そうに思う.

データ品質の問題に関しては2つ挙げている

ここの記事では,メタデータの方に焦点を当てていて,データの品質をどのように監視するかを紹介してくれている.

A typical AI use case

よくあるユースケースに対して,意識しておくことを紹介してくれている.

データ取り込みの時間差があったりすると,それが遅延した場合に後続に影響したり,参照している他のパイプラインに影響でたりのお話.

Challenges

データの可用性に関して,SLAにコミットメントできなかった場合に,パイプラインにとってビジネス上の意味があるのかだったり,アラートメールに疲弊する話が紹介されている.

SLAとかは今やってる検索基盤でもデータ連携の処理時間だったり,Jobの実行状態を監視したり,その可視化周りはやっていきたい.