Fundamentals

データの準備:機械学習データの準備に関する現場からの教訓

AIとMLに対応したデータ基盤を構築する

機械学習 (ML) と人工知能 (AI)

MLは自動化された方法でデータを分析するプロセスです。これはAIプロセスの一部で、人間が介入しなくても、技術的知識を機械とシステムに提供し、データから学習して判断できるようにするものです。

AIは、機械が自動化された方法でデータ処理と分析方法を学習できるようにするものです。AIは、MLの取り組みを行うことができる洗練された機械や技術を生み出す背後にあるものです。

機械学習 (ML) の分野は新しいものではありませんが、マーケターは、大規模かつ複雑に拡大しているデータセットに機械学習を適用する新しい方法を模索しています。データサイエンスの人材に対する需要は高まり続けています。しかし、機械学習のためのクリーンで有益なデータの収集と正規化の問題も、ほとんどの企業が対応するより早く雪だるま式に増えています。

Tealiumは、お客様の組織内での独自の立場により、機械学習プロセスの各段階でインサイトを得ることができました。Customer Data Hubは、MLに対応するデータをリアルタイムで生成するように設計されています。このガイドは、様々な業界のトップ企業やブランドとの仕事を成功させたことに基づいて、MLプロジェクトのライフサイクル全体にわたる戦略的な学習の結果です。これにより、マーケター、データサイエンティスト、エンジニア、開発者が協力して、MLやAI戦略を支援する強固な基盤を構築するために必要な一歩を踏み出すのに役立ちます。

「ブランドが人工知能のもつ膨大な機能を活用するには、最初にその処理に対応できるデータ基盤を確立することが重要です。」– Tealiumデジタルストラテジスト、Brian Moore

機械学習プロジェクトにおけるライフサイクルの5つのステップを理解する

1. データ収集

重要なMLプロジェクトに対する顧客データの準備は、組織内に存在する膨大な数の異なるデータソースやデータサイロのせいで、困難な作業になる場合があります。正確なモデルを構築するには、目標 (別の入力データに基づいてモデルに予測して欲しい結果) を予測できる可能性の高いデータを選びましょう。

典型的な消費者ブランドでは、望ましい入力データとして、Webでの行動、モバイルアプリデータ、過去の購入データ、および/または、カスタマーサポートのお客様との対話履歴データが含まれます。従来、これらのデータソースを利用したり、設定したりすることは困難でした。TealiumのCustomer Data Hubを使用すると、新しいプラットフォームやデバイスでのデータ収集の展開が迅速になり、ブランドは、さまざまなデータソースにわたる収集の中心となるポイントを得られます。

Tealiumにとって、データ収集はカート放棄への対応やお気に入リのカテゴリーを推奨したりすることに加えて、(アクションを実行して、推奨や平均化をするだけではなく) 実際に将来を予測できる革新的な機能を備えています。

2. データ正規化

MLプロセスの次のステップは、アナリストとデータサイエンティストが通常、分析プロジェクトでほとんどの時間を費やすダーティデータのクリーニングと正規化です。これには、データサイエンティストが、欠落したデータ、不完全なデータ、外れ値などの、不明瞭なデータをどのように処理するかについて決定を下さなければならない場合がよくあります。

このようなデータは、しかるべき分析単位である顧客と簡単に関連付けできないかもしれません。例えば、ある顧客が解約をするかどうかを予測するために (セグメントまたはオーディエンス全体ではなく) サイロ化された異なるソースからのデータは信頼できません。データサイエンティストは、これらのソースからのすべてのデータを準備し、MLモデルが解明できる形式に集約します。これは結局、時間のかかるプロセスになる可能性があり、MLを実行する前に多くの作業が必要になります。

TealiumのCustomer Data Hubの主な機能は、これらの課題の解決方法を示しています。データソースとイベントの指定です。これらの機能が1つになって、データ収集と正規化の基盤になります。ほんの数分で、開発者とアナリストは、1つのクエリを書く前に、データがクリーンで予想通りかどうかをテストして検証できます。

3. データモデリング

MLプロジェクトの次の段階は、予測に使用するデータのモデル化です。顧客に関する予測のためもモデリングデータの一部は、異なるデータセットを組み合わせて、単一の顧客の適切な人物像を描くことです。これには、ウェブ、モバイルアプリ、オフラインデータなどのサイロ化したデータを組み合わせて集約することが含まれます。

Tealiumには、データソースを構成するための一般的なイベントを指定するための連携機能が用意されており、ユーザが独自のイベントを追加することもできます。これらの機能により、アナリストとデータサイエンティストは、機械学習で対処したいビジネス上の課題を理解するためにデータをすばやく簡単に調べられます。同時に、時間を節約し、データ収集と正規化プロセスの自動化を実現します。

例えば、以下は1人の顧客がデスクトップPCからのウェブサイトサクセス、モバイルアプリ、店舗での取引という3つの異なるチャネルから得られたデータの例です。

このデータを集約すると、顧客レベルの行動を表す以下のようなデータポイントが導き出されます:

これらは、ブランドが顧客に対して定義できるほんの一握りの意味のある派生データポイントに過ぎません。しかし、これは簡単なことではありません。ブランドが将来この顧客に再び会う場合、例えば、次回ブランドのウェブサイトを訪れた時に、顧客のコンバージョン率をリアルタイムで予測したい場合について考えましょう。

  • 最初の行動:2016/09/14
  • 最後の行動:2016/09/27
  • これまでのWeb訪問数:2
  • これまでのモバイル訪問数:1
  • これまでのトランザクション数:2
  • 生涯価値:$172.24
  • 好きなカテゴリー:靴

4. モデルトレーニングと特徴量エンジニアリング

重要な入力データの収集とエンリッチメントを導入した後は、そのデータの予測力をテストする時です。そのために、データサイエンティストは、母集団の代表的なサンプル(すべての顧客、匿名の訪問者、または既知の見込み客など)を取得し、モデルのトレーニング用に一部蓄えておきます。
残りは、トレーニングの完了後にモデルを検証するために使用します。

この段階での重要な構成要素は、データソースから得られる新しいデータポイントを継続的にテストしながら、迅速に繰り返すことです。このプロセスを、特徴量エンジニアリング (Feature Engineering) と言います。

前の例に続き、次のような技術的な特徴をテストできます:

これらの属性や他の属性は、訪問者の集計データから簡単に計算することができ、データサイエンティストが、精度を比較するためトレーニングモデルを繰り返し迅速に実行できます。TealiumのDataAccess製品 (AudienceStreamなど) は、訪問や訪問者データをリアルタイムでエクスポートして、MLモデルのトレーニングをシームレスに行えるようにします。技術的な特徴が有益だと考えられる場合、柔軟なエンリッチメントオプションと属性データのタイプを使い、数分で新しいAudienceStream属性を追加することができます。

これにより、技術的にデータサイエンティストは日常的なデータ管理作業を繰り返し手作業で行う必要がなくなり、より優れたインサイトを生み出せるようにます。

  • 顧客年齢 (日数) (最初と最後の行動日の差):13
  • 平均注文額 (生涯価値を総取引数で割った金額) :$86.12

TealiumのAudienceStream CDPは、訪問および訪問者レベルでデータエンリッチメントができるので、マーケターは開発者、データサイエンティスト、またはアナリストと協力して、これらの集約されたデータポイントのビジネスルールを定義できます。これらのデータポイントの1つ以上を、デバイス間の訪問者プロファイルをリアルタイムで統合するためのTealiumの特許取得済みの手法「ビジタースティッチング」に利用することができます。これらの機能により、クリーンで相関のあるシングルカスタマービューが得られ、機械学習に必要な堅牢なデータ基盤が提供されます。

5. モデルを本番環境へ展開する

これまでのすべての作業は、モデルを本番環境へ展開し、実社会での結果を予測する機能をテストするという最終段階のためのものです。この時点で、モデルは実運用への展開を保証する精度の基準値を満たしている必要があります。このため、モデルのパフォーマンスを利害関係者と共に解釈し、精度の低さをどの程度のリスクとして許容できるかを合意することが重要です。顧客の行動が十分に予測できないないこともあるため、モデルを本番環境へ展開するための正当化できる精度を達成できない可能性があります。

「適切なテクノロジーを使用すると、データを使用してMLの実行可能性を確立でき、(多くのAIソリューションがもつブラックボックスとは違い) モデルを解釈する際に完全な透明性を確保できます。この柔軟性により、ブランドは学習したことをすぐにビジネスに適用できます。」
– Tealiumデジタルストラテジスト、Brian Moore

モデルが稼働し出すと、マーケターと利害関係者はようやく予測を活用できるようになります。これには、価値が高いと思われる見込み客へのプロモーションの実行や、価値が低いと思われる訪問者へのマーケティング施策の抑制が含まれます。利害関係者やマーテクの管理者と協力して、予測をどのようにマーケティングへ適用するかについて考えましょう。

結局のところ、機械学習はデジタルマーケティング戦略に取って代わるものではなく、むしろそれを強化して有効にするものなのです。成功するブランドは顧客を中心に据えて行動します。機械学習はその大きな取り組みの一環として、意思決定を最適化する (数多くあるツールの中の) 1つのツールなのです。

Tealiumでモデルを本番環境にどのように展開すればよいでしょうか?当社は予測をCustomer Data Hubへ取り込む複数の方法を提供しており、オフラインのインポートやリアルタイムで (例えば、インバウンドAPIを使って今いる訪問者に応じてなど)、予測をアップロードすることができます。

MLを成功させるための簡単なヒント

  • 役に立つMLアプリケーションは、数十億ものデータポイントは必要ありません。ちょっとしたデータの問題でもMLでサポート可能です。
  • すべてのビジネス上の問題をMLで解決できるわけでも、または解決する必要があるわけではありません。MLのコストとメリットについて、利害関係者と協力して社内の関連部門を積極的に教育しましょう。
  • 予測可能と思われるデータを収集し、探索的データ分析を実行してMLモデルの実現可能性を確認する、「誰よりも早く、多く失敗する」ワークフローを計画しましょう。