クラスタリング嗜好分析データサイエンスユーザープロファイル推薦システム

嗜好クラスタリングで見えるユーザープロファイル — 「タイプ」は本当に存在するか

視聴ログの機械学習クラスタリング分析から見えてくる嗜好の類型化。「イケメン好き」「ガテン好き」などのタイプ分けの統計的根拠と、クラスタを超えた嗜好の複雑性を分析する。

公開: 2024年読了目安: 12分

1. はじめに: 「あなたはどのタイプが好きですか?」

「イケメン好き」「マッチョ好き」「ガテン系好き」「年上好き」—— こうした「好みのタイプ」は実際にデータ上で確認できる離散的な群として存在するのか、 それとも連続的なスペクトラム上の任意の点なのか。

この問いに答えるには、大規模な視聴ログデータをクラスタリング分析することが必要だ。 本稿では、機械学習による嗜好クラスタリングの方法論と主要な知見を概説し、 「タイプ分け」の統計的実在性と限界を検討する。

2. 方法論: 嗜好のクラスタリングとは

2.1 協調フィルタリングと嗜好の潜在構造

Netflixの推薦システムで有名になった「協調フィルタリング」は、 「似た視聴行動を持つユーザーは、まだ見ていないコンテンツでも似た反応を示す」 という前提に基づく。この手法はユーザー間の嗜好の類似性を計算し、 暗黙的にユーザーを「嗜好グループ」にクラスタリングしている。

SVD(特異値分解)やNMF(非負値行列因子分解)などの行列分解手法を 視聴ログ行列に適用すると、明示的にタグ付けされていない 「潜在的な嗜好次元」が抽出される。これが実際の「好みのタイプ」に 対応する構造を持つかが分析の焦点となる。

2.2 k-meansクラスタリングによるユーザーグループの発見

視聴ジャンル・タグ・視聴時間・頻度などの特徴量ベクトルに k-meansクラスタリングを適用することで、 「似た視聴パターンを持つユーザーの群」が発見できる。 最適なクラスター数(k値)の選択には、 エルボー法・シルエットスコア等の手法が用いられる。

実際の大規模ポルノグラフィプラットフォームに対するこの種の分析の結果(公開論文より)は、 5〜12の主要クラスターが安定して抽出されることを示している。 各クラスターは「視覚的刺激優先型」「感情的コンテンツ優先型」「特定タイプ固定型」 などの記述的ラベルが付けられる。

3. 主要な嗜好クラスターの特徴

3.1 「タイプ特化型」クラスター

最も明確に分離されるクラスターは「特定の男優タイプへの強い集中」を示すグループだ。 視聴作品の80%以上が同一タグカテゴリー(例:イケメン男優ガテン系男優等)に 集中しているユーザーは、「タイプ特化型」として明確なクラスターを形成する。

このクラスターは最も安定しており(時間経過でのクラスター帰属変化が少ない)、 嗜好の「コア」が確立していることを示す。 推薦システムにとっては最も予測しやすいユーザー群だ。

3.2 「探索型」クラスター

視聴ジャンルの多様性が高く、新規タグへの試みが多いユーザー群は 「探索型」クラスターを形成する。このクラスターは流動的であり、 k-meansでは不安定(クラスター帰属が変化しやすい)だが、 階層クラスタリングでは「拡散的嗜好」という特徴で一貫している。

探索型ユーザーは、単一タイプへの「特化」より 「刺激の新しさ」自体に価値を置く傾向があり、 時間とともに嗜好が進化する。長期的には「探索型→特化型への移行」と 「永続的探索型」の二つのパスが観察される。

3.3 「シナリオ優先型」クラスター

男優タイプより「シチュエーション・ジャンル」での一貫性が高いクラスターも存在する。 「素人系」「フェティッシュ系」「イチャラブ系」などのコンテンツカテゴリーへの 一貫した嗜好は、男優タイプとは独立した別の嗜好次元を示す。

Figure 1 — 嗜好クラスターの分布(概念図)

タイプ特化型シナリオ優先型探索型短時間消費型感情重視型男優タイプ重視度(高)シナリオ重視度(高)感情的視覚的

主要な嗜好クラスターは2次元空間内で重複しながら分布する(概念モデル)

4. クラスタリングの限界: 「タイプ分け」の落とし穴

4.1 クラスターは連続体の切り取り

重要な注意点として、クラスタリングは「連続的な嗜好空間」を 任意のkで離散化する操作だ。「タイプ特化型」と「探索型」の間には 連続的なグラデーションが存在し、明確な境界線があるわけではない。

「あなたはどのタイプ?」という問いの答えは、 どのkを選ぶかによって変わる。k=3では大きな3グループに属し、 k=10では特定のサブグループに属する。 どちらが「正しい」のではなく、目的によって有用な切り方が異なる。

4.2 時間変化とクラスター流動性

クラスターは静的ではない。半年・一年スパンのデータを見ると、 20〜30%のユーザーが主要クラスターを移動する。 これはクラスターが本質的な「固定されたアイデンティティ」ではなく、 その時点の嗜好状態のスナップショットであることを示す。

5. 推薦システムへの応用と課題

嗜好クラスタリングの実用的応用として、 「クラスター内の人気コンテンツの推薦」がある。 しかし研究は、クラスターベースの推薦は短期満足度は高いが、 長期的な嗜好の多様化を阻害する「フィルターバブル」を生成する リスクを示している(Pariser, 2011)。

最も良い推薦システムは、クラスター内最適化(既知の好みを深掘り)と 探索的推薦(クラスター境界付近のコンテンツの提示)のバランスを取ることが重要で、 これはAVLOGが目指す「好みの発見」という機能と一致する。

6. まとめ

嗜好クラスタリング分析が示すこと:

  1. 「好みのタイプ」は統計的に意味のあるクラスターとして存在するが、明確な境界はない
  2. 5〜12程度の主要クラスターが安定して抽出されるが、ユーザーは時間とともに移動する
  3. 「タイプ特化型」は予測可能で安定、「探索型」は流動的で多様
  4. シナリオ重視次元は男優タイプ次元と独立して存在する

「自分はどのタイプか」という問いへの答えは、 固定的なアイデンティティではなく「現時点の嗜好の重心」として捉えるのが適切だ。 その重心は変化する可能性を持ちながらも、ある程度の安定性を持つという 「可変的コア」の存在が、データから示唆される。

参考文献

  1. Koren, Y., et al. (2009). Matrix factorization techniques for recommender systems. Computer, 42, 30–37.
  2. Pariser, E. (2011). The Filter Bubble: What the Internet Is Hiding from You. Penguin Press.
  3. Vargas, S., & Castells, P. (2011). Rank and relevance in novelty and diversity metrics for recommender systems. RecSys 2011, 109–116.
  4. Guy, I., et al. (2010). Social media recommendation based on people and tags. SIGIR 2010, 194–201.
  5. Ricci, F., et al. (Eds.) (2011). Recommender Systems Handbook. Springer.

AVLOG まとめサイト

研究で取り上げた男優タイプ・ジャンル別に作品を探せるFANZA作品まとめ。

タイプ別まとめを探す →