嗜好クラスタリングで見えるユーザープロファイル — 「タイプ」は本当に存在するか

1. はじめに: 「あなたはどのタイプが好きですか？」

「イケメン好き」「マッチョ好き」「ガテン系好き」「年上好き」—— こうした「好みのタイプ」は実際にデータ上で確認できる離散的な群として存在するのか、それとも連続的なスペクトラム上の任意の点なのか。

この問いに答えるには、大規模な視聴ログデータをクラスタリング分析することが必要だ。本稿では、機械学習による嗜好クラスタリングの方法論と主要な知見を概説し、「タイプ分け」の統計的実在性と限界を検討する。

Netflixの推薦システムで有名になった「協調フィルタリング」は、「似た視聴行動を持つユーザーは、まだ見ていないコンテンツでも似た反応を示す」という前提に基づく。この手法はユーザー間の嗜好の類似性を計算し、暗黙的にユーザーを「嗜好グループ」にクラスタリングしている。

SVD（特異値分解）やNMF（非負値行列因子分解）などの行列分解手法を視聴ログ行列に適用すると、明示的にタグ付けされていない「潜在的な嗜好次元」が抽出される。これが実際の「好みのタイプ」に対応する構造を持つかが分析の焦点となる。

視聴ジャンル・タグ・視聴時間・頻度などの特徴量ベクトルに k-meansクラスタリングを適用することで、「似た視聴パターンを持つユーザーの群」が発見できる。最適なクラスター数（k値）の選択には、エルボー法・シルエットスコア等の手法が用いられる。

実際の大規模ポルノグラフィプラットフォームに対するこの種の分析の結果（公開論文より）は、 5〜12の主要クラスターが安定して抽出されることを示している。各クラスターは「視覚的刺激優先型」「感情的コンテンツ優先型」「特定タイプ固定型」などの記述的ラベルが付けられる。

最も明確に分離されるクラスターは「特定の男優タイプへの強い集中」を示すグループだ。視聴作品の80%以上が同一タグカテゴリー（例:イケメン男優、ガテン系男優等）に集中しているユーザーは、「タイプ特化型」として明確なクラスターを形成する。

このクラスターは最も安定しており（時間経過でのクラスター帰属変化が少ない）、嗜好の「コア」が確立していることを示す。推薦システムにとっては最も予測しやすいユーザー群だ。

視聴ジャンルの多様性が高く、新規タグへの試みが多いユーザー群は「探索型」クラスターを形成する。このクラスターは流動的であり、 k-meansでは不安定（クラスター帰属が変化しやすい）だが、階層クラスタリングでは「拡散的嗜好」という特徴で一貫している。

探索型ユーザーは、単一タイプへの「特化」より「刺激の新しさ」自体に価値を置く傾向があり、時間とともに嗜好が進化する。長期的には「探索型→特化型への移行」と「永続的探索型」の二つのパスが観察される。

男優タイプより「シチュエーション・ジャンル」での一貫性が高いクラスターも存在する。「素人系」「フェティッシュ系」「イチャラブ系」などのコンテンツカテゴリーへの一貫した嗜好は、男優タイプとは独立した別の嗜好次元を示す。

Figure 1 — 嗜好クラスターの分布（概念図）

主要な嗜好クラスターは2次元空間内で重複しながら分布する（概念モデル）

重要な注意点として、クラスタリングは「連続的な嗜好空間」を任意のkで離散化する操作だ。「タイプ特化型」と「探索型」の間には連続的なグラデーションが存在し、明確な境界線があるわけではない。

「あなたはどのタイプ？」という問いの答えは、どのkを選ぶかによって変わる。k=3では大きな3グループに属し、 k=10では特定のサブグループに属する。どちらが「正しい」のではなく、目的によって有用な切り方が異なる。

クラスターは静的ではない。半年・一年スパンのデータを見ると、 20〜30%のユーザーが主要クラスターを移動する。これはクラスターが本質的な「固定されたアイデンティティ」ではなく、その時点の嗜好状態のスナップショットであることを示す。

嗜好クラスタリングの実用的応用として、「クラスター内の人気コンテンツの推薦」がある。しかし研究は、クラスターベースの推薦は短期満足度は高いが、長期的な嗜好の多様化を阻害する「フィルターバブル」を生成するリスクを示している（Pariser, 2011）。

最も良い推薦システムは、クラスター内最適化（既知の好みを深掘り）と探索的推薦（クラスター境界付近のコンテンツの提示）のバランスを取ることが重要で、これはAVLOGが目指す「好みの発見」という機能と一致する。

嗜好クラスタリング分析が示すこと:

「自分はどのタイプか」という問いへの答えは、固定的なアイデンティティではなく「現時点の嗜好の重心」として捉えるのが適切だ。その重心は変化する可能性を持ちながらも、ある程度の安定性を持つという「可変的コア」の存在が、データから示唆される。

Koren, Y., et al. (2009). Matrix factorization techniques for recommender systems. Computer, 42, 30–37.
Pariser, E. (2011). The Filter Bubble: What the Internet Is Hiding from You. Penguin Press.
Vargas, S., & Castells, P. (2011). Rank and relevance in novelty and diversity metrics for recommender systems. RecSys 2011, 109–116.
Guy, I., et al. (2010). Social media recommendation based on people and tags. SIGIR 2010, 194–201.
Ricci, F., et al. (Eds.) (2011). Recommender Systems Handbook. Springer.