本研究では、カテゴリカルデータの類似性に基づく新しい可視化手法「カテゴリカルデータマップ」を提案している。カテゴリカルデータは距離や順序の概念がないため、従来の可視化手法では限界があった。
提案手法では、カテゴリカルデータを部分集合として表現し、部分集合間の距離に基づいて2次元の散布図上に配置する。これにより、類似した部分集合が近接して表示され、クラスタリングや異常値の検出が可能になる。
さらに、属性の分布を背景に表示することで、属性がクラスタリングにどのように影響しているかを把握できる。また、属性の「断片性」を定量化する指標を提案し、属性の重要度を評価することができる。
提案手法は、Titanic データセットやMushroom データセットなどの大規模なカテゴリカルデータの分析に有効であることが示された。専門家による評価では、提案手法の有用性が確認された。
翻譯成其他語言
從原文內容
arxiv.org
深入探究