本研究では、カテゴリカル変数のエンコーディング手法の違いが機械学習モデルの性能に及ぼす影響を分析した。
まず、連続変数を離散化する手法として決定木を用いた。これにより、カテゴリカルデータセットを作成した。
次に、6種類のエンコーディング手法(Ordinal、Rarelabel、One-Hot、String Similarity、Summary、Target)を適用し、エンティティモデルとコンテキストモデルの2つのニューラルネットワークモデルを構築した。
実験の結果、String Similarityエンコーディングが最も良好な性能を示した。Ordinalエンコーディングを基準とすると、6つのデータセットで同等以上の性能を発揮し、2つのデータセットでは15%から63%の性能向上が見られた。一方、Targetエンコーディングは他の手法に劣る結果となった。
また、コンテキストモデルではOrdinalエンコーディングに対してOne-Hotやstring Similarityが優れた性能を示した。これは、マルチラベル分類問題において特に顕著であった。
本研究の結果から、カテゴリカル変数のエンコーディング手法の選択が機械学習モデルの性能に大きな影響を及ぼすことが明らかになった。特にString Similarityエンコーディングは有効な手法であると考えられる。ただし、データセットや問題設定によって最適なエンコーディング手法は異なるため、複数の手法を試すことが重要である。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Fredy Reusse... lúc arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19405.pdfYêu cầu sâu hơn