分析手法とデータの対

>決定木分析

決定木 - Wikipedia

 

分類木を自動生成するアルゴリズム(詳細は述べない)があり、それを上の表に示すデータに適用すると、従属変数である「ゴルフをするか」を説明する最も良い方法は、変数「天気」を用いることだという結果が得られる。

 

Wikiでは、独立変数「天気、気温、湿度」で、従属変数「人がゴルフをするかしないか」を説明する例が挙げられています。ここでどうすっきりした決定木を作るか、のアルゴリズムは説明しない、とあります。ここはブラックボックスとして扱うということでしょう。とにかく、そのアルゴリズムにかけるとまずノード1において独立変数「天気」で説明を加え、ノード2においては、晴れのグループに対して湿度による説明、雨のグループに対して温度による説明を加えるという決定木が最も合理的であるという判断になるということです。

 

問題の答えは、この分類木によって端的に次のとおりになる。 晴れていてじめじめした日や風の強い雨の日にはゴルフをしに来る人はほとんどいないので、 従業員のほとんどを休ませるとよい。 それ以外の、多くの人がゴルフをすると思われる日には、仕事を手伝ってくれる臨時従業員を雇う。

 

f:id:zizamo2193:20210502164721p:plain

f:id:zizamo2193:20210502164733p:plain

>回帰分析

>>単回帰分析

回帰分析とその応用① ~回帰分析は何のために行うのか? - GiXo

月ごとの「広告宣伝費」と「来店者数」のデータがあったとします。

単回帰分析はわかりやすくて、それというのも図に書けるので、データ間の関係をもっともよく説明する直線の式、という説明で足りるからです。

 

f:id:zizamo2193:20210502165246p:plain

f:id:zizamo2193:20210502165258p:plain

>>重回帰分析

回帰分析とその応用② ~重回帰分析 - GiXo

 

「結果=ビール販売額」(被説明変数)までは前回と同じですが、原因(説明変数)が、「気温」と「湿度」の2つになっていることが異なっています。

…(略)…

今回は変数が「ビール販売額」、「気温」、「湿度」の3つなので、上述の回帰直線の引き方で説明したような散布図で表現することはできませんが、こうした傾向を数式で表現したものが、重回帰分析になります。

説明変数が2つ以上あるときには絵で描くのではなく式になります。今回の分析結果は、

 

f:id:zizamo2193:20210502165324p:plain

 

Y(ビール販売額)=86.8X1(温度)+41.7 X2(湿度)+380

説明変数が2つ以上あるときには絵で描くのではなく式になります。式の結果をグラフで書くと、

 

f:id:zizamo2193:20210502165448p:plain

予想できていることがわかります。

 

>クラスタ分析

k-means法を理解する - Qiita

 

色々さがしましたがいいデータの例がありませんでした。ここのサイトで言われているように、やりかただけなら各点を適当なグループに割り当て、各グループの重心を計算→重心との距離が近い順にクラスタを再構成→重心を計算…というやり方のようです。

 

クラスター分析の手法③(非階層クラスター分析) - ALBERT

 

わかりやすいデモツールがありました。