Web3時代のつよつよビジネスパーソンを目指すブログ

Web3という大きな波に会社員エンジニアはどう対峙すべきか。クリプト、NFT、DeFi、メタバース…多様な情報に触れ思考したことを発信します。どこにでもいる会社員だからこその、日々の気づき、ビジネスTipsも発信します。

統計検定を取得するメリット3選(その②〜機械学習の理解がはかどる)

こんにちは。ヤスヤスオンファイヤーです。

 

統計検定を取得して良かった!メリットの

第二弾です。

 

機械学習の基礎理論の理解がはかどる

統計と機械学習

切って離せない分野ですので、当然と言えば

当然ですが、統計の理解が先にあると、

機械学習の随所に出てくる基礎の部分の考え方を、

理解するのが早まります。

 

私はE検定を2021年夏、まさに今週末受験予定なのですが、

統計検定で先に理解しておいてよかった、と思う部分が

たくさんありました。

 

ざっと思いつくだけでも、以下のような項目がわかっている事で、

ディープラーニングはじめ各種機械学習アルゴリズム面を

理解するのに役立ちます。

正則化の考え方

ベイズの定理

・最尤法

正規分布とはそもそもなんぞやの理解

・確率分布

 

うーん、統計の立場からすると、どれも基本かもしれませんが、

機械学習の数式を読み解くのに、自然と役立っていますね。

強化学習は条件付き確率祭りだし、

最尤法は、至る所でパラメタ推定の考えに出てきますね。

 

そもそも統計と機械学習の関連

一般的には、

統計は、過去のデータを分析するもの、

機械学習は、未来のデータを予測するもの、

と区分けしたりしますね。

 

別の見方としては、

統計は、解釈、説明できる結果を提示するもの

機械学習は、精度さえ良ければ、説明性はなくても良いもの

・・と、大雑把に分ける考えもあります。

 

例えば、(やや無理矢理な例ですが)

選挙の当選確率を、出口調査の途中経過から推定せよと言う時、

統計ならば:ある候補への投票率を母比率と見做して、現在の

調査人数の結果からだと、母比率の信頼区間は50~60%、みたいに、

「解釈を全て説明できる」ことが重視される。

 

機械学習的なアプローチならば、

出口調査の結果を地域、年代別に分けて説明変数とし、

過去の選挙のデータから作ったディープラーニングモデルに

突っ込んで、結果は45%。

なぜこの数値かは、過去のデータから作ったモデルが

そう出力したから、としか言えない。

(もっとも、どの変数が効いていたかとか、結果の理由を

掘り下げようと思えばできるが、どちらかというと

結果さえ良ければOK、という立場)

 

こんな違いのイメージです。

 

ちょっと話が逸れましたが、実務家としては、

手堅く説明ができるという統計的な見方、

結果優先で最適解を導くという機械学習のアプローチ、

両方の頭をスイッチしていけるのが、つよつよ

だと思っています。

 

実務において、統計の理解が役立つ場面

さて、実務において、統計的な知見が役立っていると感じるのは、

モデルを適用したが、上手くいかなかった、その理由は?

と考える時です。

 

とりあえずモデルを作って試すだけなら簡単ですが、

往々にしてうまくいかないことはある。

なぜダメか?を突き詰めるときには、

基礎理論の理解の積み重ねが、最重要と感じます。

 

シンプルな重回帰モデル一つにしても、

正則化の手法の選択

・多重共線性の回避

・回帰係数をどう解釈するか

・正規化の有無の影響

・・・

などなど、うまくいかなかったときにチェックすべきポイントって、

たくさんあります。

これらを引き出しに持っておき、

正しく検証していけるか。

その土台には、統計の知見が必要なことは間違いありません。

 

線形回帰は、ちょうど、統計と機械学習の中間くらいの存在で、

良い勉強材料ですね。

 

ちなみに私、kaggleで人気のlightgbmなど、内部まで

深く理解をしていないため、

ハイパーパラメタのチューニングなど、考えて応用を

効かせることが全くもってできません。

Lightgbmがうまくいかなかった後に、呆然と止まってしまうとき、

内部の理解が大事だな〜、と実感します。

はよ決定木も理解せい、という感じですね。

 

 

ディープラーニング系は実務ではまだ扱ったことがないので、

適用することがあれば、どのレベルまで内部の理解が必要か、

体感してみたいですね。

 

さいごに

と言うわけで、統計検定を取ってよかったメリット2点目でした。

後日、3点目も書いていこうと思います。

 

追記)8/27 第三弾書きました!

 

eternalbluebullet.hatenablog.com

 

 

 

 

 

統計検定準一級のまとめはこちらより。 

eternalbluebullet.hatenablog.com

 

 採算度外視で、駆け出しデータサイエンティストが相談に乗ります。

eternalbluebullet.hatenablog.com