ベイズ統計は、新しい情報を取り込みながら結果を更新し続けるので、機械学習との相性がよく、注目度が高まっています。ビジネスでも様々な分野で応用が進んでいることから、ベイズ統計の知識や活用するスキルを高めることは、今後の就職・転職に役立つと言えるでしょう。
ここでは、ベイズ統計についてその基本的な概念や、一般統計・機械学習との違い、実装が進む応用事例などを解説します。
ベイズ統計とは
最初に、ベイズ統計の概要や概念を確認しておきましょう。
■ベイズ統計とは何か
「ベイズ統計」とは、18世紀にイギリスの数学者トーマス・ベイズによって提唱された「ベイズの定理」の考え方を応用した統計学のことです。主に「未知の不確実なものを推定する」場合に用いられます。
ベイズ統計では、標本となるデータが不十分でも、ある事態が発生する「事前確率」を設定して、情報が追加されるごとに事前確率が変化する「事後確率」を更新していき、本来起こるであろう事象の「主観確率」を導き出します。データを追加、再学習して「ベイズ更新」することで、自ら精度を上げていくモデルであることから、機械学習と相性が良いとされています。
■ベイズの定理
ベイズの定理とは、全く同じ事象が起きる場合でも、環境や状況が異なればその事象が起きる確率は異なるという考え方です。ベイズの定理では、最初に主観で「事前確率」を設定して、新しいデータや経験である「尤度(ゆうど)」を加え、どのように変化するかを示す「事後確率」を求めます。事前確率はあくまでも主観で決めるのでデータを補正しなくてはならず、補正を加えることで正しい結果を導くという概念です。
ベイズの定理は、以下で求められます。
p(ፀ|x)=p(ፀ)x{p(x|ፀ)/p(x)}
p(ፀ|x):事後確率
p(ፀ):事前確率
p(x|ፀ):ある状況においてそのデータが得られる確率
p(x):平均してそのデータが得られる確率
つまり、
「事後確率」 = 「データの尤度(ゆうど)」 × 「事前確率」
となり、ここの「尤度」とは、データに基づいた仮説の正しさの確率となります。
■ベイズ統計の特徴
確率には客観確率と主観確率がありますが、ベイズ統計では主観確率を扱います。主観確率とは、人によって答えの値が異なる確率のことです。ベイズ統計では、「主観確率の値を新しいデータを取り込みながら精度を高めていく」という特徴があります。
■統計学分類上のベイズ統計のポジション
統計学とは、1つの群のデータの性質を調べたり、手持ちのデータから未知のデータや未来のデータを推測したりするための学問です。統計学は、「記述統計学」「推計統計学」「ベイズ統計学」の3つに大分できます。
●記述統計学(古典統計学)
手持ちのデータを集計する方法を学ぶ学問。データを集めて表やグラフを作り、平均や傾向を見ることでデータの特徴を把握するという統計学
●推計統計学
母集団からサンプルを抜き取り、そのサンプルの特性から、まだ入手していない母集団の特性を推測・検定する統計学
●ベイズ統計学
ベイズの定理を基礎とした統計学で、標本を必ずしも必要とせずに母数が確率的に動くとみなす学問
ビジネスシーンでは、推測統計学が多く活用されています。今あるものから手持ちでないデータを推定・検定することを目的に用いられており、品質管理や信頼性工学など様々な分野で応用されています。一方のベイズ統計は、得体の知れないものでも確率がゼロではない限り真実の解明に役立つという考え方に因っており、未知の不確実なものを推定する場合に使います。
推測統計学やベイズ統計学には記述統計の知識が必要不可欠なので、機械学習エンジニアやデータサイエンティストとして仕事をするなら、必ず習得しておくようにしましょう。
ベイズ統計と一般統計、機械学習との違い
続いて、ベイズ統計と一般統計や機械学習との違いを解説します。
■ベイズ統計と一般的な統計の違い
ベイズ統計と一般的な統計の違いは、ベイズ統計で求められる確率が新しい出来事が起こる度に変化するのに対し、普通の統計で求められる確率の数値は、多くが不変であるということです。また、ベイズ統計では、新しい情報を都度取り入れて解析結果を更新できるので、最初から十分なデータ量が揃っていなくても解析を始められます。一方、一般的な統計では、データ量が多いほど高精度な分析となるので、最初から十分な量のデータを確保しなければなりません。
■統計学と機械学習の違い
統計学と機械学習の違いを簡単に説明すると、データを扱う目的が説明であるか、予測であるかという違いです。
統計学がデータがどのようなものであるかを説明するための手法であるのに対し、機械学習はデータから将来的に何が起こるかを予測する手法です。前者がデータの構造を可視化して解釈を与えるのが目的で、後者は徹底的に精度を高め、正しい予測に近づけるのが目的です。
機械学習エンジニアやデータサイエンティストには、統計学によるデータの解析能力と、それらのデータから将来的に何が起こるかを予測する能力の両方が求められます。
ベイズ統計が注目されている理由
かつてビル・ゲイツは、「マイクロソフトが競争優位に立っているのはベイズ・テクノロジーのおかげ」「21世紀はベイズの時代」と語ったとされています。ベイズ統計は、なぜゲイツ氏が賞賛するほどの注目を浴びるようになったのでしょうか。
■機械学習との親和性が高い
新しい情報を取り込みながら結果を更新し続けることができるベイズ統計は、機械学習への応用が可能です。例えば、日々内容が変化し続ける迷惑メールなどに柔軟に対応し、適切な判別を行うことができます。一般的な統計学ではデータが増えるたびに始めから分析する必要があるのに対し、ベイズ統計なら逐次的にデータを取り込めるので、業務の効率化につながります。
■ビッグデータ解析に効果的
計算される確率の値が更新されて変化するベイズ統計の特徴は、ビッグデータの解析にも有効です。ベイズ統計なら人の行動や性質といった不確実性の高いビッグデータでも、柔軟で精度の高いデータ解析を行えます。ビッグデータから確認したい特徴や性質を適切に汲み取ることができるので、効果的なマーケティング手法の発見にも活用できるでしょう。
ベイズ統計の応用事例
ここからは、ベイズ統計を応用して社会実装が進んでいる事例を紹介します。
■迷惑メールの判別
ユーザーがスパムと判断したメールのタイトルや本文に含まれる語句から、ベイズ統計によりスパムメールを判断します。これにより、スパムメールの自動振り分け、フィルタリングが可能となりました。
■検索エンジン
Googleやマイクロソフトの検索エンジンは、ベイズ統計を用いたデータ分別用のソフトウェアベイジアンフィルタを採用し、それまで一般的だったif、and、 or butを使うクエリで言葉を判別するブール型検索エンジンを凌駕するほどに、検索精度や速度の向上に成功しました。
■アプリケーション開発
ベイズ統計はアプリ開発にも寄与しており、LINEスタンプのレコメンドエンジンや、インテル、マイクロソフトなどでも多用されています。
■機械学習
ディープラーニングの分野では、人間を介さずにデータの特徴量の自動抽出に役立っています。自動運転では、周囲の移動体の把握と現在地を確認する技術で衝突回避などを実現しています。未知のデータに対して共通して適用できる法則などを見出す汎化により、音声解析や音声合成でも活用されています。
■その他
このほか、ロケットの軌道をベイズ統計で推計してロケット制御に役立てているほか、診断という不確実で間違いの起きやすいプロセスへ応用する医療問診、天文学では解明されていない分野への挑戦が始まっています。人間のネガティブ、ポジティブな感情を数値化した感情値を把握する心理学などの分野でも、実装実験が進んでいます。
まとめ
今後ますます機械学習やビッグデータ解析が活用される分野が拡大するにつれ、ベイズ統計のスキルを有する人材の需要も大きくなることでしょう。就職や転職を有利に進める武器にもなるので、ベイズ統計や機械学習の知識や技術は、できるだけ身につけておくようにしましょう。
コメント