テキスト分類、NLP、スパム検出、そしてAIとMLにおける感情分析のためのナイーブベイズ分類器のシンプルさとパワーをご覧ください。
ナイーブベイズは、機械学習(ML)で使用される非常に効率的な確率的分類器である。 機械学習(ML)で使われる ベイズの定理を適用したものである。 を適用したものである。その単純さにもかかわらず、このアルゴリズムはしばしば、より洗練された技術と競合する。 特にテキストベースのアプリケーションにおいて。教師あり学習アルゴリズム 教師あり学習アルゴリズムに属し 学習段階と推論エンジンによる予測生成の両方において高速であることで有名である。 推論エンジン比較的少量の学習データで 必要なパラメータを推定するために必要な学習データが比較的少ないため 必要なパラメータを推定するための学習データが比較的少なくて済むため、分類問題のベースライン手法として依然として人気がある。
ナイーブ(Naive)」という用語は、このアルゴリズムの核となる前提に由来する。 あるクラスにおける特定の特徴の存在は、他の特徴の存在とは無関係であると仮定している。例えば 例えば、ある果物が赤く、丸く、直径3インチ程度であれば、リンゴとみなされるかもしれない。ナイーブ・ベイズ分類器は、これらの各特徴を考慮します は、色、丸さ、大きさの間に相関関係があろうとなかろうと、その果実がリンゴである確率に独立に寄与すると考えます。 色、丸さ、大きさの相関は関係ありません。
現実のデータでは、特徴が完全に独立していることは稀である。しかし、このように単純化することで 計算量を大幅に削減し を回避することができる。これにより ベイジアンネットワークとは異なる。 有向無サイクルグラフを用いて変数間の複雑な依存関係や因果関係をモデル化するベイジアンネットワークとは異なる。一方 ベイジアンネットワークは厳密に依存するシステムをより正確に表現するが、ナイーブベイズは計算効率を優先する。 計算効率を優先する。
ナイーブ・ベイズは、特に自然言語処理(NLP)において、高次元データを含むシナリオを得意とする。 自然言語処理(NLP)。
ナイーブ・ベイズはテキストでは強力だが、コンピュータ・ビジョン(CV)のような複雑な知覚タスクではしばしば不足する。 コンピュータ・ビジョン(CV)。画像データでは、ピクセル値 画像データでは、ピクセル値は非常に相関している。 独立したピクセルに基づいて物体を識別しようとすると、「素朴な」仮定は破綻する。以下のようなタスクでは 画像分類やリアルタイムの物体検出 高度なディープラーニング(DL)モデル が望ましい。
のようなモダン・アーキテクチャ YOLO11のような最新のアーキテクチャは、畳み込み ナイーブ・ベイズが無視する複雑な特徴階層と空間的関係を捉えるために、畳み込み層を利用している。しかし、ナイーブ は、より多くのリソースを必要とするモデルを学習する前に、ベースライン を確立するためのベンチマークとしては有用である。
一方 ultralytics パッケージはディープラーニングに焦点を当てているが、ナイーブベイズは通常、標準的な
標準的な scikit-learn ライブラリを使用する。次の例では、連続データに有効なガウス・ナイーブ・ベイズ・モデル
モデルを学習する方法を示します。
import numpy as np
from sklearn.naive_bayes import GaussianNB
# Sample training data: [height, weight] and class labels (0 or 1)
X = np.array([[5.9, 175], [5.8, 170], [6.1, 190], [5.2, 120], [5.1, 115]])
y = np.array([0, 0, 0, 1, 1])
# Initialize and train the classifier
model = GaussianNB()
model.fit(X, y)
# Predict class for a new individual
prediction = model.predict([[6.0, 180]])
print(f"Predicted Class: {prediction[0]}")
ナイーブベイズの主な利点は、推論のレイテンシーとスケーラビリティが極めて低いことである。 推論の待ち時間とスケーラビリティである。ナイーブベイズは サポートベクターマシン(SVM) サポートベクターマシン(SVM)のような他のアルゴリズムでは遅くなるような巨大なデータセットも扱うことができる。 さらに、独立性の仮定が破られた場合でも、驚くほど良好な性能を発揮する。
しかし、独立した特徴に依存しているため、属性間の相互作用を捉えることができない。予測が単語の組み合わせに依存する場合 予測結果が単語の組み合わせに依存する場合(例:「良くない」)、ナイーブベイズは、注意メカニズムやモデルを利用する場合と比較して、苦戦を強いられる可能性がある。 注意メカニズムや トランスフォーマーさらに、テストデータのカテゴリーが この問題はラプラス平滑化で解決されることが多い。 ラプラス平滑化。