形成, 中等教育学校
最近傍法:作業の例
最近傍法は、異なるオブジェクトの類似性の評価に基づいている最も簡単なメトリック分類器です。
分析されたオブジェクトは、彼らがトレーニングサンプルの科目を所属するクラスに属します。 私たちは最近傍であるかを調べるみましょう。 複雑な問題で、異なる技術の例を理解するようにしてください。
仮説方法
最近傍法は、分類のために使用される最も一般的なアルゴリズムとして考えることができます。 分類を受けたオブジェクトはX_Iサンプルを学習した最も近いオブジェクトに、クラスY_Iに属します。
方法最も近い隣人の特異性
分類の精度を向上させることができる最近傍法をKです。 分析の目的は、その近隣のバルクと同じクラスに属し、それはそれに近いkが分析されたサンプルのX_Iのオブジェクトです。 隣人の同じ数が異なるクラスに属しているかどう隣人の数の二つのクラスの問題を解決するには、あいまいさの事態を避けるために奇数になります。
中断隣人の技術
Postgresqlの-分析した方法のtsvector最近傍とき、クラスの数は少なくとも3で使用され、そしてあなたは奇数を使用することはできません。 しかし、あいまいさも、これらの場合に発生します。 次に、i番目の隣人は隣人ランクIとともに減少w_i量を取得します。 これは、近い隣人のうちの最大合計重量を有することになるオブジェクトのクラスを指します。
コンパクトの仮説
上記の方法のすべての中心に小型の仮説です。 これは、オブジェクトの類似性の尺度とその同じクラスに属するとの間の接続を示唆しています。 このような状況では、異なる種類の境界は、単純な形で、スペース、コンパクトなモバイルエリア内のオブジェクトのクラスを作成します。 そのような地域の下で数学的解析に閉鎖有界集合を意味します。 この仮説は、単語の日常感覚とは関係ありません。
基本的な式
私たちはより多くの最近傍を調べてみましょう。 もし提案された学習サンプル型「オブジェクト応答»X ^ M = \ {(X_1、Y_1)、\ドット、(x_m、y_m)\}。 複数のオブジェクトは、距離関数\ロー(X、X「)を定義する場合、関数の値を増加させることによって、オブジェクトの適切なモデルの類似の形式で表され、X、Xオブジェクト間の類似度を減少させます」。
任意のオブジェクトの場合は、uが学習サンプルをuまでの距離の増加に伴ってX_Iオブジェクトを構築します。
\のRho(U、X_ {1; U})\当量\ロー(U、X_ {2; U})\当量\ cdots \当量\ロー(U、X_ {M、U})、
ここで、X_ {I。 Uは} U i番目の隣接ソースオブジェクトであるオブジェクトの学習サンプルを特徴づけます。 このような表記とi番目のネイバーに返信するために使用する:Y_ {I。 U}。 その結果、我々は、任意のオブジェクトuは独自のサンプルをリナンバリング誘発することがわかります。
隣人の数kの決意
最近傍法k = 1の場合は、オブジェクト・排出にだけでなく、近くに他のクラスのためだけではなく、誤った分類を与えることが可能です。
我々はK = Mを取る場合、アルゴリズムは、のように安定になり、一定の値に退化します。 信頼性をk極端なインデックスを回避することが重要である理由です。
実際には、最適なインデックスkは、使用される基準は、制御をスライディング。
上映排出量
調査の対象は、主に等しくないが、彼らの中のクラスの特性を持っており、標準規格と呼ばれている人々があります。 このクラスに属するの高い確率の理想的なモデルの対象との近さで。
最近傍の方法rezultativen方法? 一例では、オブジェクトの周囲と非有益なカテゴリに基づいて見ることができます。 これは、このクラスのオブジェクト、他の代表者の密な環境を想定しています。 あなたは、品質は受けないサンプリングの分類からそれらを削除する場合。
サンプルクラスの「地面上」であるかもしれないノイズバーストの特定の数に入ります。 分類の品質に実質的にプラスの影響を除去します。
サンプルは、情報価値がないから採取したノイズオブジェクトを排除する場合は、同時にいくつかの肯定的な結果をカウントすることができます。
最初 の補間方法 最近傍分類は、品質を向上させる格納されるデータの量を減らし、次の基準の選択に費やされた分類の時間を短縮することができます。
超大型試料の使用
最近傍法は、学習オブジェクトの実際のストレージに基づいています。 技術的な問題を使用して非常に大規模なサンプルを作成します。 その目的は、単に大量の情報を保存するのではなく、また、最小の時間でuが最も近い隣人の間でkは任意のオブジェクトを見つけるための時間を持っています。
このタスクに対処するには、二つの方法が使用されます。
- 放電非データオブジェクトを介して、試料を薄く。
- 効果的な最近傍のインスタント検索のための特別なデータ構造とコードを使用しています。
選択方法のルール
上記の分類が考えられました。 最近傍法は、予め距離関数\ロー知られている実用的な問題を解く際に使用される(X、X「)。 オブジェクトを記述するには数値ベクトルは、ユークリッドメトリックを使用します。 この選択は、特別な正当性を持っていませんが、すべての兆候の測定が含ま「同じスケールでの。」 この要因を考慮しない場合、メトリックは、最も高い数値を持つ機能が優勢になります。
機能のかなりの量がある場合は、特定の症状に対する偏差の和として距離を計算することは深刻な問題の次元を表示されます。
互いにますすべてのオブジェクトから離れた高次元空間で。 最終的には、任意のサンプルは、k個の隣人を研究されているオブジェクトの横になります。 この問題を解消するために有益な機能の数が少ない選択。 推定値を計算するためのアルゴリズムは、看板の異なるセットに基づいて構築し、各個人が自分の近接機能を構築するため。
結論
数学的計算は、多くの場合、自分の独特の特徴、利点と欠点を持っているの様々な技術の使用を含みます。 閲覧最近傍法は、数学的対象の特性により、非常に深刻な問題を、解決することができます。 分析した方法に基づいて実験的な概念は、積極的に人工知能で使用されています。
エキスパートシステムではそれだけでオブジェクトを分類するだけでなく、ユーザーに問題の分類の説明を表示しないようにする必要があります。 この方法では、この現象の説明は特定のクラスのオブジェクトと同様に使用される試料に対してその位置に関連して表現されます。 法律業界の専門家、地質学者、医師は、積極的に研究にそれを使用するこの「先例」の論理を取ります。
また、分析したオブジェクト間の排出を避けるながら方法は望ましい結果を与え、効率的で最も信頼性の高いだっ分析するためには、あなたは、最低限の数字kを取る必要があります。 だからこそ、標準の使用や選択方法と同様に、最適化の指標です。
Similar articles
Trending Now