データ分類メタデータの概要

データ分類メタデータの概要

データ分類メタデータの概要 データ分類メタデータは、データに関するデータのことを指します。例えば実務報告書というエクセルファイルをデータの本体ととらえると、そのファイル名や作成された年月日・ファイルが格納されている場所などエクセルファイルに関するデータのことになります。
メリットがさまざまあり、データオーナーやデータの定義をメタデータとして管理することで、データ利用者と担当者のコミュニケーションの時間を削減させることができます。データ分類など管理がしっかりおこなわれていない場合データの内容などが利用者にわからない状態になるので、利用する度に担当者に確認する作業が出てくるようになり、無駄な業務が増えてしまいます。管理がしっかりとされている場合は、問い合わせに要していた時間を軽減させることができます。データ漏えいのリスクを避けることも可能になります。データの更新日やアクセスを管理することで不正な利用を監視することができるようになります。

データ分類のひとつ「クラスター分析」とは

データ分類のひとつ「クラスター分析」とは クラスター分析は、大きな集団の中から似た者同士を集めてデータ分類を行う統計的な分析手法のことです。ただし、その際には性別や年齢層別、あるいはどこに住んでいるかの地域別など、はじめからはっきり分類基準がわかっている軸でデータ分類を行ったものはクラスター分析と呼べません。性別などのように外的な基準がはっきりしていないそれ以外の切り口でデータを分類する場合にのみその名が使われます。
なお、具体的には消費者の購買データやアンケート調査などから消費者や商品をクラスター分けする、という使われ方をするのが一般的です。そしてその際のデータ分類は会員登録時に記入あるいは入力する属性情報とは全く違う軸でデータ分類を行い、それらデータ同士が似ているか似ていないかを基準に分類していきます。また、その結果は、相関係数などによって類似度を計算したり、ユークリッド距離などを駆使して非類似性を計算するなどを行うことで統計的な分析を行います。