Linuxからアホ話まで、何でもありでござる

2007年09月28日

データの質と量の今昔

[つれづれなるままに]
PCが仕事に使われるようになって、取り扱うデータの量はものすごく増えました。特にPOSなどで基礎データのインプット作業の自動化が進むにつれ、扱うデータの量は異常に増えているように思います。

当然、その膨大なデータの中から必要なデータを抽出するのも一苦労で、もはや人間が一つ一つできるような代物ではなくなっており、抽出も機械に頼らざるを得ません。それなりにシステムに組み込まれたデータ抽出の場合はいいのですが、膨大なデータの中から新たに紐付けしたデータを取り出したい場合は困ったことがおきたりします。この新たな抽出は、言い替えればデータを今までに無いサイズの「ふるい」にかけるようなものです。新しい「ふるい」で狙ったものが残ればいいのですが、予期せぬ類のデータが残っていたりするのもよくある話です。そして、そのデータを集計した結果は、やはり微妙な狂いが出ていしまいます。

PCが一般的になる前はこのようなことはそんなにありませんでした。そのころは逆にデータの数を増やすことの方が重要で且つ大変な作業で、その上データ収集の段階からある程度のふるいにかけられていたといってもいいでしょう。昔はサンプルを集めるのに四苦八苦し、今はそぐわないサンプルを除去するのに四苦八苦しているんですね。「データ」や「サンプル」という言葉を「情報」という言葉に置き換えてもいいでしょう。

サイト検索とかでも同じですが、現在はとっくに「データ収集能力=データ選別能力」という段階に入ってきています。先にも述べたとおり、流れている情報量はとてつもなく多く、まずは機械的にザクッと振り分けしないと手に負えなくなっています。しかし、この機械的な振り分けは語句とか数値の範囲とかで、そんなに高度な振り分けには変化していないのが実状でしょう。

単なる思い付きであれなんですが、この「振り分け」的な情報の集約から吸引的な情報集約に変えることって出来ないものなんでしょうかね。磁石に鉄がくっつくように、情報も必要なものだけくっつけていくような方法ってないのかなとデータに埋もれそうになるたび思う俺です。勝手に関連するデータがくっついてきたら面白くないですか?



ブログランキング・にほんブログ村へ
posted by oyajiman at 2007年09月28日 03:55:12



コメント

コメントはありません

トラックバック

トラックバック
このエントリにトラックバックはありません
このトラックバックURLを使ってこの記事にトラックバックを送ることができます。 もしあなたのブログがトラックバック送信に対応していない場合にはこちらのフォームからトラックバックを送信することができます。.

コメントする