IoTやAI活用を行う中で、元となるデータは非常に重要です。
そのデータを保存を行うストレージも準備する必要がありますが、コストがかかるので高速にアクセスできるストレージ容量を無尽蔵に用意するのも難しいです。
そこで、該当データを使う頻度などの特性を考慮しながら最適な保存方法を考えていく事が重要です。
そんな中、データのほとんどは使われないという特性がある事がストレージ業界では通例となっているようなので、紹介しておきます。
どうやら、よくアクセスされるデータをホットデータ、そうではないデータをコールドデータと呼ばれており、ストレージ内のデータの多くはコールドデータに属するようです。
ホットデータとコールドデータの割合は発表元により多少変化しておりますが、
概ね10%~20%と80%~90%のくらい割合のようです。
※ウォームデータと呼ばれるアクセス頻度がそこそこあるデータもあるようです。
富士フィルムは10%,20%,70%くらいと発表してますね。
そのため、コールドデータの方は読み込み速度が遅くてもコストが安いストレージを選択、ホットデータの方は速度が速いストレージに保存するのがセオリーのようで、
ストレージ階層化機能というので実現されている部分もあるようです。
何かデータ基盤等を考えるときに、アクセス頻度に応じたストレージ使い分けの考えかたは参考になりそうです。
以下、参考したサイトや資料を記載しておきます。
引用)テープストレージ活用による省エネ貢献
一般社団法人 電子情報技術産業協 テープストレージ専門委員会
https://home.jeita.or.jp/upload_file/20180725112832_4IrRd6WeFi.pdf
データ保管コスト削減の鍵は、「コールドデータの再配置」
もう一つの選択肢が、既存ストレージに存在する「コールドデータ」の再配置です。データの70%以上は、生成後しばらくしてアクセス頻度が減りアクティブには使われなくなった、いわゆる「コールドデータ」といわれています。これらを、電力を消費する高性能なストレージに保管したままにするのは費用対効果から見てデメリットになります。そこで、コールドデータを大容量・低コストのストレージに再配置する方法が注目されています。こうしたコールドデータの保管先として期待されているのが、「LTOテープ」です。従来型ストレージのデータバックアップ用途に古くから活用されていたテープストレージですが、技術革新を遂げ、コンパクトでいて大容量、トータルコストの圧倒的な低さ、サイバー攻撃リスクの低さなどから、大容量・長期保管のアーカイブデータ用ストレージとして、今世界的に注目されているのです。
あとはオラクルも過去に下記の発表をしていたようで、概ね80%くらいのデータはあまり使われない(だが法律や将来にむけて残す必要があって)が消せずに存在しているというのが実態のように思えますね。
日本オラクルが1月15日に開催したストレージ戦略説明会で同社のシステム事業統括 プロダクト・マネジメント・オフィス 本部長 宮坂美樹氏は、ストレージの使われ方の実情として「常に使っているデータは全データの3%ほどで、80%のデータは90日を経過するとほとんどアクセスがないと言われる。ほとんどアクセスはないが、消せないデータをいかに効率的に管理するかがポイント」と説明した。
「この課題に対し、オラクルはデータの利用用途に応じてデータを最適に配置する“自動階層化ストレージ”を提供する。高速フラッシュストレージ、大容量ディスクストレージ、アーカイブストレージという3種類のハードウェアをアクセス頻度に応じてデータを自動管理し、最適なデータ配置を実現する」