川下から川上へ
データ復旧の技術はとても面白い。なぜなら国内において高度なデータ復旧技術に関する書籍や技術共有がなされていないから。「職人技術」である事。そして「やりがい」がある。ところがデータ損失に陥った媒体、ファイルなどから 希望のデータを救えない事は非常に技能者とすると辛い。
そして、業界の経営者としてはクラウド化が進み、後先なくなるだろうという不安もある。
ならば、今までの経験を活かしてデータ損失を防ぐ様な新事業を立てられないか?
『2014年2月の決意』
データ損失とは?
データ、ファイルにアクセスする事が出来なくなる事
データを損失して得する人はいない
損をする人
法人、法人に属する個人
個人
メーカー
世界中の人
得をする人
データ復旧会社
僕はあまりこれは言いたくはない。
メーカー、保守会社
リプレースかな。
では どうする?
そもそも、損失について調べてみた。
1) 割合は?
35.1% のユーザーがデータ消失の経験
2014/10/21 - HDDクラッシュ/データ消失の経験は? 失うと困るデータは?
参考文献:マイナビ
2) どうなる?
損失額 5兆円 / 国内
2015/01/23 - 国内 データロスとダウンタイムの損失額は年間約5兆円 の損害
参考文献:IT Pro
損失額 2億円以上 / 企業
2015/1/28 - データロスとダウンタイムによる損失、日本の企業では約2億1,900万円に(EMCジャパン)
参考文献:マイナビ
3) 要因は?
・51% パソコン・サーバの故障 / 35% 人為的ミス
DELL社 マンスリー製品カタログから
・40% ハードウェア障害 / 29% ヒューマンエラー
2013/03/28 - シマンテック社とZDNet Japan社調査「バックアップをしてなくて「困った」経験は半数」
参考文献:ITMedia
・50%以上 ハードウェア障害(うち9割はストレージ)
当社データサルベージ調べと僕の個人的体感
「ハードウェア障害が大きな要因」
ハードウェア障害とは?
データ復旧の現場においては「論理障害」と「物理障害」に分けられる。ハードウェア故障は いわゆるデータ復旧業界で言う「物理障害」。
これを考えてみよう!(詳しくはこちら)
では、故障とは何なのか?
「形あるもの、いつかは壊れる」
前述した損失の要因はハードウェア故障。要因は存在しているが、ストレージにおいてそれをデータ収集し、指標化する方法が今までなかった。
ところが、故障に関する情報を大量のストレージを扱うデータセンターがインターネットを通じて発信する動きが出始めた。(Google、BackBlaze)
信頼性工学
信頼性工学(しんらいせいこうがく、英語:reliability engineering)とは、システムの信頼性を分析する工学手法である。
(引用:WikiPedia)
データ復旧の現場にいれば、考え、そして知る必要もなかったであろう学術を見つける。
故障率曲線の定義
「初期故障」「偶発故障」「摩耗故障」
まさしく不良ディスクを扱う僕らで良く耳にする言葉だった。
S.M.A.R.T.
S.M.A.R.T.はストレージの自己診断機能
ハードディスクに内蔵された自己診断機能。読み取りエラーの発生率や読み書き速度、モーターの起動・停止の通算回数、出荷以来の通算の通電時間、ディスクが固定位置からずれた距離などを測定し、接続されたパソコンなどに知らせてくれる。ATAおよびSCSIの仕様で診断項目などが定義されており、現在ではほとんどのハードディスクおよびSSD製品が対応している。
S.M.A.R.T. 【 Self-Monitoring Analysis and Reporting Technology 】
(引用:IT用語辞典 e-Words)
SAのデータ
ハードディスクにはファクトリーコマンドを利用して、表に出ない指標を出力する事が出来る。P-List、G-List その他。(詳しくはコチラ)
これらのデータを用いて、
「故障率曲線」を描けないか?
描く前に市場調査 - ネガティブな意見をもらう現実
データ復旧技術者
・S.M.A.R.T.なんて役に立たない
・集めて分析しても無駄 初期故障は突発的に起こる
・海外のリカバリ装置の様な物を作れる訳がない
経営者、投資家
・こんなデータなんてそもそも集める事が出来ない
・集めたとしても売れる訳がない
クラウド業界
・ストレージが故障起きる前提で運用されているから故障データなど必要ない
やってやろう!
10年前の教訓を思い出す
「データ復旧なんて出来る訳がない」
しかし、データ復旧会社を経営する事が出来ている。
技能者魂
モノを作ってなんぼの日本の「技術者魂」と「工業高校生魂」。
ビジネスの基本
そもそも事の発端は当社のパートナー企業。
「不良が起きるであろうデータがあるのなら先に教えてくださいよ~。訴訟が起きているんです!」
販売先(困っている人がいる事)を確認。
大志
2011年~2013年の大きな災害、事故を目の前にして見てきたから言える事。
「データ損失で嘆いている人達をこれ以上 見たくはない。」
情報を収集する方法を探す
☆ ストレージメーカー、サードパーティメーカー
営業部隊、CS部隊 あたりか?
★ データ復旧会社、PC修理会社
データ復旧会社は故障ディスクを一番見ている。SNS、Forum などで活発に不良ディスクの復旧の為に日夜 意見交換がなされている。
システム管理者、Sier
企業であれば、障害媒体を一番最初に手を付けるのは彼らだろう。
コンシューマ
一家に一台。
集めてみよう!MASAMUNE Cloneを使って
自社ソフトがある。不良セクタが発生するディスクを効率よく複製するソフト。それを利用し社内はもちろん、フリーウェア化し配布をしログを国内から収集して見る。
集計データ
MASAMUNE Clone によるログデータ
メーカー、モデルナンバー、シリアルナンバー、ファームウェア、不良セクタ数、速度(平均実測)、全体セクタ数、回収完了セクタ数、リードエラー数、複製時間、IPアドレス
S.M.A.R.T.
(01)エラー発生数、(05)代替不良セクタ数、(C5)代替予定予備セクタ数、(C6)代替不可不良セクタ数、(04)スピンドルモータが回転/停止した回数、(09)通電時間 などなど。
集めた結果
累計台数
845台
全体セクタ数
529,300,356,457 セクタ(5,293億)
回収可能セクタ数
348,846,078,011 セクタ(3,488億)
集計対象ログ数
450,000 データ
(2014年2月収集開始 2014年12月末現在)
たった800台?と言われるが、集めたディスクの殆どは物理障害が起きているディスク。
そもそも物理障害のディスクなど集めるのも大変(データが中に記録されているから)
そして、何より複製に時間がかかる。
休みも出勤し1年間 毎日毎日複数台のPCを使いログを取る日々は大変だった。
データを簡単に視覚化してみる
現在(2015年2月23日時点)では100万件のログに近づいたデータを日々分析している。
何かが見え始めた気がする
データの差別化
前述したデータセンターの故障ディスクのデータは、宝くじで言えば 「連番」。
僕らが集めたデータは「バラ売り」の宝くじ。
今思うと、
1年間はリーンスタートアップを実践していたのかもしれない。
特許を出願
復旧の現場で見た経験を生かし、それを形に落とす。
国内企業をまわる
各社メーカー、IT企業に突撃プレゼンをしてみた。
「こんな情報集計した事がない。」
「もっとデータを集めて欲しい。」
シリコンバレー
憧れのシリコンバレーにて全ての大きさを感じる。
そこで軽くプレゼン。
現地では聞いた事がないとちょっとシャチハタ(太鼓判ではないのがミソ)を押される。
これから
データの集計結果を世界に発信する
HDD
S.M.A.R.T.を出力しやすいディスクメーカーと、出力しにくい(隠蔽?)ディスクメーカーが分かる。
SSD
S.M.A.R.T.が各メーカーが統一されていないのを知る。
人事・採用
データ化する為に、世界に挑戦をしたいと志す技術者達を集める。
データサイエンティスト
現在出来上がった100万件以上のログデータを分析出来る人
ATA・SCSI 技術者
未踏のSAにアクセス
その他プログラマ
MASAMUNEをはじめとする、ベンチマーク、S.M.A.R.T.ソフトの開発
そして世界に出る
シリコンバレー
目標
「世界のデータ損失を防ぐ」
規格の見直し、認証機関、保険サービスなどに使えるかも。