最近は情報を取り扱う機会がますます増え、膨大なデータを抱える会社ばかりです。デジタル革命が起こった今、世界で一番価値があるのはまさに情報データだと言えるでしょう。
今までは情報収集やその分類の仕方が注目されていましたが、今需要があるのはその膨大な量のデータをビジネスに活かすことです。これはDBAや情報を取り扱うビジネス管理者にとって大きな挑戦でもあります。この考えを持ちながら物事の解決にあたろうとしている企業は、高い競争率のマーケットでも十分戦えるでしょう。
そのことを頭に置いて、2019年のビッグデータの動向を探っていきましょう。
1.データ管理はやはり至難の技
これは長年の課題でもあり、ビッグデータにおいては特に重要な問題です。大量のデータの中から必要なデータを見つけ出すという分野に、多くの人が挑戦しているところです。機械学習の分野もある程度結果が出ていて、正確に見つけだすことやデータ移行することに注力しています。
口で言うのはたやすいものの、実際やってみるとかなり大変なことが分かります。熟練したデータ技術やETLスキルが要求されるので、初心者が情報を収集するのはかなり難しいことです。データを整理してマシンに学習させるためには、その作業や分類にもまた時間と手間がかかり、さらに詳しい知識が必要です。結局、そのようなシステムを導入するには様々なスキルが不可欠なのです。
これらの理由から、データ管理はエンジニアにとって大きな課題であり、ビッグデータ時代に求められるスキルの一つとなっています。
2.増え続けるデータ容量
決して不可能なことではありませんが、データ構造の進化について予測を立てるのは難しいです。2、3年前のHadoopブームの時、作業や解析をしやすくするために、全てのデータは1つのプラットフォームにまとめられました。そして、データ容量という発想が生まれたのです。
しかし、この考えはあまり広く普及しませんでした。大きな問題は、DBs、graph、 DBs、time-series database、HDFSなど様々なタイプの情報ごとにストレージが発生していたからです。全てのデータを一つのサイズで詰め込まなければ、開発者はデータを広げることが出来ませんでした。
大量のデータを1箇所にまとめることは、いろいろな意味でメリットがあります。例えばクラウドのデータストアでは、無制限のストレージを企業に安価で提供しています。一方Hadoopは、解析機能を備えた非構造のデータストレージを維持しています。ですが、データ管理のためには追加容量を購入しなければなりません。重要かつ大きな存在であるこの容量は一つだけではないので、限りなく増え続けていくでしょう。
3.リアルタイム配信の解析
今日のデジタル時代では、ビジネスでの決断が早ければ速いほど成功する可能性も高い、と言われています。リアルタイム配信を解析する際も、この力が働いています。唯一の課題は、リアルタイムで必要な情報を集め、すぐにマーケットに実在する解析チームを見つけ出すのが困難だという点です。RemoteDBA.comにもっと詳しいことが書かれています。
NewSQLのデータベースや記憶メモリのようなデータ技術を使えば、解析や共通の機能の集約が出来ます。その機能により、超高速のライブ配信や学習マシンなどを使用したデータ収集も、さらに効率がアップするのではないかと期待されています。今後、ビジネスの採決も自動で行われるようになるのではないでしょうか。Spark、Kafka、Flinkなどのオープンソースと現在のSQLを結合させれば、リアルタイムでの解析技術はさらに改善されるでしょう。
4.データ管理
データは新たに“オイル”と呼ばれ、続いて“通貨”として扱われるようになっていきました。それほどまでに、情報データには価値があるということです。また、情報を軽く扱うような人は必ずトラブルに巻き込まれます。EU(欧州連合)は最近の発表で、杜撰なデータ管理による財務上の影響について述べたばかりです。現在のアメリカにはそのような法律はありませんが、すでに様々な企業からのデータ要求に応じています。
データベースの違反行為は今一番関心の集まっている事柄で、Harris Pollの調査によると、昨年米国市民60億人の身元情報が盗まれています。15億人の被害が出た前年2017年に比べると、およそ3倍です。アメリカ西部のビッグデータが徐々に悪い方向へと進んでゆく事実に、企業はもっと危機感を覚えなくてはいけません。いい加減なデータ管理に対するペナルティは特にありませんが、悪事はいずれ明るみに出るでしょう。
5.情報管理上のスキルの遷移
技術が変化するとなると、最大のコストとして残る資産は人材です。巨大なデータを扱うプロジェクトでも同様です。自動化や技術革命のおかげで人間の作業量はたしかに削減されましたが、そのような仕組みを作って市場を稼働させているのは、結局技術力のある人間です。なので、技術に見合った人物を探し出してデータを上手く実行することが先決です。
しかし技術革新の視点から見ると、複数のデータを管理する技術側にも変化が起きています。2019年は、中立なネットワーク管理の行えるような人物の需要が高まるのではないでしょうか。情報科学者や機械学習のプロに求められるスキルとしては、R、Mat lab、SAS、Java、Scala、Cなどのプログラミング技術への需要が高まるでしょう。
新しい情報管理技術やプログラムが頂点に達したら、データ管理者のニーズがもっと増えるでしょう。SparkやAirflowなど、コアなDBAツールを使いこなすエンジニアや開発者は特にその光景を目の当たりにします。さらに今後、機械学習のプロへの需要も高くなっていくと思われます。
このように、ビッグデータ管理における進歩は様々な部分で見受けられるでしょう。技術、法律、データ管理、機械学習の倫理面における障害はたくさんありますが、そういったリスクや欠点を上回るようなメリットの方がはるかに大きいです。