データの統合とアナリティクスは、企業が各所に分散したデータを活用するために極めて重要です。ここでは、Qlikの顧客の声および調査会社のマーケットリサーチをもとに作成した、2020年データ・BIの10のトレンドを紹介します。
○1.リアルタイム対応の企業への転換は必須

自社のデータモザイクを構築するためには、情報が的確なタイミングで適切な場所に提供されることが必要です。現在、世界のトップ企業の間では、さまざまな業務をリアルタイムで対応するようになってきています。マーケティングキャンペーンの効果測定、不正行為に関する異常の検出、医療を始めとする人道的サービスの提供、各種のパーソナライズ処理、サプライチェーンの最適化などです。最近の技術革新のうち、2020 年に業務のリアルタイム化に大きく寄与することが予想されるものとして以下の3つが挙げられます。

・高速ネットワークにいつでもどこでも接続
5G と IPV6 により、あらゆる場所でネットワーク接続が可能になります。
・ 業務量のスケーラビリティが無限に
すべてがクラウドに移行するにつれて、エッジデバイスでも場所を選ばず業務を遂行できる Kubernetes が存在感を強めています。
・強力なストリーミングアーキテクチャが登場
Apach Kafka などのソリューションにより、変更データキャプチャ(CDC)とリアルタイムのデータストリーミングが可能に。短時間で大量のデータを取り込み、処理することができます。
○2.単なるデータ、ビッグデータの次はワイドデータ

ビッグデータという言葉に正確な定義はありません。どちらかというとぼんやりした概念です。そのビッグデータに対応するためといって、システムの更新や新規投資をすることは、いまや正しい選択とはいえません。

スケーラビリティが事実上無限であるクラウドストレージを使えば、ビッグデータに関する制約は限りなく小さくなります。一方で、データベース内でのインデックス作成と分析やアナリティクスの普及が広がり、また、分析作業に最も適した場所にデータをもってくるためのツールも成熟しました。技術がビッグデータに追いつき、ビッグデータは、過去の神話となったのです。

では、次に2020年に来るものは? それは、極度に分散した「ワイドデータ」です。データの形式が多様化し、存在場所も断片化する中、分析すべきデータはビッグなだけでなくワイドにもなるわけです。例えば、データ形式の多様化に対応するために、DBMS(データベース管理システム)は商用、OSSの両分野で分立が進み、ある統計によれば2013年の162種類から2019年の342種類に増えました(*)。データの統合はビッグデータ問題を解決し、多様で分散したデータを上手にまとめる力をもつ企業が、強力な競争力を手に入れるでしょう。 

(*)出典:DB Engines, https://db-engines.com/en/ranking
○3.グラフ分析と連想技術はSQL を超える

私たちは何十年もの間、分析用に最適化されていないソリューションを許容してきました。行と列から成るSQLデータベースは、データの入力に適した設計になっています。リレーショナルデータベースの分析ツールにはさまざまなものがありますが、どれもデータのテーブル同士の関係(リレーションシップ)つまり、予め定義された繋がりだけを頼りデータを分析するという点は変わりません。そのため、予期せぬ繋がりを見つけることが難しくなるだけでなく、分断化が悪化してしまいます。

これに代わるアプローチとしてグラフ分析や連想技術などがあります。こちらであれば、好奇心に沿ってデータを深いところまで理解することができます。グラフ分析と連想技術は同じテクノロジーではありませんが、「ノード」、「関係」、「エッジ」の 3 要素から成り、( 誰かが人為的に決めたデータとテーブルの関係ではなく ) データ同士の自然な関係を分析することを重視した概念である点は共通しています。このような分析であれば、特にAIを組み合わせた場合に、はるかに大きな問題に対処することができ、より良い結果を得ることができます。
○4.新たなアジャイル手法: DataOps とセルフサービスの融合

セルフサービスBIは、ビジネスユーザーが意思決定の答えを導くためのツールとしての地位を確立しました。その一方で、BIツールが分析すべきデータをきちんと整備する、データマネジメントの分野はまだ大きく立ち遅れています。

2020年には、この分野に、DataOpsという(おそらく読者の方がまだ聞きなれない)解決手段が登場します。DataOpsとは、データの品質を高め、更新サイクルを早めるための方法論で、DevOps からインスピレーションを受けた手法です。DataOpsは、データの検証と分析者が扱うストレージへの配備を自動的に、しかもリアルタイムで行います。変更データキャプチャ(change data capture、CDC)やストリーミングデータパイプラインといった最新の要素技術を導入しています。最新データの取り込みが途切れないように、ITリソースをオンデマンドで制御する機能もあります。ビジネスの意思決定に必要なデータの80%には、DataOpsによる整然とした管理が必要です。そしてDataOpsがうまく回りだせば、スタンドアロンのセルフサービスBI用にいちいち準備していたデータを作るプロセスが不要になります。

IT管理部門側のDataOpsと、ビジネスユーザー部門側のセルフサービスBIが相乗効果を発揮することで、企業内の情報のバリューチェーンが圧倒的に効率化され、データの統合と分析により、経営を適切に導くための「データモザイク」を形作る過程が合理化されるのです。
○5.アクティブメタデータカタログは結合組織へ

分析対象になるデータの種類が増えて、保存場所も分散して…頭の痛い問題が増えます。データはすべて、「在庫管理」され体系化しておかねばならいのですから。放っておくと、データはあっという間に腐ってしまいます。データカタログ(文字通り、どういうデータがどこにあるかの一覧)があればことは簡単になります。なので、データカタログへの需要はとどまるところを知りません。

この分野で期待されているのは、機械学習による「メタデータカタログ」です。データが、動かされるものから動くものに変わります。さらに用途に応じて姿を変えます。もちろん、マルチクラウドやハイブリッドクラウド環境でも。 メタデータカタログは、言ってみればDataOpsとセルフサービスBIによるアジリティを現実のものとするための接着剤であり、データのガバナンスを実現するのです。 同時に、ビジネスユーザーが洞察を得るために、またコンテンツをまとめるために必要とする、自分用のデータを準備するものでもあります。なおメタデータカタログについて注意すべき点は、分散化・細分化したデータをまとめ上げるには、あらゆる分析ツールに対応する必要があるということです。
○6.サービスとしてのデータリテラシーの台頭

ユーザーにデータ分析ツールを渡せば、はい終わり、あとはユーザーがうまくやるはず、というわけには物事は運びません。多くのユーザーが使える、データ統合・分析用のしっかりしたシステムを作っても、ユーザーが使ってくれなければ宝の持ち腐れです。データを使いこなせるユーザーの比率を、その平均である35%より増加させるために必要な手段が「DLaaS」なのです。

2020年、データを高度に活用できる人材を増やすためには、能力の高いベンダーと協力するケースが多くなります。ソフトウェア、教育、サポートを一体としたサービスを提供できるからです。データを使いこなせるユーザーの比率を100%へもっていければ、あらゆるビジネスの意思決定にデータを活用できることになります。まず手を付けるべきは、今までの試みがなぜ失敗したかを冷静に分析することです。それから解決策をさぐるべきです。
○7. 多面的な双方向性は検索を超える

チャットボットを搭載した検索と音声は、特にモバイルアプリケーションの領域でデータを照会する強力なインターフェイスとして登場しました。しかし、それだけではまだ十分ではありません。多言語インターフェイスの基盤を構築するには、自然言語処理と実証済みで信頼性の高いデータクエリの手法(ビジュアル分析やダッシュボードを使った絞り込みなど)を組み合わせる必要があります。

2020 年には、より没入型の多面的な相互作用が進化し、頭で考えただけでデバイスを操作または照会できるようになっていくことでしょう。AR/VR、ウェアラブルセンサー、機械学習ソフトウェアなどの発明により、機械が人間のさまざまな表情を理解できるようになります。さらに、神経科学によって脳からコンピューターに電気信号を送り、コンピューターへの入力を可能にしました。。このような発明の数々は、人間がデータを体験し、データと対話する方法を進化させます。これは、すべての人々、 特に障害者に非常に有益であることは事実ですが、不適切なことに利用される可能性もあることを忘れては
いけません。私たちには、この新しいテクノロジーを適切に使用する責任があるのです。
○8.倫理的かつ責任あるコンピューティングが不可欠

多くのテクノロジーの進歩は、私たちの世界を何らかの形で便利にしてくれます。ところが、いくつかの「進歩」は深刻な懸念を引き起こす原因にもなります。たとえば、アルゴリズムは私たちのプライバシーにどのように影響するでしょうか?私たちの自由意志はどうなってしまうのでしょうか?個人データの不正利用からプロファイルの自動作成に至るまで、誘惑に抵抗するのは困難です。

また、米国の CLOUD 法や欧州の GDPR などのように、世界にはさまざまな規制が存在し、企業のクラウド戦略に影響を与えています。具 体的なルールが国ごとに異なるため、グローバルにビジネスを展開する企業では、特にその影響を受けることになります。今日においては、ハイブリッドマルチクラウドのアプローチはもはや必須になっていると考えられます。

企業の社会的責任という概念を広く捉える時が来ました。コンプライアンスの枠組みにとどまらず、顧客から信頼を集め、維持することが必要なのです。顧客に「プライバシーの一線を越えた」という印象を与えてしまうと、ブランド価値に取り返しがつかないほどの傷がつくことになります。ですから、「できるかどうか」にとどまらず、「やるべきかどうか」を常に考えなければなりません。リスクを最小限に抑えつつ成果の最大化を図る上で
は、組織にデジタル倫理委員会のような組織を設けることも 1つの方法です。長期的には、株主ではなくステークホルダー全体に目を向けることが必要になってくるでしょう。
○9.データのための「Shazam」

シャザム(Shazam)をご存知でしょうか。今流れている旋律から元の楽曲を特定する、音楽アプリです。あるいは、Google Lensは画像やそこに写っている文字から、画像の中の動植物名を特定するためにディープラーニングを使っています。アマゾンも、画像に写っている衣服を特定する技術を開発中です。そうすると、データを「シャザむ」こともできるのではないでしょうか。

2020年には、情報のバリューチェーン全体にAIが組み込まれていきます。そしてデータを特定し、異常を発見し、さらに分析対象に含めるべき別のデータを知らせる、といったアルゴリズムが分析システムに装備されます。データのソース、保存されていた場所、そのデータのユーザー、変更頻度、データとしての品質のよしあしを特定できるようになるでしょう。データサイズがどれほど大きくても小さくても、洞察がデータからより多く得られるようになり、データ統合と分析の一体化が進みます。
○10. 独立対スタック

昨年、データとアナリティクスの分野では、クラウドでデータサービスやアプリケーションを提供している大企業が比較的小規模な分析ベンダーを買収するなど、大幅な統廃合が起こりました。その目的は、顧客とそのデータを詳細に管理し、徐々に収益化を進めていくことにあると思われます。どこかで聞いたような話ではありませんか?約 10 年前、オンプレミスのデータやアプリケーションを提供する企業の間で同様の動きがありました。当時の R&Dでは、イノベーションを犠牲にしてでもテクノロジーの統合を進めることが重視されていました。これがきっかけとなって顧客のデータと分析を独立した状態に保持できるベンダーがいくつも出現したのは、結果的にプラスだったと言えるでしょう。

2019 年には、1つのエコシステムに縛られた顧客の間でクラウドのコストが膨れ上がる現象が見られました。すなわち、クラウドの長所に陰りが見え始めたのです。しかし、これより大きな問題は、顧客が移動したデータを別の場所に移動できるか、そのコストはどれほどになるか、という点です。

今日では、ハイブリッドプラットフォームおよびマルチクラウドのプラットフォームが必要不可欠です。データとアナリティクスは現代の企業にとって生命線であり、1つのスタックに属するには重要性が大きすぎます。全てではありませんが、実際に多くの組織で複数のアプリケーションやデータソースをさまざまな場所に分散させています。これからどのようなことが起こるかは、過去の状況を見ていれば明らかです。今後、分断したサイロ同士を繋ぎ、ビジネスの成長を促進するデータモザイクの構築をサポートできる独立系アナリティクスパートナーへのニーズが高まっていくことでしょう。

[ 著者紹介 ]
ダン・サマー(Dan Sommer)
Qlikのマーケットインテリジェンスプログラムのグローバルリードを務めています。IT 業界で 20年以上の経験を有し、Qlik入社以前は、IT リサーチ & アドバイザリー会社の Gartner社にて、BIおよびアナリティクス市場のリサーチディレクター、アジェンダマネージャー、グローバルリードを歴任しました。市場分析、トレンド分析、競合分析、市場参入戦略を専門としています。