2022年6月1日水曜日

Snowflakeは何がすごくて何ができるのか ITアーキテクトが見た技術的特性と可能性。

https://www.itmedia.co.jp/enterprise/articles/2109/01/news010.html#_ga=2.168644834.25786175.1654077443-266040718.1651278889

Snowflakeで何ができる? 基礎情報解説(1)(1/2 ページ)

近年データ活用基盤を語る際、話題に上ることが増えたソリューションの1つにSnowflakeが挙げられます。単なるクラウドDWHではない先進的な設計思想やデータ処理の特徴に加え、既存の企業情報システムの課題解消にどう生かせるかを見ていきます。

2021年09月10日 08時00分 公開
[村山弘城株式会社NTTデータ]

この記事は会員限定です。会員登録すると全てご覧いただけます。

 本連載は、昨今高い注目を集める「Snowflake」について紹介します。従来のビジネスやITが抱えていた課題、これからわれわれが直面する課題に対して、Snowflakeのテクノロジーがどのように貢献できるかを、数回にわたってアーキテクトの視点から見ていきます。

 第1回の今回は下記トピックを中心にSnowflakeの基礎情報と直近の動向を整理ます。

  • そもそもSnowflakeとは何か
  • Snowflakeが注目を集める理由、3つの象徴的な特徴
  • Snowflakeが目指す世界「Data Cloud」とは

筆者紹介:村山弘城(NTTデータ Data&Intelligence事業部 データマネジメント統括部ソリューション担当部長)

2000年にNTTデータに入社。入社以来、EAI/SOA/ESB/MSAといったデータ連携関連の製品調査・技術調査と関連プロジェクトに従事。 2014年頃よりビッグデータ基盤のアーキテクトとして金融・ユーティリティ・製造業などのプロジェクトに参画、その後2018年よりPMやアーキテクトとして全社規模のクラウドサービス型データ分析基盤プロジェクトに従事。現在は、NTTデータにおけるSnowflake事業の主幹責任者としてSnowflake社とのパートナーシップ・普及展開・お客様への導入支援に取り組んでいる。

そもそもSnowflakeとは何か 単なるDWHサービスではない機能の広がり

Snowflakeは、2012年にシリコンバレーで創業したSnowflake社(以降、企業名はSnowflake社と表記)が提供するクラウドサービスです。2015年に一般提供開始、2019年9月 日本法人設立、2020年2月にAWS Tokyoでもサービスが開始されました。筆者が所属するNTTデータでは、日本法人設立以前から製品調査をしておりましたが、AWS Tokyoでサービスが開始された2020年2月にパートナー契約を締結し取り扱いを開始しました。

Snowflake社設立からの歴史(出典:Snowflake社)

 もともとは「クラウド型のDWH(データウェアハウス)サービス」でしたが、最近は単にDWHの機能だけではなく、データシェアリング、データマーケットプレイイス、マルチクラウドレプリケーションといった機能拡充を経て「Cloud Data Platform」、さらには「Data Cloud」を標ぼうするデータ分析プラットフォームサービスへと進化を遂げました。

 とはいえ「Data Cloud」といってもなじみがない概念のため、まずは基本的な機能やベーシックな特徴として「Cloud Native DWH」と考えていただけると分かりやすいでしょう。

 多様な機能を持つSnowflakeですが、まず全容を理解するために把握しておくべき基本的な特徴は次の3つです。

  • 標準SQLベースのデータウェアハウス
  • クラウドテクノロジーをベースに構築
  • サービス(Database as a Service)として提供

 以前からさまざまなDWH製品を検討、導入されている読者の皆さまには、これだけでは何が従来の製品と大きく違うのかは分かりにくいかもしれません。

Snowflakeが注目を集める理由、3つの象徴的な特徴

 昨今、さまざまな企業がデータ活用、分析のさまざまな施策においてSnowflakeに注目する背景には、この製品が持つ次の3つの特徴があります。

  • ストレージとコンピュートを分離した「マルチクラスタ・共有データアーキテクチャ」
  • データの一元管理が可能な高い拡張性と柔軟性
  • ニアゼロメンテナンス

 これらの詳細は次回以降で紹介していきますが、Snowflakeの登場は、さまざまなクラウドサービスや企業のDX推進施策に影響を与えるものだとわれわれは考えています。

SnowflakeにおけるData Cloudの位置付けとデータプラットフォームの構成イメージ(出典:Snowflake社)

Snowflakeが目指す世界「Data Cloud」とは

 「Snowflakeの他サービスとの違いは?」とよく聞かれますが、実は、最大の差異は「Data Cloud」の考え方や目指している世界だと筆者は考えています。

 Data Cloudは、インターネットを通じて顧客やビジネスパートナーとの間でライブデータを共有できる他、データコンシューマー、データプロバイダー、サービスプロバイダーとして事業を展開する組織や企業とデータを介して簡単に接続できる世界のことを指します。

 データ分析に基づく意思決定を重視する「データドリブン経営」を目指す企業では、分析の対象を自社内のデータだけに限定しては得られるインサイトには限界があることから、さまざまな外部パートナーとの連携が必要と考えられているのではないかと思います。

 外部とデータ連携を進める際、都度外部パートナーとのファイル連携やAPI連携を前提にすると、データの鮮度や整合性、開発/運用コストなどが課題になります。この問題についてSnowflakeのData Cloudは、あたかも「Google Drive」のようなクラウドストレージを介して個人間でファイルを共有するように、企業間で非常に簡単に鮮度の高いデータを安全に共有できるようにします。Data Cloudには、企業間の1対1のデータ交換だけでなく、Snowflakeユーザー向けのデータマーケットプレース「Snowflake Data Marketplace」(以下、Data Marketplace)で広くデータを公開することも可能です。

 日本独自のデータは提供されていなかったのですが、2021年6月8日にウェザーニューズが気象データをData Marketplaceで提供すると発表しました。続く同8月2日にはtruestarがデータ分析者向けに加工されたオープンデータを無償で公開しており、続々とData Marketplaceへの参入が始まっています。Snowflakeを利用することで、これらのデータを利用したデータ分析を簡単に実行できるようになります。

 このようなデータ交換プラットフォームやデータシェアリング機能をサポートするサービスは他にもあり、マーケットプレースも生まれつつあります。それでも筆者らがSnowflakeに注目するのは、Snowflakeのアーキテクチャ特性が非常にシンプルかつ秀逸であり、そのアーキテクチャ特性によってコスト効率がよく、ユーザーの利便性が高くなると考えているからです。こうした利点が評価されれば、今後もSnowflakeのData Marketplaceには多くのデータが提供されるのではないかと期待しています。

米国株式市場の上場で大注目を集めた理由と技術面での期待

Snoflake社の成長スピードと市場の期待(出典:Snowflake社)

 米国を中心に急成長を続けるSnowflake社は2020年9月16日に米国ニューヨーク証券取引所に新規株式公開(IPO)を果たしています。


 上場時は国内でも経済紙が「2020年最大の米IPO スノーフレイク、時価総額7兆円」と報道するなど、大変な注目を集めました。


 発行済み株式ベースで時価総額7兆円を超える企業は日本では10数社しかいないことを考えると、いかにSnowflakeが市場から魅力がある企業と見えているかが分かります。


 データ活用基盤をうたう技術を武器とした企業自体は目新しいものではありません。それでもSnowflakeがこれほど注目を集め、成長しているのは、このサービスが現代的なIT基盤へのニーズに沿ったソリューションだからと言えるでしょう。


 IT投資で先進的な取り組みを進める企業が、現状の課題を解決する手段として積極的なIT投資の中でSnowflakeを選択するケースが増えているためだと筆者はみています。


2021年09月10日 08時00分 公開
[村山弘城株式会社NTTデータ]
前のページへ 1|2       

Snowflake前後でデータ分析基盤のアーキテクチャはどう変わるか

 筆者らNTTデータは2019年ごろからSnowflakeに注目してきました。その理由は「未来を感じさせる」サービスであり、既存のアーキテクチャを大きく変える可能性があると感じたからです。実際には従来も同じような理想を掲げたソリューションもありましたが、実際にはなかなかわれわれの期待に応えるようなサービスが見つかっていませんでした。

 Snowflakeは、クラウドサービスを徹底的に利用するということを基本コンセプトとしていて、クラウドサービスの本来持つべき高い柔軟性や拡張性、俊敏性を備えつつ、安定性や高可用性、堅ろう性を持ち、大量のデータを扱うときのシステム運用負荷の徹底的な削減というテーマにも真摯に立ち向かっているソリューションでした。そして、コストに関しても従量課金ということで、非常に小さく始めやすく、簡単に拡張できる点は従来にはあまりないメリットでした。

 また、従来のDWHは、大量データの集計処理を得意とし、非常に高速な処理が期待できるものの、少数のユーザーによる意思決定のための分析を想定したものでした。「データの民主化」に象徴されるような多くのユーザーからの同時多数アクセスを想定していなかったり、データ容量に対するコストが比較的高く、大量データを保持するとコスト高が問題になったりしがちでした。

 Snowflakeは、アーキテクチャ設計段階からコンピュートとストレージの分離を目指して開発されました。結果として、データ処理量の増加(アクセスの多重増加と処理対象データの大量化)や保持データ量の増加に対して、非常に高い拡張性を維持することに成功しています。

分散トランザクションの常識を覆す特性で拡張性とデータの一貫性を維持

 筆者らが懸念していたのはクラウドネイティブな環境におけるトランザクション処理とデータの整合性の問題です。従来、CAPの定理では「一貫性」(Consistency)と「可用性」(Availability)、「分断耐性」(Partition-tolerance)の全てを同時に満たすことは不可能とされてきました。ところが、Snowflakeは、クラウドの技術を利用しながらサービス全体としてCAPの全てを満たすという革新的な実装を実現してこの問題を回避しています。

 この技術的特性を理解したタイミングで、筆者らはこのソリューションが破壊的かつ従来にはなかったアーキテクチャのソリューションである可能性を感じました。

 筆者らの実体験としてデータ民主化やAIの民主化といったデータドリブン経営を進めるためのデータ分析環境を構築する際、従来は下記左図のようなリファレンスアーキテクチャでシステムを構築していました。この際、アジリティを優先するためにデータがサイロ化してしまうリスクには目をつぶっていたのですが、日に日にその問題が自らの身に重くのしかかるようになっていました。

 新しい分析テーマ発生時のコストや各種調整、バージョンアップ対応、障害発生時の解析や復旧作業などデータ基盤の運用に関する課題によって新しいテーマへの対応が難しい状況が発生し始めていたのです。こうした場面にSnowflakeを導入することで、データマネジメントのシンプル化が可能になり、データの管理コストの大幅な削減が見込めると感じました。データの管理コストが下がること、拡張性が高いことから、新しいサービスや商品の開発を進めやすくなり、早期市場投入による商機拡大が期待できる点、さまざまなデータドリブンのアクションについても早期実施が期待できる点も評価したポイントです。

Snowflake前後でデータ分析基盤のアーキテクチャはどう変わるか(出典:NTTデータ)

過去の「データ活用基盤」の残念な現実とクラウドネイティブなデータ基盤の可能性

 企業ごとにデータ活用基盤の整備状況は千差万別の状況だとは思いますが、完璧なデータ活用基盤を構築できている企業は少ないのではないでしょうか。次に挙げるような課題を抱える企業は多いと筆者は考えます。

  • データ量の増加に耐えらない
  • 新しい活用・分析ニーズに即座に対応できない
  • そもそもデータが入ってない(活用できるデータがあまりない)
  • データの品質が悪い
  • 適切なデータマネジメントができていない、など

 これらの課題はソリューションを導入すれば解決できるわけではないものがほとんどですが、実はクラウドの技術特性をうまく活用すれば解決できるものもあります。

 NIST(米国立標準技術研究所)の定義(注1)によるとクラウドの特性は次の5項目が挙げられます。

NISTが定義するクラウドの特性

  • オンデマンド、セルフサービス(On-demand self-service)
  • 幅広いネットワークアクセス(Broad network access)
  • リソースの共用(Resource pooling)
  • スピーディな拡張性(Rapid elasticity)
  • サービスが計測可能であること(Measured Service)

 これらの特性をフル活用してデータ活用基盤を構築したら「あるべき姿」はどんな特性を持つでしょうか。データ活用のスピードや俊敏性を損なわないためには、下記の状態を目指すことが非常に重要だと筆者は考えます。

「データ活用基盤のあるべき姿」

  1. 分析したいときだけリソースを利用、非常に大きなリソースが必要な時もその時だけリソース利用可能(コストも利用したときだけ)
  2. インターネット上で公開されている2ndParty / 3rdPartyにあるデータにすぐにアクセス可能
  3. データ(Storage)やコンピュートリソース(Server)を、効率的かつ適切な範囲で共用可能
  4. サーバ停止など業務影響・システム運用負荷なくスケールアップやスケールアウトが一瞬で可能
  5. 利用者の利用量が計測できて把握可能で、利用者毎の利用量の見える化が可能

 組織の中にデータドリブンな文化が醸成されていくと、「さらにこんなデータが欲しい」「あんなデータが欲しい」といった要望が次から次に雪崩のように発生するようになります。データを準備する側が、可能な限りできるだけ早くその要望に対応できる状況を作ることが、データドリブン経営やDX推進、AI技術の活用を進める際の成功の条件となると筆者は考えています。

 あるべき姿に対して、従来のDBやDWHでは対応し切れない部分が多かったのが現実でした。意味のあるデータ基盤を構築しようとしてつまづいた経験がある企業も少なくはないでしょう。だからといって「理想は実現しないもの」とあきらめずに、固定概念にとらわれず「新しいテクノロジーはおそらく同じ課題を抱えていた人がより便利な世界を目指してソリューションを提供している」との期待を持って、Snowflakeのような新しい技術に触れ、新しい仕組みの導入を検討いただきたいと思います。

本連載で分かること

 筆者が所属するNTTデータでは、過去十数年に渡ってテクノロジードリブンでのデジタル変革を支援してきたノウハウを「デジタルサクセスプログラム」として整備しており、Snowflakeをそのデジタルサクセスプログラムのキーテクノロジーと位置付けています。今後さまざまなノウハウを整備するのと同時に、従来のシステムアーキテクチャやノウハウを書き換える「破壊的なソリューション」としても活用する考えです。

 今回の連載では、Snowflakeがどのようなビジネス/IT施策の課題に、どのようなテクノロジーで対応できるか、具体的にどのようなメリットがあるのか、「Data Cloud」のコンセプトによってSnowflakeがどのような世界を目指しているか、適用事例にどういったものがあるかなどについて、順を追ってさらに深く紹介していきます。

 読者の皆さんのデータ活用基盤の課題解決に結び付くヒントとして、あるいはクラウドネイティブな時代に求められるデータ基盤のあるべき姿を検討する際の資料として活用いただければ幸いです。

前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.

- PR -

0 コメント:

コメントを投稿