Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
IoTを⾒据えたデータ活⽤はDataLakeから始める 〜Pivotal+Isilonで実現するDataLakeの世界〜 2015年10月15日 東京エレクトロンデバイス(株) CNカンパニー CN第二営業本部 コーポレートアカウント営業部 住友 義典 当社のあゆみ 約半世紀にわたる歴史と経験を有する専門商社 1965年 東京エレクトロンで電子部品ビジネスを開始 1998年 東京エレクトロンの電⼦部品事業(現:半導体及び電⼦デバイス事業)が分離・独⽴ 2003年 東京証券取引所 市場第2部上場 2006年 東京エレクトロン からコンピュータネットワーク事業(現:コンピュータシステム関連事業)を承継 2010年 東京証券取引所 市場第1部上場 東京エレクトロングループから分離・独⽴ 半導体製造装置メーカー 東京エレクトロン 半導体及び電子デバイス (EC)事業 専門商社 東京エレクトロン デバイス 1998年独⽴ コンピュータシステム関連 (CN)事業 2006年事業承継 2 EC事業 CN 事業 EMC社と東京エレクトロンデバイス(株) EMC社DataDomain、Isilon、Greenplum製品をEMC社買収前より国内販 売・サポート提供を実施(ノウハウ蓄積歴国内最⻑) 日本全国のサポート拠点 EMC VNX 4製品を軸にした複合ソリューションの提供 取扱開始: 2012年4月 導入実績: 10社以上 EMC GREENPLUM 取扱開始: 2008年10月 導入実績: 20社 2010年9月EMC社製品に EMC DATA DOMAIN 取扱開始: 2004年10月 導入実績: 150社以上 2010年1月EMC社製品に EMC ISILON 取扱開始: 2004年10月 導入実績: 80社以上 2005 2010年12月EMC社製品に 2008 2009 2010 3 2012 2013 2014 データ活用の変化 1990年代 2000年前半 帳票・レポートを目的としたデータ集計 2000年後半 傾向把握を目的とした集計・分析 2010年〜 予測のためのデータ分析・マイニング データ活用 基幹システム上のデータの活用 (構造化データ) 基幹系・情報系システム上のデータの活用 (構造化データ) 対象データ 環境 プラットフォーム CPU H/W: MEM HDD NIC データ処理 基幹系・情報系システム上+ログ・SNS・セン サーなどのデータの活用 (構造化+非構造化データ) クラウド オンプレミス Single Socket/Core Multi Socket/Core(2Core・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・10Core) xMB xxMB xxxMB xGB xxGB xxxGB xTB xxGB xxxGB x TB Kbps Mbps Gbps xxGbps RDBMS Scale out DB, Hadoop, KVS/NoSQL 4 変化要因 データ活用ニーズ サービスの多様化 ・データ分析を基にしたビジネスチャンスの発掘 (Webサービスを中心とした成功者の登場) ・デジタル化によるデータ種類が豊富に ・第三者による既存ビジネスを利⽤したビジネスの登場 相互 影響 H/W: データ処理ソフト: 実装環境: 分析手法: テクノロジー革新 性能・容量の向上、規模を伴わないデータ処理基盤の構築が容易に RDMBSを中⼼としたデータ処理から新しいテクノロジーの登場により、データ処理の柔軟性が向上 インターネット進化と仮想化技術により、利⽤環境の選択が可能に 学術的な研究が中心となっていたものをベースに、ビジネス活用する取組みが強化 5 テクノロジー革新 H/W: データ処理ソフト: 実装環境: 分析手法: テクノロジー革新 性能・容量の向上、規模を伴わないデータ処理基盤の構築が容易に RDMBSを中⼼としたデータ処理から新しいテクノロジーの登場により、データ処理の柔軟性が向上 インターネット進化と仮想化技術により、利⽤環境の選択が可能に 学術的な研究が中心となっていたものをベースに、ビジネス活用する取組みが強化 Hadoop パフォーマンス CPU: • マルチコア化 • クロック周波数アップ • 帯域幅の増加 メモリ: • ⼤容量化 • 帯域幅の増加 スケール アウト ストレージ ・⼤容量化 ・Flashの登場 1990 1995 2000 2005 並列分散 処理 RDB 2010 クラウド 仮想化 コモディティH/W 6 KVS データ活用基盤への考え方の変化 DWHの定義: 履歴データを蓄積し過去データから傾向等を⾒える化するための基盤 <DWH・データ分析Keyword時代> ・基幹システムに存在するデータだけでは、大規模データ化(TB 超え)するケースは少ない ・DWHシステムへの投資判断が難しく大規模環境の用意を するケースが少ない といった点から、DWH本来の定義を持つDWHを利⽤している企 業は少ない 基幹系 情報系 基幹システム上で稼動するアプリケー ションが利⽤しやすいDB 複数のデータを一元集約し、時間・人・もの など軸を変えて分析を⾏う (必ずしも時系列・単⼀TBLではない) <ビッグデータ・非構造化・IoTといったKeywordの登場> ・テクノロジー革新とデータ活用によるビジネス成功ケースの登 場より、履歴データの蓄積への注⽬ ・⾮構造化データの利⽤への注⽬ により、データ活用基盤の大規模化がスタート クラウドかオンプレミスか ・共通項はSmall Start: 履歴の蓄積や活⽤対象データ選択は、製品選定タイミングだけでは判断が付かないため ・環境選定時の注意ポイント ‐ 環境: クラウド or オンプレミス >分析基盤サービス料のみならず、通信費⽤+蓄積(i/o)との課⾦ >想定されるシステム規模(データ容量) ‐ オンプレミス: アプライアンス or IAサーバー+ソフトウェア >想定されるシステム規模(データ容量) >システムの可搬性 ‐ クラウド: SaaS or IaaS+ソフトウェア >分析基盤すべてをクラウド化 >インフラのみをクラウド化 7 <弊社⾒解> クラウド・オンプレミスでも、 ・データ量増加、データタイプ増 ・処理要件の多様化 ・性能要件 ・HWテクノロジー革新 といったシステムとしての柔軟性を求められる事が 多いため、柔軟性を意識した製品選定が必要 テクノロジーに対する要求 ビッグデータの構成要素である非構造化 データへの注目が高まる中で、様々なアプ ローチのオープンソースベーステクノロ ジーが登場 オープンソーステクノロジーを活かしながら枯 れた技術であるSQLインターフェースを持つ、 データの⼀元管理が可能な基盤ソリューション の登場 SQL MapReduce,Hive,Pig etc SQL, (MapReduce, Hive, Pig etc) DWH Hadoop等 Hadoop等 構造化 データ 非構造化 データ ETL, CEP(SQL) Flume, Fluentd, Sqoop, Storm, S4 etc 構造化 データ 非構造化 データ SQL Flume, Fluentd, Sqoop, Storm, S4 etc データ活⽤のニーズが⾼まるに伴い、データ量とユーザー数が増加 最新テクノロジーでの活用のみならず、多くのユーザーが活用できる基盤が求められる 8 「データレイク」という考え方とKeyman 9 DataLake x DWH DataLake= より⾃由に、柔軟に、迅速にビジネスで利⽤可能なデータ分析基盤 (DWHはDataLakeの一部) 10 Hadoopとは? 2つの分散アーキテクチャーを持つコンポーネントで構成させる HDFS (Hadoop Distributed File System) 分散ファイルシステム MapReduce ⼤規模分散処理フレームワーク データをためる データを加工する データをブロックに分割して複数のサーバに分 散配置/3つのレプリカを作成 Map/Reduceというシンプルな処理の組み合 わせで、HDFS上にあるデータの分散処理を⾏ う汎用的なフレームワーク 11 Hadoopはみんなで使えるか? Hadoopを全社データ活用基盤とする場合の壁 ‐ データ取り込み ・テクノロジー: 様々な技術が存在 (ただし、技術スキルが必要) ・取り込み: 取り込み対象データの選定、取り込みと格納方法の検討 ‐ データ活用 ・テクノロジー: HDFSへアクセス可能なインターフェースの増加 (ただし、技術スキルが必要) ・汎用アプリケーション: SQLを利⽤する製品が多い データソース Hadoop≠DataLake DataLakeの要素である、非構造化データを含めた データ蓄積・処理基盤の構築は可能だか、 ・インターフェースの汎用性 ・あらゆるデータの蓄積 という観点で利便性にかける要素が出てくる データ蓄積・処理基盤 アプリケーション 非構造化データ メール Webコンテンツ M2M アクセスログ SNS 構造化データ Analytics Apps 音声 画像・映像 Mobile Apps Flume, Fluentd, Sqoop, Storm, S4 etc MapReduce, Hive, Pig Drill Map Reduce 生産情報 売上情報 顧客情報 BI/BA HDFS 12 File Access PivotalとIsilonのDataLake Data Lake Data Lake データ処理基盤の基盤要素となHDFSにデータを蓄積 あらゆるデータ・要件に応じて処理エンジンを使い分ける インターフェースを多く持ち。データ活用対象となるデータを一元管 理を実現するOneFSにデータ蓄積 集約したデータをHDFS利⽤可能とし分析対象データにすること が可能 データソース データ蓄積・処理基盤 アプリケーション 非構造化データ メール Webコンテンツ M2M アクセスログ SNS 構造化データ 生産情報 Analytics Apps Mobile Apps 音声 画像・映像 Flume, Fluentd, Sqoop, Storm, S4 etc MapReduce, Hive, Pig Drill BI/BA Map Reduce 売上情報 顧客情報 HDFS 13 File Access Pivotal社(2013年4月1⽇設⽴) ~次世代エンタープライズPaaSの提供~ CEO ポール・マリッツ 従業員数 1,600人 売り上げ規模(計画) 2013年3億ドル 2017年10億ドル 14 出資⽐率 Pivotal HD+HAWQ Pivotal HD – Apache Hadoop ベース – 処理全体のデータスループット効率化:YARN – 運⽤・管理性: スナップショット/HDFS Federation/NFS v3によるデータアクセス – Advanced Database Services(HAWQ) – 性能:HDFSに対する標準SQLによる⾼速クエリ処理 – 連携:Hive, Hbase, Avro等 Hadoop データとの連携 – 仮想化・エンタープライズストレージ対応 – Hadoop構成の VMWare 上での最適化や Isilonとの連携 HAWQ アドバンスド データベースサービス Pivotal HD Enterprise リソース管理 & ワークフロー ANSI SQL + アナリティクス Xtension フレームワーク HBase カタログ サービス クエリ オプティマイザ ダイナミック・パイプライニング Pig, Hive, Mahout Map Reduce Yarn Zookeeper Oozie Center コンフィグ デプロイ HDFS HVE Command モニター Sqoop Flume Apache Pivotal HD 追加機能 15 管理 HAWQ≒GreenplumDB HAWQ: Pivotal社が10年にわたり開発をしてきたGreenplumDBをHadoop⽤に改良 GreenplumDBの⼤半の機能が利⽤可能 標準 SQL 対応 堅牢なクエリオプティマイザ ローストア・カラムストア両方への対応 圧縮 分散格納 マルチレベルパーティショニング パラレルーロード・アンロード 高速データ再分散 16 SELECT INSERT JOIN 統計解析関数(MADlib) ビュー 外部表 リソースマネジメント セキュリティ 認証 管理・監視 ODBC/JDBC対応 SQLonHadoop/PivotalHD+HAWQの必要性 SQLonHadoop/PivotalHD+HAWQにより、 アプリケーションやユーザーのスキルセットによりデータ活用に制限が発生しない、 データ分析基盤の構築が可能 BI Report Mining SQL SQL SQL リソース管理 & ワークフ ロー Map Reduce Hive/ Drill Map Hive/Drill Reduce Hive BI Report Mining SQL SQL SQL リソース管理 & ワークフ ロー Drill HBase Hive/ Drill Map Hive/Drill Reduce Hive HAWQ Drill HBase Map Reduce Map Reduce Yarn Yarn HDFS Zookeep er Oozie Map Reduce Sqoop HDFS Zookeep er Oozie Flume Apache Hadoop Sqoop Pivotal HD+HAWQ 17 Flume EMC Isilon 高い拡張性と可用性を持つスケールアウトNAS 全ノードアクティブで稼働するコントローラーと独自FSのOneFSにより複数ノードを ワンボリュームで管理により、性能・容量双⽅のスケールアウトが可能 コントローラー コントローラー コントローラー コントローラー ・・・ ・・・ OneFS コントローラー コントローラー コントローラー コントローラー 最大20PBまで拡張可能 最大N+4の保護レベルを実現 1つのファイルを分割配備する機構により、高い性能と保護レベルを提供 最大20PBをもN+4で保護 Down 100% 稼働中 100% 稼働中 Down 100% 稼働中 18 Down Down 100% 稼働中 100% 稼働中 Isilon スケールアウトNAS機能 SmartConnect 負荷分散&フェイルオーバ SnapshotIQ フレキシブルなスナップショット ポリシーベースの負荷分散 NFSフェイルオーバ SmartQuotas クオータ管理 単一ボリューム内の ファイル単位で プールに配置 サブディレクトリ単位で スナップショット SyncIQ 高速リプリケーション ユーザ、グループ、サブ ディレクトリ単位でクォータ SmartPools 単一ボリューム内でプール化 InsightIQ 性能監視とファイルシステム分析 N:M ノードで 非同期のファイル複製 SmartDedupe データの重複排除 SmartLock WORM(Write Once – Read Many)機能 WORMデータ保護により、 過失やデータ変更や削除を防⽌ データの重複排除による 容量とコストの効果 19 パフォーマンスの監視と ファイルシステム分析 Isilon DataLake Data Lake : データ活⽤対象となるデータを⼀元管理を実現するOneFSにデータを蓄積 豊富なインターフェースを持つことで、多様なデータアクセスに対応 FILE 20 通常のHadoopアーキテクチャー 多くの処理プロセスと実データが分散配置 メタデータ(NameNode)は冗⻑化のみ R(RHIPE) Job Tracker Data Node + Compute Node Pig Mahout Hive Task Tracker HBase DataNode Data Node + Compute Node NameNode 2 nd NameNode Data Node + Compute Node Name Node Data Node + Compute Node Data Node + Compute Node Data Node + Compute Node 21 Isilon+Hadoopアーキテクチャー 処理プロセス(Compute)とデータ領域(Name+DataNode)を別配置 Hadoop関連すべてのコンポーネントの冗⻑化 R(RHIPE) Pig Hive Job Tracker HBase NameNode Task Tracker Compute Node Compute Node DataNode Name Node Name Node Name Node Name Node Compute Node Compute Node Compute Node 22 Data Node Compute Node Mahout Pivotal HD&HAWQ+Isilon ⼤規模且つ性能・容量に最適化された利便性の⾼いHadoop環境を実現 R(RHIPE) Pig Mahout Hive Job Tracker HAWQ Task Tracker 分散処理データベース DataNode 分散ファイルシステム HAWQ HAWQ Name Node Name Node Name Node Name Node HAWQ HAWQ HAWQ 23 EMC ISILON Data Node HAWQ NameNode Pivotal+Isilonはみんなで使える! Pivotal+Isilon=DataLakeで全社データ活用基盤とする場合の壁 ‐ データ取り込み ・テクノロジー: 従来から利⽤されているファイルアクセス⽅法の利⽤が可能 ・取り込み対象データ: 単純なファイル格納なため、とりあえずの格納が可能 ‐ データ活用 ・テクノロジー: HDFSアクセス用言語のみならず、SQLインターフェースの利⽤が可能 ・汎用アプリケーション: そのまま利⽤可能 データソース Pivotal+Isilon=DataLake DataLakeの要素である、非構造化データを含めた データ蓄積・処理基盤であり、 ・インターフェースの汎用性 ・あらゆるデータの蓄積 を兼ね備えた環境を実現 データ蓄積・処理基盤 アプリケーション 非構造化データ メール Webコンテンツ M2M アクセスログ SNS 構造化データ 生産情報 Analytics Apps 音声 画像・映像 CIFS NFS FTP HTTP REST Object HDFS BI/BA Map Reduce 売上情報 顧客情報 SQL MapReduce Hive Pig Drill Mobile Apps HDFS 24 File Access Hadoop活用を始める2つアプローチ SQL on Hadoopスタートのアプローチ Step1 既存DB/DWHの一部もしくは新規分析要件用にSQL on Hadoopを構築 ビジネス・アプリケーション BI Report Mining Map Reduce Hive/ Drill File Access Step2 非構造化データの取り込み、活用のTry&Error開始 In-Memory HBase・Drill etc DB/DWH EMC ISILON 売上情報 Step3 将来予測分析の開始 Step4 非構造化データの効率的なデータ処理フレームワーク の活用 Step5 データ容量増、性能向上の観点から効率的な拡張 とより多くの種類を用意に取り込みでき、ファイルアク セスも可能な環境を構築 顧客情報 メール Webコンテンツ アクセスログ 生産情報 M2M SNS 25 音声 Step6 発生したデータをリアルタイムにビジネス活用をできる 基盤の導入 Hadoop活用を始める2つアプローチ ファイルストレージスタートのアプローチ Step1 分析活用対象となり得るデータを格納できるファイルサー バーの導入 構造化データ・非構造化データの投入 ビジネス・アプリケーション BI Report Mining Map Reduce Hive/ Drill File Access Step2 SQL on Hadoopの導入、データ活用の開始 In-Memory HBase・Drill etc DB/DWH EMC ISILON Step3 将来予測分析の開始 Step4 非構造化データの効率的なデータ処理フレームワーク の活用 Step5 発生したデータをリアルタイムにビジネス活用をできる 基盤の導入 売上情報 顧客情報 メール Webコンテンツ アクセスログ 生産情報 M2M SNS 26 音声 何から始めるか? データ活⽤は、ビジネス貢献を実現するために⾏う 情報の共有・⾒えるかだけで不⼗分 ビジネスにつながるアプリケーションや業務への連携が必要 と、良く聞くけど、いったいどこから始めれば いいんだろう。。。 データ分析して、業務生かすといわれて も。。。 27 実はやっているデータ活用 ~課題が多く運用に乗せにくい~ セールスプロモーション マーケティング ⾒るデータ 例えば、 「新ソリューションの展開のため、プロモーションを実施し案件創出を⾏ないたい」 「A業界のB社に採用された製品を同業他社に展開したい」 「新しい製品のプロモーションに最適なイベントを開催したい」 etc 所在 入手データ形式 社内の顧客DB CRM 1つのExcelにデータを集約し、データの整 形を⾏い、 ・傾向把握 ・ターゲッティング を⾏う 取引実績 受発注システム 過去に実施したセミナー 出席者リスト 過去に出展したイベント 集客リスト 過去に実施したWeb マーケティングリスト ファイルサーバー ファイルサーバー 課題点 ・データ存在箇所が散在しているため、デー タ収集時点で負荷が高い ・システムによってはデータ⼊⼿不可 ・集約したExcelのアウトプットの共有は簡 単だが、関連データの共有が難しい ・データの最新化、追加が難しい 個人PC 業界企業情報 Web 28 ファイルシステムの利⽤ ファイルサーバー ⾒るデータ 複数システムのデータを集約するのに便利な機構は、ファイルサーバー ファイルサーバーにデータを集約する仕組みにすることで、 ・最新データへの更新 ・データの追加 ・データの共有 が容易に 所在 入手データ形式 社内の顧客DB これらのデータを集計・ 分析できれば、 運用のしやすい基盤に CRM 取引実績 受発注システム 過去に実施したセミナー 出席者リスト 過去に出展したイベント 集客リスト 過去に実施したWeb マーケティングリスト ファイルサーバー ファイルサーバー ファイルサーバー 個人PC 業界企業情報 Web 29 課題点 ・データ存在箇所が散在しているため、デー タ収集時点で負荷が高い ・システムによってはデータ⼊⼿不可 ・集約したExcelのアウトプットの共有は簡 単だが、関連データの共有が難しい ・データの最新化、追加が難しい Isilonを利⽤するとHadoopが使える Isilon ⾒るデータ ファイルサーバーとしての利⽤に加えて、HDFS(Hadoop)連携が可能 所在 入手データ形式 BI/レポーティング ツールからアクセスで きればさらに利便性 の高い基盤に 社内の顧客DB CRM 取引実績 受発注システム 過去に実施したセミナー 出席者リスト 過去に実施したWeb マーケティングリスト NFS/CIFS/FTP/ HTTP 過去に出展したイベント 集客リスト HDFS ファイルサーバー ファイルサーバー 個人PC 業界企業情報 同じファイルに複数のインターフェースから アクセス可能 Web 30 PivotalHD/HAWQの導入 PivotalHD/HAWQ+Isilon ⾒るデータ みんなで使えるDataLake基盤を実現 所在 入手データ形式 社内の顧客DB CRM 取引実績 受発注システム 過去に実施したセミナー 出席者リスト 過去に実施したWeb マーケティングリスト NFS/CIFS/FTP/ HTTP 過去に出展したイベント 集客リスト HDFS ファイルサーバー ファイルサーバー 個人PC 業界企業情報 慣れ親しんだ、汎用性の高い インターフェースを備えたDataLake Web 31 Pivotal+Isilon=DataLakeは データ活用への近道 データ活用基盤構築までのStep比較 DWH、Hadoop基盤の構築 要件整理 データ活用基盤の 要件を定義 ビジネスメリット、 採算性の検討 システム化検討 要件に⾒合うシ ステムの実現方 法検討 方式・運用検討 利⽤・運⽤間tね からシステム化 の方式を検討 製品調査・検討 要件に⾒合った製 品・サービスの調査 ベンダー・業者 調査・選定 構築・サポート可 能なベンダー・業 者の選定 導入 システム構築、 実運用の監視 運用観点での実現性のレビュー・変更等 DataLake(Pivotal+Isilon)の構築 要件整理 ファイルサーバー 導入としてスター ト可能 システム化検討 同時/将来 SQLonHadoop の実装によりデー タ活用環境に。 製品調査・検討 導入 ファイルサーバー: EMC Isilon SQL on Hadoop: PivotalHD+HAWQ EMC ISILON 32 PivotalHD・HAWQ+EMC Isilon取扱い 東京エレクトロンデバイス製品取扱い経歴 Pivotal製品 Pivotal GreenplumDB製品で培ったH/Wとセットでご提供しサポート提 供(パッケージ)ノウハウをベースに、PivotalHD製品でも提供。 概歴 ・GreenplumDB製品: 2008年10月~ ・GreenplumDBパッケージ: 2010年4月~ ・PivotaHD製品: 2014年4月~ ・PivotalHDパッケージ: 2014年4月~ Pivotal社連携 ・共同提案 ・サポート連携 Pivotal社のリモートサポートも含めた連携スキームあり ワンストップサポートスキーム+ノウハウ Pivotal社とのサポート連携スキーム EMC Isilon製品 EMC社買収前のIsilon Systems社製品時より、取扱い 日本全国にオンサイト対応拠点有 概歴 ・2004年10月より取扱い開始 ・2010年12月EMC社による買収後、EMC社パートナーとして販 売・サポート継続中 ・2014年4月~: Hadoop連携ソリューション強化 EMC社連携 ・共同提案 ・サポート連携 EMC社のリモートサポートを含めた連携スキームあり 10年におよぶ製品・サポートノウハウ EMC社とのサポート連携スキーム PivotalHD・HAWQ(ソフトウェア+HW)+Isilonのワンストップサポートをご提供致します 33 TED DataLake パッケージ SQL on Hadoop製品のPivotalHD・HAWQと豊富なインターフェースを持つスケールアウトNASのEMC Isilonを組み合わせた DataLake基盤を、最適なHWを選定し、容易に導⼊・運⽤が可能なパッケージ TED Pivotal HAWQパッケージ 性能・ユーザー数の面で拡張性も考慮した バランスの取れたH/Wを選定 ・・・ EMC Isilon 性能・容量の観点からモデルを選択可能 スタンダード X410 34 スモールスタート X210 パフォーマンス S210 35