Download IoTを⾒据えたデータ活⽤はDataLakeから始める〜Pivotal＋Isilonで実現するDataLakeの世界〜 2015年10月15日東京エレクトロンデバイス（株）

IoTを⾒据えたデータ活⽤はDataLakeから始める〜Pivotal＋Isilonで実現するDataLakeの世界〜 2015年10月15日東京エレクトロンデバイス（株） CNカンパニー CN第二営業本部コーポレートアカウント営業部住友義典当社のあゆみ約半世紀にわたる歴史と経験を有する専門商社 1965年東京エレクトロンで電子部品ビジネスを開始 1998年東京エレクトロンの電⼦部品事業（現：半導体及び電⼦デバイス事業）が分離・独⽴ 2003年東京証券取引所市場第2部上場 2006年東京エレクトロンからコンピュータネットワーク事業（現：コンピュータシステム関連事業）を承継 2010年東京証券取引所市場第1部上場東京エレクトロングループから分離・独⽴半導体製造装置メーカー東京エレクトロン半導体及び電子デバイス（EC）事業専門商社東京エレクトロンデバイス 1998年独⽴コンピュータシステム関連（CN）事業 2006年事業承継 2 EC事業 CN 事業 EMC社と東京エレクトロンデバイス（株）  EMC社DataDomain、Isilon、Greenplum製品をEMC社買収前より国内販売・サポート提供を実施（ノウハウ蓄積歴国内最⻑）  日本全国のサポート拠点 EMC VNX  4製品を軸にした複合ソリューションの提供取扱開始: 2012年4月導入実績: 10社以上 EMC GREENPLUM 取扱開始: 2008年10月導入実績: 20社 2010年9月EMC社製品に EMC DATA DOMAIN 取扱開始: 2004年10月導入実績: 150社以上 2010年1月EMC社製品に EMC ISILON 取扱開始: 2004年10月導入実績: 80社以上 2005 2010年12月EMC社製品に 2008 2009 2010 3 2012 2013 2014 データ活用の変化 1990年代 2000年前半帳票・レポートを目的としたデータ集計 2000年後半傾向把握を目的とした集計・分析 2010年〜予測のためのデータ分析・マイニングデータ活用基幹システム上のデータの活用（構造化データ）基幹系・情報系システム上のデータの活用（構造化データ）対象データ環境プラットフォーム CPU H/W: MEM HDD NIC データ処理基幹系・情報系システム上＋ログ・SNS・センサーなどのデータの活用（構造化＋非構造化データ）クラウドオンプレミス Single Socket/Core Multi Socket/Core（2Core････････････････････････････････････････10Core） xMB xxMB xxxMB xGB xxGB xxxGB xTB xxGB xxxGB x TB Kbps Mbps Gbps xxGbps RDBMS Scale out DB, Hadoop, KVS/NoSQL 4 変化要因データ活用ニーズサービスの多様化・データ分析を基にしたビジネスチャンスの発掘（Webサービスを中心とした成功者の登場）・デジタル化によるデータ種類が豊富に・第三者による既存ビジネスを利⽤したビジネスの登場相互影響 H/W: データ処理ソフト: 実装環境: 分析手法: テクノロジー革新性能・容量の向上、規模を伴わないデータ処理基盤の構築が容易に RDMBSを中⼼としたデータ処理から新しいテクノロジーの登場により、データ処理の柔軟性が向上インターネット進化と仮想化技術により、利⽤環境の選択が可能に学術的な研究が中心となっていたものをベースに、ビジネス活用する取組みが強化 5 テクノロジー革新 H/W: データ処理ソフト: 実装環境: 分析手法: テクノロジー革新性能・容量の向上、規模を伴わないデータ処理基盤の構築が容易に RDMBSを中⼼としたデータ処理から新しいテクノロジーの登場により、データ処理の柔軟性が向上インターネット進化と仮想化技術により、利⽤環境の選択が可能に学術的な研究が中心となっていたものをベースに、ビジネス活用する取組みが強化 Hadoop パフォーマンス CPU: • マルチコア化 • クロック周波数アップ • 帯域幅の増加メモリ: • ⼤容量化 • 帯域幅の増加スケールアウトストレージ・⼤容量化・Flashの登場 1990 1995 2000 2005 並列分散処理 RDB 2010 クラウド仮想化コモディティH/W 6 KVS データ活用基盤への考え方の変化  DWHの定義: 履歴データを蓄積し過去データから傾向等を⾒える化するための基盤 <DWH・データ分析Keyword時代＞・基幹システムに存在するデータだけでは、大規模データ化（TB 超え）するケースは少ない・DWHシステムへの投資判断が難しく大規模環境の用意をするケースが少ないといった点から、DWH本来の定義を持つDWHを利⽤している企業は少ない基幹系情報系基幹システム上で稼動するアプリケーションが利⽤しやすいDB 複数のデータを一元集約し、時間・人・ものなど軸を変えて分析を⾏う（必ずしも時系列・単⼀TBLではない）＜ビッグデータ・非構造化・IoTといったKeywordの登場＞・テクノロジー革新とデータ活用によるビジネス成功ケースの登場より、履歴データの蓄積への注⽬・⾮構造化データの利⽤への注⽬により、データ活用基盤の大規模化がスタート  クラウドかオンプレミスか・共通項はSmall Start: 履歴の蓄積や活⽤対象データ選択は、製品選定タイミングだけでは判断が付かないため・環境選定時の注意ポイント ‐ 環境: クラウド or オンプレミス >分析基盤サービス料のみならず、通信費⽤＋蓄積（i/o）との課⾦ >想定されるシステム規模（データ容量） ‐ オンプレミス: アプライアンス or IAサーバー＋ソフトウェア >想定されるシステム規模（データ容量） >システムの可搬性 ‐ クラウド: SaaS or IaaS+ソフトウェア >分析基盤すべてをクラウド化 >インフラのみをクラウド化 7 ＜弊社⾒解＞クラウド・オンプレミスでも、・データ量増加、データタイプ増・処理要件の多様化・性能要件・HWテクノロジー革新といったシステムとしての柔軟性を求められる事が多いため、柔軟性を意識した製品選定が必要テクノロジーに対する要求  ビッグデータの構成要素である非構造化データへの注目が高まる中で、様々なアプローチのオープンソースベーステクノロジーが登場  オープンソーステクノロジーを活かしながら枯れた技術であるSQLインターフェースを持つ、データの⼀元管理が可能な基盤ソリューションの登場 SQL MapReduce,Hive,Pig etc SQL, （MapReduce, Hive, Pig etc） DWH Hadoop等 Hadoop等構造化データ非構造化データ ETL, CEP(SQL) Flume, Fluentd, Sqoop, Storm, S4 etc 構造化データ非構造化データ SQL Flume, Fluentd, Sqoop, Storm, S4 etc データ活⽤のニーズが⾼まるに伴い、データ量とユーザー数が増加最新テクノロジーでの活用のみならず、多くのユーザーが活用できる基盤が求められる 8 「データレイク」という考え方とKeyman 9 DataLake x DWH DataLake= より⾃由に、柔軟に、迅速にビジネスで利⽤可能なデータ分析基盤 (DWHはDataLakeの一部） 10 Hadoopとは？ 2つの分散アーキテクチャーを持つコンポーネントで構成させる HDFS (Hadoop Distributed File System) 分散ファイルシステム MapReduce ⼤規模分散処理フレームワークデータをためるデータを加工するデータをブロックに分割して複数のサーバに分散配置／3つのレプリカを作成 Map/Reduceというシンプルな処理の組み合わせで、HDFS上にあるデータの分散処理を⾏う汎用的なフレームワーク 11 Hadoopはみんなで使えるか？  Hadoopを全社データ活用基盤とする場合の壁 ‐ データ取り込み・テクノロジー: 様々な技術が存在（ただし、技術スキルが必要）・取り込み: 取り込み対象データの選定、取り込みと格納方法の検討 ‐ データ活用・テクノロジー: HDFSへアクセス可能なインターフェースの増加（ただし、技術スキルが必要）・汎用アプリケーション: SQLを利⽤する製品が多いデータソース Hadoop≠DataLake DataLakeの要素である、非構造化データを含めたデータ蓄積・処理基盤の構築は可能だか、・インターフェースの汎用性・あらゆるデータの蓄積という観点で利便性にかける要素が出てくるデータ蓄積・処理基盤アプリケーション非構造化データメール Webコンテンツ M2M アクセスログ SNS 構造化データ Analytics Apps 音声画像・映像 Mobile Apps Flume, Fluentd, Sqoop, Storm, S4 etc MapReduce, Hive, Pig Drill Map Reduce 生産情報売上情報顧客情報 BI/BA HDFS 12 File Access PivotalとIsilonのDataLake Data Lake Data Lake   データ処理基盤の基盤要素となHDFSにデータを蓄積  あらゆるデータ・要件に応じて処理エンジンを使い分ける  インターフェースを多く持ち。データ活用対象となるデータを一元管理を実現するOneFSにデータ蓄積集約したデータをHDFS利⽤可能とし分析対象データにすることが可能データソースデータ蓄積・処理基盤アプリケーション非構造化データメール Webコンテンツ M2M アクセスログ SNS 構造化データ生産情報 Analytics Apps Mobile Apps 音声画像・映像 Flume, Fluentd, Sqoop, Storm, S4 etc MapReduce, Hive, Pig Drill BI/BA Map Reduce 売上情報顧客情報 HDFS 13 File Access Pivotal社（2013年4月1⽇設⽴） ~次世代エンタープライズPaaSの提供~ CEO ポール・マリッツ従業員数 1,600人売り上げ規模(計画) 2013年3億ドル 2017年10億ドル 14 出資⽐率 Pivotal HD＋HAWQ  Pivotal HD – Apache Hadoop ベース – 処理全体のデータスループット効率化:YARN – 運⽤・管理性: スナップショット/HDFS Federation/NFS v3によるデータアクセス – Advanced Database Services(HAWQ) – 性能：HDFSに対する標準SQLによる⾼速クエリ処理 – 連携：Hive, Hbase, Avro等 Hadoop データとの連携 – 仮想化・エンタープライズストレージ対応 – Hadoop構成の VMWare 上での最適化や Isilonとの連携 HAWQ アドバンスドデータベースサービス Pivotal HD Enterprise リソース管理 & ワークフロー ANSI SQL + アナリティクス Xtension フレームワーク HBase カタログサービスクエリオプティマイザダイナミック・パイプライニング Pig, Hive, Mahout Map Reduce Yarn Zookeeper Oozie Center コンフィグデプロイ HDFS HVE Command モニター Sqoop Flume Apache Pivotal HD 追加機能 15 管理 HAWQ≒GreenplumDB HAWQ: Pivotal社が10年にわたり開発をしてきたGreenplumDBをHadoop⽤に改良 GreenplumDBの⼤半の機能が利⽤可能            標準 SQL 対応堅牢なクエリオプティマイザローストア・カラムストア両方への対応圧縮分散格納マルチレベルパーティショニングパラレルーロード・アンロード高速データ再分散 16 SELECT INSERT JOIN 統計解析関数(MADlib) ビュー外部表リソースマネジメントセキュリティ認証管理・監視 ODBC/JDBC対応 SQLonHadoop/PivotalHD+HAWQの必要性 SQLonHadoop/PivotalHD+HAWQにより、アプリケーションやユーザーのスキルセットによりデータ活用に制限が発生しない、データ分析基盤の構築が可能 BI Report Mining SQL SQL SQL リソース管理 & ワークフロー Map Reduce Hive/ Drill Map Hive/Drill Reduce Hive BI Report Mining SQL SQL SQL リソース管理 & ワークフロー Drill HBase Hive/ Drill Map Hive/Drill Reduce Hive HAWQ Drill HBase Map Reduce Map Reduce Yarn Yarn HDFS Zookeep er Oozie Map Reduce Sqoop HDFS Zookeep er Oozie Flume Apache Hadoop Sqoop Pivotal HD+HAWQ 17 Flume EMC Isilon  高い拡張性と可用性を持つスケールアウトNAS 全ノードアクティブで稼働するコントローラーと独自FSのOneFSにより複数ノードをワンボリュームで管理により、性能・容量双⽅のスケールアウトが可能コントローラーコントローラーコントローラーコントローラー・・・・・・ OneFS コントローラーコントローラーコントローラーコントローラー最大20PBまで拡張可能  最大N+4の保護レベルを実現 1つのファイルを分割配備する機構により、高い性能と保護レベルを提供最大20PBをもN+4で保護 Down 100% 稼働中 100% 稼働中 Down 100% 稼働中 18 Down Down 100% 稼働中 100% 稼働中 Isilon スケールアウトNAS機能 SmartConnect 負荷分散＆フェイルオーバ SnapshotIQ フレキシブルなスナップショットポリシーベースの負荷分散 NFSフェイルオーバ SmartQuotas クオータ管理単一ボリューム内のファイル単位でプールに配置サブディレクトリ単位でスナップショット SyncIQ 高速リプリケーションユーザ、グループ、サブディレクトリ単位でクォータ SmartPools 単一ボリューム内でプール化 InsightIQ 性能監視とファイルシステム分析 N：M ノードで非同期のファイル複製 SmartDedupe データの重複排除 SmartLock WORM(Write Once – Read Many）機能 WORMデータ保護により、過失やデータ変更や削除を防⽌データの重複排除による容量とコストの効果 19 パフォーマンスの監視とファイルシステム分析 Isilon DataLake   Data Lake ：データ活⽤対象となるデータを⼀元管理を実現するOneFSにデータを蓄積豊富なインターフェースを持つことで、多様なデータアクセスに対応 FILE 20 通常のHadoopアーキテクチャー  多くの処理プロセスと実データが分散配置  メタデータ（NameNode）は冗⻑化のみ R(RHIPE) Job Tracker Data Node + Compute Node Pig Mahout Hive Task Tracker HBase DataNode Data Node + Compute Node NameNode 2 nd NameNode Data Node + Compute Node Name Node Data Node + Compute Node Data Node + Compute Node Data Node + Compute Node 21 Isilon+Hadoopアーキテクチャー  処理プロセス（Compute）とデータ領域（Name+DataNode）を別配置  Hadoop関連すべてのコンポーネントの冗⻑化 R(RHIPE) Pig Hive Job Tracker HBase NameNode Task Tracker Compute Node Compute Node DataNode Name Node Name Node Name Node Name Node Compute Node Compute Node Compute Node 22 Data Node Compute Node Mahout Pivotal HD&HAWQ+Isilon  ⼤規模且つ性能・容量に最適化された利便性の⾼いHadoop環境を実現 R(RHIPE) Pig Mahout Hive Job Tracker HAWQ Task Tracker 分散処理データベース DataNode 分散ファイルシステム HAWQ HAWQ Name Node Name Node Name Node Name Node HAWQ HAWQ HAWQ 23 EMC ISILON Data Node HAWQ NameNode Pivotal+Isilonはみんなで使える！  Pivotal+Isilon＝DataLakeで全社データ活用基盤とする場合の壁 ‐ データ取り込み・テクノロジー: 従来から利⽤されているファイルアクセス⽅法の利⽤が可能・取り込み対象データ: 単純なファイル格納なため、とりあえずの格納が可能 ‐ データ活用・テクノロジー: HDFSアクセス用言語のみならず、SQLインターフェースの利⽤が可能・汎用アプリケーション: そのまま利⽤可能データソース Pivotal+Isilon=DataLake DataLakeの要素である、非構造化データを含めたデータ蓄積・処理基盤であり、・インターフェースの汎用性・あらゆるデータの蓄積を兼ね備えた環境を実現データ蓄積・処理基盤アプリケーション非構造化データメール Webコンテンツ M2M アクセスログ SNS 構造化データ生産情報 Analytics Apps 音声画像・映像 CIFS NFS FTP HTTP REST Object HDFS BI/BA Map Reduce 売上情報顧客情報 SQL MapReduce Hive Pig Drill Mobile Apps HDFS 24 File Access Hadoop活用を始める2つアプローチ SQL on Hadoopスタートのアプローチ Step1 既存DB/DWHの一部もしくは新規分析要件用にSQL on Hadoopを構築ビジネス・アプリケーション BI Report Mining Map Reduce Hive/ Drill File Access Step2 非構造化データの取り込み、活用のTry&Error開始 In-Memory HBase・Drill etc DB/DWH EMC ISILON 売上情報 Step3 将来予測分析の開始 Step4 非構造化データの効率的なデータ処理フレームワークの活用 Step5 データ容量増、性能向上の観点から効率的な拡張とより多くの種類を用意に取り込みでき、ファイルアクセスも可能な環境を構築顧客情報メール Webコンテンツアクセスログ生産情報 M2M SNS 25 音声 Step6 発生したデータをリアルタイムにビジネス活用をできる基盤の導入 Hadoop活用を始める2つアプローチファイルストレージスタートのアプローチ Step1 分析活用対象となり得るデータを格納できるファイルサーバーの導入構造化データ・非構造化データの投入ビジネス・アプリケーション BI Report Mining Map Reduce Hive/ Drill File Access Step2 SQL on Hadoopの導入、データ活用の開始 In-Memory HBase・Drill etc DB/DWH EMC ISILON Step3 将来予測分析の開始 Step4 非構造化データの効率的なデータ処理フレームワークの活用 Step5 発生したデータをリアルタイムにビジネス活用をできる基盤の導入売上情報顧客情報メール Webコンテンツアクセスログ生産情報 M2M SNS 26 音声何から始めるか？  データ活⽤は、ビジネス貢献を実現するために⾏う  情報の共有・⾒えるかだけで不⼗分  ビジネスにつながるアプリケーションや業務への連携が必要と、良く聞くけど、いったいどこから始めればいいんだろう。。。データ分析して、業務生かすといわれても。。。 27 実はやっているデータ活用 ~課題が多く運用に乗せにくい~ セールスプロモーションマーケティング⾒るデータ例えば、「新ソリューションの展開のため、プロモーションを実施し案件創出を⾏ないたい」「A業界のB社に採用された製品を同業他社に展開したい」「新しい製品のプロモーションに最適なイベントを開催したい」 etc 所在入手データ形式社内の顧客DB CRM 1つのExcelにデータを集約し、データの整形を⾏い、・傾向把握・ターゲッティングを⾏う取引実績受発注システム過去に実施したセミナー出席者リスト過去に出展したイベント集客リスト過去に実施したWeb マーケティングリストファイルサーバーファイルサーバー課題点・データ存在箇所が散在しているため、データ収集時点で負荷が高い・システムによってはデータ⼊⼿不可・集約したExcelのアウトプットの共有は簡単だが、関連データの共有が難しい・データの最新化、追加が難しい個人PC 業界企業情報 Web 28 ファイルシステムの利⽤ファイルサーバー⾒るデータ複数システムのデータを集約するのに便利な機構は、ファイルサーバーファイルサーバーにデータを集約する仕組みにすることで、・最新データへの更新・データの追加・データの共有が容易に所在入手データ形式社内の顧客DB これらのデータを集計・分析できれば、運用のしやすい基盤に CRM 取引実績受発注システム過去に実施したセミナー出席者リスト過去に出展したイベント集客リスト過去に実施したWeb マーケティングリストファイルサーバーファイルサーバーファイルサーバー個人PC 業界企業情報 Web 29 課題点・データ存在箇所が散在しているため、データ収集時点で負荷が高い・システムによってはデータ⼊⼿不可・集約したExcelのアウトプットの共有は簡単だが、関連データの共有が難しい・データの最新化、追加が難しい Isilonを利⽤するとHadoopが使える Isilon ⾒るデータファイルサーバーとしての利⽤に加えて、HDFS(Hadoop)連携が可能所在入手データ形式 BI/レポーティングツールからアクセスできればさらに利便性の高い基盤に社内の顧客DB CRM 取引実績受発注システム過去に実施したセミナー出席者リスト過去に実施したWeb マーケティングリスト NFS/CIFS/FTP/ HTTP 過去に出展したイベント集客リスト HDFS ファイルサーバーファイルサーバー個人PC 業界企業情報同じファイルに複数のインターフェースからアクセス可能 Web 30 PivotalHD/HAWQの導入 PivotalHD/HAWQ+Isilon ⾒るデータみんなで使えるDataLake基盤を実現所在入手データ形式社内の顧客DB CRM 取引実績受発注システム過去に実施したセミナー出席者リスト過去に実施したWeb マーケティングリスト NFS/CIFS/FTP/ HTTP 過去に出展したイベント集客リスト HDFS ファイルサーバーファイルサーバー個人PC 業界企業情報慣れ親しんだ、汎用性の高いインターフェースを備えたDataLake Web 31 Pivotal＋Isilon=DataLakeはデータ活用への近道データ活用基盤構築までのStep比較  DWH、Hadoop基盤の構築要件整理データ活用基盤の要件を定義ビジネスメリット、採算性の検討システム化検討要件に⾒合うシステムの実現方法検討方式・運用検討利⽤・運⽤間tねからシステム化の方式を検討製品調査・検討要件に⾒合った製品・サービスの調査ベンダー・業者調査・選定構築・サポート可能なベンダー・業者の選定導入システム構築、実運用の監視運用観点での実現性のレビュー・変更等  DataLake（Pivotal+Isilon)の構築要件整理ファイルサーバー導入としてスタート可能システム化検討同時/将来 SQLonHadoop の実装によりデータ活用環境に。製品調査・検討導入ファイルサーバー: EMC Isilon SQL on Hadoop: PivotalHD+HAWQ EMC ISILON 32 PivotalHD・HAWQ+EMC Isilon取扱い  東京エレクトロンデバイス製品取扱い経歴 Pivotal製品 Pivotal GreenplumDB製品で培ったH/Wとセットでご提供しサポート提供（パッケージ）ノウハウをベースに、PivotalHD製品でも提供。概歴・GreenplumDB製品: 2008年10月~ ・GreenplumDBパッケージ: 2010年4月~ ・PivotaHD製品: 2014年4月~ ・PivotalHDパッケージ: 2014年4月~ Pivotal社連携・共同提案・サポート連携 Pivotal社のリモートサポートも含めた連携スキームありワンストップサポートスキーム＋ノウハウ Pivotal社とのサポート連携スキーム EMC Isilon製品 EMC社買収前のIsilon Systems社製品時より、取扱い日本全国にオンサイト対応拠点有概歴・2004年10月より取扱い開始・2010年12月EMC社による買収後、EMC社パートナーとして販売・サポート継続中・2014年4月~: Hadoop連携ソリューション強化 EMC社連携・共同提案・サポート連携 EMC社のリモートサポートを含めた連携スキームあり 10年におよぶ製品・サポートノウハウ EMC社とのサポート連携スキーム PivotalHD・HAWQ（ソフトウェア＋HW)＋Isilonのワンストップサポートをご提供致します 33 TED DataLake パッケージ SQL on Hadoop製品のPivotalHD・HAWQと豊富なインターフェースを持つスケールアウトNASのEMC Isilonを組み合わせた DataLake基盤を、最適なHWを選定し、容易に導⼊・運⽤が可能なパッケージ TED Pivotal HAWQパッケージ性能・ユーザー数の面で拡張性も考慮したバランスの取れたH/Wを選定・・・ EMC Isilon 性能・容量の観点からモデルを選択可能スタンダード X410 34 スモールスタート X210 パフォーマンス S210 35

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Download IoTを⾒据えたデータ活⽤はDataLakeから始める〜Pivotal＋Isilonで実現するDataLakeの世界〜 2015年10月15日東京エレクトロンデバイス（株）

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Download IoTを⾒据えたデータ活⽤はDataLakeから始める 〜Pivotal＋Isilonで実現するDataLakeの世界〜 2015年10月15日 東京エレクトロンデバイス（株）

Download IoTを⾒据えたデータ活⽤はDataLakeから始める〜Pivotal＋Isilonで実現するDataLakeの世界〜 2015年10月15日東京エレクトロンデバイス（株）