ファーウェイがCarbonDataに様々な機能を実装し、prestoやhiveとの統合をサポートできるようにする。
はじめに
ナッシュテックはファーウェイと協力して、ビッグデータの処理とクエリにおいてより高速で効率的なファイルフォーマットを開発した。 現在、ファーウェイの顧客は、CarbonDataの機能を利用することで、システムを高速化することができる。
ファーウェイについて
Apache CarbonDataは、Apache HadoopやApache Sparkなどのビッグデータプラットフォーム上で高速分析を行うためのインデックス付きカラムナーデータフォーマットです。 ナッシュテックは、ファーウェイがCarbonDataのprestoやhiveを含むさまざまなテクノロジーとの統合をサポートし、さまざまな機能を実装するために、彼らと協力することを可能にします。
課題
ファーウェイは、バックエンド、フロントエンド、継続的インテグレーションが、新しいバージョンが頻繁にロールアウトされる場合に旧バージョンの後方互換性を確保するようなドメインを模索したいと考えている。 NashTechはファーウェイ・チームと協力し、CarbonDataがインキュベーション・プロジェクトからApacheライセンス・プロジェクトになるのを支援した。
解決策
ナッシュテックはファーウェイ・チームと緊密に協力し、重要な機能の構築を支援しました:
- CarbonData用辞書生成ツールの開発.
- コスト効率の向上:クラスタ管理の自動化により、運用コストを50%以上削減。
- Presto、Hive、Flink、S3テクノロジーとCarbonDataの統合。
- Jenkinsによる継続的インテグレーションの設定。
- ベンチマークを行うためのパフォーマンステストツールの作成
- 自動化テストでバグゼロを達成する
- Apache CarbonDataウェブサイトの開発とメンテナンス。
- CarbonDataのコアパッケージの開発と強化。
- ParquetやORCのような利用可能なファイルフォーマット、Spark、Presto、Impalaのようなフレームワーク、Hadoop、S3、Kuduのような異なるストレージシステムに対してCarbonDataをベンチマーク。
ナッシュテックはファーウェイと協力して、ビッグデータの処理とクエリにおいてより高速で効率的なファイルフォーマットを開発した。 現在、ファーウェイの顧客は、CarbonDataの機能を利用することで、システムを高速化することができる。
私たちのチームはまた、CarbonDataのために独自のパフォーマンス・ベンチマーク・ツールを開発した。 このベンチマークツールは、ParquetやORC Formatなどの競合製品と比較して、CarbonDataのパフォーマンスをテストします。 ベンチマークツールがサポートする主な機能は以下の通り:
- 構成によって駆動されるクラスタサイズに応じてTPCHベンチマークデータを生成する。
- 特定のデータセットに対する構成としてワークロードを定義する。
- CarbonData、Parquet、ORCなど、すべてのフォーマットにデータをHiveストアにロードする。
- Sparkの設定ベースのチューニングは、並列性の設定と異なるワークロードに基づくSparkの設定を含んでいた。
- ワークロードを実行し、すべてのフォーマットについて、負荷に対する応答時間と結果を取得する。
- すべてのフォーマットにおける結果の比較。
- テスト実行の成功・失敗だけでなく、結果の比較を示すExcelレポートの作成。
その結果
Scalaが提供する迅速な開発と簡潔なコードにより、NashTechは4ヶ月でシステムを本番稼動させることができた。 アラートは、定義されたルールに基づいて異なるバケットにルーティングされ、ニュースが伝えられるとすぐに消費者のメールボックスに届く。 この製品はインフラの一部として多用されている。
ケーススタディをもっと読む
大手デジタル広告サービスとの1年にわたるRPAの旅を垣間見る
大手デジタル広告サービス・ソリューションプロバイダーの1年にわたるRPAの旅と、NashTechがどのように彼らを支援したかをご紹介します。
デジタル棚の分析をサポートし、eコマースの成長を引き出す
NashTechがどのようにデジタル棚の分析を支援し、世界有数のデータ洞察とeコマースソリューションプロバイダーと成長を解き放つかをご覧ください。
あなたのプロジェクトについて話しましょう
- トピックス