デコーディング

スノーパークとデータブリックス

データプラクティショナーのためのディープダイブ

ブログシリーズ紹介 -

急速に進化する今日のデータサイエンスの世界では、適切なツールとテクノロジーは、多くの場合、欲求不満の時間と洞察に満ちた発見へのスムーズな航海との違いを意味します。データサイエンティストは、データ操作、分析、モデル構築などの複雑な状況をナビゲートするため、選択したツールが提供する堅牢なサポートに大きく依存しています。このブログシリーズでは、データサイエンスのランドスケープを形作るのに役立った二つのそのような技術の比較を掘り下げます。私たちは、両方のオプションの特徴を探り、その利点を比較検討し、最終的にデータサイエンティストの生活を大幅に向上させる可能性があるものを明らかにします, 複雑なタスクを管理しやすくするだけでなく、楽しいものにする。したがって、経験豊富なデータ専門家であろうと、この魅力的な分野に足を踏み入れたとしても, この探索に参加して、これらのテクニックに取り組む方法で時間を節約できる可能性のあるテクノロジーを発見してください！

お客様に情報に基づいた選択を行えるように、さまざまなプラットフォームの領域を深く掘り下げ、細心の注意を払って分析し、最適なソリューションを提供します。この追求において、我々は徹底的な調査に乗り出すスノーパーク and undertake a comprehensive comparison with データブリック一連の啓発ブログ投稿を通じて。これらのプラットフォームの複雑さを解明することで、特定のニーズと願望に対して適切な決定を下すために必要な知識と洞察をクライアントに提供することを目指しています。

Databrickspython を長年サポートしており、Spark や多くのデータサイエンスおよび機械学習ライブラリを含むオープンソースエコシステムを採用しています

スノーパークsnowflake の新しい専有機能であり、DataFrame API やネイティブ Snowpark 機械学習 API を含む一連のライブラリを提供し、コードを唯一の snowflake’s プラットフォームに適応させる必要があります実行できる場所であり、開発を遅くする多くの重要な機能が欠けています。

Databricks と Snowpark の比較の一環として、Databricks の機械学習体験と Snowpark を比較し、次に Delta Live Tables（DLT）を使用したデータエンジニアリングを比較する 3 部構成のブログシリーズを提示していますエンドツーエンドの ETL パイプラインを開発および展開する際の Snowflake’s Snowpark。可能な限り Python を使用することに焦点を当て、必要に応じて SQL、Java、CLI、または外部コンピューティングに戻ります

データサイエンスの実践者のためのデータブリックス対スノーパーク:

機械学習のユースケースにおける Databricks ノートブックと Snowpark ワークシート（別名 Snowsight）の使用を比較することを目指しています。ML API とランタイムを確認して比較し、機能エンジニアリングからモデル展開（MLops）サイクルまでの ML サイクルのさまざまなフェーズを探求したいと考えました。次のセクションでは、分析を共有するために使用される手順と、他の人が同じものを複製するのに役立つコードについて説明します。

· ウォームアップ : プロットを含むノートブック対ワークシート

· フルスプリント : ML ランタイム vs スノーパークコンダ/スノーパーク ML

第 1 章: ウォームアップ:ノートブックとプロットを含むワークシート -

データブリックのステップ:

私たちのチームは Spark と Python の専門家で構成されており、SQL と Java の使用を可能な限り最小限に抑える傾向があります。したがって、探索的データ分析を行うために Databricks ノートブックを利用します。

Databricks ノートブックでは、まず新しいノートブックを作成します。その後、DBFS にデータをアップロードするオプションがあります。

次に、任意のローカルファイルを任意のターゲットディレクトリにアップロードできます次に、正しいファイル形式とパスを使用して Spark DataFrame を作成するための便利なコピーボタンが提供されますファイル。

1 行を追加するだけです。正しい列データ型を推測するためのオプション('inferSchema', 'true')

次に、コードをノートブックに貼り付けて実行して、データを表示できます

データを理解するには、組み込みのデータプロファイラーを実行できます

これに加えて、任意の Python プロットライブラリを使用してデータをさらに探索できます

スノーパークステップ -

並行して、新しい Snowpark Python ワークシートを使用して Snowflake で同じことをしようとします。

データをアップロードして開始するには、まずスキーマとテーブルを作成する必要があります。

https://docs.snowflake.com/en/user-guide/data-load-web-ui#loading-data-using-snowsight

これは Python で行うことができますが、すべての DDL には依然として SQL が必要です。次のコードは、GLOBAL_FACTORY_DEV データベースの作成に役立ちます

上記を実行しようとすると、 ‘handler’ 関数を使用するためのエラーが生成されます

設定の ‘handler’ で実行する関数名を追加しました:

これは動作しますが、結果や出力に有用な情報は返されません

結果を文字列として返してみてください

これで動作し、スキーマが作成されたことを示します:

テーブルの DDL を作成するには、CSV ファイルをローカルで開き、時間がかかるデータタイプを定義する必要があります。

The table is created:

指示に従って csv データセットをアップロードできるようになりました。

これらの 3 つのオプションを変更し、残りはデフォルトのままにします:

クエリデータをクリックすると、SQL の例だけが表示されます。Snowpark と Python を表示することは、Snowflake の目立った機能ではありません。テーブルをロードしてデータをプレビューする機能を作成しました。

Python パッケージ（Anaconda）を使用する前に、条件に同意する必要があります

Databricks ノートブックで試した同様のプロットを生成できることを投稿します

Python プロットライブラリを使用して、結果を表示したい形式で出力できるかどうかを確認します。

Seaborn は Databricks のようにデフォルトでは利用できないようです。

Seaborn ライブラリをインストールできるようです

マトプロトリブ図書館とともに

インジケーターはありませんでしたが、現在インストールされているようです。

We run the plot function again and it fails.

Snowflake のデータ型から Pandas のデータ型への変換が正しく変換されていないようです。問題を調査するために dtypes を印刷しようとします。

Pandas df データ型は、大文字ではありますが正しいため、問題が何であるか今は分かっていません。この時点で、Databricks を使用してデータを簡単に視覚化するだけです。

コードポストを実行しようとすると、同じコードが機能します開発環境を設定します。ただし、pandas の変換は pandas パッケージに依存しませんが、snowflake-snowpark-python[pandas]をさらにインストールする必要があります

Databricks は、CSV ファイルをすばやくアップロードして分析するプロセスを簡素化します。ノートブックは直感的なインターフェイスと、さまざまな一般的な Python プロットライブラリを活用する機能を提供します。

対照的に、Snowflake では、データアップロードの前にテーブルを最初に作成する必要があり、開始するだけの複数の手順を導入しています。ワークシートは、複数のコードブロックの処理に関してはあまりユーザーフレンドリーではなく、ノートブックの好まれるユーザーエクスペリエンスからの大きな逸脱を表しています。プロットライブラリがどの程度利用できるかは不明なままであり、解決が難しい課題につながることがよくあります。