データファブリックの謎を解く – GigaOm

by RJ・バレット · January 15, 2025

「データファブリック」という用語はテクノロジー業界で使用されますが、その定義と実装はさまざまです。プロバイダーの間でこれを目にしたことがあります。昨秋、ブリティッシュテレコム (BT) はアナリストイベントで自社のデータファブリックについて話しました。一方、ストレージ分野では、ネットアップはインテリジェントインフラストラクチャに向けてブランドを変更していますが、以前はこの用語を使用していました。アプリケーションプラットフォームベンダーの Appian はデータファブリック製品を提供しており、データベースベンダーの MongoDB もデータファブリックや同様のアイデアについて話しています。

データファブリックの核心は、異種のデータソースを抽象化および統合してシームレスなデータレイヤーを作成する統合アーキテクチャです。原則は、異種のデータソースと、データへのアクセスが必要なワークロード (アプリケーション、ワークロード、さらには AI アルゴリズムや学習エンジンなど) の間に統合され同期されたレイヤーを作成することです。

このようなオーバーレイが必要になる理由はたくさんあります。データファブリックは、広範な統合レイヤーとして機能し、さまざまなデータソースに接続したり、アプリケーション、ワークロード、モデルへのアクセスを容易にする高度な機能を追加したりすることで、同期を維持しながらそれらのソースにアクセスできるようにします。

ここまでは順調ですね。ただし、課題は、データファブリックの原理と実際の実装の間にギャップがあることです。人々はこの用語をさまざまな意味で使用しています。 4 つの例に戻ります。

BT は、データファブリックを、長距離にわたるデータ送信を最適化するために設計されたネットワークレベルのオーバーレイとして定義します。
NetApp の解釈では (インテリジェントデータインフラストラクチャという用語であっても) ストレージの効率性と集中管理が強調されています。
Appian は、自社のデータファブリック製品をアプリケーション層でデータを統合するツールとして位置づけ、ユーザー向けツールの迅速な開発とカスタマイズを可能にします。
MongoDB (および他の構造化データソリューションのプロバイダー) は、データ管理インフラストラクチャのコンテキストでデータファブリックの原則を検討しています。

これらすべてをどうやって切り抜けるのでしょうか？答えの 1 つは、さまざまな角度からアプローチできることを受け入れることです。データソースを統合する必要性を認識しながら、やりすぎないようにしながら、データの構造について概念的に話すことができます。完全にすべてをカバーする普遍的な「超ファブリック」は必要ありません。代わりに、管理する必要がある特定のデータに焦点を当ててください。

数十年巻き戻すと、サービス提供をデータベースシステムから切り離そうとするサービス指向アーキテクチャの原則との類似点がわかります。次に、サービス、プロセス、データの違いについて説明しました。同じことが現在も当てはまります。ワークロードに必要なものに焦点を当てて、サービスをリクエストしたり、データをサービスとしてリクエストしたりできます。作成、読み取り、更新、削除は依然として最も単純なデータサービスです。

また、ネットワークアクセラレーションの起源を思い出させます。ネットワークアクセラレーションでは、ソースに繰り返しアクセスするのではなく、データのバージョンをローカルに保持することで、キャッシュを使用してデータ転送を高速化します。 Akamai は、音楽や映画などの非構造化コンテンツを長距離にわたって効率的に転送する方法を中心にビジネスを構築しました。

これは、データファブリックが車輪の再発明を行っていることを示唆しているわけではありません。私たちは技術的には異なる（クラウドベースの）世界にいます。さらに、メタデータ管理、系統追跡、コンプライアンス、セキュリティ機能などの新しい側面ももたらします。これらは、データガバナンス、品質、出所がモデルのパフォーマンスと信頼性に直接影響する AI ワークロードにとって特に重要です。

データファブリックの導入を検討している場合、まず最初に、データが何のために必要なのかを考えることから始めます。これは、どのような種類のデータファブリックが最適であるかを示すのに役立つだけでなく、世界中のすべてのデータを管理しようとするという罠を回避するのにも役立ちます。代わりに、最も価値のあるデータのサブセットに優先順位を付けて、どのレベルのデータファブリックがニーズに最も適しているかを検討できます。

ネットワークレベル: マルチクラウド、オンプレミス、エッジ環境全体でデータを統合します。
インフラストラクチャレベル: データがストレージプロバイダーで一元化されている場合は、一貫したデータセットを提供するためにストレージレイヤーに焦点を当てます。
アプリケーションレベル: 特定のアプリケーションまたはプラットフォーム用に異種のデータセットを統合します。

たとえば、BT の場合、データファブリックを使用して複数のソースからのデータを統合することに内部的な価値があることがわかりました。これにより重複が削減され、運用が合理化され、データ管理がより効率的になります。これは明らかに、サイロを統合し、アプリケーションの合理化を改善するのに役立つツールです。

結局のところ、データファブリックはモノリシックな、万能のソリューションではありません。これは、製品と機能によってサポートされる戦略的な概念レイヤーであり、柔軟性を高め、データ配信を改善するのに最も合理的な場合に適用できます。導入ファブリックは、「設定したらあとは忘れる」作業ではありません。ソフトウェア自体だけでなく、データソースの構成と統合も含めて、測定、導入、保守を継続的に行う必要があります。

データファブリックは概念的には複数の場所に存在できますが、配信作業を不必要に複製しないことが重要です。したがって、ネットワーク全体でデータを収集する場合でも、インフラストラクチャ内でデータを収集する場合でも、アプリケーションレベルでデータを収集する場合でも、原則は同じです。つまり、ニーズに最も適した場所でデータを使用し、提供されるデータに応じてデータを進化させます。

データファブリックの謎を解く: データソースとワークロードの間のギャップを埋めるという投稿は、Gigaom に最初に掲載されました。

RJ・バレット

データファブリックの謎を解く – GigaOm

You may also like...

Leave a Reply Cancel reply

Recent Posts

Recent Comments

データ ファブリックの謎を解く – GigaOm

You may also like...

Leave a Reply Cancel reply

Recent Posts

Recent Comments

データファブリックの謎を解く – GigaOm