Inquiry
Form loading...
機械学習はデータ分野でどのような課題に直面していますか?

業界ニュース

機械学習はデータ分野でどのような課題に直面していますか?

2023-12-08
12機械学習におけるデータの重要性はよく知られています。 データ アクセス パターンを理解することは、データ サイエンティストがプロジェクトに適切なストレージ インフラストラクチャを決定するのに役立ちます。 データ インフラストラクチャにより機械学習が可能になります。 ただし、機械学習を使用すると、整合性、希薄性、品質という重要なデータの課題に直面することになります。これらの課題を最初に解決する必要があります。 1. 完全性 データの完全性は、データの正確性と一貫性を保証するものです。 データ保管チェーンは、データがパイプラインや場所を移動する際に侵害されていないことを証明するために不可欠です。 データのキャプチャと取り込みが制御されている場合は、その整合性を比較的簡単に検証できます。 しかし、他の人と一緒に作業する場合、それを確認するのは困難です。 データの生成時に、外部データのセキュリティ証明書がありませんでした。 データ レコードが期待どおりであること、または受信したデータが元のレコードとまったく同じであることを保証することはできません。 IoT データとブロックチェーンには興味深い概念がいくつかありますが、この概念が広く採用されるまでは、データの整合性はセキュリティ テクノロジーと戦略の組み合わせに依存します。 たとえば、データは静的または送信中に脅威にさらされる可能性があるため、ネットワークを介して送信されるデータは HTTPS を使用し、静的時には暗号化する必要があります。 一方、アクセス制御は人的エラーを回避するためにポリシー主導型である必要があります。 2. スパース性 この場合、スパース性はメタデータに適用されます。 一般に、メタデータ フィールドは不完全です。 一部のフィールドは入力されており、一部のフィールドは空白のままです。 データが単一のソースから生成されている場合、それは人間の基準や知識の欠如が原因である可能性があります。 ただし、メタデータの標準定義がないさまざまなソースからデータが取得されている場合、各データセットにはまったく異なるフィールドが含まれる可能性があります。 そのため、結合した場合、記入済みのフィールドが一致しない可能性があります。 現在、どのようなメタデータをキャプチャするかについての業界標準はありません。 ただし、メタデータはデータ自体と同じくらい重要です。 同じ種類のデータに異なるメタデータ フィールドが入力されている場合、データをどのように関連付けてフィルタリングしますか? ブイを例にとると、初期のデータ センサーは 10 分ごとに水温を収集しますが、新しいブイは 3 分ごとに水温を収集します。 データを関連付ける唯一の方法は、キャプチャ時にメタデータを通じてデータを公開することです。 科学者が歴史分析を行う場合、それに応じてモデルを調整できるようにメタデータが必要です。 3. 品質 多くのデータ サイエンティストは、外部ソースからのデータを使用したいと考えています。 ただし、生データの取得方法については、通常、品質管理や保証がありません。 外部データの正確性を信じますか? これは良い例です。 海に浮かぶブイのセンサーは、海水温に関するデータを収集します。 ただし、センサーが温度を収集できない場合は、999 を記録します。また、2000 年以前は、年数の記録に 2 桁のみが使用されていました。 しかし、2000 年以降、記録される数は 4 つに変わりました。 したがって、データの品質とデータの準備方法を理解する必要があります。 この場合、ブイデータを分析する科学者は、平均、平均、最小、最大を使用して元のデータを視覚化し、これらのデータベースエラーを捕捉し、それに応じてクリーンアップできます。 安全なデータ コラボレーション 業界が外部組織と常にデータを交換する必要がある場合は、データとメタ形式のソース コードをオープンすることが最善です。これらの標準は多くの独自標準よりも幅広いためです。 さらに良いことに、業界オープン標準委員会を立ち上げて、他の人が参加して貢献できるようにすることもできます。 良い例は「オープンゴール」、つまり「ヒト遺伝学とゲノミクスデータを使用した体系的な薬剤標的の特定と優先順位付けのための官民パートナーシップ」です。 特に、データエコシステムに関する研究は非常に複雑になっています。 組織内外のパートナーは、データに迅速にアクセスし、データ管理を簡素化する必要があります。 機械学習には多くの課題があります。 最初のステップは、正しいデータとインフラストラクチャを使用してプロジェクトを開始することです。 どうやって始めればいいですか? データの品質、スパース性、完全性は最終モデルの精度に直接影響し、今日機械学習が直面している最大の課題の一部です。 明確なデータ定義、ポリシーを持ち、業界固有のデータ標準を検討している組織は、短期および長期のプロジェクトから恩恵を受けるでしょう。 まだ定義していない場合は、組織はまず独自のデータ収集ポリシーとメタデータ形式を定義してから、標準のセキュリティ テクノロジを適用する必要があります。 データの品質とスパース性は密接に関連しています。 次に、メタデータ ポリシーを設定し、取得した定性データをデータの有効性の検証に使用できるようにします。 最後に、データの整合性を確保するために、データを生成できます。デジタル証明書を適用する場合は、送信中に SSL を強制し、暗号化を常に有効にする必要があります。