Inquiry
Form loading...
À quels défis le machine learning est-il confronté dans le domaine des données ?

Nouvelles de l'industrie

À quels défis le machine learning est-il confronté dans le domaine des données ?

2023-12-08
12 L’importance des données pour l’apprentissage automatique est bien connue. Comprendre les modèles d'accès aux données aidera les data scientists à déterminer la bonne infrastructure de stockage pour leurs projets. L’infrastructure de données rend possible l’apprentissage automatique. Cependant, une fois utilisé, l’apprentissage automatique est confronté à des problèmes clés en matière de données, qui doivent d’abord être résolus : intégrité, parcimonie et qualité. 1. Intégrité L'intégrité des données est la garantie de l'exactitude et de la cohérence des données. La chaîne de traçabilité des données est essentielle pour prouver que les données ne sont pas compromises lors de leur déplacement dans les pipelines et les emplacements. Lorsque la capture et l’ingestion des données sont sous contrôle, vous pouvez vérifier leur intégrité relativement facilement. Cependant, lorsque l’on travaille avec d’autres, c’est difficile à vérifier. Lors de la génération des données, il n'existait aucun certificat de sécurité pour les données externes. Vous ne pouvez pas garantir que l'enregistrement de données correspond exactement à ce que vous attendiez ou que les données reçues sont exactement les mêmes que l'enregistrement d'origine. Il existe des concepts intéressants sur les données IOT et la blockchain, mais avant que ce concept ne soit largement adopté, l'intégrité des données dépend de la combinaison de la technologie et de la stratégie de sécurité. Par exemple, étant donné que les données peuvent être menacées lors de la statique ou de la transmission, les données transmises via le réseau doivent utiliser HTTPS et être cryptées lorsqu'elles sont statiques. D’un autre côté, le contrôle d’accès doit être axé sur une politique visant à éviter les erreurs humaines. 2. Parcalité Dans ce cas, la parcimonie s'applique aux métadonnées. Généralement, les champs de métadonnées sont incomplets. Certains champs ont été remplis et d'autres sont laissés vides. Si les données sont générées à partir d’une seule source, cela peut être dû au manque de normes ou de connaissances humaines. Cependant, si les données proviennent de diverses sources sans définition standard des métadonnées, chaque ensemble de données peut avoir des champs complètement différents. Ainsi, lorsqu’ils sont combinés, les champs renseignés peuvent ne pas correspondre. Actuellement, il n’existe aucune norme industrielle concernant les métadonnées à capturer. Toutefois, les métadonnées sont aussi importantes que les données elles-mêmes. Comment associer et filtrer des données lorsque vous disposez du même type de données renseigné avec différents champs de métadonnées ? Si vous prenez une bouée comme exemple, le capteur de données initial collecte la température de l'eau toutes les dix minutes, tandis que la bouée la plus récente collecte la température de l'eau toutes les trois minutes. La seule façon d'associer des données est de les exposer au moment de la capture via des métadonnées. Lorsque les scientifiques effectuent des analyses historiques, ils ont besoin de métadonnées pour pouvoir ajuster leurs modèles en conséquence. 3. Qualité De nombreux data scientists souhaitent utiliser des données provenant de sources externes. Cependant, il n’existe généralement aucun contrôle de qualité ni aucune assurance sur la manière de capturer les données brutes. Croyez-vous à l’exactitude des données externes ? C'est un bon exemple. Les capteurs installés sur les bouées flottant dans l’océan collectent des données sur la température de l’océan. Cependant, lorsque le capteur ne peut pas capter la température, il en enregistrera 999. De plus, avant 2000, seuls deux chiffres étaient utilisés pour enregistrer le nombre d'années. Cependant, après 2000, le nombre enregistré est passé à quatre. Par conséquent, nous devons comprendre la qualité des données et comment les préparer. Dans ce cas, les scientifiques analysant les données des bouées peuvent utiliser la moyenne, la moyenne, le minimum et le maximum pour visualiser les données originales, capturer ces erreurs de base de données et les nettoyer en conséquence. Collaboration sécurisée des données Si votre secteur doit constamment échanger des données avec des organisations externes, il est préférable d'ouvrir le code source de vos données et leur métaformat, car ces normes sont plus larges que de nombreuses normes propriétaires. Mieux encore, vous pouvez lancer un comité de normes ouvertes de l'industrie pour permettre à d'autres de participer et de contribuer. Un bon exemple est celui du « objectif ouvert », un « partenariat public-privé pour l'identification et la priorisation systématiques des cibles médicamenteuses à l'aide de données génétiques et génomiques humaines ». En particulier, la recherche sur l’écosystème des données est devenue très complexe. Les partenaires à l'intérieur et à l'extérieur de l'organisation doivent accéder rapidement aux données et simplifier la gestion des données. L’apprentissage automatique présente de nombreux défis. La première étape consiste à démarrer le projet avec les données et l’infrastructure appropriées. Comment commencer? La qualité, la rareté et l'intégrité des données affectent directement la précision du modèle final et constituent l'un des plus grands défis auxquels est confronté aujourd'hui l'apprentissage automatique. Les organisations disposant de définitions de données et de politiques claires et explorant des normes de données spécifiques à leur secteur bénéficieront de projets à court et à long terme. Si ce n’est pas le cas, votre organisation doit d’abord définir sa propre politique de collecte de données et son format de métadonnées, puis appliquer une technologie de sécurité standard. La qualité et la rareté des données vont de pair. Ensuite, définissez la politique de métadonnées et assurez-vous que les données qualitatives capturées peuvent être utilisées pour vérifier l'efficacité des données. Enfin, afin de garantir l'intégrité des données, vous pouvez générer des données. Lors de l'application de certificats numériques, SSL doit être appliqué lors de la transmission et le cryptage doit toujours être activé.