Inquiry
Form loading...
Machine Learning เผชิญกับความท้าทายอะไรบ้างในด้านข้อมูล

ข่าวอุตสาหกรรม

Machine Learning เผชิญกับความท้าทายอะไรบ้างในด้านข้อมูล

08-12-2023
12 ความสำคัญของข้อมูลสำหรับการเรียนรู้ของเครื่องเป็นที่รู้กันดี การทำความเข้าใจรูปแบบการเข้าถึงข้อมูลจะช่วยให้นักวิทยาศาสตร์ข้อมูลสามารถกำหนดโครงสร้างพื้นฐานการจัดเก็บข้อมูลที่เหมาะสมสำหรับโครงการของตนได้ โครงสร้างพื้นฐานข้อมูลทำให้การเรียนรู้ของเครื่องเป็นไปได้ อย่างไรก็ตาม เมื่อใช้แล้ว แมชชีนเลิร์นนิงจะเผชิญกับความท้าทายด้านข้อมูลที่สำคัญ ซึ่งจำเป็นต้องแก้ไขเป็นอันดับแรก ได้แก่ ความสมบูรณ์ ความกระจัดกระจาย และคุณภาพ 1. ความสมบูรณ์ ความสมบูรณ์ของข้อมูลคือการรับประกันความถูกต้องและความสม่ำเสมอของข้อมูล ห่วงโซ่ข้อมูลในการดูแลถือเป็นสิ่งสำคัญในการพิสูจน์ว่าข้อมูลจะไม่ถูกบุกรุกในขณะที่เคลื่อนย้ายผ่านไปป์ไลน์และสถานที่ต่างๆ เมื่อการจับและการนำเข้าข้อมูลอยู่ภายใต้การควบคุม คุณสามารถตรวจสอบความสมบูรณ์ของข้อมูลได้ค่อนข้างง่ายดาย อย่างไรก็ตาม เมื่อทำงานร่วมกับผู้อื่น การตรวจสอบยืนยันทำได้ยาก เมื่อสร้างข้อมูล ไม่มีใบรับรองความปลอดภัยสำหรับข้อมูลภายนอก คุณไม่สามารถมั่นใจได้ว่าบันทึกข้อมูลตรงกับที่คุณคาดหวังไว้ หรือข้อมูลที่ได้รับจะเหมือนกับบันทึกต้นฉบับทุกประการ มีแนวคิดที่น่าสนใจบางประการเกี่ยวกับข้อมูล IOT และบล็อกเชน แต่ก่อนที่แนวคิดนี้จะถูกนำมาใช้อย่างกว้างขวาง ความสมบูรณ์ของข้อมูลจะขึ้นอยู่กับการผสมผสานระหว่างเทคโนโลยีและกลยุทธ์ด้านความปลอดภัย ตัวอย่างเช่น เนื่องจากข้อมูลอาจถูกคุกคามระหว่างแบบคงที่หรือการส่งผ่าน ข้อมูลที่ส่งผ่านเครือข่ายจึงควรใช้ HTTPS และถูกเข้ารหัสเมื่อเป็นแบบคงที่ ในทางกลับกัน การควบคุมการเข้าถึงควรขับเคลื่อนด้วยนโยบายเพื่อหลีกเลี่ยงข้อผิดพลาดของมนุษย์ 2. ความกระจัดกระจาย ในกรณีนี้ ความกระจัดกระจายจะมีผลกับข้อมูลเมตา โดยทั่วไป ฟิลด์ข้อมูลเมตาจะไม่สมบูรณ์ บางช่องกรอกข้อมูลแล้ว และบางช่องเว้นว่างไว้ หากข้อมูลถูกสร้างขึ้นจากแหล่งเดียว อาจเกิดจากการขาดบรรทัดฐานหรือความรู้ของมนุษย์ อย่างไรก็ตาม หากข้อมูลมาจากแหล่งต่างๆ โดยไม่มีคำจำกัดความมาตรฐานของข้อมูลเมตา แต่ละชุดข้อมูลอาจมีฟิลด์ที่แตกต่างกันโดยสิ้นเชิง ดังนั้นเมื่อรวมเข้าด้วยกัน ฟิลด์ที่กรอกแล้วอาจไม่สอดคล้องกัน ปัจจุบันยังไม่มีมาตรฐานอุตสาหกรรมสำหรับข้อมูลเมตาที่จะบันทึก อย่างไรก็ตาม เมตาดาต้ามีความสำคัญพอๆ กับตัวข้อมูลเอง คุณจะเชื่อมโยงและกรองข้อมูลอย่างไรเมื่อคุณมีข้อมูลประเภทเดียวกันที่เติมฟิลด์ข้อมูลเมตาต่างกัน หากคุณใช้ทุ่นเป็นตัวอย่าง เซ็นเซอร์ข้อมูลเริ่มต้นจะเก็บอุณหภูมิของน้ำทุกๆ สิบนาที ในขณะที่ทุ่นรุ่นใหม่จะเก็บอุณหภูมิของน้ำทุกๆ สามนาที วิธีเดียวที่จะเชื่อมโยงข้อมูลคือการเปิดเผยข้อมูลในเวลาที่บันทึกผ่านเมตาดาต้า เมื่อนักวิทยาศาสตร์ทำการวิเคราะห์ทางประวัติศาสตร์ พวกเขาจำเป็นต้องมีข้อมูลเมตาเพื่อที่จะสามารถปรับแบบจำลองของตนให้สอดคล้องกันได้ 3. คุณภาพ นักวิทยาศาสตร์ข้อมูลจำนวนมากต้องการใช้ข้อมูลจากแหล่งภายนอก อย่างไรก็ตาม โดยปกติจะไม่มีการควบคุมคุณภาพหรือการรับประกันเกี่ยวกับวิธีการรวบรวมข้อมูลดิบ คุณเชื่อในความถูกต้องของข้อมูลภายนอกหรือไม่? นี่เป็นตัวอย่างที่ดี เซ็นเซอร์บนทุ่นที่ลอยอยู่ในมหาสมุทรจะรวบรวมข้อมูลเกี่ยวกับอุณหภูมิของมหาสมุทร อย่างไรก็ตาม เมื่อเซ็นเซอร์ไม่สามารถเก็บอุณหภูมิได้ ก็จะบันทึกเป็น 999 นอกจากนี้ ก่อนปี 2000 มีการใช้ตัวเลขเพียง 2 หลักในการบันทึกจำนวนปี อย่างไรก็ตาม หลังจากปี 2000 จำนวนที่บันทึกไว้ได้เปลี่ยนเป็นสี่ เราจึงต้องเข้าใจคุณภาพของข้อมูลและวิธีเตรียมข้อมูล ในกรณีนี้ นักวิทยาศาสตร์ที่วิเคราะห์ข้อมูลทุ่นสามารถใช้ค่าเฉลี่ย ค่าเฉลี่ย ค่าต่ำสุด และค่าสูงสุดในการแสดงข้อมูลต้นฉบับเป็นภาพ จับข้อผิดพลาดของฐานข้อมูลเหล่านี้ และทำความสะอาดตามนั้น การทำงานร่วมกันของข้อมูลอย่างปลอดภัย หากอุตสาหกรรมของคุณจำเป็นต้องแลกเปลี่ยนข้อมูลกับองค์กรภายนอกอย่างต่อเนื่อง วิธีที่ดีที่สุดคือเปิดซอร์สโค้ดของข้อมูลและรูปแบบเมตาของคุณ เนื่องจากมาตรฐานเหล่านี้กว้างกว่ามาตรฐานที่เป็นกรรมสิทธิ์หลายมาตรฐาน ยิ่งไปกว่านั้น คุณยังสามารถเปิดตัวคณะกรรมการมาตรฐานแบบเปิดของอุตสาหกรรมเพื่อให้ผู้อื่นมีส่วนร่วมและมีส่วนร่วมได้ ตัวอย่างที่ดีคือ "เป้าหมายที่เปิดกว้าง" ซึ่งเป็น "ความร่วมมือระหว่างภาครัฐและเอกชนในการระบุและจัดลำดับความสำคัญของเป้าหมายยาอย่างเป็นระบบโดยใช้ข้อมูลทางพันธุกรรมและจีโนมของมนุษย์" โดยเฉพาะอย่างยิ่งการวิจัยเกี่ยวกับระบบนิเวศของข้อมูลมีความซับซ้อนสูง พันธมิตรทั้งภายในและภายนอกองค์กรจำเป็นต้องเข้าถึงข้อมูลอย่างรวดเร็วและทำให้การจัดการข้อมูลง่ายขึ้น การเรียนรู้ของเครื่องมีความท้าทายมากมาย ขั้นตอนแรกคือการเริ่มต้นโครงการด้วยข้อมูลและโครงสร้างพื้นฐานที่ถูกต้อง จะเริ่มต้นอย่างไร? คุณภาพของข้อมูล ความกระจัดกระจาย และความสมบูรณ์ส่งผลโดยตรงต่อความแม่นยำของโมเดลขั้นสุดท้าย และเป็นหนึ่งในความท้าทายที่ใหญ่ที่สุดที่แมชชีนเลิร์นนิงต้องเผชิญในปัจจุบัน องค์กรที่มีคำจำกัดความข้อมูล นโยบาย และการสำรวจมาตรฐานข้อมูลเฉพาะอุตสาหกรรมที่ชัดเจนจะได้รับประโยชน์จากโครงการระยะสั้นและระยะยาว หากคุณยังไม่ได้กำหนด องค์กรของคุณควรกำหนดนโยบายการรวบรวมข้อมูลและรูปแบบข้อมูลเมตาของตนเองก่อน จากนั้นจึงใช้เทคโนโลยีความปลอดภัยมาตรฐาน คุณภาพของข้อมูลและความกระจัดกระจายเป็นของคู่กัน จากนั้น ให้กำหนดนโยบายเมตาดาต้าและตรวจสอบให้แน่ใจว่าข้อมูลเชิงคุณภาพที่บันทึกไว้สามารถนำมาใช้ในการตรวจสอบประสิทธิภาพของข้อมูลได้ สุดท้าย เพื่อให้มั่นใจในความสมบูรณ์ของข้อมูล คุณสามารถสร้างข้อมูลได้ เมื่อใช้ใบรับรองดิจิทัล ควรบังคับใช้ SSL ในระหว่างการส่ง และควรเปิดใช้งานการเข้ารหัสเสมอ