banner large

Cara memaksimalkan investasi AI/ML Anda: Mulailah dengan infrastruktur data Anda

Comment
X
Share

Kami sangat antusias untuk menghadirkan Transform 2022 kembali secara langsung pada 19 Juli dan 20 – 28 Juli secara virtual. Bergabunglah dengan AI dan pemimpin data untuk pembicaraan yang berwawasan luas dan peluang jaringan yang menarik. Daftar hari ini!


Era Big Data telah membantu mendemokratisasi informasi, menciptakan banyak data, dan meningkatkan pendapatan di perusahaan berbasis teknologi. Tetapi untuk semua kecerdasan ini, kami tidak mendapatkan tingkat wawasan dari bidang pembelajaran mesin yang diharapkan, karena banyak perusahaan berjuang untuk membuat proyek pembelajaran mesin (ML) dapat ditindaklanjuti dan bermanfaat. Program AI/ML yang sukses tidak dimulai dengan tim ilmuwan data yang besar. Dimulai dengan infrastruktur data yang kuat. Data harus dapat diakses di seluruh sistem dan siap untuk dianalisis sehingga ilmuwan data dapat dengan cepat membuat perbandingan dan memberikan hasil bisnis, dan data harus dapat diandalkan, yang menunjukkan tantangan yang dihadapi banyak perusahaan saat memulai program ilmu data.

Masalahnya adalah banyak perusahaan yang terjun lebih dulu ke ilmu data, mempekerjakan ilmuwan data yang mahal, dan kemudian menemukan bahwa mereka tidak memiliki alat atau infrastruktur yang dibutuhkan ilmuwan data untuk berhasil. Peneliti bergaji tinggi akhirnya menghabiskan waktu untuk mengkategorikan, memvalidasi, dan menyiapkan data — alih-alih mencari wawasan. Pekerjaan infrastruktur ini penting, tetapi juga melewatkan kesempatan bagi ilmuwan data untuk memanfaatkan keterampilan mereka yang paling berguna dengan cara yang memberikan nilai tambah paling besar.

Tantangan dengan manajemen data

Ketika para pemimpin mengevaluasi alasan keberhasilan atau kegagalan proyek ilmu data (dan 87% proyek tidak pernah mencapai produksi), mereka sering kali menemukan bahwa perusahaan mereka mencoba untuk mencapai hasil tanpa membangun fondasi data yang andal. Jika mereka tidak memiliki dasar yang kuat, insinyur data dapat menghabiskan hingga 44% dari waktu mereka untuk memelihara saluran data dengan perubahan pada API atau struktur data. Membuat proses otomatis untuk mengintegrasikan data dapat memberikan waktu bagi para insinyur, dan memastikan perusahaan memiliki semua data yang mereka butuhkan untuk pembelajaran mesin yang akurat. Ini juga membantu memangkas biaya dan memaksimalkan efisiensi saat perusahaan membangun kemampuan ilmu data mereka.

Data yang sempit menghasilkan wawasan yang sempit

Pembelajaran mesin rumit — jika ada kesenjangan dalam data, atau tidak diformat dengan benar, pembelajaran mesin gagal berfungsi, atau lebih buruk lagi, memberikan hasil yang tidak akurat.

Ketika perusahaan berada dalam posisi yang tidak pasti tentang data mereka, sebagian besar organisasi meminta tim ilmu data untuk secara manual memberi label kumpulan data sebagai bagian dari pembelajaran mesin yang diawasi, tetapi ini adalah proses intensif waktu yang membawa risiko tambahan pada proyek. Lebih buruk lagi, ketika contoh pelatihan dipangkas terlalu jauh karena masalah data, ada kemungkinan cakupan sempit berarti model ML hanya dapat memberi tahu kita apa yang sudah kita ketahui.

Solusinya adalah memastikan tim dapat mengambil dari penyimpanan data terpusat yang komprehensif, mencakup berbagai sumber dan memberikan pemahaman bersama tentang data. Ini meningkatkan potensi ROI dari model ML dengan menyediakan data yang lebih konsisten untuk digunakan. Program ilmu data hanya dapat berkembang jika didasarkan pada data yang andal, konsisten, dan pemahaman tentang bilah kepercayaan untuk hasil.

Model besar vs. data berharga

Salah satu tantangan terbesar untuk program ilmu data yang sukses adalah menyeimbangkan volume dan nilai data saat membuat prediksi. Perusahaan media sosial yang menganalisis miliaran interaksi setiap hari dapat menggunakan volume besar tindakan yang relatif bernilai rendah (misalnya seseorang menggesek atau membagikan artikel) untuk membuat prediksi yang andal. Jika sebuah organisasi mencoba mengidentifikasi pelanggan mana yang kemungkinan akan memperbarui kontrak pada akhir tahun, maka kemungkinan besar organisasi tersebut bekerja dengan kumpulan data yang lebih kecil dengan konsekuensi yang besar. Karena butuh waktu satu tahun untuk mengetahui apakah tindakan yang direkomendasikan berhasil, ini menciptakan batasan besar untuk program ilmu data.

Dalam situasi ini, perusahaan perlu memecah silo data internal untuk menggabungkan semua data yang mereka miliki untuk mendorong rekomendasi terbaik. Ini mungkin termasuk informasi pihak nol yang ditangkap dengan konten yang terjaga keamanannya, data situs web pihak pertama, dan data dari interaksi pelanggan dengan produk, bersama dengan hasil yang berhasil, tiket dukungan, survei kepuasan pelanggan, bahkan data tidak terstruktur seperti umpan balik pengguna. Semua sumber data ini berisi petunjuk jika pelanggan akan memperbarui kontrak mereka. Dengan menggabungkan silo data di seluruh grup bisnis, metrik dapat distandarisasi, dan ada cukup kedalaman dan luas untuk membuat prediksi yang meyakinkan.

Untuk menghindari jebakan berkurangnya kepercayaan dan keuntungan dari program ML/AI, perusahaan dapat mengambil langkah-langkah berikut.

  1. Kenali di mana Anda berada — Apakah bisnis Anda memiliki pemahaman yang jelas tentang bagaimana ML berkontribusi pada bisnis? Apakah perusahaan Anda sudah menyiapkan infrastrukturnya? Jangan mencoba menambahkan penyepuhan mewah di atas data fuzzy – jelaskan dari mana Anda memulai, sehingga Anda tidak melompat terlalu jauh.
  2. Dapatkan semua data Anda di satu tempat — Pastikan Anda memiliki layanan cloud pusat atau data lake yang teridentifikasi dan terintegrasi. Setelah semuanya terpusat, Anda dapat mulai bertindak berdasarkan data dan menemukan perbedaan dalam keandalan.
  3. Merangkak-Berjalan-Berlari — Mulailah dengan urutan operasi yang tepat saat Anda membangun program ilmu data Anda. Pertama fokus pada analisis data dan Intelijen Bisnis, lalu bangun rekayasa data, dan terakhir, tim ilmu data.
  4. Jangan lupa dasar-dasarnya — Setelah semua data digabungkan, dibersihkan, dan divalidasi, Anda siap melakukan ilmu data. Tapi jangan lupa pekerjaan “housekeeping” yang diperlukan untuk mempertahankan fondasi yang akan memberikan hasil yang signifikan. Tugas-tugas penting ini termasuk berinvestasi dalam katalogisasi dan kebersihan data, memastikan untuk menargetkan metrik yang tepat yang akan meningkatkan pengalaman pelanggan, dan secara manual memelihara koneksi data antar sistem atau menggunakan layanan infrastruktur.

Dengan membangun infrastruktur yang tepat untuk ilmu data, perusahaan dapat melihat apa yang penting bagi bisnis, dan di mana titik butanya. Melakukan pekerjaan dasar terlebih dahulu dapat memberikan ROI yang solid, tetapi yang lebih penting, ini akan menyiapkan tim ilmu data untuk mendapatkan dampak yang signifikan. Mendapatkan anggaran untuk program ilmu data yang mencolok relatif mudah, tetapi ingat, sebagian besar proyek semacam itu gagal. Tidak mudah mendapatkan anggaran untuk tugas infrastruktur yang “membosankan”, tetapi manajemen data menciptakan fondasi bagi ilmuwan data untuk memberikan dampak paling berarti pada bisnis.

Alexander Lovell adalah kepala produk di Fivetran.

DataDecisionMakers

Selamat datang di komunitas VentureBeat!

DataDecisionMakers adalah tempat para ahli, termasuk orang-orang teknis yang melakukan pekerjaan data, dapat berbagi wawasan dan inovasi terkait data.

Jika Anda ingin membaca tentang ide-ide mutakhir dan informasi terkini, praktik terbaik, dan masa depan data dan teknologi data, bergabunglah dengan kami di DataDecisionMakers.

Anda bahkan mungkin mempertimbangkan untuk menyumbangkan artikel Anda sendiri!

Baca Lebih Lanjut Dari DataDecisionMakers

Leave a Reply

Your email address will not be published. Required fields are marked *