MARGO

Aktualności

Projekty z dziedziny Data Science to wciąż droga pełna przeszkód

Przegląd częstych pułapek, których należy unikać, aby z sukcesem realizować swoje projekty z obszaru Data Science

Autor: Pierre Farès Digital Offering & Business Transformation Officer @pierrefares

Obecnie firmy dużo szybciej i bardziej systematycznie muszą tworzyć innowacyjne produkty przystosowane do potrzeb ich klientów. Spełnienie tego warunku decyduje o zachowaniu lub powiększeniu ich udziału w rynku w związku ze stale zmieniającą się sytuacją gospodarczą. Zaawansowana analiza danych rynkowych i zachowań konsumentów umożliwia przewidywanie potrzeb klientów. Firma przykładająca należytą wagę do identyfikowania przyszłych zastosowań produktów, których oczekują jej klienci lub które wykraczają poza ramy obecnie funkcjonującego rynku, będzie mogła podejmować lepsze decyzje operacyjne w zakresie strategii i wyboru miejsca w swoim segmencie rynku. Analiza danych staje się więc ważniejszym niż kiedykolwiek stymulatorem wzrostu. Szacuje się, że w 2020 r. światowe inwestycje firm w projekty z dziedziny Data Science przekroczą 203 miliardy dolarów. Jednak w czasach, gdy wiele z nich pretenduje do miana „spółek działających w oparciu o dane”, wciąż wiele projektów tego typu kończy się niepowodzeniem. W większości przypadków porażki wynikają z dobrze znanych i powtarzalnych przyczyn! Oto analiza częstych pułapek, których bezwzględnie należy unikać.

 

Podejście skoncentrowane wyłącznie na technologii

Wiele projektów Data Science skupia się na wdrażaniu rozwiązań technologicznych (Data Lake, instalowanie klastrów Hadoop, wykorzystanie bazy danych NoSQL itd.), zapominając o ich celu, czyli potrzebach lub zastosowaniach, którym mają one służyć. W związku z tym inwestycje są czynione głównie w obszarze IT z pominięciem poszczególnych obszarów działalności i niewiele wnoszą z biznesowego punktu widzenia. Niekoniecznie oznacza to brak zwrotu z tych projektów, ponieważ przyczyniają się one do podniesienia kompetencji technicznych zespołów IT i dyrekcji usług informatycznych, jednak w skali całej firmy przynoszą stosunkowo niewielkie korzyści.

 

Wyniki uzyskane na podstawie modeli, których nie można wykorzystać na skalę przemysłową

Naukowcy od danych (data scientists) dysponują niezbędną wiedzą na temat modeli (analiza predyktywna, uczenie maszynowe itd.), ale zwykle mają niewielkie doświadczenie w zakresie rozwoju produktów, szczególnie w środowisku przemysłowym. Na ogół dostarczane przez nich skrypty tylko w niewielkim stopniu nadają się do wykorzystania przez zespoły IT. Z kolei specjaliści z dziedziny IT dobrze radzą sobie z różnymi aspektami wykorzystywania innowacji w przemyśle, jednak napotykają pewne trudności, gdy chodzi o zrozumienie mechanizmów i logiki modeli proponowanych przez naukowców danych, jako że nie zawsze rozumieją ograniczenia tych rozwiązań. Dlatego większość inicjatyw w zakresie Data Science przynosi wyniki nieprzystosowane do potrzeb i nadające się do wykorzystania tylko w niewielkim stopniu, tak w odniesieniu do analizy danych, jak i pracy nad wybranymi zastosowaniami. Projektowanie metod możliwych do zautomatyzowania i wdrożenia w przemyśle wymaga uczenia się przez obie strony: zarówno przez dział IT, jak i zespół ds. Data Science. Jest to warunek uzyskania regularności w realizacji efektywnych wdrożeń.

 

Brak spojrzenia z dystansem, analizy i przygotowania firmy

Firmy realizujące projekty z dziedziny Data Science często przyjmują założenie, że modele i działania do wdrożenia przypominają te, które już są im znane z projektów Business Intelligence, a zmieniają się tylko technologia i narzędzia. To prowadzi do utrzymania tej samej organizacji i rytmu prac projektowych, co w przeszłości. Jednakże Data Science to dyscyplina opierająca się na podejściu prospektywnym, włączając w to etapy poszukiwań i działania po omacku. W naszych czasach nie można już realizować projektów tak jak to miało miejsce dziesięć lat temu, czyli na podstawie wcześniej wykonanych badań, bez fazy odkrywania i współpracy naukowców od danych ze specjalistami z danej branży i z obszaru IT.

Niski poziom współpracy wynikający z różnic kulturowych wewnątrz firmy

Obecnie firmy, szczególnie duże koncerny, charakteryzują się wyraźnie silosową strukturą. Poszczególne działy w niewielkim stopniu korzystają z efektu synergii, funkcjonując w oparciu o własną kulturę i zwyczaje. Może to wywoływać pewne zamieszanie w sytuacji, gdy specjaliści z danej branży, zespół Data Science i dział IT kierują się różnymi celami, które sie nie zazębiają. Firmom brakuje jeszcze dojrzałości względem nowych koncepcji i metod zarówno w zakresie organizacji pracy, jak i przetwarzania danych. Aby wyeliminować tę uciążliwą dla innowacyjności barierę, wszystkie zespoły muszą się uczyć efektywniejszego współdziałania.

 

Brak mobilizacji na poszczególnych szczeblach organizacji

Choć kadra kierownicza najwyższego szczebla poświęca dużo uwagi projektom z obszaru Data Science, jej zaangażowanie w ten obszar jest wciąż zbyt niskie. Tymczasem powodzenie inicjatyw dotyczących pracy z danymi zależy również od wkładu osób zarządzających firmą. Cała struktura, od dyrekcji po zespoły operacyjne, musi być właściwie zorganizowana, aby wszyscy uczestnicy projektu dążyli do tych samych celów. Istotą tej organizacji mają być dobre praktyki wspólne dla wszystkich działów i umożliwiające podnoszenie kompetencji każdego zespołu, zaczynając od specjalistów z danej branży, a kończąc na IT.

 

Złożona inicjatywa

Projekt z zakresu Data Science to złożona inicjatywa, która wymaga jednocześnie architektury dostosowanej do przetwarzania dużych ilości danych (ustrukturyzowanych lub nie), użycia zaawansowanych technik statystycznych (sprawdzonych algorytmów, integracji analizy predyktywnej, uczenia się), jak również dostępu do wielu źródeł informacji (przechowywanie ich i zarządzanie nimi może odbywać się wewnątrz firmy lub poza nią, mogą też być współdzielone albo udostępniane dzięki inicjatywom typu Open Data lub Open API).

 

Jednak klucz do sukcesu leży gdzie indziej: jest to ustrukturyzowane podejście do problemu. Polega ono na przejściu przez precyzyjnie określone w czasie i zdefiniowane za pomocą dokładnie wytyczonych celów etapy (tworzenia idei, analizy przypadków użycia, eksperymentowania), co pozwoli uniknąć wyżej opisanych typowych pułapek. Realizacja trzech wymienionych etapów umożliwia ustalenie korzyści biznesowych z danego projektu jeszcze przed jego wejściem w fazę produkcji przemysłowej, i to z zachowaniem maksymalnych szans na powodzenie!

 


Autor: Pierre Farès Digital Offering & Business Transformation Officer @pierrefares
Big Data
Dane
Data to Business
Aktualności

Tutorial: Podstawy stosowania Pythona do prognozowania szeregów czasowych

W tutorialu wprowadzamy kilka podstawowych pojęć z zakresu szeregów czasowych, aby umożliwić „szybką” predykcję przyszłych wartości w odniesieniu do danych czasowych.

07/11/2018 Więcej 
Aktualności

Utworzenie scentralizowanej platformy zarządzania logami za pomocą pakietu narzędzi Elastic

Ilość danych generowanych przez nasze systemy i aplikacje stale rośnie, co powoduje wzrost liczby centrów danych i systemów przechowywania danych. W obliczu tej eksplozji danych i inwestycji w wiedzę fachową i zasoby, decydenci potrzebują uzasadnionych analiz i zaawansowanych tabel, umożliwiających im zarządzanie swoimi systemami i klientami.

04/06/2018 Więcej 
Aktualności

Data Science w świecie handlu detalicznego: 10 najważniejszych przypadków wykorzystania

Data Science w coraz większym stopniu wpływa na modele biznesowe we wszystkich gałęziach przemysłu, zwłaszcza w sprzedaży detalicznej. Według IBM, 62% detalistów deklaruje, że wykorzystanie technik związanych z Big Data daje im poważną przewagę konkurencyjną. Dzięki data sicence możemy sprawdzić, czego potrzebuje klient i w jakim momencie jest obecnie na wyciągnięcie ręki. Aby to zrobić, musimy jedynie posiadać odpowiednie narzędzia i wdrożyć dobre procedury związane z ich używaniem. W niniejszym artykule przedstawiamy 10 najważniejszych zastosowań data science w handlu detalicznym.

01/06/2018 Więcej 
Aktualności

Zegary Lamporta i wzorzec Idempotent Producer (Kafka)

Znacie zegary Lamporta? Podczas konferencji Devoxx France 2018 była okazja, w trakcie bardzo interesującej prezentacji DuyHai DOAN, do poznania lub ponownego poznania tego algorytmu, sformalizowanego przez Lesliego Lamporta w 1978 r., częściej niż kiedykolwiek używanego dzisiaj w dziedzinie systemów rozproszonych, który w szczególności skłonił twórców Apache Kafka do wprowadzenia wzorca Idempotent Producer.

25/05/2018 Więcej 
Aktualności

Wprowadzenie do TensorFlow na datalab od Google Cloud Platform

TensorFlow to biblioteka programów do obliczeń numerycznych, działająca na zasadzie open source od 2015 r., opracowana przez Google. Szczególną cechą TensorFlow jest wykorzystanie diagramów przepływu danych (data flow graphs).

11/05/2018 Więcej 
Aktualności

Salon Big Data 2018: co warto zapamiętać

Zgodnie z wynikami ankiety przeprowadzonej przez IDC, wartość obrotów na rynku Big Data powinna wynieść 203 mld dolarów już w roku 2020, w porównaniu z 130,1 mld w roku 2016.

30/03/2018 Więcej