Big Data Scientist / Analyst

0

Ktoś tu sie tym zajmuje? Mógłby podać czym to się mniej więcej obecnie je? Jakie podstawy matematyczne trzeba mieć?

0

Raczej wszystkiego z tego nie będziesz potrzebował, ale tutaj masz w miarę ładnie rozpisane jak to wygląda:

http://nirvacana.com/thoughts/wp-content/uploads/2013/07/RoadToDataScientist1.png

1

Według mnie jeśli chodzi o matematykę, to na początek trzeba orientować się w takich działach jak:

  • algebra liniowa
  • statystyka
    potem przydatna jest jeszcze analiza matematyczna (np. umieć policzyć pochodną szeregu)

Natomiast uważam że ciekawym pomysłem może być wystartowanie od ML, wybierasz sobie jakiś problem:

  • rozpoznawanie ręcznie napisanych cyfr za pomocą algorytmu kNN
  • czytasz jak działa algorytm (starasz się to zrozumieć)
  • piszesz program wykorzystując gotowe biblioteki (np. http://scikit-learn.org/)
  • starasz się w jakiś sposób zwizualizować wynik
  • samodzielnie implementujesz algorytm kNN (doczytując teorię)

Taki problem możesz rozwijać dalej:

  • zamiast za każdym razem wyliczać dane z obrazka (wyciągać zmienne z obserwacji), może warto je gdzieś zapisać (a co jak tych danych będzie miliard)
  • może podczas dodawania nowego obrazka od razu go rozpoznawać
  • jak poradzić sobie ze znajdowaniem sąsiadów w dużej ilość obserwacji (policzenie odległości z każdym sąsiadem w wielowymiarowej przestrzeni)
    itd

Bo zaczynając od rozwiązywania samych zadań z algebry i statystyki można się szybko znudzić - brak efektów to często brak dalszej motywacji.

0
artur_waw napisał(a):

Według mnie jeśli chodzi o matematykę, to na początek trzeba orientować się w takich działach jak:

  • algebra liniowa
  • statystyka
    potem przydatna jest jeszcze analiza matematyczna (np. umieć policzyć pochodną szeregu)

Natomiast uważam że ciekawym pomysłem może być wystartowanie od ML, wybierasz sobie jakiś problem:

  • rozpoznawanie ręcznie napisanych cyfr za pomocą algorytmu kNN
  • czytasz jak działa algorytm (starasz się to zrozumieć)
  • piszesz program wykorzystując gotowe biblioteki (np. http://scikit-learn.org/)
  • starasz się w jakiś sposób zwizualizować wynik
  • samodzielnie implementujesz algorytm kNN (doczytując teorię)

Taki problem możesz rozwijać dalej:

  • zamiast za każdym razem wyliczać dane z obrazka (wyciągać zmienne z obserwacji), może warto je gdzieś zapisać (a co jak tych danych będzie miliard)
  • może podczas dodawania nowego obrazka od razu go rozpoznawać
  • jak poradzić sobie ze znajdowaniem sąsiadów w dużej ilość obserwacji (policzenie odległości z każdym sąsiadem w wielowymiarowej przestrzeni)
    itd

Bo zaczynając od rozwiązywania samych zadań z algebry i statystyki można się szybko znudzić - brak efektów to często brak dalszej motywacji.

Czyli to takie szukanie "klastrów" w wielowymiarowych przestrzeniach tworzonych przez dane?

0

Ja zauważyłem, że zagranicą jest coraz więcej ofert dla Data Scientist, zarobki podobne do programisty. Jak myślicie co będzie w przyszłości (w Polsce i na świecie) bardziej pożądane? Data Scientist czy Programista?

0

Najbardziej pożądane będą osoby potrafiące w praktyce połączyć obie specjalności.

0

Powiem wam, jak to wygląda z mojego punktu widzenia, czyli menedżera. Dzieciakom znudzonym programowaniem wydaje się, że jak już potrafią napisać prosty klasyfikator w R (na co wystarczą 2-3 linie kodu), to mogą aplikować na stanowisko Data Scientist, a jak przychodzi do rozmowy rekrutacyjnej, to oczka pląsają się przy pytaniach przykładowo o wartość oczekiwaną, eigenvectory, law of the unconscious statistician, albo Mallows’ Cp. Zarobki w SV są podobne do zarobków programisty z jednego powodu - trzeba mieć z 10 lat doświadczenia w statystyce, pisanie czystego i wydajnego kodu jest na plus, ale tylko najlepsi mają te dwie cechy.

Dlatego najlepsi data scientyści są po studiach ze statystyki, ekonomii, fizyki czy matematyki.

Z drugiej strony, można pracować jako Data Engineer, i tutaj osoby po bazach danych będą się dobrze czuły, choć jest cała masa nowej technologii do nauki (która to, swoją drogą, po półtora roku jest już nieaktualna).

Tytuł tego wątku też jest ciekawy - pierwszy człon opisuje stanowisko, które nie istnieje, a drugi to zwykły analityk danych :)

0
Świetny Orzeł napisał(a):

Powiem wam, jak to wygląda z mojego punktu widzenia, czyli menedżera. Dzieciakom znudzonym programowaniem wydaje się, że jak już potrafią napisać prosty klasyfikator w R (na co wystarczą 2-3 linie kodu), to mogą aplikować na stanowisko Data Scientist, a jak przychodzi do rozmowy rekrutacyjnej, to oczka pląsają się przy pytaniach przykładowo o wartość oczekiwaną, eigenvectory, law of the unconscious statistician, albo Mallows’ Cp.

Ej no, eigenvectory i wartość oczekiwania to pierwszy maks drugi rok informatyki ( przynajmniej tej uniwersyteckiej ). Aż tak słabo?
Ogólnie mów do mnie jeszcze jak możesz na temat algebry i statystyki. Rozwiązywanie układów równań, dopasowania funkcji, interpolacje? Analiza szeregów czasowych?

0
Jara mnie matma napisał(a):

Ej no, eigenvectory i wartość oczekiwania to pierwszy maks drugi rok informatyki ( przynajmniej tej uniwersyteckiej ). Aż tak słabo?

Wartość oczekiwana to liceum. Tylko większość ludzi tego nie pamięta. Nie zdziwiłbym się, gdyby większość nie pamiętała nawet tego, jak się mnoży macierze.
A, że do tego każdy programista wie, iż wiedza ze studiów się do pracy nie przydaje (co jest prawdą w przypadku typowych programistów), to potem przejście w kierunku bardziej zaawansowanej informatyki jest trudne.

0
CharField napisał(a):

Witam,

Za tydzien czeka mnie rozmowa na stanowisko Data Scientist.

Rozmowa kwalifikacyjna ma miec forme: case study scenario to be prepared and presented...

czego sie mozna spodziewac po takiej formie interview na takie stanowisko?

Wszystkiego. Jedna firma może wymagać jakichś podstawowych podstaw, inna zaś może cię przemaglować wte wewte i nazad. Sądzę, że coś algebry i klastrowania to będzie pewnik. Ale ja dziedzinę data science ledwo liznąłem, więc się tym nie kieruj nadto.

0

Ale to, że to był pierwszy lub drugi rok informatyki właśnie ma sens w tym kontekście. Mało kto zajmujący się potem programowaniem pamięta takie rzeczy jak były one omawiane parę lat temu. Ja kończyłam ekonometrię, ale teraz za bardzo w analizie statystycznej nie siedzę i o ile wartość oczekiwana to spoko, to już na pewno bym wektorów własnych bez przygotowania nie opisała... - Aaqilah 2016-04-23 19:57

Czyli aplikować na posadę świeżo po kursach matematycznych? Oczywiście ogarniającu już jako tako programowanie i algorytmy? He, he ciekawa perspektywa. Szkoda, że nie miałem takiej wiedzy o rynku pracy jak byłem na 2gim roku. xD

0

Czym innym jest:
-nauka teoretyczna danego obszaru wiedzy i zrozumienie go,
-czym innym nauka teorii i brak zrozumienia,
-a jeszcze czym innym praktyka ze znajomością teorii,
-lub praktyka BEZ dokładnej znajomości teorii która jest pod spodem.
Od tego w ogóle wypadało by zacząć precyzowanie "trudności" wykonywania danego zawodu jako takiego jak np. DataScientist czy nawet zwykły Analityk.

Taka szybka analogia dla zwizualizowania tego o czym piszę :

Kto wybierze lepsze opony samochodowe ? :

Kowalski czy Inżynier produkujący oponę = oczywiście Inzynier

Inżynier czy kierowca rajdowy = oczywiście, że kierowca

Kowalski = Losowy człowiek bez wiedzy i umiejętności

Inżynier = Osoba posiadająca wiedzę praktyczną zdobytą w zakresie ogólnym- systemowym.

Kierowca Rajdowy = Osoba korzystająca z wyników obecnej nauki, podnosząca swoje umiejętności empirycznie testując teorie i założenia - Zdarza się ,że
posiada wykształcenie formalne .

Sam jest tego dosyć dobrym przykładem. Nigdy nie lubiłem matematyki :) uczyłem się tylko tego co było mi potrzebne w danym momencie.
Studiowałem Filozofię - z zamiłowania nie z przymusu.

Moja pasja przekuła się na pracę i w taki sposób ponad 8 lat pracowałem jak zawodowy Pokerzysta (na początku ucząc się tylko NIEZBĘDNEJ matematyki).
Z takimi pojęciami jak: wartość oczekiwana / wariancja , roi/ror czy samo equity + olbrzymia ilość statystyk i DANYCH matematyczno/socjologicznych miałem styczność PRAKTYCZNĄ non stop - budowałem na tym strategie/ koncepty , podejmowałem decyzje itp. itd.

Te wszystkie rzeczy w odniesieniu do Biznesu czystemu Matematykowi czy Fizykowi nie mówią NIC - choć wie on dużo lepiej co się dzieje pod spodem samego wyniku.

Przebranżawiam się właśnie w kierunku DataScience ucząc sie korzystania z narzędzi i widzę ,że braki wiedzy PRAKTYCZNEJ są ogromne. Po prostu ludzie nie wiedzą (bo w sumie niby skąd) co i w jaki sposób ma konkretny impakt na rzeczywistość - są w stanie wyciągać masę statystyk ale z nich źle korzystają lub źle interpretują wyniki bądź korelacje między nimi.

Dla przykładu proces korzystania ze statystyk solidnego wygrywającego pokerzysty wygląda następująco:

  1. zaczyna BEZ huda i statystyk = uczy się działać w oparciu jak najbardziej ogólne informacje....

  2. dodaje HUDa w nim podstawowe statystyki - ok 3-4

  3. z czasem dodaje ich więcej i często ich ilość waha się od 8-20 (to etap największych błędów i eksperymentów)

4.w trakcie zdobywania doświadczenia std. zostawia tylko najbardziej potrzebne statystyki 6-10 i zagłębia się w dokładniejsze w razie potrzeby

Na rynku widać brak 1. a za dużo procesu nr 3.

0
ZwiedzamSoft napisał(a):

Czym innym jest:
-nauka teoretyczna danego obszaru wiedzy i zrozumienie go,
-czym innym nauka teorii i brak zrozumienia,
-a jeszcze czym innym praktyka ze znajomością teorii,
-lub praktyka BEZ dokładnej znajomości teorii która jest pod spodem.
Od tego w ogóle wypadało by zacząć precyzowanie "trudności" wykonywania danego zawodu jako takiego jak np. DataScientist czy nawet zwykły Analityk.

Taka szybka analogia dla zwizualizowania tego o czym piszę :

Kto wybierze lepsze opony samochodowe ? :

Kowalski czy Inżynier produkujący oponę = oczywiście Inzynier

Inżynier czy kierowca rajdowy = oczywiście, że kierowca

Kowalski = Losowy człowiek bez wiedzy i umiejętności

Inżynier = Osoba posiadająca wiedzę praktyczną zdobytą w zakresie ogólnym- systemowym.

Kierowca Rajdowy = Osoba korzystająca z wyników obecnej nauki, podnosząca swoje umiejętności empirycznie testując teorie i założenia - Zdarza się ,że
posiada wykształcenie formalne .

Sam jest tego dosyć dobrym przykładem. Nigdy nie lubiłem matematyki :) uczyłem się tylko tego co było mi potrzebne w danym momencie.
Studiowałem Filozofię - z zamiłowania nie z przymusu.

Moja pasja przekuła się na pracę i w taki sposób ponad 8 lat pracowałem jak zawodowy Pokerzysta (na początku ucząc się tylko NIEZBĘDNEJ matematyki).
Z takimi pojęciami jak: wartość oczekiwana / wariancja , roi/ror czy samo equity + olbrzymia ilość statystyk i DANYCH matematyczno/socjologicznych miałem styczność PRAKTYCZNĄ non stop - budowałem na tym strategie/ koncepty , podejmowałem decyzje itp. itd.

Te wszystkie rzeczy w odniesieniu do Biznesu czystemu Matematykowi czy Fizykowi nie mówią NIC - choć wie on dużo lepiej co się dzieje pod spodem samego wyniku.

Przebranżawiam się właśnie w kierunku DataScience ucząc sie korzystania z narzędzi i widzę ,że braki wiedzy PRAKTYCZNEJ są ogromne. Po prostu ludzie nie wiedzą (bo w sumie niby skąd) co i w jaki sposób ma konkretny impakt na rzeczywistość - są w stanie wyciągać masę statystyk ale z nich źle korzystają lub źle interpretują wyniki bądź korelacje między nimi.

Dla przykładu proces korzystania ze statystyk solidnego wygrywającego pokerzysty wygląda następująco:

  1. zaczyna BEZ huda i statystyk = uczy się działać w oparciu jak najbardziej ogólne informacje....

  2. dodaje HUDa w nim podstawowe statystyki - ok 3-4

  3. z czasem dodaje ich więcej i często ich ilość waha się od 8-20 (to etap największych błędów i eksperymentów)

4.w trakcie zdobywania doświadczenia std. zostawia tylko najbardziej potrzebne statystyki 6-10 i zagłębia się w dokładniejsze w razie potrzeby

Na rynku widać brak 1. a za dużo procesu nr 3.

No to jest normalne, że wiedza praktyczna i umiejętności praktyczne pomagają w praktyce zawodowej. Poematów na ten temat pisać nie ma potrzeby. :P

0

@ZwiedzamSoft czy moglbys polecic jakas ciekawa ksiazke, ktora wprowadzi taki tryb myslenia. Napisales o wykorzystywaniu tego w praktyce. Moze spotkales sie z jakas pozycja, ktora szczegolnie przypadla Tobie do gustu i uwazasz ja za warta uwagi.

0
Skromny Młot napisał(a):

@ZwiedzamSoft czy moglbys polecic jakas ciekawa ksiazke, ktora wprowadzi taki tryb myslenia. Napisales o wykorzystywaniu tego w praktyce. Moze spotkales sie z jakas pozycja, ktora szczegolnie przypadla Tobie do gustu i uwazasz ja za warta uwagi.

Jest kilka, absolutną podstawą do ogólnego zrozumienia celu/sposobu/rodzaju działalności człowieka jest :

-Cybernetyka i Charakter | Marian Mazur

Polecam w ogóle zainteresować się cybernetyką, zaoszczędzi się przy tym masę czasu na poszukiwaniu tej wiedzy dopiero w momencie opanowania przez Nas konkretnej dziedziny.

-The Poker Mindset: Essential Attitudes for Poker Success | Matthew Hilger ,‎ Ian Taylor
-Mental game of Poker
Wbrew pozorom książka nie jest o pokerze ! ... tylko o wdrażaniu odpowiedniego mindsetu niezbędnego w każdej dziedzinie życia - polecam obie części

-Mental Edge | Leszek "Lechrumski" Badurowicz
Alternatywą jest książka odrobinę bliższa Pokerowi aczkolwiek dalej w kierunku mindsetu napisana przez Psychologa, Pokerzystę/Szachistę.

-Tells and psychology | Joe Navarro

Te pozycje dadzą zarys matematyczno-psychologiczno-socjologiczny do wykorzystania w wielu dziedzinach życia zawodowo-społecznego ....

0

@ZwiedzamSoft ogromne dzieki za Twoj post, to jest wlasnie cos czego szukalem.

1 użytkowników online, w tym zalogowanych: 0, gości: 1