Python, NumPy, szybkie operacje wektorowe.

0

Piszę kod w pythonie który ma być bardzo szybki, tzn. walczę o każdą dziesiętną sekundy. Wąskim gardłem jest operacja potęgowania element po elemncie na macierzy. Operuję na 3 macierzach (x, y, z), właściwie to tablicach NumPy wymiaru n x n, gdzie n in [1000, 10000]. Chcę przyśpieszyć operację która zabiera 1/2 całego wykonania (wynikiem jest tablica t, rozmiaru n x n), istnieją jakieś sposoby na przyśpieszenie tej operacji (korzystając tylko z NumPy)?

    
    EPS = 1e-7
    t = ((x**2 + y**2 + z**2) ** 1.5 + EPS) 
0

Spróbuj zmienić składnie operacji, żeby zmniejszyć ilość kopiowania (zmień na =, +=), sprawdź czy xx (lub x*=x) nie będzie szybsze niż x.pow(2) (lub x.ipow(2)). Zobacz jak na szybkość wpływa zmiana typu na np.float (czy dokładność jest akceptowalna). Możesz też użyć MKL od intela (płatne do zastosowań komercyjnych).

0

Wszystko jest floatami. Próbując różnymi operacjami doprowadziłem to do najlepszej wersji jaką udało mi się uzyskać (proste operacje i zmiana kolejności, np. wykorzystanie funkcji numpy.sqrt() itp). Nieznajomość dobrze pythona wpływa, że nie wiem jak te operacje są zaimplementowane, tzn. widzę mniej więcej ewaluazje + i *, ile tam dokładnie kopii powstanie? 8 byłoby gdyby przy każdej operacji robił kopie, co wydaję się być bardzo nieoptymalne. Pewnie jest to zaimplementowane bardziej inteligentnie. Zmienne x,y,z mają zostać niezmienione.

0

Wydaje mi się, że akurat numpy robi kopię bardzo liberalnie. Inteligentna implementacja byłaby wolna dla małych tablic, z drugiej strony np. przemnożenie dużych macierzy jest o wiele wolniejsze niż kopiowanie. W tym przypadku wydaje mi się, że jeżeli **2 jest specjalnym przypadkiem (całkiem możliwe, sprawdź jak to wygląda), to lwią część program spędza na **1.5. Jest to pewnie zdecydowanie wolniejsze, niż te wszystkie kopiowania razem wzięte.

Zastanów się, czy na pewno dla całego miliona liczb chcesz robić potęgowanie. Jeżeli na tych liczbach robisz potem np. porównanie, to ta operacja może być pominięta. Pokaż więcej kodu.

Możesz też użyć weave ze scipy, szczególnie weave.blitz. Więcej o tym na http://www.scipy.org/PerformancePython.

0

Co do implementacji, małe tablice mogą być wyifowane, ale nie wiem jak jest. Tak, najwięcej czasu zabiera podnoszenie do potęgi 1.5. Dla n = 1000, cały program 3.1sek, 0.4sek policzenie sumy potęg x, y, z, 1.4 sek policzenie potęgi 1.5. Minimalnie czas poprawiłem przez zamianę na *=. Implementacja, "a" jest postaci [ a0, a1, a2, a3], gdzie ai jest tablicą rozmiaru n x n, stworzoną przez NumPy, na tablicy "w" na końcu robię sumy wierszy, więc potrzebuję ją całą.

 def compute(a): 

    # np. x[i][j] = a[0][j] - a[0][i]
    x = a[0] - a[0][numpy.newaxis, :].T
    y = a[1] - a[1][numpy.newaxis, :].T 
    z = a[2] - a[2][numpy.newaxis, :].T
    
    EPS = 1e-7
    # t = ((x**2 + y**2 + z**2) ** 1.5 + EPS) 
    
    t = x*x 
    t += y**2
    t += z**2
    t = pow(r, 1.5)
    t += EPS
    w = a[3] / t
   
    ...
0

Ja bym jeszcze spróbował to zmienić na t*=np.sqrt(t), może być szybsze.

0

Tfu, tablica "a" to jest [a0, a1, a2, a3], gdzie ai jest losowo wygenerowaną tablicą 1 x n, poniżej zamieszczam kluczową cześć kodu.

 
def compute(a):

    x = a[0] - a[0][numpy.newaxis, :].T
    y = a[1] - a[1][numpy.newaxis, :].T 
    z = a[2] - a[2][numpy.newaxis, :].T
    
    EPS = 1e-7
    w = a[3] / ((x**2 + y**2 + z**2) ** 1.5 + EPS) 

    a[0] += numpy.add.reduce((w * x), axis = 1)
    a[1] += numpy.add.reduce((w * y), axis = 1)
    a[2] += numpy.add.reduce((w * z), axis = 1)

0

Poprawiłem trochę kod i działa lepiej :) Kluczowa operacja, którą nie wiem jak przeoczyłem to t = t * sqrt(t), niestety po wykananiu t *= sqrt(t) otrzymałem dużo błędów, ktoś wie dlaczego ta druga operacja nie działa?

....
Warning: invalid value encountered in multiply
Warning: invalid value encountered in multiply
Warning: divide by zero encountered in divide
Warning: invalid value encountered in multiply
Warning: invalid value encountered in multiply
...

Inne sugestie również mile widziane.

Tzn. te macierze są wylosowane, więc jednak może się zdarzyć, że wartość t jest zerowa, jednak puściłem to na niezerowym teście.

1 użytkowników online, w tym zalogowanych: 0, gości: 1