Nauka i technika

Naukowcy z UCLA proponują PhyCV: inspirowaną fizyką bibliotekę Pythona do przetwarzania obrazu komputerowego

  • 22 stycznia, 2023
  • 4 min read
Naukowcy z UCLA proponują PhyCV: inspirowaną fizyką bibliotekę Pythona do przetwarzania obrazu komputerowego


Sztuczna inteligencja robi godne uwagi postępy w dziedzinie widzenia komputerowego. Jednym z kluczowych obszarów rozwoju jest głębokie uczenie się, w którym sieci neuronowe są szkolone na ogromnych zbiorach danych obrazów w celu rozpoznawania i klasyfikowania obiektów, scen i zdarzeń. Zaowocowało to znaczną poprawą rozpoznawania obrazu i wykrywania obiektów. Integracja wizji komputerowej z innymi technologiami otwiera różne bramy do nowych możliwości i zakresów dla sztucznej inteligencji.

W najnowszej innowacji Jalali-Lab @ UCLA opracował nową bibliotekę Pythona o nazwie PhyCV, która jest pierwszą biblioteką Pythona opartą na fizyce. Ta unikalna biblioteka wykorzystuje algorytmy oparte na prawach i równaniach fizycznych do analizy danych obrazkowych. Algorytmy te imitują sposób, w jaki światło przechodzi przez kilka materiałów fizycznych i opierają się na równaniach matematycznych, a nie na szeregu ręcznie opracowanych reguł. Algorytmy w PhyCV są zbudowane na zasadach metody szybkiego pozyskiwania danych zwanej fotonicznym rozciągnięciem czasu.

Trzy algorytmy zawarte w PhyCV to algorytm Phase-Stretch Transform (PST), algorytm Phase-Stretch Adaptive Gradient-Field Extractor (PAGE) oraz algorytm Vision Enhancement via Virtual dyfraction and coherent Detection (VEViD).

Warto przeczytać!  NCBA: Wskazówki dotyczące odbudowy stada krów

Algorytm transformacji fazowo-rozciągliwej (PST).

Algorytm PST biblioteki PhyCV identyfikuje krawędzie i tekstury na obrazach. Algorytm symuluje, w jaki sposób światło przechodzi przez urządzenie o określonych właściwościach dyfrakcyjnych, a następnie w sposób spójny wykrywa kolejny obraz. Algorytm działa najlepiej w przypadku obrazów z wadami wzroku i był używany w różnych zastosowaniach, w tym w zwiększaniu rozdzielczości skanów MRI, identyfikowaniu naczyń krwionośnych na obrazach siatkówki itp.

Algorytm PAGE (Adaptive Gradient-Field Extractor) z fazą i rozciągnięciem

Algorytm PAGE identyfikuje krawędzie i orientacje w obrazach przy użyciu zasad fizyki. Zasadniczo PAGE imituje proces przechodzenia światła przez urządzenie o określonej strukturze dyfrakcyjnej, co powoduje, że obraz przekształca się w złożoną funkcję. Informacje o krawędziach są przechowywane w rzeczywistej i urojonej składowej wyniku. Naukowcy wspominają, w jaki sposób PAGE można wykorzystać jako metodę przetwarzania wstępnego w różnych problemach związanych z uczeniem maszynowym.

Poprawa widzenia za pomocą algorytmu wirtualnej dyfrakcji i detekcji koherentnej (VEViD).

Algorytm VEViD improwizuje obrazy w słabym świetle i kolorowe, traktując je jako zmienne przestrzennie pole światła i wykorzystując procesy fizyczne, takie jak dyfrakcja i koherentna detekcja. Czyni to przy minimalnym opóźnieniu, dzięki czemu może zwiększyć dokładność komputerowego modelu wizyjnego w warunkach słabego oświetlenia. Szczególne przybliżenie VEViD, znane jako VEViD-lite, może ulepszyć wideo 4K z prędkością do 200 klatek na sekundę. Zespół badawczy porównał algorytm VEViD z popularnymi modelami sieci neuronowych, pokazując, w jaki sposób VEViD zapewnia wyjątkową jakość obrazu przy prędkości przetwarzania większej tylko o jeden do dwóch rzędów wielkości.

Warto przeczytać!  Następny krok w genetyce behawioralnej psów

PhyCV jest dostępny na GitHub i można go łatwo zainstalować za pomocą pip. Algorytmy w PhyCV można nawet zastosować w rzeczywistych urządzeniach fizycznych w celu uzyskania bardziej wydajnych obliczeń. PhyCV niewątpliwie wydaje się interesujące i stanowi znaczący postęp w dziedzinie wizji komputerowej. W związku z tym postępy w sztucznej inteligencji i wizji komputerowej zdecydowanie napędzają szeroką gamę zaawansowanych aplikacji.


Sprawdź GitHub oraz Projekt. Cała zasługa za te badania należy się badaczom tego projektu. Nie zapomnij też dołączyć nasza strona Reddit, Kanał Discordaoraz Biuletyn e-mailowygdzie dzielimy się najnowszymi wiadomościami z badań nad sztuczną inteligencją, fajnymi projektami AI i nie tylko.


Tanya Malhotra jest studentką ostatniego roku University of Petroleum & Energy Studies w Dehradun, studiuje BTech w inżynierii informatycznej ze specjalizacją w sztucznej inteligencji i uczeniu maszynowym.
Jest entuzjastką Data Science z dobrym myśleniem analitycznym i krytycznym, a także żywo zainteresowanym zdobywaniem nowych umiejętności, kierowaniem grupami i zarządzaniem pracą w sposób zorganizowany.

Warto przeczytać!  Prognoza rynkowa genetyki bydła na lata 2023-28: analiza regionalna i strategie wejścia na rynek | ABS Global, Zoetis Services LLC i Neogen Corporation



Źródło