Komputery rozpoznają twarze

Nasz mózg to maszyna do rozpoznawania twarzy. Dziś próbujemy tego nauczyć... komputery.

Komputery rozpoznają twarze
Widzimy ich codziennie setki, większość po raz pierwszy i ostatni. Są do siebie niezwykle podobne, a różnice dotyczą niemal niedostrzegalnych szczegółów. Mimo to bezbłędnie rozpoznajemy w tłumie obcych twarzy te znajome, nawet jeśli nie pamiętamy imion ich właścicieli.

Choć ludzki mózg potrafi opanować tysiące dziwacznych czynności, takich jak prowadzenie samochodu, gra na oboju i żonglowanie pochodniami, to z pewnymi zadaniami radzi sobie szczególnie dobrze. To te, od których przez ostatnie kilkaset tysięcy lat zależało przetrwanie – kto ich nie opanował, tego geny bezpowrotnie przepadały gdzieś w tygrysiej paszczy albo zdradliwej leśnej jamie.
Niewątpliwy sukces gatunku Homo sapiens to przede wszystkim zasługa niesamowitej zdolności współdziałania należących do niego osobników. By tworzyć grupę, jej członkowie muszą się bezbłędnie rozpoznawać – psy radzą sobie za pomocą nosa, walenie używają słuchu. Ludzie najlepiej rozwinęli zmysł wzroku i to on stał się podstawą identyfikacji członków własnej grupy, a znakiem rozpoznawczym każdego osobnika jest jego twarz.

Rozpoznać i przeżyć
Presja selekcyjna sprawiła, że w toku ewolucji najlepiej poradzili sobie ci, którzy z rozpoznawania twarzy uczynili swoją specjalność. To oni są naszymi przodkami i to po nich odziedziczyliśmy mózgi, dla których ludzka twarz jest najważniejszym z kształtów.
To ostatnie stwierdzenie nie jest przesadą. O absolutnie kluczowym znaczeniu owego układu ciemnych i jasnych plam może świadczyć spora liczba... cudów. Wszyscy słyszeli o niezwykłych objawieniach Jezusa i/lub Maryi, którzy regularnie pojawiają się na brudnych szybach, w koronach drzew i zaciekach na ścianach. W latach 90. w telewizji często można było oglądać relacje z miejsc, gdzie tłumy wielbiły kolejne bezkształtne plamy.
Jednak ta szczególna religijność nie jest polską specjalnością. Okazuje się, że świat bez przerwy doświadcza cudownych objawień boskich twarzy na zwyczajnych przedmiotach. Lista owych obiektów, które nadprzyrodzone moce wybierają jako podłoże swych wizerunków, jest imponująca. Wśród najnowszych można znaleźć: blachę do pieczenia pizzy, przypalony tost, bułeczkę cynamonową, brudną ciężarówkę, rybi szkielet, rentgenowskie zdjęcie szczęki, odgryziony ogon krewetki czy ucho pieska rasy chihuahua. O tym, że podobieństwo kształtów do boskiego oblicza nie jest tylko wymysłem jednego fanatyka, może świadczyć to, że niektóre z naznaczonych przedmiotów udało się sprzedać na internetowych aukcjach ze sporym zyskiem. Rekordzistą jest nadgryziony tost z serem, który na eBayu osiągnął oszałamiającą cenę 28 tysięcy dolarów. Stary kawałek chleba pokrywają nieregularne plamy, z których wyłania się delikatne kobiece oblicze. Oczywiście uznano, że to twarz Przenajświętszej Panienki.

Ciekawym wątkiem są też objawienia, których doświadczają muzułmanie. Islam zabrania przedstawiania obrazów Boga, więc odpadają cudowne twarze. A jednak pojawiają się pojedyncze doniesienia o odkryciu kształtu przypominającego boskie imię zapisane po arabsku. Dostrzeżono je między innymi w futrze świeżo narodzonej owcy i przekrojonym pomidorze. Takie cuda są jednak rzadkością – częściej widzimy twarze niż litery.

Jeśli chwilę się zastanowić, wyjaśnienie desperackich wysiłków mózgu jest całkiem proste. Rozróżnienie wróg–przyjaciel może decydować o życiu lub śmierci, więc musi zostać dokonane natychmiast. Dlatego znacznie bardziej opłacalne jest widzenie twarzy tam, gdzie ich nie ma, niż nawet pojedyncza pomyłka polegająca na nierozpoznaniu oblicza. Ostatecznie fałszywy alarm szybko zostanie odwołany, a brak ostrzeżenia może mieć tragiczne skutki.
Naukowcy zdołali zidentyfikować w ludzkim mózgu strukturę, która odpowiada za tę kluczową umiejętność. To zakręt wrzecionowaty znajdujący się na powierzchni płata skroniowego. Obserwacja pracy mózgu pokazała, że staje się on niezwykle aktywny właśnie wtedy, gdy widzimy znajome twarze. Uaktywnia się również wtedy, gdy musimy rozpoznać markę samochodu albo gatunek kwiatu, jednak jego reakcja jest wówczas znacznie słabsza.
Mechanizm rozpoznawania twarzy stał się obiektem intensywnych badań po zamachach z 11 września. Wojsko i policja przeznaczyły ogromne fundusze na stworzenie systemów, które potrafiłyby identyfikować w tłumie ludzi uznanych za podejrzanych. Szczególne nadzieje wiązano z wdrożeniem takich programów na lotniskach, przez które musi przejść większość wjeżdżających do kraju.
Niestety, program zakończył się klapą. Podczas testów przeprowadzonych na lotnisku Palm Beach International Airport system kamer i komputerów skanował osoby przechodzące przez kluczowe punkty. W ramach testów do pamięci wprowadzono bazę 250 pracowników lotniska, z czego 15 osób oznaczono jako podejrzane. Okazało się, że w ponad połowie przypadków system nieprawidłowo rozpoznawał poszukiwane osoby, wszczynając fałszywe alarmy lub, co gorsza, lekceważąc oznaczone twarze. Komputery nie radziły sobie, gdy "podejrzani" nosili okulary, nakrycia głowy lub po prostu szli ze spuszczonymi głowami. Ostatecznie zrezygnowano z takiego rozwiązania, zamiast niego wprowadzając obowiązek bezpośredniego fotografowania twarzy każdego, kto przekracza granicę.
Przy okazji tych prób dokładnie zbadano, jak nasz mózg rozpoznaje kształt twarzy. Okazało się, że samo rozróżnienie "twarz czy nie twarz" jest całkiem proste. Jako ludzkie oblicze rozpoznawany jest układ jasnych i ciemnych plam – ciemne usta, nad nimi jasna linia nosa, po której bokach są nieco ciemniejsze plamy policzków z ciemnymi obszarami oczu i dużą, jasną powierzchnią czoła. Wszystko, co z grubsza odpowiada temu schematowi, zostaje rozpoznane jako twarz. Nie szkodzi nawet, gdy brak niemal całej połowy obrazu – przecież może to być głowa widziana z półprofilu.
Jak wychować córkę na kobietę spełnioną?

Wprowadzając takie parametry do pamięci komputera, udało się stworzyć bardzo skuteczne systemy rozpoznające kształt twarzy, choć nieidentyfikujące osoby. Dziś takie algorytmy działają nie tylko w profesjonalnych systemach telewizji przemysłowej, ale też w powszechnie dostępnym sprzęcie – aparatach cyfrowych. Procesor obrazu Digic III stosowany obecnie przez Canona ma wbudowaną funkcję, dzięki której wykrywa w kadrze ludzkie twarze i dba o to, by były one ostre i właściwie naświetlone.
Próbkę działania podobnego systemu można obejrzeć na stronie demo.pittpatt.com, gdzie program zaznacza twarze na zdjęciu, które wskażemy.
Skoro maszyny nauczyły się wreszcie odróżniać swoich twórców od tła, czas przygotować je do rozróżniania poszczególnych osób. To, co nasz mózg robi w mgnieniu oka już od pierwszych godzin po narodzeniu, komputerowi trzeba wyjaśnić od podstaw. Naukowcy skupiają się więc na określeniu charakterystycznych cech twarzy, które pozostają niezmienione niezależnie od tego, czy mamy zarost, czy jesteśmy kompletnie łysi, nosimy okulary czy czapkę uszankę.
Właśnie z powodu zmiennego obrysu twarzy (broda, włosy, szalik) kształt głowy nie nadaje się na główną cechę rozpoznawczą. Udało się jednak znaleźć punkty, które nie tylko są prawie zawsze widoczne, ale też pozostają stałe wraz z upływem czasu. To wzajemne ułożenie punktów znajdujących się w centrum oczu i pomiędzy dziurkami nosa. Proporcje tak utworzonego trójkąta nie zmieniają się u ludzi dorosłych, a stosując pewne przybliżenia, można też określić ich przesuwanie się u dzieci, których czaszka jeszcze rośnie.
Upraszczając złożone algorytmy, opisujące te cechy, można powiedzieć, że jeśli ktoś ma blisko osadzone oczy lub długi nos, zawsze będzie je miał i koniec. Co więcej, jego "trójkąt" – wyjątkowy i wsparty dodatkowymi cechami, takimi jak położenie uszu czy kształt ust – może posłużyć do niemal doskonałej identyfikacji.
Oczywiście problemem pozostaje właściwe uchwycenie tych cech. To, co jest proste na dobrym zdjęciu, niemal niemożliwe staje się, gdy oświetlenie jest słabe, a człowiek szybko się porusza. Na tym właśnie poległy maszyny w Palm Beach.

Średni nie jest piękny
Badania nad rozpoznawaniem twarzy doprowadziły też do bardzo ciekawych wyników dotyczących różnic między rasami, płciami czy grupami wiekowymi. Naukowcy z Perception Laboratory na University of St Andrews w Szkocji zajmują się badaniem tego, jak nasze mózgi odbierają różne twarze w zależności od wieku, płci czy rasy obserwowanego człowieka. Kluczowe dla badań było stwierdzenie tego, jak naprawdę wygląda średnia twarz dla danej grupy. W tym celu sfotografowali setki osób podzielonych na 60-osobowe grupy. Każda z nich reprezentowała pewien typ – 40-letnich mężczyzn rasy kaukaskiej, 20-letnie kobiety rasy południowoazjatyckiej czy afrokaraibskich 60-latków. Zdjęcia dopasowywano tak, by charakterystyczne punkty znajdowały się w tych samych obszarach. Następnie ręcznie oznaczano kilkadziesiąt kluczowych punktów (na przykład kąciki oczu i ust, krawędzie brwi i uszu) i uzyskane dane uśredniano.
W ten sposób powstały modele przeciętnych twarzy dla każdej z grup. Kolejnym etapem było porównanie różnych grup – na przykład białego 20-latka i czarnej 60-latki. Określając przesunięcia kluczowych punktów i uzupełniając informację o kolor i fakturę skóry, można przekształcać prawdziwe twarze, nadając im cechy innej płci, rasy czy grupy wiekowej. Co więcej, wyniki Co więcej, wyniki tych eksperymentów można wypróbować samemu, przekształcając dowolne zdjęcie. Program wykonujący takie transformacje online dostępny jest pod adresem http://morph.cs.st-andrews.ac.uk.
Zespół z Perception Laboratory prowadzi też ciekawe badania, przedstawiając bazę twarzy internautom do oceny. Okazało się na przykład, że za najatrakcyjniejsze wcale nie są uznawane twarze najbardziej przeciętne. Z badań wynika, że ludzie lepiej oceniają białe kobiety, których twarze są nieco rozciągnięte w pionie w stosunku do twarzy średniej. Takie przesunięcie nadaje obliczu żywszy wyraz, który najwyraźniej oceniany jest jako atrakcyjniejszy. Również na stronach Perception Laboratory (http://www.perceptionlab.com) można wziąć udział w eksperymentach i ankietach pomagających w dalszych badaniach.
Czy komputery wreszcie nauczą się nas odróżniać? Sama nauka rozpoznawania pisma przez maszyny trwała blisko 40 lat. Przyspieszenie komputerów wkrótce powinno doprowadzić do zmniejszenia liczby popełnianych przez systemy błędów i uczynić podobne rozwiązania naprawdę funkcjonalnymi. Trochę strach pomyśleć, co wtedy stanie się z naszą prywatnością.

Piotr Stanisławski/ Przekrój
SKOMENTUJ
KOMENTARZE (0)