GPT-4o: Rewolucja multimodalności na wyciągnięcie ręki

OpenAI zaprezentował nowy model GPT-4o ("o" od "omni"), który potrafi w czasie rzeczywistym przetwarzać i generować dowolną kombinację tekstu, dźwięku i obrazu. To nie jest kolejny krok ewolucyjny, a skok – interakcja głosowa z modelem jest teraz nieprawdopodobnie naturalna i pozbawiona opóźnień. Co to oznacza dla przyszłości interfejsów użytkownika i automatyzacji testów? Dlaczego to dobra wiadomość? Bezpośrednio dotyka kwestii UI/UX i testowania nowych form interakcji człowiek-komputer.

Poprzedni wpis Następny wpis

Informacja o polityce przetwarzania danych osobowych

W celu dostarczania naszych usług wykorzystujemy pliki cookies. Aby dowiedzieć się więcej o plikach cookies, opcjach wypisu oraz Twoich preferencjach kliknij tutaj. Korzystanie z naszego serwisu internetowego traktowane jest jako zgoda na politykę przetwarzania danych osobowych.