Generative AI: pozwy przeciwko Stability AI i fair use

Czy tworzenie i eksploatacja systemów generatywnej sztucznej inteligencji (AI) narusza prawo autorskie? Na to pytanie będą musiały odpowiedzieć sądy w złożonych w ostatnich tygodniach pozwach w sprawach Andersen et al v. Stability AI Ltd. oraz Getty Images (US), Inc. v. Stability AI, Inc. Sprawy te dotykają kluczowych problemów powstających na styku sztucznej inteligencji i prawa autorskiego. Warto się im przyjrzeć bliżej, bo potencjalnie mogą wywrzeć duży wpływ na branżę AI.

Stable Diffusion i głębokie uczenie

Stability AI stworzyło model AI o nazwie Stable Diffusion. który wykorzystuje sztuczną inteligencję do dostarczania komputerowo syntetyzowanych obrazów w odpowiedzi na podpowiedzi tekstowe. Model ten jest wykorzystywany we własnym narzędziu Stability AI o nazwie DreamStudio. Jest też udostępniany na licencji open source, a na jego podstawie stworzono popularne narzędzia Midjourney i Deviantart DreamUp. Korzystając z tych narzędzi możemy zażyczyć sobie obrazka tyranozaura walczącego z gladiatorami w Colloseum albo portretu psa rasy corgi w stylu Rembrandta i po chwili taki obrazek otrzymać.

Nieco bardziej technicznie – Stable Diffusion wykorzystuje model dyfuzji latentnej, wariant głębokiej generatywnej sieci neuronowej opracowanej przez grupę CompVis na Uniwersytecie Ludwika i Maksymiliana w Monachium. Zarówno koncepcja sztucznego neuronu jak i sieci neuronowej jest luźno zainspirowana ludzkim mózgiem. W sieciach wielowarstwowych, których podzbiorem są sieci głębokie, neurony zorganizowane są w warstwy. Pierwsza warstwa nazywana jest warstwą wejściową, ostatnia – wyjściową, a warstwy znajdujące się pomiędzy nimi – warstwami ukrytymi. W sieciach jednokierunkowych dane przemieszczają się od warstwy wejściowej do wyjściowej, przy czym przepływ danych uzależniony jest od wag połączeń pomiędzy neuronami. Wagi połączeń umożliwiają wzmacnianie przez sieć wartościowego sygnału, a tłumienie szumu. Wagi są parametrami trenowanymi. Są̨ to wartości liczbowe, które najpierw są̨ losowo przydzielane, a następnie optymalizowane w procesie uczenia. Proces uczenia sieci neuronowej w dowolnym algorytmie polega na modyfikowaniu wag – zmniejszania jednych, zwiększania innych w celu uzyskiwania coraz lepszych wyników. Wynikiem takiego treningu głębokiej sieci neuronowej jest model uczenia głębokiego, który po przeszkoleniu przetwarza nowe dane.

Uczenie maszynowe pozwala uniknąć programowania krok po kroku tego, co komputer ma zrobić. Umożliwia też obejście problemu wynikające z braku dostatecznie kompletnych modeli tak złożonych zjawisk, jak język naturalny czy relacje społecznie. W to miejsce pozwala na automatyczne ustalenie cech klasyfikujących dane w oparciu o przykłady, czyli zbiory danych treningowych. Rodzaj i charakter tych danych zależy od celów, którym służyć ma w danym przypadku zastosowanie uczenia maszynowego. Przykładowo prognozowanie popytu na określone produkty wymaga danych o historycznych wynikach sprzedaży oraz innych czynnikach, mogących potencjalnie wpływać na popyt (np. pory roku, pogody, zamożności rejonu, w którym zlokalizowane są sklepy). Natomiast jeżeli model ma generować obrazy, to trzeba mu dostarczyć przykłady obrazów. Najlepiej dużo przykładów obrazów.

Nie inaczej było w przypadku modelu Stable Diffusion. Do jego utworzenia wykorzystano zbiór danych treningowych o nazwie LAION 5B, obejmujący linki i opisy do 5 miliardów (stąd nazwa zbioru) obrazów dostępnych w sieci. Obrazy te zostały pobrane przez Stability AI, poddane wstępnej obróbce i wykorzystane w procesie uczenia maszynowego. Ponieważ każdy model uczenia maszynowego to tak naprawdę pewna funkcja matematyczna, która przyjmuje jakieś liczby i jakieś liczby zwraca, polegało to na wykonaniu szeregu obliczeń matematycznych, dla których dane wejściowe stanowiły odpowiednio przygotowane obrazy pobrane z sieci.

Co zarzuca się Stability AI

Zdaniem powodów w sprawie Andersen et al v. Stability AI Ltd. Stable AI po pierwsze bezprawnie zreprodukowała obrazy wykorzystane jako dane treningowe. Po drugie w drodze uczenia maszynowego Stable AI miała włączyć te obrazy w skompresowanej formie do modelu Stable Diffusion, w którym są one przechowywane. Po trzecie wreszcie obrazy wygenerowane za pomocą modelu Stable Diffusion mają być tylko pozornie nowe. Zgodnie z twierdzeniami powodów są one w istocie dziełami pochodnymi (po naszemu: opracowaniami) poszczególnych obrazów, z których Stable Diffusion czerpie podczas generowania obrazu wyjściowego w oparciu o podpowiedź tekstową użytkownika. Tak powstałe utwory pochodne konkurują na rynku z obrazami oryginalnymi.

Pozew w sprawie Andersen et al v. Stability AI Ltd. jest maksymalistyczny i nie bez przyczyny spotkał się z mieszanymi reakcjami. Argumentacja zgodnie z którą model Stable Diffusion zawiera kopie wszystkich obrazów wykorzystanych jako dane treningowe, a rezultaty jego działania zawsze są utworami pochodnymi łatwo się falsyfikuje, nawet przy użyciu tak łopatologicznych argumentów jak ten, że skoro aktualnie wytrenowany model Stable Diffusion ma 5 GB to fizyczną niemożliwością jest, aby zawierał kopie 5 miliardów obrazów, bo dawałoby to 1 bajt na obraz (link).

Pozew Getty Images jest bardziej wyważony i kładzie nacisk na przede wszystkim na reprodukcję w podczas procesu uczenia maszynowego. Ale w pozwie wskazuje się też, że naruszenie może polegać też na tym, że model przechowuje informacje o niektórych obrazach i czasem generuje obrazy istotnie podobne do tych, które są zawarte w zbiorze treningowym. Dla sprawy istotna jest też nieco inna sytuacja prawna Getty Images. Obrazy zostały pobrane ze stron Getty wbrew postanowieniom regulaminu usługi, a ponadto Getty udostępnia innym podmiotom swój zbiór obrazów dla potrzeb uczenia maszynowego, tyle że odpłatnie.

Rozważanie czy czynności, do jakich dochodzi podczas procesu uczenia maszynowego, stanowią reprodukcję (zwielokrotnianie) danych treningowych, możemy sobie darować. Wprawdzie w literaturze można spotkać się z próbami wykazania, że użycie utworów dla potrzeb uczenia maszynowego pozostaje poza zakresem praw autorskich i nawet ja coś na ten temat pisałem,1 ale uczciwie rzecz biorąc argumenty zmierzające do wykazania takiej tezy są bardzo naciągane.

W to miejsce pojawiają się dwa inne, znacznie ważniejsze pytania. Po pierwsze sądy będą musiały ustalić, czy reprodukcja obrazów, do jakiej dochodzi podczas uczenia maszynowego, mieści się w granicach fair use. Po drugie czy wytrenowany model AI zawiera jakieś kopie (w rozumieniu prawa autorskiego) utworów wykorzystanych jako dane treningowe i czy generowane przez niego obrazy mogą naruszać czyjeś prawa autorskie. Tu sprawa jest o tyle ciekawa, że zasadniczo wytrenowany model nie potrzebuje danych treningowych do działania i teoretycznie nie są one przechowywane w modelu. Niekiedy wykazuje jednak zdumiewającą znajomość niektórych danych. Np. oparty na Stable Diffusion DreamUp doskonale „wie”, jak wygląda Mona Lisa, choć ma trudności z odtworzeniem jej uśmiechu (vide obrazek obok).

Dziś zajmę się szerzej pierwszym problemem i to tylko w kontekście prawa USA. W Europie legalność procesu uczenia maszynowego reguluje „dedykowany” wyjątek, wprowadzony dyrektywą 2019/790 o prawie autorskim na jednolitym rynku cyfrowym, dotyczący zwielokrotnień do jakich dochodzi podczas eksploracji tekstu i danych.  Eksploracja tekstów i danych generuje nieco inne problemy prawne, do których może wrócę przy następnej okazji.

Fair use

Doktryna fair use należy do charakterystycznych konstrukcji prawa autorskiego USA, uregulowaną w § 107 Copyright Act. Koncepcję fair use sprowadzić można do założenia, że nie stanowi naruszenia prawa autorskiego korzystanie z utworu w sposób słuszny, godziwy, a zarazem nie przynoszący nadmiernego uszczerbku interesom twórcy. Fair use stanowi więc ograniczenie praw autorskich tym różniące się od systemu wyjątków i ograniczeń występujących w prawie kontynentalnej Europy i prawie UE, że ma charakter otwarty, co pozwala sądom na korygowanie zakresu praw wyłącznych odpowiednio do potrzeb obrotu.

Ocena „godziwego” (fair) charakteru danego użytku powinna następować przy uwzględnieniu następujących czynników: a) celu korzystania, b) rodzaju (charakteru) wykorzystywanego utworu, c) proporcji wykorzystanego fragmentu do całości dzieła, z którego on pochodzi, d) wpływu korzystania na zainteresowanie utworem i jego wartość rynkową. Za „godziwym” charakterem użytku przemawia więc wykorzystanie utworu w celach niekomercyjnych, naukowych czy edukacyjnych, mającego charakter „faktograficzny” (wyrażającego niechronione fakty, a nie elementy stworzone przez autora), obejmującego niewielki fragment utworu w stosunku do całości dzieła i nie wpływającego negatywnie na możliwości jego ekonomicznej eksploatacji.

Czynniki te są jednak ważone przez sąd w odniesieniu do konkretnego przypadku i negatywna ocena jednego z czynników może być kompensowana w inny sposób. Przy ocenie celu wykorzystania istotne znaczenie może mieć między innymi to, czy wykorzystanie utworu w określony sposób można uznać za „transformacyjne użycie” (transformative use). W sprawie Campbell v. Acuff-Rose Music, Inc. Sąd Najwyższy USA uznał, że komercyjna parodia cudzego utworu (w tym przypadku rapowa parodia piosenki „Pretty Woman” autorstwa Roya Orbisona) może być uznana za fair use, jeśli wykorzystuje utwór źródłowy w zupełnie nowy lub nieoczekiwany sposób.

„Transformacyjne użycie” często pojawia się w kontekście nowych technologii. W sprawie Perfect 10, Inc. v. Amazon.com, Inc. (508 F.3d 1146, 9. Cir. 2007) Sąd Apelacyjny 9 Okręgu uznał wykorzystanie w wyszukiwarce grafik Google miniatur obrazów chronionych prawami autorskimi za „wysoce transformacyjne” ponieważ „choć obraz mógł zostać stworzony pierwotnie w celach rozrywkowych, estetycznych lub informacyjnych, wyszukiwarka przekształca obraz w odnośnik kierujący użytkownika do źródła informacji”. W sprawie Authors Guild v. Google, Inc. (721 F.3d 132, 2d Cir. 2015) za użycie transformacyjne uznano zeskanowanie i udostępnienie książek w ramach usługi Google Books. Czynnikiem wziętym pod uwagę było dostarczenie użytkownikom ograniczonych informacji o książkach (m.in. słowach kluczowych i fragmentach, w których one występują), bez umożliwienia dostępu do ich obszerniejszych fragmentów. Natomiast sprawie A.V. ex rel. Vanderhye v. iParadigms, L.L.C. (562 F.3d 630, 4th Cir. 2009) uznano, że transformacyjny charakter miała reprodukcja utworów w systemie antyplagiatowym. Takie użycie utworów w tym celu nie miało bowiem związku z elementami ekspresyjnymi utworów, a służyło wykryciu i zniechęceniu do plagiatu.

Fair use a Stable Diffusion

Czy więc wykorzystanie miliardów obrazów dla wytrenowania modelu AI stanowi fair use? Adekwatna jest tu standardowa odpowiedź prawnika, czyli „to zależy”. W najlepszym razie uproszczeniem są jednak spotykane w sieci opinie, że to na pewno fair use, bo to transformacyjne użycie zgodnie z wyrokiem Campbell v. Acuff-Rose Music.

Co może przemawiać przeciw uznaniu użytku utworów dla potrzeb uczenia maszynowego za fair use? Sąd może przypisać istotne znaczenie takim czynnikom jak komercyjny charakter działalności pozwanych, którzy pobierają opłaty za korzystanie z narzędzia wytrenowanego na utworach chronionych prawem autorskim. Komercyjny charakter może być wprawdzie równoważony „transformacyjnym użyciem”, ale trzeba pamiętać, że w tym pojęciu nie chodzi o transformację utworu, a jego „nowe zastosowanie” wykraczające poza standardowe użycie (np. obraz był do tej pory używany w celach estetycznych, a dzięki wyszukiwarce staje się linkiem do zasobu). Tymczasem Getty Images już udostępnia odpłatnie swoją bazę dla potrzeb uczenia maszynowego, co ma taki skutek, że praktyka Stability AI może być postrzegana nie jako nowe zastosowanie obrazów Getty i ich opisów zgromadzonych w bazie, a jako próbę uniknięcia opłat licencyjnych.

Można też wskazywać na inne czynniki, takie jak negatywny wpływ na rynek w sytuacji, w której obrazy wygenerowane za pomocą Stable Diffusion będą traktowane jako substytuty prac „żywych” artystów. Ponadto w sprawie Getty Images znaczenie może mieć też okoliczność, że doszło do naruszenia warunków regulaminu Getty. Fair use jest doktryną opartą na zasadzie słuszności, stąd naruszenie warunków umownych przemawia przeciw naruszycielowi.

Jednak, jak dowodzi wyrok Sądu Najwyższego w sprawie Oracle America, Inc. v. Google, Inc., dla amerykańskich sądów nie jest bez znaczenia rzeczywistość rynkowa. Dlatego zablokowanie możliwości wykorzystania utworów dla potrzeb uczenia maszynowego, dla którego w obecnym stanie prawnym jedyną możliwą podstawą jest fair use, jest mało prawdopodobne. Postawiłoby to firmy amerykańskie w niekorzystnej sytuacji w stosunku do ich konkurentów z UE czy Japonii, gdzie już obowiązują (albo jak w przypadku Polski – powinny już obowiązywać) wyjątki umożliwiające legalne przeprowadzenie tego procesu. Jeżeli miałyby się tu pojawić jakieś ograniczenia, to raczej jako jakaś forma opt-out, czyli konieczności uwzględnienia sprzeciwu uprawnionego wobec wykorzystania utworów dla potrzeb uczenia maszynowego.


  1. chodzi o tekst: Z. Okoń, Wykorzystanie utworów dla potrzeb głębokiego uczenia w świetle europejskiego prawa autorskiego, [w:] Sztuczna inteligencja, blockchain, cyberbezpieczeństwo oraz dane osobowe. Zagadnienia wybrane, red. K. Flaga-Gieruszyńska, J. Gołaczyński, D. Szostek, Warszawa 2019. ↩︎

ilustracja: DreamUp / „Mona Lisa by Leonardo da Vinci”​