Kneschke v. LAION (II): TDM przy GenAI i opt-out w regulaminie

W drugiej (i ostatniej) części analizy wyroku Sądu Krajowego w Hamburgu z 27 września 2024 r. w sprawie Kneschke przeciwko LAION1 przyjrzę się bliżej obszernemu obiter dictum dotyczącemu komercyjnej eksploracji tekstu i danych. Choć rozstrzygnięcie oparto na wyjątku dla celów badań naukowych, sąd poświęcił znaczną część uzasadnienia (prawie połowę) interpretacji art. 44b niemieckiej ustawy o prawie autorskim, implementującego art. 4 dyrektywy DSM.2 Szczególnie interesująca jest przyjęta przez sąd wykładnia pojęcia „maszynowej czytelności” zastrzeżeń praw oraz klarowne stanowisko dotyczące możliwości stosowania wyjątku TDM do trenowania modeli AI. No i nie sposób pominąć niektórych kontrowersji, jakie wywołuje wyrok.

Dopuszczalność TDM dla potrzeb trenowania (generatywnej) AI

Przede wszystkim sąd zajął jednoznaczne stanowisko w kwestii dopuszczalności eksploracji tekstu i danych dla celów uczenia maszynowego, w tym trenowania modeli generatywnej sztucznej inteligencji. Odrzucił więc możliwość redukcji teleologicznej przepisów o TDM, która miałaby prowadzić do wyłączenia z ich zakresu działań związanych z uczeniem maszynowym systemów AI. W szczególności uznał za niewystarczający podnoszony przez niektórych przedstawicieli doktryny argument, że prawodawca unijny w momencie przyjmowania dyrektywy DSM w 2019 roku „nie miał jeszcze na radarze problemu sztucznej inteligencji”.

Odpierając ten argument wskazał, że rozwój technologiczny od 2019 roku dotyczy nie tyle zakresu i charakteru eksploracji danych na potrzeby tworzenia zbiorów treningowych, co raczej wydajności sieci neuronowych trenowanych przy użyciu tych danych. Sąd zauważył, że sama technika TDM stosowana do pozyskiwania danych treningowych była znana i stosowana już wcześniej, czego dowodzi działalność Common Crawl Foundation prowadzona od 2008 roku. Podkreślił również, że na gruncie obecnie obowiązujących przepisów brak jest podstaw do różnicowania dopuszczalności TDM w zależności od celu, w jakim zgromadzone dane mają być wykorzystane.

O aktualnym stanowisku prawodawcy unijnego w tej kwestii świadczy według sądu wyraźne odniesienie do wyjątku TDM w rozporządzeniu AI Act. Artykuł 53 ust. 1 lit. c tego aktu nakłada na dostawców modeli AI obowiązek wdrożenia strategii respektowania zastrzeżeń praw dokonanych zgodnie z art. 4 ust. 3 dyrektywy DSM, co jednoznacznie potwierdza, że wyjątek TDM obejmuje również tworzenie zbiorów danych przeznaczonych do trenowania modeli AI.

Sąd odniósł się również do zgodności przyjętej interpretacji z testem trójstopniowym. Uznał, że samo tworzenie zbioru danych treningowych nie narusza normalnego korzystania z utworów ani nie godzi w słuszne interesy uprawnionych. Ewentualna konkurencja ze strony treści generowanych przez AI jest na tym etapie zbyt odległa i niepewna, by mogła wpływać na ocenę legalności procesu eksploracji danych.

Zastrzeżenie praw w formie zdatnej do odczytu maszynowego

W przeciwieństwie do wyjątku dotyczącego TDM dla celów badań naukowych (art. 3), który ma charakter bezwzględnie obowiązujący, art. 4 ust. 3 dyrektywy DSM przyznaje podmiotom uprawnionym możliwość wyłączenia swoich utworów z zakresu dozwolonego użytku poprzez odpowiednie zastrzeżenie praw, w przypadku treści udostępnianych online – w sposób możliwy do odczytu maszynowego. Zastrzeżenie praw stanowi kluczowy element równoważenia interesów uprawnionych i użytkowników w przypadku „komercyjnego” TDM, pozwalając uprawnionym na kontrolę nad wykorzystaniem ich utworów w procesach TDM przy jednoczesnym zachowaniu generalnej zasady dopuszczalności eksploracji tekstu i danych w przypadku braku wyraźnego sprzeciwu. Ma ono szczególne znaczenie przy trenowaniu modeli AI, zasilanych dużymi ilościami danych masowo pozyskiwanych metodą webscrapingu.

O ile zasadniczo to rozwiązanie legislacyjne można uznać za trafne, o tyle w praktyce trudności sprawia ustalenie, kiedy doszło do skutecznego zastrzeżenia praw w „formie zdatnej do odczytu maszynowego”. Po pierwsze do tej pory nie wykształcił się jednolity standard zastrzegania praw. Po drugie nie jest też jasne, na czym polegać ma owa zdatność do odczytu maszynowego. Na tym tle stanowisko Sądu Krajowego w Hamburgu trzeba uznać za radykalne. Mianowicie, w ocenie sądu, zastrzeżenie praw może być skutecznie dokonane również przez oświadczenie wyrażone w języku naturalnym, bez konieczności stosowania specjalnych znaczników technicznych czy metadanych. Pozwoliło to sądowi uznać, że gdyby ocena działalności pozwanego była przeprowadzana w świetle przesłanek wyjątku dotyczącego „komercyjnego” TDM, to zawarte w regulaminie wyraźny zakaz automatycznego pobierania zawartości strony byłby wystarczający dla skutecznego zastrzeżenia praw.

Sąd argumentował, że wobec rozwoju technologii sztucznej inteligencji, która jest w stanie przetwarzać i rozumieć tekst pisany, tradycyjne rozumienie „maszynowej czytelności” jako wymogu technicznego kodowania staje się nieadekwatne. Odwołał się przy tym do motywu 18 dyrektywy DSM, który wymaga jedynie by zastrzeżenie było dokonane „w odpowiedni sposób”. Sąd uznał, że wobec rozwoju technologii AI zdolnych do przetwarzania języka naturalnego, wymóg „odpowiedniości” może być spełniony także przez zastrzeżenia wyrażone w formie tekstowej, o ile są one możliwe do automatycznego przetworzenia przez współczesne systemy informatyczne. Uznał więc, że skoro współczesne systemy AI są zdolne do zrozumienia treści wyrażonych w języku naturalnym, to wymóg maszynowej czytelności powinien być interpretowany funkcjonalnie – jako możliwość automatycznego przetworzenia zastrzeżenia przez odpowiednie systemy informatyczne, niekoniecznie wymagające specjalnego formatowania technicznego.

LG Hamburg a sprawa polska

W kontekście obecnego w polskiej implementacji dyrektywy wymogu, aby zastrzeżenie było dokonane w „formacie zdatnym do odczytu maszynowego w rozumieniu art. 2 pkt 7 ustawy z dnia 11 sierpnia 2021 r. o otwartych danych i ponownym wykorzystywaniu informacji sektora publicznego” warto zwrócić uwagę na odniesienia sądu do dyrektywy 2019/1024 z w sprawie otwartych danych i ponownego wykorzystywania informacji sektora publicznego (reuse). Mianowicie uznał, że zdatność do odczytu maszynowego na gruncie dyrektywy DSM powinna być rozumiana szerzej, niż w dyrektywie reuse. Motyw 35 dyrektywy reuse zawęża bowiem rozumienie „formatu nadającego się do odczytu maszynowego”, wymagając by informacja była „łatwo identyfikowalna” przez systemy komputerowe.3 Jeżeli taka interpretacja art. 4 ust. 3 dyrektywy DSM miałaby się utrwalić, polska implementacja wyjątku dotyczącego „komercyjnego” TDM byłaby niezgodna z prawem unijnym.

Ten aspekt wyroku budzi jednak zastrzeżenia. Kontekst regulacji wskazuje, że chodziło raczej o rozumienie „maszynowej czytelności” bliskie dyrektywie re-use. Potwierdzają to zresztą projekty ogólnego kodeksu postępowania w zakresie sztucznej inteligencji, opracowywanego pod auspicjami Europejskiego Urzędu ds. Sztucznej Inteligencji na podstawie art. 56 AI Act,4 gdzie jako właściwą formę zastrzeżenia praw wskazuje się plik robots.txt.5

Co jeszcze budzi wątpliwości?

Spośród komentarzy do wyroku wyróżnia się krytyczny artykuł Eleonory Rosati.6 Podstawowy zarzut dotyczy jego niekompletności, co skłania autorkę do zakwestionowania przydatności zawartych w nim ocen dla interpretacji wyjątków dotyczących eksploracji tekstu i danych w kontekście trenowania AI. Prawdopodobnie ze względu na zakres powództwa sąd nie uwzględnił, że organizacja udostępniła publicznie za darmo na swojej stronie internetowej utworzony zbiór danych (zawierający linki i opisy) i umożliwiła jego przeglądanie. Ma to dwojakiego rodzaju konsekwencje. Po pierwsze przeglądanie zbioru na stronach internetowych prowadzi do nowej czynności zwielokrotniania (wyświetlenia obrazków na stronie internetowej LAION podczas przeszukiwania zbioru). Po drugie samo udostępnienie linków do utworów może prowadzić do publicznego udostępnienia w rozumieniu art. 3 (1) dyrektywy InfoSoc. Obie czynności bezdyskusyjnie pozostają zaś poza zakresem wyjątków

To stwierdzenie jest oczywiście prawdziwe, ale zarazem dotyczy czynności, które są wyłącznie pochodną sposobu działania organizacji LAION i nie są koniecznym etapem eksploracji tekstu i danych dla potrzeb uczenia maszynowego. Po pierwsze udostępnienie przeszukiwania zbioru nie jest konieczne ani dla tego, aby zbiór pełnił swą funkcję, ani aby go udostępnić dla potrzeb trenowania AI. Obecnie wyszukiwarka została usunięta ze stron LAION (choć bywa udostępniana przez strony trzecie). Po drugie problem oceny udostępnienia zbioru linków z punktu widzenia prawa publicznego udostępniania dotyczy wyłącznie organizacji, które – tak jak LAION – publicznie udostępniają zestaw danych zawierających linki. Nie w każdym przypadku ma to jednak miejsce.

Nie podzielam przebijającego z tekstu Eleonory Rosati sceptycyzmu co do wykorzystania wyjątku dotyczącego TDM jako uzasadnienia dla potrzeb uczenia maszynowego. Jakkolwiek by to górnie nie brzmiało uważam, że jeżeli nie chcemy, aby Europa stała się skansenem, bez szans (i ambicji) w technologicznym wyścigu, potrzebujemy możliwości eksploracji tekstu i danych na podstawie wyjątku dotyczącego TDM. Co nie zmienia oczywistego faktu, że wyjątek ten nie rozwiązuje wszystkich problemów na stylu prawa autorskiego i AI.

Co do samego wyroku hamburskiego sądu – rzuca on trochę światła na wymóg „niekomercyjności” badań naukowych jako przesłanki zastosowania art. 3 dyrektywy, zastosowanie wyjątku dotyczącego eksploracji tekstu i danych dla uzasadnienia przynajmniej niektórych czynności dokonywanych w związku z uczeniem maszynowym, czy – choć mocno kontrowersyjnie – interpretację wymogu dokonania zastrzeżenia „w formie zdatnej do odczytu maszynowego”. Pogląd o małej przydatności wyroku LG Hamburg dla wyjaśnienia związków między TDM a AI wydaje się więc nieco przesadzony.


  1. Wyrok z uzasadnieniem w języku niemieckim https://openjur.de/u/2495651.html ↩︎
  2. Dyrektywa Parlamentu Europejskiego i Rady (UE) 2019/790 z dnia 17 kwietnia 2019 r. w sprawie prawa autorskiego i praw pokrewnych na jednolitym rynku cyfrowym oraz zmiany dyrektyw 96/9/WE i 2001/29/WE (Tekst mający znaczenie dla EOG.) https://eur-lex.europa.eu/legal-content/PL/TXT/?uri=CELEX:32019L0790 ↩︎
  3. Zgodnie z motywem 35 dyrektywy: „Dokument należy uznać za sporządzony w formacie nadającym się do odczytu maszynowego, jeżeli występuje w formacie pliku ustrukturyzowanym tak, aby aplikacje mogły łatwo zidentyfikować, rozpoznać i pozyskać określone dane” ↩︎
  4. https://digital-strategy.ec.europa.eu/en/policies/ai-code-practice ↩︎
  5. Zobacz więcej na temat tego standardu w Wikipedii: https://en.wikipedia.org/wiki/Robots.txt ↩︎
  6. https://ipkitten.blogspot.com/2024/10/the-german-laion-decision-problematic.html ↩︎