LG Hamburg: Kneschke v. LAION. Pierwszy europejski wyrok dotyczący TDM (część 1)
27 września 2024 r. Sąd Krajowy w Hamburgu wydał pierwszy w Europie wyrok dotyczący eksploracji tekstu i danych (TDM) w kontekście trenowania systemów sztucznej inteligencji. W sprawie Kneschke przeciwko LAION1 sąd rozstrzygnął, czy niemiecka organizacja non-profit może powoływać się na wyjątek TDM dla celów badań naukowych przy tworzeniu zbiorów danych treningowych. Orzeczenie dostarcza pierwszych wskazówek orzeczniczych co do zakresu wyjątków TDM przewidzianych w dyrektywie DSM,2 zwłaszcza w odniesieniu do działalności badawczej prowadzonej we współpracy z podmiotami komercyjnymi. Dziś trochę o genezie sporu i stanowisku sądu co do możliwości zakwalifikowania działalności LAION jako „niekomercyjnego” TDM. Za tydzień obszerne obiter dictum sądu dotyczące adekwatnosci wyjątku TDM przy uczeniu maszynowym i zastrzeżeń przy „komercyjnym” TDM. Wspomnę też o kilku wątpliwościach, jakie wywołuje wyrok.
Co to jest LAION?
LAION (Large-scale Artificial Intelligence Open Network) to niemiecka organizacja non-profit, której celem jest tworzenie i udostępnianie modeli sztucznej inteligencji oraz zbiorów danych na zasadach otwartego dostępu. Organizacja powstała w 2021 roku i szybko stała się istotnym podmiotem w ekosystemie rozwoju AI, szczególnie w obszarze tzw. modeli generatywnych. LAION współpracuje zarówno z instytucjami naukowymi, jak i podmiotami komercyjnymi, zachowując przy tym status organizacji badawczej działającej w interesie publicznym.
Flagowym projektem organizacji jest zbiór danych LAION-5B, zawierający prawie 6 miliardów rekordów, składających się z par: obrazów i ich opisów tekstowych. LAION nie przechowuje samych obrazów, a jedynie odnośniki do nich wraz z metadanymi. Dataset został utworzony poprzez analizę stron internetowych zindeksowanych w ramach projektu Common Crawl, z którego wyodrębniono adresy URL obrazów wraz z towarzyszącymi im opisami (tzw. atrybuty „alt”). Istotnym elementem procesu tworzenia zbioru była weryfikacja zgodności treści obrazów z ich opisami przy użyciu modelu CLIP.
Zbiory LAION budzą kontrowersje ze względu na stwierdzoną w kilku badaniach obecność par obraz-opis, zawierających niezwykle problematycznych treści, jak przykłady mizogni, złośliwych stereotypów, naruszeń prywatności, pornografii czy rasizmu.3 LAION-5B odegrał jednak kluczową rolę w rozwoju popularnych modeli generatywnych AI, w tym Stable Diffusion, co wynika nie tylko z dużej liczby danych uwzględnionych w zbiorze, ale przede wszystkim z faktu, że jest bezpłatnie dostępny dla każdego zainteresowanego.
Geneza sporu
Spór między niemieckim fotografem Robertem Kneschke a organizacją LAION rozpoczął się, gdy Kneschke odkrył, że jego zdjęcia zostały uwzględnione w zbiorze danych LAION-5B. Będąc zawodowym fotografem specjalizującym się w fotografii stockowej, udostępniał swoje prace za pośrednictwem agencji fotograficznej, która oferowała je w dwóch formatach: jako zdjęcia podglądowe oznaczone znakiem wodnym oraz jako pełne wersje dostępne po wykupieniu licencji. Zdjęcia podglądowe były publicznie dostępne na stronie internetowej agencji, która w regulaminie wyraźnie zabraniała automatycznego pobierania zawartości strony.
W ramach procesu tworzenia zbioru danych treningowych organizacja pobrała zdjęcia w celu weryfikacji zgodności ich zawartości z powiązanymi opisami tekstowymi przed ich włączeniem do datasetu. Kneschke zakwestionował legalność tego działania, wskazując na naruszenie przysługujących mu praw autorskich poprzez bezprawne zwielokrotnienie utworu fotograficznego. Podważał przy tym możliwość zastosowania w sprawie wyjątków dotyczących eksploracji tekstu i danych przewidzianych w niemieckiej ustawie o prawie autorskim, argumentując między innymi, że działalność LAION wykracza poza zakres ograniczenia umożliwiającego TDM dla celów badań naukowych ze względu na jej powiązania z podmiotami komercyjnymi oraz wykorzystywanie utworzonego zbioru danych między innymi przez takie podmioty.
„Niekomercyjny” TDM tak…
Niemiecki ustawodawca dość wiernie zaimplementował art. 3 dyrektywy DSM, przewidujący wyjątek dotyczący eksploracji tekstu i danych dla organizacji badawczych. Zgodnie z § 60d (2) niemieckiej ustawy o prawie autorskim (UrhG) „Organizacjami badawczymi są uniwersytety, instytuty badawcze lub inne instytucje prowadzące badania naukowe, pod warunkiem, że 1) nie działają w celach komercyjnych, 2) reinwestują wszystkie zyski w badania naukowe, lub 3) działają w interesie publicznym w ramach mandatu uznanego przez państwo”. Sąd w pierwszej kolejności musiał więc rozstrzygnąć, czy działalność LAION mieści się w granicach § 60d UrhG.
Uznał, że niekomercyjny charakter działalności LAION wynika przede wszystkim z faktu nieodpłatnego udostępniania stworzonego zbioru danych każdemu zainteresowanemu, w wyniku czego organizacja ta nie czerpała zysków z prowadzonej działalności. Istotny był również brak dowodów wskazujących na to, że tworzenie zbioru danych służyło rozwojowi własnej oferty komercyjnej LAION. Sąd wyraźnie oddzielił przy tym kwestię niekomercyjnego charakteru działań LAION od późniejszego wykorzystania zbioru danych przez podmioty komercyjne do trenowania swoich modeli AI. W ocenie sądu sama możliwość takiego wykorzystania nie wpływa na kwalifikację pierwotnej działalności badawczej niezależnego podmiotu.
Sąd odniósł się również się do kwestii powiązań LAION z podmiotami komercyjnymi. Powód podnosił między innymi tę okoliczność, że niektórzy członkowie organizacji są jednocześnie zatrudnieni w firmach komercyjnych z branży AI. Sąd uznał jednak, że samo wykonywanie przez członków organizacji odpłatnej pracy na rzecz podmiotów komercyjnych nie jest wystarczające do przypisania działalności tych podmiotów samej organizacji. Takie rozumowanie opiera się na założeniu, że dla oceny charakteru działalności istotne są obiektywne cechy samej działalności, a nie poboczne aktywności zaangażowanych w nią osób.
Wreszcie ocenie poddał kwestię współpracy LAION z podmiotami komercyjnymi w kontekście § 60d (2) zdanie ostatnie UrhG, który wyłącza możliwość powołania się na wyjątek TDM w przypadku organizacji badawczych współpracujących z przedsiębiorstwem prywatnym mającym decydujący wpływ na organizację i uprzywilejowany dostęp do wyników badań. W tym zakresie sąd uznał, że samo udostępnienie przez firmę Stability AI zasobów obliczeniowych w fazie początkowej działalności LAION nie stanowi o takim decydującym wpływie, szczególnie wobec braku formalnych powiązań kapitałowych czy osobowych między podmiotami.
Przesłanką zastosowania § 60d UrhG jest nie tylko niekomercyjny charakter działalności, ale również zwielokrotnianie utworów w celu prowadzenia badań naukowych. Działalność LAION ukierunkowana była jednak wyłącznie na utworzenie zestawu danych, co stanowi dopiero etap wstępny do ewentualnego późniejszego trenowania sztucznej inteligencji i związanych z tym badań naukowych.
Sąd uznał, że nie wyklucza to możliwości powołania się przez LAION na przepis zezwalający na niekomercyjny TDM. Pojęcie działalności badawczej obejmuje bowiem także działania przygotowawcze do właściwych badań. Samo tworzenie zbioru danych, choć nie musi być bezpośrednio związane z uzyskaniem nowej wiedzy, stanowi w ocenie sądu fundamentalny etap pracy ukierunkowany na późniejsze wykorzystanie do celów badawczych. Dla zastosowania wyjątku TDM wystarczające jest zatem, że dataset został udostępniony publicznie i nieodpłatnie, umożliwiając prowadzenie badań przez osoby zajmujące się sieciami neuronowymi. Podkreślił też, że pojęcie działalności badawczej nie wymaga osiągnięcia konkretnego rezultatu badawczego, a jedynie metodycznego i systematycznego dążenia do zdobycia nowej wiedzy.
…a zezwolenie na tymczasowe czynności zwielokrotniania nie
Sąd odrzucił natomiast argumentację LAION o możliwości uzasadnienia procesu eksploracji tekstu i danych wyjątku dotyczącego tymczasowych czynności zwielokrotnienia, przewidzianego w § 44a UrhG i art. 5(1) dyrektywy InfoSoc.4
Przepis ten zezwala na tymczasowe zwielokrotnianie utworów, które ma charakter przejściowy lub poboczny stanowi integralną i istotną część procesu technologicznego, nie ma samodzielnego znaczenia ekonomicznego i służy wyłącznie umożliwieniu transmisji w sieci między osobami trzecimi przez pośrednika, lub dozwolonego korzystania z utworu. Pozostawia więc poza zakresem monopolu autorskiego zwielokrotnienia, do jakich dochodzi w czasie prostej transmisji (mere conduit) lub cachingu, a także te związane z legalnym korzystaniem z utworu (np. przeglądaniem strony internetowej).
Sąd, powołując się na wyrok TSUE w sprawie Infopaq (C-5/08), uznał, że nie jest spełniona przesłanka „przejściowości” zwielokrotnienia. Przyjął przy tym, że samo automatyczne usuwanie plików nie przesądza o przejściowym charakterze zwielokrotnienia w rozumieniu §44a UrhG. W jego ocenie w analizowanym przypadku usuwanie danych nie następowało bowiem niezależnie od użytkownika (nutzerunabhängig), lecz było rezultatem świadomego zaprogramowania procesu analizy przez pozwanego. Co istotne, pozwany nie przedstawił również informacji o konkretnym czasie przechowywania zwielokrotnionych utworów. W konsekwencji sąd uznał, że działania pozwanego nie spełniały przesłanek zastosowania §44a UrhG.
Co z tego wynika?
Kilka rzeczy. Po pierwsze rozumowanie sądu odnośnie tego, co jest działalnością „komercyjną”, daje się zastosować do wyjaśnienia sytuacji prawnej nie tylko organizacji zajmujących się tworzeniem zestawów danych, ale również tych, które stawiają sobie za cel stworzenie otwartoźródłowych modeli AI (w Polsce np. Bielik czy PLLuM). Argumenty Sądu Krajowego w Hamburgu prowadzą do wniosku, że w sytuacji, w której model jest bezpłatnie udostępniany każdemu zainteresowanemu na podstawie otwartej licencji, to działalność twórców modelu nie ma charakteru komercyjnego. W konsekwencji przy tworzeniu takich modeli dopuszczalne jest prowadzenie eksploracji tekstu i danych na podstawie wyjątku dla organizacji badawczych (art. 3 dyrektywy DSM, art. 262 polskiej ustawy o prawie autorskim i prawach pokrewnych). I oceny tej nie zmienia nawet te, że niektórzy użytkowników mogą później wykorzystać gotowy model do celów komercyjnych.
Po drugie zezwolenie na tymczasowe akty zwielokrotniania (art. 5(1) dyrektywy InfoSoc, art. 231 polskiej ustawy) ma zbyt wąski zakres, aby na jego podstawie mógł być realizowany proces uczenia maszynowego. Podstawy dla dokonywania tych czynności powinniśmy więc szukać w innych wyjątkach i ograniczeniach praw autorskich, a najlepiej do tego celu nadaje się właśnie wyjątek dotyczący TDM.
Zachęcam do komentowania tekstu pod postem na LinkedIn. jest to jeden z kluczowych problemów dla kluczowy temat dla rozwoju open source AI.
- Wyrok z uzasadnieniem w języku niemieckim https://openjur.de/u/2495651.html ↩︎
- Dyrektywa Parlamentu Europejskiego i Rady (UE) 2019/790 z dnia 17 kwietnia 2019 r. w sprawie prawa autorskiego i praw pokrewnych na jednolitym rynku cyfrowym oraz zmiany dyrektyw 96/9/WE i 2001/29/WE (Tekst mający znaczenie dla EOG.) https://eur-lex.europa.eu/legal-content/PL/TXT/?uri=CELEX:32019L0790 ↩︎
- https://en.wikipedia.org/wiki/LAION ↩︎
- Dyrektywa 2001/29/WE Parlamentu Europejskiego i Rady z dnia 22 maja 2001 r. w sprawie harmonizacji niektórych aspektów praw autorskich i pokrewnych w społeczeństwie informacyjnym https://eur-lex.europa.eu/legal-content/PL/TXT/?uri=CELEX:32001L0029 ↩︎
Doktor nauk prawnych i radca prawny specjalizujący się w prawie własności intelektualnej i nowych technologii. Łączę praktykę prawniczą z działalnością naukową, dzieląc się wiedzą i doświadczeniem na blogu. Dowiedz się więcej…