TDM, sztuczna inteligencja i projekt nowelizacji prawa autorskiego
W projekcie ustawy mającej (wreszcie) wdrażać do polskiego prawa dyrektywę 2019/790 o prawie autorskim na jednolitym rynku cyfrowym (dyrektywę DSM) twórcy projektu wykluczyli stosowanie wyjątków dotyczących eksploracji tekstów i danych (text and data mining – TDM) do “tworzenia generatywnych modeli sztucznej inteligencji”. Ponieważ w dyskusji okazało się, że rzeczy, które powinny być oczywiste, najwyraźniej takimi nie są, poniżej przedstawiam najważniejsze zagadnienia dotyczące tego problemu w formie pytań i odpowiedzi.
O co chodzi z uczeniem maszynowym i TDM?
Proces uczenia maszynowego sieci neuronowej wymaga zgromadzenia danych treningowych (np. w przypadku webscrapingu – pobrania określonych plików z sieci), ich wstępnego przetworzenia (np. usunięcia formatowania tekstu, normalizacji wymiarów grafik itp.), przetworzenia na postać zrozumiałą dla sieci neuronowej, a następnie przeprowadzeniu stosownych obliczeń.
Co najmniej dwa pierwsze etapy tego procesu uznać należy w świetle prawa UE za zwielokrotnienie utworów (co bywa krytykowane ze względu na nadmierne rozciągnięcie prawa zwielokrotniania, ale to inna historia). Skoro tak, to potrzebna jest podstawa prawna dla podjęcia tych czynności w stosunku do cudzego utworu. Tą podstawą może być umowa lub przepis prawa (wedle terminologii stosowanej w prawie UE ograniczenie lub wyjątek, wedle tradycyjnej polskiej terminologii “dozwolony użytek”).
Dotychczasowe ograniczenia i wyjątki nie pokrywają zwielokrotnień dokonywanych w czasie uczenia maszynowego. Ale w 2019 r. uchwalono dyrektywę 2019/790 o prawie autorskim na jednolitym rynku cyfrowym (dyrektywę DSM). Dyrektywa zawiera w art. 3 i 4 dwa nowe, obowiązkowe dla państw członkowskich wyjątki zezwalające na zwielokrotnianie utworów dla potrzeb text and data mining (TDM).
Czy wyjątek dotyczący TDM dotyczy korzystania z utworów przy tworzeniu modeli AI?
Tak.
TDM został zdefiniowany jako “zautomatyzowana technika analityczna służąca do analizowania tekstów i danych w postaci cyfrowej w celu wygenerowania informacji, obejmujących między innymi wzorce, tendencje i korelacje”. Ta definicja pokrywa się z czynnościami dokonywanymi przy uczeniu maszynowym. Uczenie maszynowe jest techniką zautomatyzowaną, przetwarzane dane są w postaci cyfrowej, a jej celem jest wygenerowanie informacji w postaci zbioru wag (wartości przypisywanych do połączeń między neuronami). Wagi odzwierciedlają to, co się AI nauczyła (stanowią wzorce wyprowadzone w drodze obliczeniowej z danych treningowych).
W konsekwencji: a) to co robimy przy okazji uczenia maszynowego odpowiada definicji TDM, b) zwielokrotnianie utworów dla potrzeb trenowania modeli AI w granicach przewidzianych w art. 3 i 4 dyrektywy DSM jest dopuszczalne.
To, co powyżej napisałem, to europejski mainstream. Tzn. taki pogląd jest przyjmowany w publikacjach naukowych dotyczących tego zagadnienia (jak to się ładnie ujmuje – dominuje w doktrynie).
Kilka przykładów spośród naprawdę licznej (i coraz liczniejszej) literatury:
- M. Senftleben, Generative AI and Author Remuneration, IIC (2023) 54:1535–1560, https://doi.org/10.1007/s40319-023-01399-4
- B. Sobel, A Taxonomy of Training Data [w:] J.-A. Lee (red.), R. Hilty (red.), K.-C. Liu (red.), Artificial Intelligence and Intellectual Property, Oxford University Press 2021, s. 238
- A. Strowel, R. Ducato, Artificial Intelligence and text and data mining [w:] E. Rosati (red.), The Routledge handbook of EU copyright law, London New York 2021, s. 299
- T. Margoni, M. Kretschmer, A Deeper Look into the EU Text and Data Mining Exceptions: Harmonisation, Data Ownership, and the Future of Technology, GRUR Int., 2022/8, s. 685, https://doi.org/10.1093/grurint/ikac054
A jak kogoś dowód z autorytetów nie przekonuje, to warto uwzględnić, że uzgodniony niedawno tekst AI Act czytelnie odwołuje się do art. 4 dyrektywy DSM w kontekście uczenia maszynowego modeli sztucznej inteligencji ogólnego przeznaczenia (art. 53c ust. 1 lit. c ostatniego tekstu).
Nie oznacza to, że z uczeniem maszynowym i sztuczną inteligencją nie ma problemów. Są w dwie strony. Zdaniem części autorów wyjątek dotyczący TDM ma zbyt wąski zakres (bo np. nie uwzględnia np. baz danych nie chronionych prawem sui generis, ani tajemnicy przedsiębiorstwa), zdaniem niektórych istnieją bariery wynikające z wymogu posiadania legalnego dostępu, możliwości zastrzeżenia praw czy tzw. testu trójstopniowego. Ten ostatni problem nieco szerzej omawiam niżej.
Czy nie powinniśmy rozróżnić generatywnej AI od innych zastosowań głębokiego uczenia?
Jeżeli rozpatrujemy stosowanie wyjątków dotyczących TDM, to nie.
Powodów jest kilka. Po pierwsze generatywna sztuczna inteligencja nie jest w naszym prawie (ani prawie unijnym) kategorią prawną. Nawet projekt AI Act nie posługuje się takim terminem w kontekście modeli takich jak ChatGPT czy Stable Diffusion, używając w to miejsce terminu “Modele AI ogólnego przeznaczenia”.
Po drugie proces uczenia maszynowego przebiega z grubsza tak samo (implikuje podjęcie tych samych czynności z punktu widzenia prawa autorskiego) zarówno przy szkoleniu modeli takich, jak np. DeepL, jak i Chat GPT. Różnice pojawiają się dopiero w przeznaczeniu tych narzędzi. Tymczasem prawodawca unijny w dyrektywie DSM nie uzależnił dopuszczalności TDM od celu lub przeznaczenia tych czynności.
Czy prawdą jest, że w chwili uchwalania dyrektywy 2019/790 prawodawca europejski nie brał pod uwagę stosowania TDM do tworzenia modeli AI?
Taki argument pojawia się w przestrzeni publicznej. Wywodzi się z niego tezę, że korzystanie z utworów w ramach wyjątków dotyczących TDM jest rzekomo niedopuszczalne, ponieważ wyjątki z art. 3 i 4 dotyczą innego TDM, niż tego, który jest stosowany przy uczeniu modeli AI. Gdyby stosować stylistykę serwisów fact-checkingowych, taka teza pewnie zostałaby określona jako manipulacja. Dlaczego?
Bo prawdą jest, że w materiałach legislacyjnych brak wyraźnych odniesień do trenowania modeli AI (a przynajmniej ja takich odniesień nie znalazłem). Ale jednocześnie prawdą jest, że w czasie uchwalania dyrektywy problem już był dostrzegany w środowisku akademickim, które starało się wpłynąć na Parlament Europejski w celu poszerzenia wyjątku dotyczącego TDM (dodać należy – skutecznie). I był dostrzegany przy implementacji dyrektywy przez państwa członkowskie. Dwa przykłady:
- List otwarty Ligi Europejskich Uniwersytetów Badawczych (LERU) i 27 innych organizacji do komisji JURI Parlamentu Europejskiego z marca 2018. LERU jest siecią 23 wiodących uniwersytetów badawczych z 12 krajów europejskich. List wyraźnie podkreśla znaczenie TDM (zarówno komercyjnego, jak i niekomercyjnego), dla rozwoju AI. Link: http://eare.eu/assets/uploads/2018/03/OpenLetter-to-JURI-Committee-on-TDM_26March2018.pdf
- Uzasadnienie niemieckiej ustawy implementującej dyrektywę z marca 2021 r. (Bundestag Drucksache 19/27426), gdzie jednoznacznie stwierdza się, że wyjątek dotyczący komercyjnego TDM (art. 4 dyrektywy, § 44b UrhG) “Ma szczególne znaczenie dla uczenia maszynowego jako podstawowej technologii sztucznej inteligencji”. Link: https://dserver.bundestag.de/btd/19/274/1927426.pdf strona 60.
Czy stan świadomości prawodawcy europejskiego miałby tu jakiekolwiek znaczenie?
No cóż – zasadniczo nie.
Zdarza się, że postęp techniczny nadaje wyjątkom i ograniczeniom praw autorskich nieco inny kontekst, pozwalając na wykorzystanie utworów w sposób, którego nikt nie przewidział przy uchwalaniu danego przepisu. Przykładem może być tradycyjny wyjątek dotyczący użyczenia przez biblioteki publiczne. Jest on obecny w prawie unijnym od 1992 r., kiedy to przyjęto dyrektywę 92/100/EWG w sprawie prawa najmu i użyczenia. W czasie uchwalania dyrektywy nikt nie myślał o bibliotekach internetowych (wyjątek ten w niezmienionej postaci jest w tzw. wersji skodyfikowanej dyrektywy, tj. dyrektywie 2006/115/WE). A jednak TSUE w 2016 r. uznał, że użyczenie kopii książki w postaci cyfrowej jest dopuszczalne, jeżeli jest to jest dokonywane poprzez umieszczenie tej kopii na serwerze biblioteki publicznej i umożliwienie użytkownikowi zwielokrotnienia wspomnianej kopii poprzez pobranie jej na własny komputer (zob. wyrok w sprawie C‑174/15 Vereniging Openbare Bibliotheken).
Czyli nawet jeżeli uznać, że prawodawca europejski nie uwzględniał możliwości stosowania wyjątku na rzecz TDM przy uchwalaniu dyrektywy 2019/790, to samo w sobie nie oznacza, że korzystanie na tej podstawie z utworów przy tworzeniu modeli AI jest niedopuszczalne. Taka wykładnia naruszałaby zasadę pewności prawa.
Słówko “zasadniczo” znalazło się jednak powyżej z tego względu, że takie stwierdzenie, choć w mojej ocenie wątpliwe, może pomocniczo wspierać argumentację zmierzającą do zwężającej jego interpretacji w oparciu o tzw. test trójstopniowy, zawarty w art. 5 ust. 5 dyrektywy 2001/29/WE (patrz niżej).
Czy stosowanie art. 3 i 4 dyrektywy 2019/790 do uczenia maszynowego nie rodzi żadnych problemów?
Nie.
Problemów jest kilka. Skupię się tylko na jednym – czy wspomniany już test trójstopniowy daje możliwość wykluczenia TDM przy trenowaniu modeli AI?
Test trójstopniowy obecny jest między innymi w konwencji berneńskiej, art. 5 ust. 5 dyrektywy 2001/29/WE o prawie autorskim w społeczeństwie informacyjnym czy art. 35 polskiej ustawy. Test “domyka” system ograniczeń i wyjątków w prawie autorskim, jego stosowanie może być rozpatrywane na poziomie międzynarodowym, implementacji prawa UE przez państwa członkowskie i (co kontrowersyjne) prawa krajowego, a jest przy tym mocno złożone. Z grubsza i w uproszczeniu polega na badaniu, czy:
- korzystanie z utworu odbywa się w ramach wyjątku określonego w ustawie,
- nie prowadzi do naruszenia normalnego korzystania z utworu,
- nie przynosi nieuzasadnionego uszczerbku interesom uprawnionego (autora)
Przykładem zastosowania testu jest wyrok TSUE w sprawie ACI Adam (C‑435/12). W wyroku Trybunał uznał, że dozwolony użytek prywatny jest dozwolony tylko w przypadku, w którym na jego podstawie wykonujemy kopię utworu w oparciu o źródło legalne (np. “oryginalną” albo już ”przegraną” kopię pożyczoną od znajomego). Nie można natomiast powołać się na dozwolony użytek prywatny, jeżeli źródło jest nielegalne (np. jest to popularny serwis z “pirackimi” ebookami). Innymi słowy nielegalne źródło prowadzi do takiego zaburzenia funkcjonowania użytku prywatnego, że nie są spełnione warunki 2 i 3 testu.
Można więc dyskutować, czy art. 5 ust. 5 pozwala ograniczyć TDM przy trenowaniu AI., ale trzeba pamiętać o dwóch sprawach. Po pierwsze stosowanie testu trójstopniowego musi być ostrożne, bo inaczej osłabia pewność prawa. Po drugie trzeba pamiętać, że każde ograniczenie i wyjątek są w jakiś sposób niekorzystne dla autorów. W warunkach 2 i 3 testu chodzi więc o coś więcej, niż np. o zmniejszenie dochodów będące wynikiem tego, że przegram płytę z muzyką od znajomego, a nie kupię jej w sklepie.
W powołanym wyżej tekście M. Senftleben (czołowy europejski znawca testu, autor świetlej monografii Copyright, Limitations and the Three-step Test, Hague – London – New York 2003) podważa taką możliwość. Jego zdaniem przewidziana w art. 4 dyrektywy DSM możliwość zastrzeżenia praw, którego skutkiem jest niedopuszczalność wykorzystania utworu dla potrzeb TDM, pozwala w wystarczający sposób spełnić warunki 2 i 3 testu i wyważyć interesy uprawnionych i użytkowników utworów.
To dobry argument. Potrafię więc sobie wyobrazić wyrok TSUE, w którym Trybunał np. uzna, że interpretacja art. 4 ust. 3 dyrektywy DSM zawężająca możliwość skutecznego zastrzeżenia praw narusza wspomniane warunki testu. Uważam jednak za bardzo mało prawdopodobne, aby w oparciu o test trójstopniowy Trybunał uznał, że TDM przy tworzeniu modeli generatywnej AI jest niedozwolony.
ilustracja: pixabay
Doktor nauk prawnych i radca prawny specjalizujący się w prawie własności intelektualnej i nowych technologii. Łączę praktykę prawniczą z działalnością naukową, dzieląc się wiedzą i doświadczeniem na blogu. Dowiedz się więcej…