Sprawozdanie z debaty: AI w świecie IP, czyli GEMA vs Open AI

26 listopada 2025 r. uczestniczyłem w debacie online poświęconej nowym granicom ochrony własności intelektualnej. Jej głównym tematem stał się przełomowy wyrok w sprawie GEMA vs OpenAI — pierwsze orzeczenie w Europie stwierdzające naruszenie praw autorskich przez ChatGPT. Nie zabrakło też wątku z eksploracją tekstu i danych (TDM) i wizji przyszłości.

Debatę zorganizowała kancelaria Lubasz i Wspólnicy, a moderowała ją dr Maria Dymitruk, szefowa praktyki sztucznej inteligencji w kancelarii. Moim rozmówcą był dr Damian Flisak, radca prawny i ekspert Komisji Europejskiej (Team Europe Direct), znany ze sceptycyzmu wobec modelu rozwoju gigantów technologicznych. Rozmawialiśmy o tym, jak spory sądowe twórców z dostawcami AI oraz kwestie eksploracji tekstu i danych (TDM) zmieniają krajobraz prawny. Różnice w naszych poglądach przyciągnęły blisko pół tysiąca uczestników.

Szczegóły sprawy i wyrok GEMA vs OpenAI

GEMA, niemiecka organizacja zbiorowego zarządzania, udowodniła przed sądem, że modele GPT-4 i GPT-4o udostępniane przez OpenAI znają i potrafią odtworzyć chronione utwory. Za pomocą prostych promptów – np. nadając chatbotowi rolę eksperta od niemieckiej muzyki – GEMA uzyskała fragmenty tekstów 9 popularnych piosenek (m.in. „Atemlos” Kristiny Bach czy „Männer” Herberta Grönemeyera).

Choć czasami pojawiały się tzw. halucynacje AI, w kilku przypadkach model wygenerował dosłowne lub nieznacznie zniekształcone fragmenty utworów. Sąd w Monachium uznał to za dowód na naruszenie praw autorskich. Naruszenie zaszło w dwóch obszarach: poprzez memoryzację utworów (uznaną za zwielokrotnianie wewnątrz modelu) oraz poprzez publiczne udostępnianie tych treści w odpowiedziach generowanych dla użytkownika.

Czym jest memoryzacja w modelach AI i jakie są jej skutki prawne

Naszą dyskusję rozpoczęliśmy od zdefiniowania, czym w istocie jest memoryzacja w sztucznej inteligencji i jak kwalifikuje ją prawo. W niemieckiej doktrynie dominuje pogląd, że memoryzacja stanowi zwielokrotnienie utworu w rozumieniu dyrektywy InfoSoc. Problem leży jednak w skali.

Memoryzacja dotyczy ułamka promili danych treningowych. Wynika to z natury uczenia maszynowego (machine learning), które polega na generalizacji wzorców, a nie archiwizowaniu danych. Model „zapamiętuje” dosłowne fragmenty głównie wtedy, gdy dane wielokrotnie powtarzają się w zbiorze treningowym (np. popularne teksty piosenek). Uznanie tego za naruszenie ma drastyczne konsekwencje: nakaz zaniechania naruszenia może oznaczać konieczność ponownego przetrenowania modelu AI, co generuje koszty rzędu dziesiątek milionów dolarów. Kwalifikacja memoryzacji jako zwielokrotniania powoduje więc, że środki ochrony praw autorskich przestają być proporcjonalne.

Damian Flisak zajął odmienne stanowisko. Jego zdaniem wyrok GEMA jest orzeczeniem przełomowym, które przełamuje dotychczasowe liberalne przekonanie o braku potrzeby wynagradzania za komercyjne TDM. Sąd monachijski, opierając się na literaturze technicznej, stwierdził, że w parametrach wytrenowanego modelu „odzwierciedla się twórcza zawartość” danych treningowych — utwory są w modelu „zawarte w sposób reprodukowalny”. Damian podkreślił, że memoryzacja jest jedynie objawem, nie przyczyną. Fakt, że obecnie potrafimy zidentyfikować około 1% zmemoryzowanych treści, wynika jego zdaniem z ograniczeń naszych narzędzi analitycznych. Nic nie wyklucza, że wraz z rozwojem technologii będziemy w stanie zdekodować znacznie większą ilość danych ukrytych w parametrach modelu. Istotne ma być też – w jego ocenie – że sąd odrzucił argument OpenAI o przerzuceniu odpowiedzialności na użytkowników generujących prompty — to dostawca modelu decydował o doborze danych treningowych i kształtuje output na podstawie prostych poleceń użytkownika.

Eksploracja tekstów i danych (TDM) a trenowanie sztucznej inteligencji

W kolejnej turze skupiliśmy się na wyjątku TDM (Text and Data Mining). Damian Flisak określił mechanizm opt-out zawarty w art. 4 dyrektywy DSM mianem „grzechu pierworodnego” regulacji. Przepis ten nie był projektowany z myślą o generatywnej sztucznej inteligencji trenowanej na zasobach całego internetu.

Zabezpieczenia typu robots.txt są technicznie przestarzałe, a Komisja Europejska dopiero szuka rozwiązań (np. bazy utworów wyłączonych z trenowania). Mój rozmówca postulował przejście z modelu opt-out na opt-in, czyli powrót do licencjonowania treści dla AI — indywidualnego lub zbiorowego.

Z tym podejściem trudno było mi się zgodzić. Wyjątek TDM to wprawdzie „kulawa proteza”, ale konieczna ze względu na gigantyczne zasoby danych potrzebnych do trenowania modeli AI — mówimy tu o całej zawartości internetu. Tradycyjny model licencjonowania generowałby nieakceptowalne koszty transakcyjne, zjadające znaczącą część budżetu trenowania. Jeżeli podstawą miałoby być opt-in, to umowy trzeba byłoby wynegocjować, zawrzeć, podpisać, zaewidencjonować — niewykonalne przy licencjonowaniu zawartości informacyjnej całego internetu.

Przy licencjonowaniu zbiorowym problemem jest natomiast sprawiedliwy podział wynagrodzeń — wiemy, że jest to wyzwanie już przy obecnym systemie zbiorowego zarządu, a pomnożenie go przez skalę TDM sytuacji nie poprawi. Znamy też inne wady obecnego rozwiązania: brak zróżnicowania charakteru użytku (indeksowanie dla wyszukiwarek to co innego niż uczenie maszynowe), enigmatyczne sformułowania o „zastrzeżeniu w formie czytelnej maszynowo”. Mimo to ograniczenie prawa autorskiego jako podstawa uczenia maszynowego pozostaje bez alternatywy dla danych dostępnych w sieci.

Przyszłość AI i prawa autorskiego – opt-out czy licencjonowanie?

Moim zdaniem bez wymyślenia nowego modelu wynagrodzeń próby wprowadzenia opłat skierują strumień pieniędzy do dużych dostawców treści i tylko do nich, pozostawiając bez wynagrodzenia cały „długi ogon” twórców, których utwory też wykorzystano do trenowania AI. I tak przeszliśmy do ostatniego etapu debaty.

W rzeczywistości jesteśmy nie tylko daleko od odpowiedzi, ale nawet od zdefiniowania pytań, które powinniśmy zadać. Kwestia sztucznej inteligencji jak żaden inny temat na styku technologii z prawem autorskim wywołuje podział niemal polityczny. Zaczyna się nam rysować linia podziału na techno-optymistów, którzy we współpracy człowieka z maszyną widzą źródło przyspieszenia rozwoju, i technosceptyków, którzy optują za ortodoksyjnie ludzkim światem twórczości. Ten podział przebija w naszym patrzeniu na to, czy AI to szansa czy zagrożenie, czy narzędzie nieskrępowanej twórczości czy masowe wywłaszczenie praw twórców. Musimy sobie najpierw odpowiedzieć, gdzie chcemy być z tą technologią, jaką ma mieć rolę gospodarczą i społeczną — dopiero to pozwoli wyznaczyć racjonalne granice. W obecnym prawie nie widzę wystarczającej liczby narzędzi do rozwiązania problemów, które się pojawiają. A do tego wyrok GEMA stawia sprawę w paradoksalny sposób: obecnie mniej ryzykowne jest świadczenie usługi AI spoza Europy dla odbiorców europejskich niż rozwijanie tego samego modelu w Europie. To chyba najbardziej dramatyczna konkluzja i najważniejsze pytanie, które powinniśmy sobie zadać — czy my przez przypadek nie idziemy w złą stronę.

Damian odpowiedział na to ostrą krytyką narracji dostawców AI. Wskazał, że sprawy Getty Images, Mety, Cadry czy New York Timesa ujawniły trenowanie na materiałach pozyskanych nielegalnie, często z tzw. shadow libraries. Cała narracja o powszechnej szczęśliwości płynącej z dostępu do narzędzi AI ma więc — jego zdaniem — „gliniane nogi”. Obecny artykuł 4 dyrektywy DSM jest więc nieudolny i niewystarczający dla tak przełomowego zjawiska. Damian podkreślił, że potrzebne są pilne zmiany legislacyjne, nie akademickie przemyślenia. Wspomniał o planowanych na przyszły rok pracach nad „podtuningowaniem” przepisów prawa autorskiego — zarówno w warstwie procesowej (przerzucenie ciężaru dowodu wykazania trenowania na określonym materiale), jak i materialnoprawnej (odejście od opt-out na rzecz licencjonowania). Zwrócił też uwagę, że istnieją techniczne możliwości montowania filtrów blokujących odtwarzanie zmemoryzowanych tekstów — co potwierdza, że ryzyko memoryzacji i zwielokrotniania jest realne.

Podsumowanie debaty o AI

Nasza debata pokazała, że kwestie AI i prawa autorskiego są niezwykle złożone i dynamiczne. Różnimy się z Damianem i w ocenie szczegółów, i w fundamentach podejścia. Zgadzamy się jednak w tym, że stoimy dziś na wielkim początku drogi i wcale nie zbliżamy się jeszcze do rozwiązań. Dotknęliśmy zaledwie pewnego elementu tej technologii (trenowania modeli), która bardzo dynamicznie się rozwija i rodzi kolejne pytania prawne, na które nie mamy jeszcze odpowiedzi.