TECHNOFOBIA
Posts
Jak firmy planują ściągać dane? | TECHNOFOBIA | Newsletter Artura Kurasińskiego

Jak firmy planują ściągać dane? | TECHNOFOBIA | Newsletter Artura Kurasińskiego

Maciej Marek & Artur Kurasinski
April 25, 2024

W drugiej połowie 2021 roku OpenAI napotkało znaczące wyzwanie – zabrakło wiarygodnych tekstów anglojęzycznych w Internecie, które firma mogłaby wykorzystać do szkolenia swoich modeli. Nie była w tym jednak osamotniona. Podobny problem dotyczył też innych graczy na rynku: Metę czy Google. W odpowiedzi na to powstał Whisper, system rozpoznawania mowy, który może tworzyć transkrypcję z YouTube. Wszystko po to, by zwiększyć liczbę danych do szkolenia GPT.

Mimo obaw, iż takie działania mogą naruszać zasady korzystania z YouTube, który jako spółka zależna Google ogranicza wykorzystywanie swoich treści do zastosowań zewnętrznych, OpenAI transkrybowało ponad milion godzin treści.

A to wszystko miało bezpośrednie przełożenie na rozwój obecnej wersji GPT-4. To znak, że firmy z sektora Big Tech rozpoczęły agresywnie pozyskiwać cyfrowe dane, by móc karmić swoje modele językowe…

Często wiąże się to z przekroczeniem ustalonych norm korporacyjnych oraz obowiązujących ram prawnych. Problem nie dotyczy tylko OpenAI. Meta, by go rozwiązać, rozważała przejęcie wydawnictwa Simon & Schuster. Taki krok miał ułatwić im dostęp do treści literackich bez konieczności negocjowania praw do każdej książki osobno.

Google, podobnie jak OpenAI, przetranskrybowało filmiki z YT, by szkolić swoje AI, przy czym mogli naruszyć prawo twórców. Dopiero później zmodyfikowali także swoje regulaminy, by publicznie dostępne treści na Google Docsach i Mapach mogły być użyte do treningu modeli.

Ruszyła pogoń za danymi – wszelkiego rodzaju: od newsów, przez beletrystykę, po posty na forach, zdjęcia i wideo. Cel? Wyszkolenie AI, aby naśladować ludzkie osiągnięcia w tekście, obrazach i dźwięku.

KONIEC DANYCH?

Początkowo Internet był bogatym źródłem danych. Szczególnie łakomymi kąskami była Wikipedia i Reddit. Jednak szybki rozwój przewyższył dostępne źródła wysokiej jakości. Mimo dostępu do ogromnych ilości danych z miliardów codziennych interakcji główne firmy technologiczne są ograniczone przez przepisy dotyczące prywatności oraz własne zasady.

Nowe źródła są potrzebne na wczoraj, a prognozy sugerują, że firmy mogą wyczerpać dostępne zasoby wysokiej jakości danych do roku 2026. Szybkie zużycie skłoniło niektórych ekspertów do przejęcia argumentacji, że modele sztucznej inteligencji wymagają tak ogromnych ilości danych, że tradycyjne metody licencjonowania stają się niepraktyczne.

Stąd powstał pomysł danych „syntetycznych". Modele generują treści i uczą się na podstawie własnych wyników. OpenAI tworzy unikalne zestawy danych dla każdego ze swoich modeli, aby zwiększyć ich zrozumienie świata i utrzymać swoją przewagę konkurencyjną w badaniach.

Google przyznało, że wykorzystuje treści z YouTube do szkolenia swoich modeli AI, opierając się na konkretnych umowach z twórcami. Podobnie Meta wykorzystała swoje ogromne zasoby publicznych obrazów i filmów z Instagrama oraz Facebooka, aby zyskać przewagę konkurencyjną.

Życie na krawędzi możliwości technologicznych i ciągły popyt na nowe zbiory danych doprowadziły firmy technologiczne do problemów prawnych.

The New York Times złożył pozew przeciwko OpenAI i Microsoftowi, oskarżając ich o wykorzystywanie artykułów chronionych prawem autorskim do szkolenia AI bez pozwolenia.

Obie firmy argumentują, że korzystanie z artykułów mieści się w ramach „dozwolonego użytku" i służy szerszym celom. Prawnicy są teraz zasypywani pytaniami dotyczącymi wpływu AI na prawa autorskie, z kolei twórcy online czują się zagrożeni, ponieważ podejrzewają, że modele AI wykorzystują ich dzieła bez zgody i należytego wynagrodzenia. Wracamy do kwestii etyki wykorzystywania treści online.

LICZY SIĘ SKALA

Wydajność dużych modeli językowych znacznie wzrasta wraz z ilością danych.

Koncepcja: „skala to wszystko, czego potrzebujesz", szybko stała się mantrą w społeczności AI.

Wszyscy giganci pragną ogromnych zbiorów danych. Kiedy OpenAI uruchomiło GPT-3 w listopadzie 2020 roku, narzędzie było przeszkolone na niebywałą dotąd skalę – 300 miliardów tokenów.

Dzięki temu GPT-3 może generować tekst z niezwykłą precyzją, tworząc posty na blogu, poezję, a nawet własne programy komputerowe.

To był jednak tylko początek wykorzystywania tak dużych zbiorów baz. W 2022 roku DeepMind przetestował 400 modeli sztucznej inteligencji, dostosowując ilość danych i inne zmienne.

Wyniki były oszałamiające: najbardziej wydajne modele wymagały więcej danych, niż początkowo przewidywano. Jeden z wyróżniających się modeli DeepMind, Chinchilla, wytrenowany został na 1,4 miliarda tokenów.

W 2023 roku zespół badaczy z Chin wprowadził model sztucznej inteligencji o nazwie Skywork, który został przeszkolony na kolosalnej liczbie 3,2 miliarda tokenów, pochodzących zarówno z tekstów angielskich, jak i chińskich.

Google wprowadziło również PaLM 2,który wykorzystywał ponad 3,6 miliarda tokenów.

W maju Sam Altman, powiedział, że zbiory danych, od których zależą firmy zajmujące się sztuczną inteligencją, mogą się wyczerpać.

Przez lata jego organizacja starannie gromadziła, czyściła i wykorzystywała obszerne zbiory danych do trenowania swoich modeli językowych. Chodzi o ogromne ilości kodu z GitHuba, bazy danych ze strategiami szachowymi oraz materiały edukacyjne z Quizlet, zawierające szczegółowe informacje o egzaminach maturalnych i zadaniach domowych.

Pod koniec 2021 roku OpenAI odkryło, że ich zasoby danych zaczynają się wyczerpywać. Potrzebowali nowych danych „na gwałt”, aby móc opracować GPT-4.

Rozważali transkrypcję podcastów, audiobooków i filmów z YouTube, tworzenie nowych danych przy użyciu AI, a nawet przejęcie startupów, które posiadają mnóstwo wewnętrznych zasobów.

W ten sposób powstał Whisper, narzędzie do rozpoznawania mowy, zaprojektowane do transkrypcji treści z YouTube i podcastów. Mimo istniejących surowych zakazów YouTube’a, które zabraniają wykorzystywania filmów na tej platformie do "niezależnych" celów lub uzyskiwania do nich dostępu za pomocą zautomatyzowanych narzędzi, OpenAI kontynuowało swoje działania.

Firma utrzymywała, że wykorzystanie tych transkrypcji do szkolenia AI stanowiło uczciwe użytkowanie, choć było to stanowisko prawnie niejednoznaczne.

SZARA STREFA WOKÓŁ DANYCH

W ubiegłym roku OpenAI zaprezentowało GPT-4, wykorzystując ponad milion godzin transkrypcji filmów z YouTube wyprodukowanych przez Whispera. Pomimo, że niektórzy pracownicy Google byli świadomi wykorzystywania przez OpenAI danych z YouTube, zdecydowali się nie interweniować.

Dlaczego? Google samo wykorzystywało podobne praktyki. Zgłoszenie zastrzeżeń wobec OpenAI mogło potencjalnie narazić Google na publiczną kontrolę i reakcję na jej metody.

Chociaż zasady Google zezwalają na wykorzystanie danych z YouTube do ulepszania funkcji na własnej platformie, to nie ma pewności, czy te dane mogą być używane do komercyjnych usług poza YouTube, jak choćby tworzenie chatbotów.

Uruchomienie ChataGPT przez OpenAI wywołało burzę w branży i skłoniło Google do sprawdzenia innych źródeł – choćby Google Dokumentów i ich innych darmowych aplikacji, z których korzystają miliardy osób.

Istniejąca polityka prywatności ograniczała ich wykorzystanie, dlatego w połowie 2022 roku zespół prawny poprosił dział ds. prywatności o opracowanie nowego sformułowania polityki, które poszerzyłoby dopuszczalne wykorzystanie danych konsumentów, w tym treści z Dokumentów i Arkuszy Google, aby wspierać rozwój AI.

Nie było jasne, czy Google wcześniej wykorzystywał takie dane do szkolenia AI.

Nowe warunki oczywiście zostały wprowadzone i big tech mogą już korzystać z danych do

tworzenia modeli sztucznej inteligencji oraz do nowych produktów czy funkcji.

Zmiany wprowadzili w weekend 4 lipca, kiedy uwaga mediów była skierowana na obchody amerykańskiego Dnia Niepodległości. Debata rozpoczęła się na dobre, bo język użyty w zapiskach nie mówił jasno, jak będą wykorzystywane te treści.

Rzecznik Google podkreślił, że aktualizacje polityki prywatności miały na celu zapewnienie jasności, zapewniając, że Google nie wykorzystuje danych z Dokumentów Google ani podobnych aplikacji do trenowania modeli językowych bez wyraźnej zgody użytkowników. Wyjaśnił, że zmiany w języku nie doprowadziły do szkolenia na nowych typach danych.

A Meta? Niektórzy dyrektorzy rozważali zakup pełnych praw licencyjnych do nowych książek za 10 dolarów za egzemplarz, a nawet nabycie dużych wydawnictw, jak Simon & Schuster, aby uzyskać dostęp do szerokiej gamy literatury.

Rozmawiano nawet o streszczaniu treści chronionych prawem autorskim z Internetu bez uzyskania odpowiednich zgód.

Z wewnętrznej komunikacji jasno wynikało, że obecne zasoby danych były niewystarczające do budowy konkurencyjnego modelu. Wykorzystanie własnych mediów, jak Facebook czy Instagram, było ograniczone. Wcześniejsze skandale wokół prywatności (Cambridge Analytica) skłoniły firmę do ostrożności.

Pomimo bogactwa publicznie udostępnianych mediów na Facebooku i Instagramie, te nie odpowiadały na potrzeby korporacji w zakresie szkolenia modeli za pomocą tekstu. Aby obejść ograniczenia, Meta zatrudniła pracowników w Afryce do kompilowania streszczeń dzieł literackich, nieumyślnie włączając w to treści chronione prawem autorskim.

Przez to, że OpenAI korzystało chętnie materiałów chronionych prawem autorskim bez wyraźnych zezwoleń, to Meta uznała to za „precedens rynkowy" i okazję do napędzenia swojego wzrostu. Pod swoją tezę podpięli decyzję Gildii Autorów z 2015 przeciwko Google, w której projekt skanowania książek został uznany za dozwolony użytek, ponieważ przekształcił oryginalne dzieła, wyświetlając tylko fragmenty online.

Jednak ten plan budził niepokój wewnętrzny w firmie. Część pracowników chciała, by firma zapłaciła godziwą stawkę autorowi za wykorzystanie jego dzieła.

NOWA STRATEGIA ALTMANA

Sam Altman przedstawił strategię, która ma uleczyć świat z braku danych do szkolenia AI – czyli szkolenie LLM-ów na danych syntetycznych, czyli takich generowanych przez sztuczną inteligencję.

To podejście mogłoby teoretycznie podtrzymać rozwój bardziej zaawansowanych technologii sztucznej inteligencji, poprzez wykorzystanie wyników modeli AI jako nowych danych wejściowych, co zmniejszałoby zależność od materiałów chronionych prawem autorskim.

Gdy modele AI osiągną pewien poziom zaawansowania, będą w stanie generować wysokiej jakości dane syntetyczne, wystarczające do szkolenia kolejnych iteracji. Ten samopodtrzymujący się cykl mógłby teoretycznie prowadzić do wykładniczej poprawy możliwości sztucznej inteligencji, bez dalszego wyczerpywania zewnętrznych źródeł danych.

Koncepcja nie jest nowa i była badana od jakiegoś czasu. Brzmi to pięknie, bo w przyszłości szkolenie może nie wymagać już korzystania z chronionych danych (oczywiście nie licząc tych, które już zerżnęli z internetu).

Wyzwaniem jest jednak upewnienie się, że modele sztucznej inteligencji nie odzwierciedlają jedynie swoich nieodłącznych uprzedzeń lub błędów. Uczenie się na podstawie własnych wyników może uwięzić systemy w pętli wzmacniania błędów, a nie nauki nowych rzeczy.

Badacze ostrzegają przed nadmiernym poleganiem na danych syntetycznych. Korzystanie tylko z takiej kategorii informacji może doprowadzić modele do odejścia od realistycznego i ludzkiego zrozumienia oraz interakcji.

Altman pozostaje optymistą co do perspektyw wykorzystania danych syntetycznych. Natomiast wciąż pozostaje pytanie – jakie dane będą wykorzystywać korporacje obecnie? Bo na dane syntetyczne będziemy musieli poczekać. Jeśli kiedykolwiek ta okazja się pojawi.

Maciej Marek

Główne źródła:
LINK 1
LINK 2
LINK 3

Na Infoshare po prostu musisz być! To najlepszy event poświęcony technologii i startupom w Polsce.

Chcesz się spotkać ze mną to łap zniżkę 10% (po kliknięciu w link) i do zobaczenia na miejscu!

📰 NEWSY WARTE TWOJEJ UWAGI

YouTube ostrzega aplikacje 3rd-party

YouTube zaostrza egzekwowanie swoich Warunków Świadczenia Usług względem aplikacji stron trzecich, które naruszają te warunki, szczególnie aplikacji blokujących reklamy. Firma niedawno opublikowała post na oficjalnym forum społeczności YouTube, ostrzegając twórców aplikacji blokujących reklamy. Osoby korzystające z tych aplikacji mogą zacząć doświadczać problemów z buforowaniem lub błędów podczas próby oglądania filmów.

LINK

Chatbot Ernie AI ma już 200 milionów użytkowników

Chatbot w stylu ChatGPT, Ernie Bot od Baidu, podwoił swoją liczbę użytkowników od grudnia 2023. Chatbot ma obecnie ponad 200 milionów użytkowników i ponad 85,000 klientów korporacyjnych. Jego API jest używane 200 milionów razy każdego dnia. Ernie Bot został uruchomiony w marcu 2023 roku i udostępniony publicznie w sierpniu.

LINK

Samsung wprowadza sześciodniowy tydzień pracy

Samsung wprowadził firmową politykę sześciodniowego tygodnia pracy dla kierownictwa. Firma odnotowała rozczarowujące wyniki finansowe w zeszłym roku i teraz stara się radzić sobie z tym poradzić. Nowa polityka pracy ma na celu wprowadzenie poczucia kryzysu jako część kompleksowych działań mających na celu przezwyciężenie obecnych wyzwań. Od pracowników poniżej poziomu kierowniczego nie oczekuje się podobnych działań. Samsung zmaga się z rosnącą konkurencją oraz problemami gospodarczymi.

LINK

Tesla obniża ceny samochodów i oprogramowania

Tesla obniżyła ceny swoich modeli w Chinach, Europie i USA. Oprogramowanie Full Self-Driving jest teraz dostępne w USA za 8000 dolarów. W Chinach zmodernizowany Model 3 jest teraz dostępny za 241,900 juanów (około 32,000 dolarów) - wcześniej model kosztował 245,900 juanów, a Model Y został przeceniony do 249,900 juanów (około 34,500 dolarów) z 263,900 juanów. Najtańszy Model Y w USA kosztuje teraz 42,990 dolarów.

LINK

Jak firmy planują ściągać dane? | TECHNOFOBIA | Newsletter Artura Kurasińskiego

Na Infoshare po prostu musisz być! To najlepszy event poświęcony technologii i startupom w Polsce.

📰 NEWSY WARTE TWOJEJ UWAGI

YouTube ostrzega aplikacje 3rd-party

Chatbot Ernie AI ma już 200 milionów użytkowników

Samsung wprowadza sześciodniowy tydzień pracy

Tesla obniża ceny samochodów i oprogramowania

Jak Ci się podoba dzisiejsze wydanie?