Newsletter Newsletters Events Εκδηλώσεις Ποντάκαστ Βίντεο Africanews
Loader
Διαφήμιση

Γιατί οι εκδότες ειδήσεων μπλοκάρουν την πρόσβαση της τεχνητής νοημοσύνης στα διαδικτυακά αρχεία

Ένα άτομο διαβάζει την εφημερίδα New York Times
Ένα άτομο διαβάζει την εφημερίδα New York Times Πνευματικά Δικαιώματα  Beyzanur K. /Pexels
Πνευματικά Δικαιώματα Beyzanur K. /Pexels
Από Indrabati Lahiri
Δημοσιεύθηκε
Μοιραστείτε το Σχόλια
Μοιραστείτε το Close Button

Οι εταιρείες τεχνητής νοημοσύνης που χρησιμοποιούν ειδησεογραφικό περιεχόμενο παραβιάζουν την πνευματική ιδιοκτησία, ενώ εκκρεμούν αγωγές κατά της OpenAI και της Perplexity.

Περίπου 245 ειδησεογραφικοί οργανισμοί σε εννέα χώρες επιχειρούν να μπλοκάρουν τα προγράμματα ανίχνευσης (crawlers) του Internet Archive. Πρόκειται για αυτοματοποιημένα λογισμικά (bots) που καταγράφουν, προβάλλουν και αρχειοθετούν περιεχόμενο από ιστοσελίδες στη δημόσια διεπαφή του Internet Archive, το Wayback Machine.

ΔΙΑΦΉΜΙΣΗ
ΔΙΑΦΉΜΙΣΗ

Το αρχείο περιλαμβάνει πάνω από ένα τρισεκατομμύριο ιστοσελίδες, με ημερομηνίες που φτάνουν έως το 1996, γεγονός που το καθιστά έναν από τους μεγαλύτερους δημόσιους συλλογικούς πόρους πληροφόρησης στον κόσμο. Σε αυτό περιλαμβάνονται παλαιότερα άρθρα μεγάλων μέσων ενημέρωσης όπως τα CNN, The New York Times, The Guardian και USA Today.

Αυτές οι ιστοσελίδες αξιοποιούνται για πολλούς σκοπούς, για παράδειγμα ως πρωτογενείς πηγές για ιστορικούς ή για την τεκμηρίωση αλλαγών που έγιναν μετά τη δημοσίευση.

Πλέον, αρκετοί ειδησεογραφικοί οργανισμοί πιέζουν για να μπλοκάρουν τους crawlers, καθώς εταιρείες τεχνητής νοημοσύνης χρησιμοποιούν το περιεχόμενο του αρχείου για την εκπαίδευση μεγάλων γλωσσικών μοντέλων (LLMs) χωρίς να καταβάλλουν δίκαιη αμοιβή ή να εξασφαλίζουν άδεια.

Περισσότεροι από 20 μεγάλοι ειδησεογραφικοί οργανισμοί μπλοκάρουν ήδη το ia_archiverbot, τον βασικό ανιχνευτή ιστού που χρησιμοποιεί το Internet Archive για το Wayback Machine, σύμφωνα με ανάλυση της εταιρείας εντοπισμού τεχνητής νοημοσύνης Originality AI.

Ωστόσο, τουλάχιστον ένα από τα τέσσερα προγράμματα ανίχνευσης του αρχείου μπλοκάρεται από 241 ενημερωτικές ιστοσελίδες παγκοσμίως. Ένα μεγάλο μέρος από αυτές τις μπλοκαρισμένες ιστοσελίδες ανήκει στην USA Today Co, τον μεγαλύτερο εκδότη εφημερίδων στις ΗΠΑ. Αυτό σημαίνει ότι εκατοντάδες τοπικές εκδόσεις έχουν πρακτικά αφαιρεθεί από τα ιστορικά αρχεία.

Οι κίνδυνοι από τη χρήση αρχειακού περιεχομένου για την εκπαίδευση τεχνητής νοημοσύνης

Το αρχειακό ειδησεογραφικό περιεχόμενο προσφέρει τεράστιες ποσότητες κειμένου και εικόνων υψηλής ποιότητας για την εκπαίδευση μεγάλων μοντέλων τεχνητής νοημοσύνης σε πιο ανθρώπινο λόγο. Το υλικό είναι προσβάσιμο μέσω URL και διεπαφής API, η οποία επιτρέπει σε διαφορετικά λογισμικά να επικοινωνούν μεταξύ τους και να ζητούν δεδομένα, λειτουργώντας ως γέφυρα ανάμεσα σε συστήματα.

Αυτό διευκολύνει ακόμη περισσότερο τις εταιρείες τεχνητής νοημοσύνης να έχουν πρόσβαση σε αρχειακά δεδομένα και να εκπαιδεύουν τα μοντέλα τους.

Ένα ακόμη πλεονέκτημα είναι ότι το περιεχόμενο στο Internet Archive είναι ήδη δομημένο, αποδομένο και χρονολογημένο.

Μεγάλο μέρος των δεδομένων του Internet Archive έχει ήδη εντοπιστεί σε βασικά σύνολα δεδομένων εκπαίδευσης τεχνητής νοημοσύνης. Ωστόσο, αυτό αποτελεί σοβαρή αδυναμία για τους ειδησεογραφικούς οργανισμούς, οι οποίοι ήδη μηνύουν εταιρείες όπως η Perplexity και η OpenAI για πιθανές παραβιάσεις πνευματικών δικαιωμάτων.

«Το πρόβλημα είναι ότι το περιεχόμενο των Times στο Internet Archive χρησιμοποιείται από εταιρείες τεχνητής νοημοσύνης κατά παράβαση του νόμου περί πνευματικής ιδιοκτησίας, για να ανταγωνίζονται άμεσα εμάς», δήλωσε ο Graham James, εκπρόσωπος της εφημερίδας The New York Times, όπως τον επικαλείται το The Next Web.

«Οι Times επενδύουν τεράστιους πόρους στην παραγωγή πρωτότυπης δημοσιογραφίας και αυτή η δουλειά δεν θα έπρεπε να χρησιμοποιείται χωρίς την άδειά μας».

Άλλοι οργανισμοί, όπως ο The Guardian, έχουν υιοθετήσει πιο συντηρητική προσέγγιση, περιορίζοντας αντί να μπλοκάρουν πλήρως την πρόσβαση του αρχείου.

Το Internet Archive υποστηρίζει ότι αποτελεί «παράπλευρη απώλεια»

Ο διευθυντής του Wayback Machine, Mark Graham, επιμένει ότι αποτελούν απλώς «παράπλευρη απώλεια» και ότι οι πραγματικοί υπαίτιοι είναι οι εταιρείες τεχνητής νοημοσύνης που αποκτούν πρόσβαση σε παλαιότερο περιεχόμενο μέσω των διεπαφών του αρχείου.

Ωστόσο, το αρχείο έχει λάβει και δικά του μέτρα για τον περιορισμό αυτού του φαινομένου. Μεταξύ άλλων, αποτρέπει τη μαζική λήψη υλικού από ορισμένες ιστοσελίδες και περιορίζει την αυτοματοποιημένη εξαγωγή σε συγκεκριμένες περιπτώσεις.

Ο Graham τόνισε ότι το αρχείο λειτουργεί ως βασικός μηχανισμός διαφύλαξης του περιεχομένου. Χωρίς αυτό, άρθρα που δεν έχουν αρχειοθετηθεί μπορούν να τροποποιηθούν χωρίς άδεια ή λογοδοσία. Αυτό μπορεί να σημαίνει από αλλαγή ή αφαίρεση αποσπασμάτων και διόρθωση λαθών, έως την αναδιατύπωση ισχυρισμών και επίσημων δηλώσεων.

Σήμερα, αυτές οι αλλαγές καταγράφονται από το Wayback Machine.

Αυτό έχει οδηγήσει ορισμένους ειδησεογραφικούς οργανισμούς να προσπαθούν να συνεργαστούν με το Internet Archive για την εξεύρεση αποδεκτών συμβιβασμών ή λύσεων, που να περιορίζουν την πρόσβαση αντί να την μπλοκάρουν πλήρως.

Παρόμοια, η μη κερδοσκοπική οργάνωση υπεράσπισης ψηφιακών δικαιωμάτων Fight for the Future έχει ξεκινήσει αίτημα, το οποίο έχει ήδη υπογραφεί από 100 ενεργούς δημοσιογράφους, διαμαρτυρόμενη για αυτά τα μπλοκαρίσματα. Και μάλιστα σε μια περίοδο κατά την οποία τα δημόσια αρχεία και η ιστορία αμφισβητούνται ολοένα και περισσότερο.

Μετάβαση στις συντομεύσεις προσβασιμότητας
Μοιραστείτε το Σχόλια

Σχετικές ειδήσεις

Αποκλειστικό: Η Revolut σχεδιάζει να ανοίξει το πρώτο φυσικό κατάστημα στη Βαρκελώνη

Γιατί οι εκδότες ειδήσεων μπλοκάρουν την πρόσβαση της τεχνητής νοημοσύνης στα διαδικτυακά αρχεία

Ο Έλον Μασκ συγκρούεται με τον δικηγόρο της OpenAI στην τρίτη μέρα της δίκης για το ChatGPT