Μετάφραση σελίδων με χρήση Firefox

Ένας από του λόγους που το Chrome είναι ιδιαίτερα δημοφιλές ειδικά στην Ευρώπη είναι η δυνατότητα μετάφρασης ιστοσελίδων. Δεν είναι όλο το web στα αγγλικά και ένα ελάχιστο ποσοστό είναι διαθέσιμο στην Ελληνική γλώσσα. Οπότε αν ποτέ βρεθείς σε μια Γερμανική ή Ισπανική σελίδα η δυνατότητα αυτόματης μετάφρασης είναι πολύ χρήσιμη. Αλλά η αυτόματη μετάφραση σημαίνει πρόσδεση με τις υπηρεσίες της Google και αυτό δεν είναι δωρεάν, παρά μόνο στην τιμή. Αν το θέλεις θα πρέπει να χρησιμοποιείς Chrome ούτε καν τον Chromium.

Έχω εγκατεστημένο ένα Chrome για τις ελάχιστες περιπτώσεις που χρειάζομαι κάτι τέτοιο, καθώς και για ελάχιστα sites που απαιτούν τη χρήση DRM, όπως το Netflix ή το Viki.com. Αλλά απέχει από το να είναι η ιδανική λύση. Αν τουλάχιστον μπορούσα να έχω μια αξιοπρεπή μετάφραση έστω στα Αγγλικά στον Firefox …

Ε λοιπόν υπάρχει λύση. Και το καλύτερο όλων; Η μετάφραση γίνεται τοπικά χωρίς χρήση κάποιας εξωτερικής υπηρεσίας! Ναι, καλά ακούσατε! Δεν είναι τα πάντα που θέλουμε να μεταφράσουμε δημόσια, κάποια πράγματα καλό είναι να είναι προσβάσιμα μόνο για τα δικά μας μάτια.

Το ίδρυμα Mozilla σε συνεργασία με διάφορα Ευρωπαϊκά Πανεπιστήμια, και με τη χρηματοδότηση της Ευρωπαϊκής Ένωσης, ανακοίνωσε το έργο Project Bergamot το 2019 για να υποστηρίξει 24 απο τις 37 γλώσσες της Ευρώπης. Η πρώτη έκδοση υποστηρίζει 8 γλώσσες (δυστυχώς ανάμεσα τους δεν είναι η Ελληνική).

Εγκατάσταση

Είναι ένα επίσημο πρόσθετο του Firefox και το εγκαθιστούμε από εδώ:

Ελπίζω σύντομα να αποτελέσει επίσημο κομμάτι του Firefox.

Επίσης, για μικρά κείμενα είναι προσβάσιμο χωρίς εγκατάσταση από εδώ: Mozilla Translations. (Σε αυτή την περίπτωση θα χρησιμοποιηθεί μια υπηρεσία οπότε το κείμενο θα μεταφερθεί μέσα από το «καλώδιο»).

Τα μεταφραστικά μοντέλα είναι ανοικτού κώδικα και ελπίζω σύντομα να είναι διαθέσιμα μέσα από εξωτερικές βιβλιοθήκες και εργαλεία.

Χρήση

Σαν μια γρήγορη δοκιμή έκανα κλικ στο πρώτο άρθρο σε μια γερμανική εφημερίδα

Η μετάφραση

This is how Germany changed
People live alone more often, take a high school diploma more often, retire later: 
new data shows in detail how Germany has changed over the past three decades. 

και το Chome

This is how Germany has changed
People live alone more often, take their Abitur more often and retire later: 
New data show in detail how Germany has changed over the past three decades.

Δεν ξέρω Γερμανικά αλλά οι μεταφράσεις δείχνουν να είναι αρκετά καλές. Ελπίζω σύντομα εδώ να συγκρίνουμε τις διαφορές σε μεταφράσεις και στα Ελληνικά.

Πηγή: On-device browser translations with Firefox Translations | Ctrl blog

11 «Μου αρέσει»

Φαίνεται εξαιρετικό, άλλο ένα βηματάκι μα αποφύγουμε όσο μπορούμε τον big brother. Μακάρι να δούμε σύντομα και τα Ελληνικά.

ασχετο αλλα η κορυφαια μεταφραστικη εξωτερικη υπηρεσια με παρα πολυ καλη υποστηριξη ελληνικων ειναι η deepl
δυστυχως εχει app μονο για Windows, macOS και Android και addons μονο για Chrome.

3 «Μου αρέσει»

@Souiters υποθέσεις πάντα…
Ίσως έχει εκπαιδευτεί από τις συνεδριάσεις των ευρωπαϊκών οργάνων, γιατί στις αναζητήσεις που έκανα πριν ενάμισυ, δύο χρόνια(όσο ήταν και οι ρυθμοί μάθησης γενικά της τεχνητής νοημοσύνης), στην deepl, παρουσίαζε αποτελέσματα από τις παραπάνω συνεδριάσεις, όπου προφανώς είχε δικαίωμα πρόσβασης βάσει άδειας. Αν για παράδειγμα η άδεια χρήσης ήταν cc by sa δεν θα υπήρχε αυτή η δυνατότητα, παρά μόνο για δημιουργία έργου με την ίδια άδεια.

Οι νόμοι περί πνευματικής ιδιοκτησίας είναι αρκετά κενοί για εφαρμογές Α.Ι. Γενικά έχουμε (Δεν είμαι δικηγόρος)

  • Το μοντέλο εκτέλεσης, το οποίο είναι λογισμικό και το χρειάζεσαι σαν χρήστης. Ισχύουν οι κανόνες για το λογισμικό.
  • Το μοντέλο χρήσης, πάλι λογισμικό. Αλλά θα μπορούσε να είναι σε διαφορετική άδεια. Δεν το χρειάζεσαι για να τρέξεις ένα μοντέλο. Ισχύουν οι κανόνες για το λογισμικό.
  • Οι παράμετροι εκπαίδευσής και η μεθοδολογία την εκπαίδευσης. Πατέντα;
  • Τα δεδομένα για την εκπαίδευση. Το δυσκολότερο κομμάτι να βρεις ή να φτιάξεις.
  • Το αποτέλεσμα της εκπαίδευσης σαν ένα αρχείο δεδομένων για το πρώτο λογισμικό.

Για να έχεις πχ ένα ορθογράφο θέλεις ένα μοντέλο και τις παραμέτρους του. Το πως βγαίνουν αυτές δε σε αφορά παρά μόνο για να βελτιώσεις το μοντέλο. Είναι κάτι σαν τη γλώσσα προγραμματισμού (τα δεδομένα εκπαίδευσης) και τη γλώσσα μηχανής (οι παράμετροι) μόνο που μεταξύ τους δεν έχουν κάποια σχέση. Οι δικαστές δεν έχουν λύσει ακόμα το κουβάρι και ούτε τα έχουμε συζητήσει, παρά μόνον πρόσφατα με την περίπτωση τη χρήσης του κώδικα που υπάρχει στο github από τη Microsoft.

Με άλλα λόγια ακόμα και αν έχεις τον κώδικα του Google Translate διαθέσιμο σου είναι άχρηστος χωρίς να έχεις χιλιάδες κείμενα οργανωμένα σε κατάλληλη μορφή και χωρίς να έχεις μήνες και υπολογιστική ισχύ για την εκπαίδευση. Η να έχεις τα βάρη ή τις παραμέτρους επίσης διαθέσιμα ελεύθερα.

Προσωπικά θεωρώ επικίνδυνο να θεωρηθεί πως δεν μπορεί να γίνει χρήση σαν δεδομένα εκπαίδευσης κάποιου μοντέλου για λόγους πνευματικής ιδιοκτησίας, έστω και αν είναι GPL. Αλλά θα ακούσω με προσοχή τη γνώμη σας.

Ήταν ενδιαφέρον το θέμα ήδη, αλλά τώρα έγινε εξαιρετικά ενδιαφέρον…

Πρέπει να το εξηγήσεις λίγο περισσότερο αυτό. Γιατί ας πούμε να είναι επικίνδυνο γενικά να μη δώσεις τα δεδομένα εκπαίδευσης. Ίσως και να είναι επικίνδυνο να τα δώσεις αν υπάρχει πχ κίνδυνος να γίνει ταυτοποίηση με φυσικά πρόσωπα και να μετατραπούν σε προσωπικά δεδομένα ή να είναι ήδη και να τα χειρίζεται κάποιος ειδικός κρατικός φορέας πχ ασφάλειας. Φυσικά υπάρχει και η άλλη πλευρά που όντως μπορεί να είναι επικίνδυνο να μην τα δίνεις, αλλά με τη σειρά μου περιμένω πρώτα να το εξηγήσεις λίγο περισσότερο πως το σκέφτεσαι…

Νομίζω ότι θα ταίριαζε περισσότερο η λέξη παρακινδυνευμένο αναφορικά με την εικασία για τη δυνατότητα πρόσβασης ή όχι σε δεδομένα ανάλογα με την άδεια χρήσης.
Όντως έχω φάει ένα σκάλωμα με τις άδειες χρήσης ιδίως τις Creative Commons και το πως χρησιμοποιούνται.
Είναι σημαντικό πάντως να τονίσουμε ότι το μοντέλο της deepl μέχρι στιγμής(14-07-2022) ανταγωνίζεται επάξια σε μεταφράσεις τα μεγαθήρια του χώρου, άρα ο αλγόριθμος δουλεύει…
Τέλος για όποιον ενδιαφέρεται υπάρχουν και εκδηλώσεις αυτή την εποχή για πολυγλωσσικά συστήματα τεχν. νοημοσύνης όπως η παρακάτω

Μίλησα για χρήση κώδικα GPL σαν δεδομένα εκπαίδευσης, έχοντάς στο νου μου το πρόσφατο θέμα που έχει προκύψει με το Github. Που εμπλέκονται προσωπικά δεδομένα σε αυτή την περίπτωση; Το θέμα είναι πως 2-3 γραμμές προφανούς κώδικά που θα σου δώσει κάποιο εργαλείο είναι επικίνδυνο να θεωρηθεί πνευματική ιδιοκτησία, δεν θα μπορείς να γράψεις κανένα πρόγραμμα τότε.

Αυτό που θέλεις όταν εκπαιδεύεις κάτι είναι η γενίκευση. Να αφαιρέσεις από τα δεδομένα κάτι ειδικό για να πάρεις την ολική εικόνα. Για παράδειγμα, το Netflix έχει ένα Recomentation Engine που σου προτείνει τι να δεις. Γνωρίζει πολύ καλά τι έχεις δει, αλλά το μοντέλο δε θέλει να ξέρει για σένα, αντίθετα προσπαθεί να αφαιρέσει τις δικές σου ιδιορρυθμίες.

Δε νομίζω να εμπλέκοντε προσωπικά δεδομένα σε αυτή την περίπτωση (δεν ξέρω κιόλας δηλαδή). Είναι σωστός ο λόγος που ανησυχείς, έχεις δίκιο.
Δεν είναι όμως όλες οι περιπτώσεις τέτοιες και που μάλιστα (κάποια από) τα δεδομένα εκπαίδευσης να έχουν τη gpl κάπου. Πχ τι γίνεται αν κάποιος θέλει να χρησιμοποιήσει ιατρικά δεδομένα; Και αν πχ αυτός/ή έχει τη δυνατότητα να τα χειριστεί κατάλληλα (ως προσωπικά δεδομένα), είναι σωστό να μην μπορούν άλλοι να τα χρησιμοποιήσουν; Θα εμπιστευτούμε το αποτέλεσμα που θα βγάλει ενώ δεν μπορούμε να το επαληθεύσουμε; Να πάρει ο καθένας τα δεδομένα αυτά να τα επαληθεύσει; Και οι δύο περιπτώσεις είναι επικίνδυνες. Είναι πολύ μπλεγμένο το θέμα αυτό με πολλές περιπτώσεις και υποπεριπτώσεις.

Όχι ακριβώς (νομίζω). Αυτό που θέλεις είναι να αφαιρέσεις τις ακραίες τιμές που και κάνουν τον υπολογισμό πιο δύσκολο και μπορεί να προκαλέσουν στρέβλωση στο αποτέλεσμα (αυτό έχω καταλάβει εγώ). Μπορεί στο παράδειγμα με το netflix, το μοντέλο να θέλει να αφαιρέσει τις δικές σου ιδιορυθμίες, αλλά δεν είναι όλες οι περιπτώσεις τέτοιες.

Τούτων λεχθέντων, το mathesis έχει ένα μάθημα σχετικό με την εκπαίδευση ΑΙ, είναι αυτό → https://mathesis.cup.gr/courses/course-v1:ComputerScience+CS5.1+22A/about

1 «Μου αρέσει»

Και μιας και ξαναδιαβάζω καμιά φορά παλιά άρθρα και συζητήσεις:

Η εμπειρία μου με κώδικα και AI είναι με το tabnine που στη δωρεάν έκδοση τουλάχιστον ήταν λελογισμένο. Αλλά αυτό της Microsoft είναι επικίνδυνο να χρησιμοποιηθεί σε κλειστό λογισμικό. Έχω δει βίντεο που βάζεις σχόλιο αντιστροφή ενός πίνακα και πετάει απο κάτω έναν αλγόριθμο, που ίσως δεν έχεις ιδέα τι προϋποθέσεις απαιτεί, αλλά και που είναι αντιγραφή από game libraries με open source άδειες χρήσης. Πραγματικά, είναι τρομαχτικό.

1 «Μου αρέσει»

Όντως είναι κορυφή η DeepL. Σε macOS χρησιμοποιώ και το app αλλά τις περισσότερες φορές μέσω της web page.