Did you know ?

[{"selector":"#anim-099956e5-b6ae-4e98-97b3-144ae2ca6b85","keyframes":{"opacity":[0,1]},"delay":500,"duration":800,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-9c7a2790-c603-4f48-94f0-efcd51c9cf19","keyframes":{"transform":["translate3d(106.61157%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":500,"duration":800,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-70edc04b-6b3f-4fb7-89bf-c75571bb5037","keyframes":{"opacity":[0,1]},"delay":100,"duration":800,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-9ca9798c-4b2b-4fd2-bf50-f8fcf59a51b5","keyframes":{"transform":["translate3d(0px, -509.70015%, 0)","translate3d(0px, 0px, 0)"]},"delay":100,"duration":800,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] To tackle this and make AI training cost-effective, researchers have found a new method called " Selective Forgetting. "

[{"selector":"#anim-7075af9e-9734-4cf4-aacf-80dd32853e9c","keyframes":{"opacity":[0,1]},"delay":500,"duration":800,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-abc44135-a303-4b3f-97fb-3556adb54bef","keyframes":{"transform":["translate3d(106.61157%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":500,"duration":800,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-84bb59e2-ce03-435e-8f70-5f2ce5d71861","keyframes":{"opacity":[0,1]},"delay":100,"duration":800,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-ddb388fe-61f8-4006-bbfa-712d125f6bcd","keyframes":{"transform":["translate3d(0px, -224.00796%, 0)","translate3d(0px, 0px, 0)"]},"delay":100,"duration":800,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] What is Selective Forgetting? Selective forgetting is a technique used in machine learning models to improve their ability to learn new languages. It involves periodically erasing information from the model's memory during training . This can be done by erasing the embedding layer, which stores information about the building blocks of words, or resetting the entire model at regular intervals.

[{"selector":"#anim-009cebff-21f3-4046-9bfa-4ec2416caa63","keyframes":{"opacity":[0,1]},"delay":500,"duration":800,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-30372130-04e0-48f5-a734-f9a64cbd9a5c","keyframes":{"transform":["translate3d(106.61157%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":500,"duration":800,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-80662b8f-8e1b-4f51-b554-e72922ff68b6","keyframes":{"opacity":[0,1]},"delay":50,"duration":900,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-df475ab2-bdcc-4278-bd77-485094402688","keyframes":{"transform":["translate3d(0px, -274.15154%, 0)","translate3d(0px, 0px, 0)"]},"delay":50,"duration":900,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] Why Selective Forgetting? Suppose you want to add more language to an AI model trained before, say, 100 languages. To add a new one conventionally, you must retrain the entire AI model, which will be expensive and time-consuming.

[{"selector":"#anim-bddb434f-8ca1-4a91-b5b7-27434fece16d","keyframes":{"opacity":[0,1]},"delay":500,"duration":800,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-f65f8a44-9b65-4d16-950b-94943689f702","keyframes":{"transform":["translate3d(106.61157%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":500,"duration":800,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-ae3870fb-b56d-4361-9354-9726d0156285","keyframes":{"opacity":[0,1]},"delay":50,"duration":900,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-d26330d9-b2cf-4465-8c54-29425422441a","keyframes":{"transform":["translate3d(0px, -335.0116%, 0)","translate3d(0px, 0px, 0)"]},"delay":50,"duration":900,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] How Selective Forgetting Works ? Selective Forgetting works by periodically erasing information ( adaptive forgetting ) during the training process, allowing the model to learn a new language more easily.

Selective Forgetting vs Standard Training approach

[{"selector":"#anim-d698f818-540e-463c-9ce0-d2520750f9dd","keyframes":{"opacity":[0,1]},"delay":500,"duration":800,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-e2821007-115e-4dd1-8f5f-3aa45338e311","keyframes":{"transform":["translate3d(106.88705%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":500,"duration":800,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-3d3a61f9-dbcf-4c24-9ace-7a13b116ba6b","keyframes":{"opacity":[0,1]},"delay":50,"duration":900,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-ac16dab0-b08e-46cf-bb9f-dbdfb87489e0","keyframes":{"transform":["translate3d(0px, -800.38999%, 0)","translate3d(0px, 0px, 0)"]},"delay":50,"duration":900,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] Scores On a common measure of language accuracy, with full training data: Standard approach : 86.1 Forgetting approach : 85.1

[{"selector":"#anim-0f339338-4634-48b6-a2a8-06515a7e5381","keyframes":{"opacity":[0,1]},"delay":500,"duration":800,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-8b261d31-648e-4e7b-a03a-a3b5e0a388c5","keyframes":{"transform":["translate3d(106.88705%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":500,"duration":800,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-ccbe1b02-ca9e-4422-9b7b-25928f7e1e98","keyframes":{"opacity":[0,1]},"delay":50,"duration":900,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-98475ff9-e49c-493d-8ab2-f90624c2b92b","keyframes":{"transform":["translate3d(0px, -349.54775%, 0)","translate3d(0px, 0px, 0)"]},"delay":50,"duration":900,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] After retraining on new languages using much smaller datasets (only 5 million tokens instead of 70 billion): Standard approach: Accuracy dropped to 53.3 on average Forgetting approach: Accuracy dropped to 62.7 on average

[{"selector":"#anim-2cf9c633-1a6b-4d9a-9ba1-59f9d5558507","keyframes":{"opacity":[0,1]},"delay":500,"duration":800,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-45742c44-92fd-4b36-a411-80d3a7ef1e8e","keyframes":{"transform":["translate3d(106.88705%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":500,"duration":800,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-dcaa951d-25ab-46ab-b711-c3578e0eebce","keyframes":{"opacity":[0,1]},"delay":50,"duration":900,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-03162dc6-a347-4082-a5ca-c7ec39599800","keyframes":{"transform":["translate3d(0px, -260.41385%, 0)","translate3d(0px, 0px, 0)"]},"delay":50,"duration":900,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] When computational limits were imposed during retraining (training length cut from 125,000 steps to 5,000 steps): Standard approach : Accuracy plunged to 37.2 (essentially random guessing) Forgetting approach : Accuracy decreased to 57.8 on average

So, while the forgetting approach scored slightly worse (85.1 vs. 86.1) on the original language after full training, it performed much better when retrained on new languages with limited data and computational resources.

[{"selector":"#anim-c8b6c3fd-f89c-4951-bb46-3071aff6f3f5","keyframes":{"opacity":[0,1]},"delay":500,"duration":800,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-5c29802e-8da2-401b-879b-f8cb185a0402","keyframes":{"transform":["translate3d(105.50964%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":500,"duration":800,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-b4b1d19e-0f99-41c2-ab9b-7ad87e71dd2c","keyframes":{"opacity":[0,1]},"delay":50,"duration":900,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-c674f3e7-740b-4aa6-83a7-7c77eec9eeae","keyframes":{"transform":["translate3d(0px, -205.24992%, 0)","translate3d(0px, 0px, 0)"]},"delay":50,"duration":900,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}]

AI Development Company - Blocktechbrew

Did you know ?

According to a report, Training Artificial Intelligence like ChatGPT and Gemini can cost you more than $100 Million.

Selective Forgetting vs Standard Training approach

So, while the forgetting approach scored slightly worse (85.1 vs. 86.1) on the original language after full training, it performed much better when retrained on new languages with limited data and computational resources.

AI Development Company - Blocktechbrew