urls

93355c06 · Varuna Jayasiri · fe161514 · 93355c06 · 93355c06 · 93355c06
63 changed file
--- a/docs/activations/index.html
+++ b/docs/activations/index.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="__init__.py"/>
    <meta name="twitter:description" content=""/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/activations/index.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/activations/index.html"/>
    <meta property="og:title" content="__init__.py"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>__init__.py</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/activations/index.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/activations/index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/activations/swish.html
+++ b/docs/activations/swish.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="swish.py"/>
    <meta name="twitter:description" content=""/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/activations/swish.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/activations/swish.html"/>
    <meta property="og:title" content="swish.py"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>swish.py</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/activations/swish.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/activations/swish.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/capsule_networks/index.html
+++ b/docs/capsule_networks/index.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Capsule Networks"/>
    <meta name="twitter:description" content="PyTorch implementation and tutorial of Capsule Networks. Capsule networks is neural network architecture that embeds features as capsules and routes them with a voting mechanism to next layer of capsules."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/capsule_networks/index.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/capsule_networks/index.html"/>
    <meta property="og:title" content="Capsule Networks"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Capsule Networks</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/capsule_networks/index.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/capsule_networks/index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/capsule_networks/mnist.html
+++ b/docs/capsule_networks/mnist.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Classify MNIST digits with Capsule Networks"/>
    <meta name="twitter:description" content="Code for training Capsule Networks on MNIST dataset"/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/capsule_networks/mnist.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/capsule_networks/mnist.html"/>
    <meta property="og:title" content="Classify MNIST digits with Capsule Networks"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Classify MNIST digits with Capsule Networks</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/capsule_networks/mnist.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/capsule_networks/mnist.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/experiments/index.html
+++ b/docs/experiments/index.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="None"/>
    <meta name="twitter:description" content=""/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/experiments/index.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/experiments/index.html"/>
    <meta property="og:title" content="None"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>None</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/experiments/index.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/experiments/index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/experiments/nlp_autoregression.html
+++ b/docs/experiments/nlp_autoregression.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="NLP auto-regression trainer"/>
    <meta name="twitter:description" content="This is a reusable trainer for auto-regressive tasks"/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/experiments/nlp_autoregression.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/experiments/nlp_autoregression.html"/>
    <meta property="og:title" content="NLP auto-regression trainer"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>NLP auto-regression trainer</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/experiments/nlp_autoregression.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/experiments/nlp_autoregression.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/gan/cycle_gan.html
+++ b/docs/gan/cycle_gan.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Cycle GAN"/>
    <meta name="twitter:description" content="A simple PyTorch implementation/tutorial of Cycle GAN introduced in paper Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/gan/cycle_gan.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/gan/cycle_gan.html"/>
    <meta property="og:title" content="Cycle GAN"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Cycle GAN</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/gan/cycle_gan.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/gan/cycle_gan.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/gan/dcgan.html
+++ b/docs/gan/dcgan.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Deep Convolutional Generative Adversarial Networks (DCGAN)"/>
    <meta name="twitter:description" content="A simple PyTorch implementation/tutorial of Deep Convolutional Generative Adversarial Networks (DCGAN)."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/gan/dcgan.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/gan/dcgan.html"/>
    <meta property="og:title" content="Deep Convolutional Generative Adversarial Networks (DCGAN)"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Deep Convolutional Generative Adversarial Networks (DCGAN)</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/gan/dcgan.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/gan/dcgan.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/gan/index.html
+++ b/docs/gan/index.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Generative Adversarial Networks (GAN)"/>
    <meta name="twitter:description" content="A simple PyTorch implementation/tutorial of Generative Adversarial Networks (GAN) loss functions."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/gan/index.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/gan/index.html"/>
    <meta property="og:title" content="Generative Adversarial Networks (GAN)"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Generative Adversarial Networks (GAN)</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/gan/index.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/gan/index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/gan/simple_mnist_experiment.html
+++ b/docs/gan/simple_mnist_experiment.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Generative Adversarial Networks experiment with MNIST"/>
    <meta name="twitter:description" content="This experiment generates MNIST images using multi-layer perceptron."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/gan/simple_mnist_experiment.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/gan/simple_mnist_experiment.html"/>
    <meta property="og:title" content="Generative Adversarial Networks experiment with MNIST"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Generative Adversarial Networks experiment with MNIST</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/gan/simple_mnist_experiment.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/gan/simple_mnist_experiment.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/hypernetworks/experiment.html
+++ b/docs/hypernetworks/experiment.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="experiment.py"/>
    <meta name="twitter:description" content=""/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/hypernetworks/experiment.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/hypernetworks/experiment.html"/>
    <meta property="og:title" content="experiment.py"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>experiment.py</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/hypernetworks/experiment.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/hypernetworks/experiment.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/hypernetworks/hyper_lstm.html
+++ b/docs/hypernetworks/hyper_lstm.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="HyperNetworks - HyperLSTM"/>
    <meta name="twitter:description" content="A PyTorch implementation/tutorial of HyperLSTM introduced in paper HyperNetworks."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/hypernetworks/hyper_lstm.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/hypernetworks/hyper_lstm.html"/>
    <meta property="og:title" content="HyperNetworks - HyperLSTM"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>HyperNetworks - HyperLSTM</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/hypernetworks/hyper_lstm.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/hypernetworks/hyper_lstm.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/hypernetworks/index.html
+++ b/docs/hypernetworks/index.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="HyperNetworks"/>
    <meta name="twitter:description" content="A PyTorch implementation/tutorial of HyperLSTM introduced in paper HyperNetworks."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/hypernetworks/index.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/hypernetworks/index.html"/>
    <meta property="og:title" content="HyperNetworks"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>HyperNetworks</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/hypernetworks/index.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/hypernetworks/index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/index.html
+++ b/docs/index.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="LabML Neural Networks"/>
    <meta name="twitter:description" content=""/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/index.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/index.html"/>
    <meta property="og:title" content="LabML Neural Networks"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>LabML Neural Networks</title>
    <link rel="stylesheet" href="./pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/index.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>
@@ -69,56 +69,57 @@
                <div class='section-link'>
                    <a href='#section-0'>#</a>
                </div>
-                <h1><a href="https://lab-ml.com/labml_nn/index.html">LabML Neural Networks</a></h1>
+                <h1><a href="index.html">LabML Neural Networks</a></h1>
 <p>This is a collection of simple PyTorch implementations of
 neural networks and related algorithms.
 <a href="https://github.com/lab-ml/nn">These implementations</a> are documented with explanations,
-and the <a href="https://lab-ml.com/labml_nn/index.html">website</a>
+and the <a href="index.html">website</a>
 renders these as side-by-side formatted notes.
 We believe these would help you understand these algorithms better.</p>
 <p>We are actively maintaining this repo and adding new
 implementations.</p>
 <h2>Modules</h2>
-<h4>✨ <a href="https://lab-ml.com/labml_nn/transformers">Transformers</a></h4>
+<h4>✨ <a href="transformers/index.html">Transformers</a></h4>
-<p><a href="https://lab-ml.com/labml_nn/transformers">Transformers module</a>
+<p><a href="transformers/index.html">Transformers module</a>
 contains implementations for
-<a href="https://lab-ml.com/labml_nn/transformers/mha.html">multi-headed attention</a>
+<a href="transformers/mha.html">multi-headed attention</a>
 and
-<a href="https://lab-ml.com/labml_nn/transformers/relative_mha.html">relative multi-headed attention</a>.</p>
+<a href="transformers/relative_mha.html">relative multi-headed attention</a>.</p>
 <ul>
-<li><a href="https://lab-ml.com/labml_nn/transformers/gpt">GPT Architecture</a></li>
+<li><a href="transformers/gpt/index.html">GPT Architecture</a></li>
-<li><a href="https://lab-ml.com/labml_nn/transformers/knn">kNN-LM: Generalization through Memorization</a></li>
+<li><a href="transformers/glu_variants/simple.html">GLU Variants</a></li>
-<li><a href="https://lab-ml.com/labml_nn/transformers/feedback">Feedback Transformer</a></li>
+<li><a href="transformers/knn/index.html">kNN-LM: Generalization through Memorization</a></li>
-<li><a href="https://lab-ml.com/labml_nn/transformers/switch">Switch Transformer</a></li>
+<li><a href="transformers/feedback/index.html">Feedback Transformer</a></li>
+<li><a href="transformers/switch/index.html">Switch Transformer</a></li>
 </ul>
-<h4>✨ <a href="https://lab-ml.com/labml_nn/recurrent_highway_networks">Recurrent Highway Networks</a></h4>
+<h4>✨ <a href="recurrent_highway_networks/index.html">Recurrent Highway Networks</a></h4>
-<h4>✨ <a href="https://lab-ml.com/labml_nn/lstm">LSTM</a></h4>
+<h4>✨ <a href="lstm/index.html">LSTM</a></h4>
-<h4>✨ <a href="https://lab-ml.com/labml_nn/hypernetworks/hyper_lstm.html">HyperNetworks - HyperLSTM</a></h4>
+<h4>✨ <a href="hypernetworks/hyper_lstm.html">HyperNetworks - HyperLSTM</a></h4>
-<h4>✨ <a href="https://lab-ml.com/labml_nn/capsule_networks/">Capsule Networks</a></h4>
+<h4>✨ <a href="capsule_networks/index.html">Capsule Networks</a></h4>
-<h4>✨ <a href="https://lab-ml.com/labml_nn/gan/">Generative Adversarial Networks</a></h4>
+<h4>✨ <a href="gan/index.html">Generative Adversarial Networks</a></h4>
 <ul>
-<li><a href="https://lab-ml.com/labml_nn/gan/simple_mnist_experiment.html">GAN with a multi-layer perceptron</a></li>
+<li><a href="gan/simple_mnist_experiment.html">GAN with a multi-layer perceptron</a></li>
-<li><a href="https://lab-ml.com/labml_nn/gan/dcgan.html">GAN with deep convolutional network</a></li>
+<li><a href="gan/dcgan.html">GAN with deep convolutional network</a></li>
-<li><a href="https://lab-ml.com/labml_nn/gan/cycle_gan.html">Cycle GAN</a></li>
+<li><a href="gan/cycle_gan.html">Cycle GAN</a></li>
 </ul>
-<h4>✨ <a href="https://lab-ml.com/labml_nn/sketch_rnn/">Sketch RNN</a></h4>
+<h4>✨ <a href="sketch_rnn/index.html">Sketch RNN</a></h4>
-<h4>✨ <a href="https://lab-ml.com/labml_nn/rl/">Reinforcement Learning</a></h4>
+<h4>✨ <a href="rl/index.html">Reinforcement Learning</a></h4>
 <ul>
-<li><a href="https://lab-ml.com/labml_nn/rl/ppo/">Proximal Policy Optimization</a> with
+<li><a href="rl/ppo/index.html">Proximal Policy Optimization</a> with
- <a href="https://lab-ml.com/labml_nn/rl/ppo/gae.html">Generalized Advantage Estimation</a></li>
+ <a href="rl/ppo/gae.html">Generalized Advantage Estimation</a></li>
-<li><a href="https://lab-ml.com/labml_nn/rl/dqn/">Deep Q Networks</a> with
+<li><a href="rl/dqn/index.html">Deep Q Networks</a> with
- with <a href="https://lab-ml.com/labml_nn/rl/dqn/model.html">Dueling Network</a>,
+ with <a href="rl/dqn/model.html">Dueling Network</a>,
- <a href="https://lab-ml.com/labml_nn/rl/dqn/replay_buffer.html">Prioritized Replay</a>
+ <a href="rl/dqn/replay_buffer.html">Prioritized Replay</a>
 and Double Q Network.</li>
 </ul>
-<h4>✨ <a href="https://lab-ml.com/labml_nn/optimizers/">Optimizers</a></h4>
+<h4>✨ <a href="optimizers/index.html">Optimizers</a></h4>
 <ul>
-<li><a href="https://lab-ml.com/labml_nn/optimizers/adam.html">Adam</a></li>
+<li><a href="optimizers/adam.html">Adam</a></li>
-<li><a href="https://lab-ml.com/labml_nn/optimizers/amsgrad.html">AMSGrad</a></li>
+<li><a href="optimizers/amsgrad.html">AMSGrad</a></li>
-<li><a href="https://lab-ml.com/labml_nn/optimizers/adam_warmup.html">Adam Optimizer with warmup</a></li>
+<li><a href="optimizers/adam_warmup.html">Adam Optimizer with warmup</a></li>
-<li><a href="https://lab-ml.com/labml_nn/optimizers/noam.html">Noam Optimizer</a></li>
+<li><a href="optimizers/noam.html">Noam Optimizer</a></li>
-<li><a href="https://lab-ml.com/labml_nn/optimizers/radam.html">Rectified Adam Optimizer</a></li>
+<li><a href="optimizers/radam.html">Rectified Adam Optimizer</a></li>
-<li><a href="https://lab-ml.com/labml_nn/optimizers/ada_belief.html">AdaBelief Optimizer</a></li>
+<li><a href="optimizers/ada_belief.html">AdaBelief Optimizer</a></li>
 </ul>
 <h3>Installation</h3>
 <pre><code class="bash">pip install labml_nn

--- a/docs/lstm/index.html
+++ b/docs/lstm/index.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Long Short-Term Memory (LSTM)"/>
    <meta name="twitter:description" content="A simple PyTorch implementation/tutorial of Long Short-Term Memory (LSTM) modules."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/lstm/index.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/lstm/index.html"/>
    <meta property="og:title" content="Long Short-Term Memory (LSTM)"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Long Short-Term Memory (LSTM)</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/lstm/index.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/lstm/index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/optimizers/ada_belief.html
+++ b/docs/optimizers/ada_belief.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="AdaBelief optimizer"/>
    <meta name="twitter:description" content="A simple PyTorch implementation/tutorial of AdaBelief optimizer."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/optimizers/ada_belief.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/optimizers/ada_belief.html"/>
    <meta property="og:title" content="AdaBelief optimizer"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>AdaBelief optimizer</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/optimizers/ada_belief.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/optimizers/ada_belief.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/optimizers/adam.html
+++ b/docs/optimizers/adam.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Adam Optimizer"/>
    <meta name="twitter:description" content="A simple PyTorch implementation/tutorial of Adam optimizer"/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/optimizers/adam.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/optimizers/adam.html"/>
    <meta property="og:title" content="Adam Optimizer"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Adam Optimizer</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/optimizers/adam.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/optimizers/adam.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/optimizers/adam_warmup.html
+++ b/docs/optimizers/adam_warmup.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Adam optimizer with warm-up"/>
    <meta name="twitter:description" content="A simple PyTorch implementation/tutorial of Adam optimizer with warm-up."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/optimizers/adam_warmup.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/optimizers/adam_warmup.html"/>
    <meta property="og:title" content="Adam optimizer with warm-up"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Adam optimizer with warm-up</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/optimizers/adam_warmup.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/optimizers/adam_warmup.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/optimizers/adam_warmup_cosine_decay.html
+++ b/docs/optimizers/adam_warmup_cosine_decay.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Adam optimizer with warm-up and cosine decay"/>
    <meta name="twitter:description" content="A PyTorch implementation/tutorial of Adam optimizer with warm-up and cosine decay for GPT."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/optimizers/adam_warmup_cosine_decay.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/optimizers/adam_warmup_cosine_decay.html"/>
    <meta property="og:title" content="Adam optimizer with warm-up and cosine decay"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Adam optimizer with warm-up and cosine decay</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/optimizers/adam_warmup_cosine_decay.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/optimizers/adam_warmup_cosine_decay.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/optimizers/amsgrad.html
+++ b/docs/optimizers/amsgrad.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="AMSGrad Optimizer"/>
    <meta name="twitter:description" content="A simple PyTorch implementation/tutorial of AMSGrad optimizer."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/optimizers/amsgrad.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/optimizers/amsgrad.html"/>
    <meta property="og:title" content="AMSGrad Optimizer"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>AMSGrad Optimizer</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/optimizers/amsgrad.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/optimizers/amsgrad.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/optimizers/configs.html
+++ b/docs/optimizers/configs.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Configurable optimizer module"/>
    <meta name="twitter:description" content="This implements a configurable module for optimizers."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/optimizers/configs.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/optimizers/configs.html"/>
    <meta property="og:title" content="Configurable optimizer module"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Configurable optimizer module</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/optimizers/configs.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/optimizers/configs.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/optimizers/index.html
+++ b/docs/optimizers/index.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Optimizers"/>
    <meta name="twitter:description" content="A set of PyTorch implementations/tutorials of popular gradient descent based optimizers. Currently includes Adam, AMSGrad and RAdam optimizers."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/optimizers/index.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/optimizers/index.html"/>
    <meta property="og:title" content="Optimizers"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Optimizers</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/optimizers/index.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/optimizers/index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/optimizers/mnist_experiment.html
+++ b/docs/optimizers/mnist_experiment.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="MNIST example to test the optimizers"/>
    <meta name="twitter:description" content="This is a simple MNIST example with a CNN model to test the optimizers."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/optimizers/mnist_experiment.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/optimizers/mnist_experiment.html"/>
    <meta property="og:title" content="MNIST example to test the optimizers"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>MNIST example to test the optimizers</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/optimizers/mnist_experiment.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/optimizers/mnist_experiment.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/optimizers/noam.html
+++ b/docs/optimizers/noam.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Noam optimizer from Attention is All You Need paper"/>
    <meta name="twitter:description" content="This is a tutorial/implementation of Noam optimizer. Noam optimizer has a warm-up period and then an exponentially decaying learning rate."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/optimizers/noam.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/optimizers/noam.html"/>
    <meta property="og:title" content="Noam optimizer from Attention is All You Need paper"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Noam optimizer from Attention is All You Need paper</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/optimizers/noam.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/optimizers/noam.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/optimizers/performance_test.html
+++ b/docs/optimizers/performance_test.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Test performance of Adam implementations"/>
    <meta name="twitter:description" content="This experiment compares performance of Adam implementations."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/optimizers/performance_test.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/optimizers/performance_test.html"/>
    <meta property="og:title" content="Test performance of Adam implementations"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Test performance of Adam implementations</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/optimizers/performance_test.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/optimizers/performance_test.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/optimizers/radam.html
+++ b/docs/optimizers/radam.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Rectified Adam (RAdam) optimizer"/>
    <meta name="twitter:description" content="A simple PyTorch implementation/tutorial of RAdam optimizer."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/optimizers/radam.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/optimizers/radam.html"/>
    <meta property="og:title" content="Rectified Adam (RAdam) optimizer"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Rectified Adam (RAdam) optimizer</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/optimizers/radam.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/optimizers/radam.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/recurrent_highway_networks/index.html
+++ b/docs/recurrent_highway_networks/index.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Recurrent Highway Networks"/>
    <meta name="twitter:description" content="A simple PyTorch implementation/tutorial of Recurrent Highway Networks."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/recurrent_highway_networks/index.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/recurrent_highway_networks/index.html"/>
    <meta property="og:title" content="Recurrent Highway Networks"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Recurrent Highway Networks</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/recurrent_highway_networks/index.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/recurrent_highway_networks/index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/rl/dqn/experiment.html
+++ b/docs/rl/dqn/experiment.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="DQN Experiment with Atari Breakout"/>
    <meta name="twitter:description" content="Implementation of DQN experiment with Atari Breakout"/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/rl/dqn/experiment.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/rl/dqn/experiment.html"/>
    <meta property="og:title" content="DQN Experiment with Atari Breakout"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>DQN Experiment with Atari Breakout</title>
    <link rel="stylesheet" href="../../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/rl/dqn/experiment.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/rl/dqn/experiment.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/rl/dqn/index.html
+++ b/docs/rl/dqn/index.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Deep Q Networks (DQN)"/>
    <meta name="twitter:description" content="This is a PyTorch implementation/tutorial of Deep Q Networks (DQN) from paper Playing Atari with Deep Reinforcement Learning. This includes dueling network architecture, a prioritized replay buffer and double-Q-network training."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/rl/dqn/index.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/rl/dqn/index.html"/>
    <meta property="og:title" content="Deep Q Networks (DQN)"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Deep Q Networks (DQN)</title>
    <link rel="stylesheet" href="../../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/rl/dqn/index.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/rl/dqn/index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/rl/dqn/model.html
+++ b/docs/rl/dqn/model.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Deep Q Network (DQN) Model"/>
    <meta name="twitter:description" content="Implementation of neural network model for Deep Q Network (DQN)."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/rl/dqn/model.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/rl/dqn/model.html"/>
    <meta property="og:title" content="Deep Q Network (DQN) Model"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Deep Q Network (DQN) Model</title>
    <link rel="stylesheet" href="../../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/rl/dqn/model.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/rl/dqn/model.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/rl/dqn/replay_buffer.html
+++ b/docs/rl/dqn/replay_buffer.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Prioritized Experience Replay Buffer"/>
    <meta name="twitter:description" content="Annotated implementation of prioritized experience replay using a binary segment tree."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/rl/dqn/replay_buffer.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/rl/dqn/replay_buffer.html"/>
    <meta property="og:title" content="Prioritized Experience Replay Buffer"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Prioritized Experience Replay Buffer</title>
    <link rel="stylesheet" href="../../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/rl/dqn/replay_buffer.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/rl/dqn/replay_buffer.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/rl/game.html
+++ b/docs/rl/game.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Atari wrapper with multi-processing"/>
    <meta name="twitter:description" content="This implements the Atari games with multi-processing."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/rl/game.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/rl/game.html"/>
    <meta property="og:title" content="Atari wrapper with multi-processing"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Atari wrapper with multi-processing</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/rl/game.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/rl/game.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/rl/index.html
+++ b/docs/rl/index.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Reinforcement Learning Algorithms"/>
    <meta name="twitter:description" content="This is a collection of PyTorch implementations/tutorials of reinforcement learning algorithms. It currently includes Proximal Policy Optimization, Generalized Advantage Estimation, and Deep Q Networks."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/rl/index.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/rl/index.html"/>
    <meta property="og:title" content="Reinforcement Learning Algorithms"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Reinforcement Learning Algorithms</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/rl/index.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/rl/index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/rl/ppo/experiment.html
+++ b/docs/rl/ppo/experiment.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="PPO Experiment with Atari Breakout"/>
    <meta name="twitter:description" content="Annotated implementation to train a PPO agent on Atari Breakout game."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/rl/ppo/experiment.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/rl/ppo/experiment.html"/>
    <meta property="og:title" content="PPO Experiment with Atari Breakout"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>PPO Experiment with Atari Breakout</title>
    <link rel="stylesheet" href="../../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/rl/ppo/experiment.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/rl/ppo/experiment.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/rl/ppo/gae.html
+++ b/docs/rl/ppo/gae.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Generalized Advantage Estimation (GAE)"/>
    <meta name="twitter:description" content="A PyTorch implementation/tutorial of Generalized Advantage Estimation (GAE)."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/rl/ppo/gae.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/rl/ppo/gae.html"/>
    <meta property="og:title" content="Generalized Advantage Estimation (GAE)"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Generalized Advantage Estimation (GAE)</title>
    <link rel="stylesheet" href="../../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/rl/ppo/gae.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/rl/ppo/gae.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/rl/ppo/index.html
+++ b/docs/rl/ppo/index.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Proximal Policy Optimization (PPO)"/>
    <meta name="twitter:description" content="An annotated implementation of Proximal Policy Optimization (PPO) algorithm in PyTorch."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/rl/ppo/index.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/rl/ppo/index.html"/>
    <meta property="og:title" content="Proximal Policy Optimization (PPO)"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Proximal Policy Optimization (PPO)</title>
    <link rel="stylesheet" href="../../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/rl/ppo/index.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/rl/ppo/index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/sketch_rnn/index.html
+++ b/docs/sketch_rnn/index.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Sketch RNN"/>
    <meta name="twitter:description" content="This is an annotated PyTorch implementation of the Sketch RNN from paper A Neural Representation of Sketch Drawings. Sketch RNN is a sequence-to-sequence model that generates sketches of objects such as bicycles, cats, etc."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/sketch_rnn/index.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/sketch_rnn/index.html"/>
    <meta property="og:title" content="Sketch RNN"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Sketch RNN</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/sketch_rnn/index.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/sketch_rnn/index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/transformers/configs.html
+++ b/docs/transformers/configs.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Configurable Transformer Components"/>
    <meta name="twitter:description" content="These are configurable components that can be re-used quite easily."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/transformers/configs.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/transformers/configs.html"/>
    <meta property="og:title" content="Configurable Transformer Components"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Configurable Transformer Components</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/transformers/configs.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/transformers/configs.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/transformers/feed_forward.html
+++ b/docs/transformers/feed_forward.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Position-wise Feed-Forward Network (FFN)"/>
    <meta name="twitter:description" content="Documented reusable implementation of the position wise feedforward network."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/transformers/feed_forward.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/transformers/feed_forward.html"/>
    <meta property="og:title" content="Position-wise Feed-Forward Network (FFN)"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Position-wise Feed-Forward Network (FFN)</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/transformers/feed_forward.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/transformers/feed_forward.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/transformers/feedback/index.html
+++ b/docs/transformers/feedback/index.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Feedback Transformer"/>
    <meta name="twitter:description" content="This is an annotated implementation/tutorial the Feedback Transformer in PyTorch."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/transformers/feedback/index.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/transformers/feedback/index.html"/>
    <meta property="og:title" content="Feedback Transformer"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Feedback Transformer</title>
    <link rel="stylesheet" href="../../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/transformers/feedback/index.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/transformers/feedback/index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/transformers/glu_variants/experiment.html
+++ b/docs/transformers/glu_variants/experiment.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Gated Linear Units and Variants"/>
    <meta name="twitter:description" content="Train an auto-regressive transformer with Gated Linear Units and variants for the position-wise feedforward network (FFN)."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/transformers/glu_variants/experiment.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/transformers/glu_variants/experiment.html"/>
    <meta property="og:title" content="Gated Linear Units and Variants"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Gated Linear Units and Variants</title>
    <link rel="stylesheet" href="../../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/transformers/glu_variants/experiment.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/transformers/glu_variants/experiment.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/transformers/glu_variants/index.html
+++ b/docs/transformers/glu_variants/index.html
@@ -3,26 +3,26 @@
 <head>
    <meta http-equiv="content-type" content="text/html;charset=utf-8"/>
    <meta name="viewport" content="width=device-width, initial-scale=1.0"/>
-    <meta name="description" content=""/>
+    <meta name="description" content="Train an auto-regressive transformer with Gated Linear Units and variants for the position-wise feedforward network (FFN)."/>
    <meta name="twitter:card" content="summary"/>
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
-    <meta name="twitter:title" content="None"/>
+    <meta name="twitter:title" content="Gated Linear Units and Variants"/>
-    <meta name="twitter:description" content=""/>
+    <meta name="twitter:description" content="Train an auto-regressive transformer with Gated Linear Units and variants for the position-wise feedforward network (FFN)."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/transformers/glu_variants/index.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/transformers/glu_variants/index.html"/>
-    <meta property="og:title" content="None"/>
+    <meta property="og:title" content="Gated Linear Units and Variants"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
    <meta property="og:type" content="object"/>
-    <meta property="og:title" content="None"/>
+    <meta property="og:title" content="Gated Linear Units and Variants"/>
-    <meta property="og:description" content=""/>
+    <meta property="og:description" content="Train an auto-regressive transformer with Gated Linear Units and variants for the position-wise feedforward network (FFN)."/>
-    <title>None</title>
+    <title>Gated Linear Units and Variants</title>
    <link rel="stylesheet" href="../../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/transformers/glu_variants/index.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/transformers/glu_variants/index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>
@@ -66,6 +66,21 @@
            </p>
        </div>
    </div>
+    <div class='section' id='section-0'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-0'>#</a>
+                </div>
+                <h1>Gated Linear Units and Variants</h1>
+<ul>
+<li><a href="glu_variants/experiment.html">Experiment that uses <code>labml.configs</code></a></li>
+<li><a href="glu_variants/simple.html">Simpler version from scratch</a></li>
+</ul>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre></pre></div>
+            </div>
+        </div>
    </div>
 </div>
 <script src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.4/MathJax.js?config=TeX-AMS_HTML">

--- a/docs/transformers/glu_variants/simple.html
+++ b/docs/transformers/glu_variants/simple.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Gated Linear Units and Variants"/>
    <meta name="twitter:description" content="Train an auto-regressive transformer with Gated Linear Units and variants for the position-wise feedforward network (FFN)."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/transformers/glu_variants/simple.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/transformers/glu_variants/simple.html"/>
    <meta property="og:title" content="Gated Linear Units and Variants"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Gated Linear Units and Variants</title>
    <link rel="stylesheet" href="../../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/transformers/glu_variants/simple.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/transformers/glu_variants/simple.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/transformers/gpt/index.html
+++ b/docs/transformers/gpt/index.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="GPT"/>
    <meta name="twitter:description" content="Implementation/tutorial of GPT model and training code."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/transformers/gpt/index.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/transformers/gpt/index.html"/>
    <meta property="og:title" content="GPT"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>GPT</title>
    <link rel="stylesheet" href="../../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/transformers/gpt/index.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/transformers/gpt/index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>
@@ -86,7 +86,7 @@ more of a tutorial.</p>
 <p>Main differences of this to a standard autoregressive transformer
 are the parameter initialization, weight decay, and learning rate schedule.
 For the transformer we reuse the
-<a href="https://lab-ml.com/labml_nn/transformers/">existing labml/nn transformer implementation</a>.</p>
+<a href="../transformers/index.html">existing labml/nn transformer implementation</a>.</p>
 <p>Here&rsquo;s a notebook for training a GPT model on Tiny Shakespeare dataset.</p>
 <p><a href="https://colab.research.google.com/github/lab-ml/nn/blob/master/labml_nn/transformers/gpt/experiment.ipynb"><img alt="Open In Colab" src="https://colab.research.google.com/assets/colab-badge.svg" /></a>
 <a href="https://web.lab-ml.com/run?uuid=0324c6d0562111eba65d0242ac1c0002"><img alt="View Run" src="https://img.shields.io/badge/labml-experiment-brightgreen" /></a></p>

--- a/docs/transformers/index.html
+++ b/docs/transformers/index.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Transformers"/>
    <meta name="twitter:description" content="This is a collection of PyTorch implementations/tutorials of transformers and related techniques."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/transformers/index.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/transformers/index.html"/>
    <meta property="og:title" content="Transformers"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Transformers</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/transformers/index.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/transformers/index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>
@@ -83,6 +83,9 @@ and derivatives and enhancements of it.</p>
 </ul>
 <h2><a href="gpt">GPT Architecture</a></h2>
 <p>This is an implementation of GPT-2 architecture.</p>
+<h2><a href="glu_variants/simple.html">GLU Variants</a></h2>
+<p>This is an implementation of the paper
+<a href="https://arxiv.org/abs/2002.05202">GLU Variants Improve Transformer</a>.</p>
 <h2><a href="knn">kNN-LM</a></h2>
 <p>This is an implementation of the paper
 <a href="https://arxiv.org/abs/1911.00172">Generalization through Memorization: Nearest Neighbor Language Models</a>.</p>
@@ -96,10 +99,10 @@ Our implementation only has a few million parameters and doesn&rsquo;t do model
 It does single GPU training but we implement the concept of switching as described in the paper.</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">43</span><span></span><span class="kn">from</span> <span class="nn">.configs</span> <span class="kn">import</span> <span class="n">TransformerConfigs</span>
+                <div class="highlight"><pre><span class="lineno">49</span><span></span><span class="kn">from</span> <span class="nn">.configs</span> <span class="kn">import</span> <span class="n">TransformerConfigs</span>
-<span class="lineno">44</span><span class="kn">from</span> <span class="nn">.models</span> <span class="kn">import</span> <span class="n">TransformerLayer</span><span class="p">,</span> <span class="n">Encoder</span><span class="p">,</span> <span class="n">Decoder</span><span class="p">,</span> <span class="n">Generator</span><span class="p">,</span> <span class="n">EncoderDecoder</span>
+<span class="lineno">50</span><span class="kn">from</span> <span class="nn">.models</span> <span class="kn">import</span> <span class="n">TransformerLayer</span><span class="p">,</span> <span class="n">Encoder</span><span class="p">,</span> <span class="n">Decoder</span><span class="p">,</span> <span class="n">Generator</span><span class="p">,</span> <span class="n">EncoderDecoder</span>
-<span class="lineno">45</span><span class="kn">from</span> <span class="nn">.mha</span> <span class="kn">import</span> <span class="n">MultiHeadAttention</span>
+<span class="lineno">51</span><span class="kn">from</span> <span class="nn">.mha</span> <span class="kn">import</span> <span class="n">MultiHeadAttention</span>
-<span class="lineno">46</span><span class="kn">from</span> <span class="nn">.relative_mha</span> <span class="kn">import</span> <span class="n">RelativeMultiHeadAttention</span></pre></div>
+<span class="lineno">52</span><span class="kn">from</span> <span class="nn">.relative_mha</span> <span class="kn">import</span> <span class="n">RelativeMultiHeadAttention</span></pre></div>
            </div>
        </div>
    </div>

--- a/docs/transformers/knn/build_index.html
+++ b/docs/transformers/knn/build_index.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Build FAISS index for k-NN search"/>
    <meta name="twitter:description" content="This builds the FAISS index with the transformer embeddings."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/transformers/knn/build_index.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/transformers/knn/build_index.html"/>
    <meta property="og:title" content="Build FAISS index for k-NN search"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Build FAISS index for k-NN search</title>
    <link rel="stylesheet" href="../../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/transformers/knn/build_index.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/transformers/knn/build_index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/transformers/knn/eval_knn.html
+++ b/docs/transformers/knn/eval_knn.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Evaluate k-nearest neighbor language model"/>
    <meta name="twitter:description" content="This runs the kNN model and merges the kNN results with transformer output to achieve better results than just using the transformer."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/transformers/knn/eval_knn.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/transformers/knn/eval_knn.html"/>
    <meta property="og:title" content="Evaluate k-nearest neighbor language model"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Evaluate k-nearest neighbor language model</title>
    <link rel="stylesheet" href="../../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/transformers/knn/eval_knn.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/transformers/knn/eval_knn.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/transformers/knn/index.html
+++ b/docs/transformers/knn/index.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="k-Nearest Neighbor Language Models"/>
    <meta name="twitter:description" content="This is a simple PyTorch implementation/tutorial of the paper Generalization through Memorization: Nearest Neighbor Language Models using FAISS. It runs a kNN model on the final transformer layer embeddings to improve the loss of transformer based language models. It&#x27;s also great for domain adaptation without pre-training."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/transformers/knn/index.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/transformers/knn/index.html"/>
    <meta property="og:title" content="k-Nearest Neighbor Language Models"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>k-Nearest Neighbor Language Models</title>
    <link rel="stylesheet" href="../../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/transformers/knn/index.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/transformers/knn/index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/transformers/knn/train_model.html
+++ b/docs/transformers/knn/train_model.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Train Autoregressive Transformer"/>
    <meta name="twitter:description" content="This is training code with notes for a basic auto-regressive transformer."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/transformers/knn/train_model.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/transformers/knn/train_model.html"/>
    <meta property="og:title" content="Train Autoregressive Transformer"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Train Autoregressive Transformer</title>
    <link rel="stylesheet" href="../../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/transformers/knn/train_model.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/transformers/knn/train_model.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/transformers/label_smoothing_loss.html
+++ b/docs/transformers/label_smoothing_loss.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Label Smoothing Loss"/>
    <meta name="twitter:description" content="This is an implementation of label smoothing loss, that can be used as an alternative to cross entropy loss for improved accuracy."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/transformers/label_smoothing_loss.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/transformers/label_smoothing_loss.html"/>
    <meta property="og:title" content="Label Smoothing Loss"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Label Smoothing Loss</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/transformers/label_smoothing_loss.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/transformers/label_smoothing_loss.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/transformers/mha.html
+++ b/docs/transformers/mha.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Multi-Headed Attention"/>
    <meta name="twitter:description" content="This implements the Multi-Headed Attention used in transformers using PyTorch with explainations."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/transformers/mha.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/transformers/mha.html"/>
    <meta property="og:title" content="Multi-Headed Attention"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Multi-Headed Attention</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/transformers/mha.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/transformers/mha.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/transformers/models.html
+++ b/docs/transformers/models.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Transformer Encoder and Decoder Models"/>
    <meta name="twitter:description" content="These are PyTorch implementations of Transformer based encoder and decoder models, as well as other related modules."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/transformers/models.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/transformers/models.html"/>
    <meta property="og:title" content="Transformer Encoder and Decoder Models"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Transformer Encoder and Decoder Models</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/transformers/models.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/transformers/models.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/transformers/positional_encoding.html
+++ b/docs/transformers/positional_encoding.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Fixed Positional Encodings"/>
    <meta name="twitter:description" content="Implementation with explanation of fixed positional encodings as described in paper Attention is All You Need."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/transformers/positional_encoding.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/transformers/positional_encoding.html"/>
    <meta property="og:title" content="Fixed Positional Encodings"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Fixed Positional Encodings</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/transformers/positional_encoding.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/transformers/positional_encoding.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/transformers/relative_mha.html
+++ b/docs/transformers/relative_mha.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Relative Multi-Headed Attention"/>
    <meta name="twitter:description" content="Documented implementation with explanations of Relative Multi-Headed Attention from paper Transformer-XL."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/transformers/relative_mha.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/transformers/relative_mha.html"/>
    <meta property="og:title" content="Relative Multi-Headed Attention"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Relative Multi-Headed Attention</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/transformers/relative_mha.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/transformers/relative_mha.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/transformers/switch/experiment.html
+++ b/docs/transformers/switch/experiment.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Switch Transformer Experiment"/>
    <meta name="twitter:description" content="This experiment trains a small switch transformer on tiny Shakespeare dataset."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/transformers/switch/experiment.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/transformers/switch/experiment.html"/>
    <meta property="og:title" content="Switch Transformer Experiment"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Switch Transformer Experiment</title>
    <link rel="stylesheet" href="../../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/transformers/switch/experiment.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/transformers/switch/experiment.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/transformers/switch/index.html
+++ b/docs/transformers/switch/index.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Switch Transformer"/>
    <meta name="twitter:description" content="This is an annotated implementation/tutorial a miniature version of Switch Transformer in PyTorch."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/transformers/switch/index.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/transformers/switch/index.html"/>
    <meta property="og:title" content="Switch Transformer"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Switch Transformer</title>
    <link rel="stylesheet" href="../../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/transformers/switch/index.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/transformers/switch/index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/transformers/utils.html
+++ b/docs/transformers/utils.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Utilities for Transformer"/>
    <meta name="twitter:description" content="A bunch of utility functions and classes for transformers."/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/transformers/utils.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/transformers/utils.html"/>
    <meta property="og:title" content="Utilities for Transformer"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Utilities for Transformer</title>
    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/transformers/utils.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/transformers/utils.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/docs/utils.html
+++ b/docs/utils.html
@@ -9,10 +9,10 @@
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Utilities"/>
    <meta name="twitter:description" content="A bunch of utility functions and classes"/>
-    <meta name="twitter:site" content="@vpj"/>
+    <meta name="twitter:site" content="@labmlai"/>
-    <meta name="twitter:creator" content="@vpj"/>
+    <meta name="twitter:creator" content="@labmlai"/>
-    <meta property="og:url" content="https://lab-ml.com/utils.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/utils.html"/>
    <meta property="og:title" content="Utilities"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,7 +22,7 @@
    <title>Utilities</title>
    <link rel="stylesheet" href="./pylit.css">
-    <link rel="canonical" href="https://lab-ml.com/utils.html"/>
+    <link rel="canonical" href="https://nn.labml.ai/utils.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>

--- a/labml_nn/__init__.py
+++ b/labml_nn/__init__.py
 """
-# [LabML Neural Networks](https://lab-ml.com/labml_nn/index.html)
+# [LabML Neural Networks](index.html)
 This is a collection of simple PyTorch implementations of
 neural networks and related algorithms.
 [These implementations](https://github.com/lab-ml/nn) are documented with explanations,
-and the [website](https://lab-ml.com/labml_nn/index.html)
+and the [website](index.html)
 renders these as side-by-side formatted notes.
 We believe these would help you understand these algorithms better.
@@ -13,49 +13,50 @@ implementations.
 ## Modules
-#### ✨ [Transformers](https://lab-ml.com/labml_nn/transformers)
+#### ✨ [Transformers](transformers/index.html)
-[Transformers module](https://lab-ml.com/labml_nn/transformers)
+[Transformers module](transformers/index.html)
 contains implementations for
-[multi-headed attention](https://lab-ml.com/labml_nn/transformers/mha.html)
+[multi-headed attention](transformers/mha.html)
 and
-[relative multi-headed attention](https://lab-ml.com/labml_nn/transformers/relative_mha.html).
+[relative multi-headed attention](transformers/relative_mha.html).
-* [GPT Architecture](https://lab-ml.com/labml_nn/transformers/gpt)
+* [GPT Architecture](transformers/gpt/index.html)
-* [kNN-LM: Generalization through Memorization](https://lab-ml.com/labml_nn/transformers/knn)
+* [GLU Variants](transformers/glu_variants/simple.html)
-* [Feedback Transformer](https://lab-ml.com/labml_nn/transformers/feedback)
+* [kNN-LM: Generalization through Memorization](transformers/knn/index.html)
-* [Switch Transformer](https://lab-ml.com/labml_nn/transformers/switch)
+* [Feedback Transformer](transformers/feedback/index.html)
+* [Switch Transformer](transformers/switch/index.html)
-#### ✨ [Recurrent Highway Networks](https://lab-ml.com/labml_nn/recurrent_highway_networks)
+#### ✨ [Recurrent Highway Networks](recurrent_highway_networks/index.html)
-#### ✨ [LSTM](https://lab-ml.com/labml_nn/lstm)
+#### ✨ [LSTM](lstm/index.html)
-#### ✨ [HyperNetworks - HyperLSTM](https://lab-ml.com/labml_nn/hypernetworks/hyper_lstm.html)
+#### ✨ [HyperNetworks - HyperLSTM](hypernetworks/hyper_lstm.html)
-#### ✨ [Capsule Networks](https://lab-ml.com/labml_nn/capsule_networks/)
+#### ✨ [Capsule Networks](capsule_networks/index.html)
-#### ✨ [Generative Adversarial Networks](https://lab-ml.com/labml_nn/gan/)
+#### ✨ [Generative Adversarial Networks](gan/index.html)
-* [GAN with a multi-layer perceptron](https://lab-ml.com/labml_nn/gan/simple_mnist_experiment.html)
+* [GAN with a multi-layer perceptron](gan/simple_mnist_experiment.html)
-* [GAN with deep convolutional network](https://lab-ml.com/labml_nn/gan/dcgan.html)
+* [GAN with deep convolutional network](gan/dcgan.html)
-* [Cycle GAN](https://lab-ml.com/labml_nn/gan/cycle_gan.html)
+* [Cycle GAN](gan/cycle_gan.html)
-#### ✨ [Sketch RNN](https://lab-ml.com/labml_nn/sketch_rnn/)
+#### ✨ [Sketch RNN](sketch_rnn/index.html)
-#### ✨ [Reinforcement Learning](https://lab-ml.com/labml_nn/rl/)
+#### ✨ [Reinforcement Learning](rl/index.html)
-* [Proximal Policy Optimization](https://lab-ml.com/labml_nn/rl/ppo/) with
+* [Proximal Policy Optimization](rl/ppo/index.html) with
- [Generalized Advantage Estimation](https://lab-ml.com/labml_nn/rl/ppo/gae.html)
+ [Generalized Advantage Estimation](rl/ppo/gae.html)
-* [Deep Q Networks](https://lab-ml.com/labml_nn/rl/dqn/) with
+* [Deep Q Networks](rl/dqn/index.html) with
- with [Dueling Network](https://lab-ml.com/labml_nn/rl/dqn/model.html),
+ with [Dueling Network](rl/dqn/model.html),
- [Prioritized Replay](https://lab-ml.com/labml_nn/rl/dqn/replay_buffer.html)
+ [Prioritized Replay](rl/dqn/replay_buffer.html)
 and Double Q Network.
-#### ✨ [Optimizers](https://lab-ml.com/labml_nn/optimizers/)
+#### ✨ [Optimizers](optimizers/index.html)
-* [Adam](https://lab-ml.com/labml_nn/optimizers/adam.html)
+* [Adam](optimizers/adam.html)
-* [AMSGrad](https://lab-ml.com/labml_nn/optimizers/amsgrad.html)
+* [AMSGrad](optimizers/amsgrad.html)
-* [Adam Optimizer with warmup](https://lab-ml.com/labml_nn/optimizers/adam_warmup.html)
+* [Adam Optimizer with warmup](optimizers/adam_warmup.html)
-* [Noam Optimizer](https://lab-ml.com/labml_nn/optimizers/noam.html)
+* [Noam Optimizer](optimizers/noam.html)
-* [Rectified Adam Optimizer](https://lab-ml.com/labml_nn/optimizers/radam.html)
+* [Rectified Adam Optimizer](optimizers/radam.html)
-* [AdaBelief Optimizer](https://lab-ml.com/labml_nn/optimizers/ada_belief.html)
+* [AdaBelief Optimizer](optimizers/ada_belief.html)
 ### Installation

--- a/labml_nn/transformers/__init__.py
+++ b/labml_nn/transformers/__init__.py
@@ -22,6 +22,12 @@ and derivatives and enhancements of it.
 This is an implementation of GPT-2 architecture.
+## [GLU Variants](glu_variants/simple.html)
+This is an implementation of the paper
+[GLU Variants Improve Transformer](https://arxiv.org/abs/2002.05202).
 ## [kNN-LM](knn)
 This is an implementation of the paper

--- a/labml_nn/transformers/glu_variants/__init__.py
+++ b/labml_nn/transformers/glu_variants/__init__.py
+"""
+---
+title: Gated Linear Units and Variants
+summary: >
+  Train an auto-regressive transformer with Gated Linear Units and variants
+  for the position-wise feedforward network (FFN).
+---
+# Gated Linear Units and Variants
+* [Experiment that uses `labml.configs`](glu_variants/experiment.html)
+* [Simpler version from scratch](glu_variants/simple.html)
+"""
--- a/labml_nn/transformers/gpt/__init__.py
+++ b/labml_nn/transformers/gpt/__init__.py
@@ -23,7 +23,7 @@ more of a tutorial.
 Main differences of this to a standard autoregressive transformer
 are the parameter initialization, weight decay, and learning rate schedule.
 For the transformer we reuse the
-[existing labml/nn transformer implementation](https://lab-ml.com/labml_nn/transformers/).
+[existing labml/nn transformer implementation](../transformers/index.html).
 Here's a notebook for training a GPT model on Tiny Shakespeare dataset.

--- a/readme.md
+++ b/readme.md
 [![Join Slack](https://img.shields.io/badge/slack-chat-green.svg?logo=slack)](https://join.slack.com/t/labforml/shared_invite/zt-egj9zvq9-Dl3hhZqobexgT7aVKnD14g/)
 [![Twitter](https://img.shields.io/twitter/follow/labmlai?style=social)](https://twitter.com/labmlai)
-# [LabML Neural Networks](https://lab-ml.com/labml_nn/index.html)
+# [LabML Neural Networks](https://nn.labml.ai/index.html)
 This is a collection of simple PyTorch implementations of
 neural networks and related algorithms.
 These implementations are documented with explanations,
-[The website](https://lab-ml.com/labml_nn/index.html)
+[The website](https://nn.labml.ai/index.html)
 renders these as side-by-side formatted notes.
 We believe these would help you understand these algorithms better.
@@ -19,49 +19,50 @@ implementations almost weekly.
 ## Modules
-#### ✨ [Transformers](https://lab-ml.com/labml_nn/transformers)
+#### ✨ [Transformers](https://nn.labml.ai/transformers/index.html)
-[Transformers module](https://lab-ml.com/labml_nn/transformers)
+[Transformers module](https://nn.labml.ai/transformers/index.html)
 contains implementations for
-[multi-headed attention](https://lab-ml.com/labml_nn/transformers/mha.html)
+[multi-headed attention](https://nn.labml.ai/transformers/mha.html)
 and
-[relative multi-headed attention](https://lab-ml.com/labml_nn/transformers/relative_mha.html).
+[relative multi-headed attention](https://nn.labml.ai/transformers/relative_mha.html).
-* [GPT Architecture](https://lab-ml.com/labml_nn/transformers/gpt)
+* [GPT Architecture](https://nn.labml.ai/transformers/gpt/index.html)
-* [kNN-LM: Generalization through Memorization](https://lab-ml.com/labml_nn/transformers/knn)
+* [GLU Variants](https://nn.labml.ai/transformers/glu_variants/simple.html)
-* [Feedback Transformer](https://lab-ml.com/labml_nn/transformers/feedback)
+* [kNN-LM: Generalization through Memorization](https://nn.labml.ai/transformers/knn)
-* [Switch Transformer](https://lab-ml.com/labml_nn/transformers/switch)
+* [Feedback Transformer](https://nn.labml.ai/transformers/feedback/index.html)
+* [Switch Transformer](https://nn.labml.ai/transformers/switch/index.html)
-#### ✨ [Recurrent Highway Networks](https://lab-ml.com/labml_nn/recurrent_highway_networks)
+#### ✨ [Recurrent Highway Networks](https://nn.labml.ai/recurrent_highway_networks/index.html)
-#### ✨ [LSTM](https://lab-ml.com/labml_nn/lstm)
+#### ✨ [LSTM](https://nn.labml.ai/lstm/index.html)
-#### ✨ [HyperNetworks - HyperLSTM](https://lab-ml.com/labml_nn/hypernetworks/hyper_lstm.html)
+#### ✨ [HyperNetworks - HyperLSTM](https://nn.labml.ai/hypernetworks/hyper_lstm.html)
-#### ✨ [Capsule Networks](https://lab-ml.com/labml_nn/capsule_networks/)
+#### ✨ [Capsule Networks](https://nn.labml.ai/capsule_networks/index.html)
-#### ✨ [Generative Adversarial Networks](https://lab-ml.com/labml_nn/gan/)
+#### ✨ [Generative Adversarial Networks](https://nn.labml.ai/gan/index.html)
-* [GAN with a multi-layer perceptron](https://lab-ml.com/labml_nn/gan/simple_mnist_experiment.html)
+* [GAN with a multi-layer perceptron](https://nn.labml.ai/gan/simple_mnist_experiment.html)
-* [GAN with deep convolutional network](https://lab-ml.com/labml_nn/gan/dcgan.html)
+* [GAN with deep convolutional network](https://nn.labml.ai/gan/dcgan.html)
-* [Cycle GAN](https://lab-ml.com/labml_nn/gan/cycle_gan.html)
+* [Cycle GAN](https://nn.labml.ai/gan/cycle_gan.html)
-#### ✨ [Sketch RNN](https://lab-ml.com/labml_nn/sketch_rnn/)
+#### ✨ [Sketch RNN](https://nn.labml.ai/sketch_rnn/index.html)
-#### ✨ [Reinforcement Learning](https://lab-ml.com/labml_nn/rl/)
+#### ✨ [Reinforcement Learning](https://nn.labml.ai/rl/index.html)
-* [Proximal Policy Optimization](https://lab-ml.com/labml_nn/rl/ppo/) with
+* [Proximal Policy Optimization](https://nn.labml.ai/rl/ppo/index.html) with
- [Generalized Advantage Estimation](https://lab-ml.com/labml_nn/rl/ppo/gae.html)
+ [Generalized Advantage Estimation](https://nn.labml.ai/rl/ppo/gae.html)
-* [Deep Q Networks](https://lab-ml.com/labml_nn/rl/dqn/) with
+* [Deep Q Networks](https://nn.labml.ai/rl/dqn/index.html) with
- with [Dueling Network](https://lab-ml.com/labml_nn/rl/dqn/model.html),
+ with [Dueling Network](https://nn.labml.ai/rl/dqn/model.html),
- [Prioritized Replay](https://lab-ml.com/labml_nn/rl/dqn/replay_buffer.html)
+ [Prioritized Replay](https://nn.labml.ai/rl/dqn/replay_buffer.html)
 and Double Q Network.
-#### ✨ [Optimizers](https://lab-ml.com/labml_nn/optimizers/)
+#### ✨ [Optimizers](https://nn.labml.ai/optimizers/index.html)
-* [Adam](https://lab-ml.com/labml_nn/optimizers/adam.html)
+* [Adam](https://nn.labml.ai/optimizers/adam.html)
-* [AMSGrad](https://lab-ml.com/labml_nn/optimizers/amsgrad.html)
+* [AMSGrad](https://nn.labml.ai/optimizers/amsgrad.html)
-* [Adam Optimizer with warmup](https://lab-ml.com/labml_nn/optimizers/adam_warmup.html)
+* [Adam Optimizer with warmup](https://nn.labml.ai/optimizers/adam_warmup.html)
-* [Noam Optimizer](https://lab-ml.com/labml_nn/optimizers/noam.html)
+* [Noam Optimizer](https://nn.labml.ai/optimizers/noam.html)
-* [Rectified Adam Optimizer](https://lab-ml.com/labml_nn/optimizers/radam.html)
+* [Rectified Adam Optimizer](https://nn.labml.ai/optimizers/radam.html)
-* [AdaBelief Optimizer](https://lab-ml.com/labml_nn/optimizers/ada_belief.html)
+* [AdaBelief Optimizer](https://nn.labml.ai/optimizers/ada_belief.html)
 ### Installation