Pourquoi la 6 en relu6?

J'ai piraté un profond feed forward NN de a à z dans R, et il semble plus stable avec "dur sigmoïde" activations - max(0,min(1,x)) - que ReLU. En essayant de port à TensorFlow, et remarqué qu'ils ne disposent pas de cette fonction d'activation intégré, seulement relu6, qui utilise une coupure supérieure à 6. Est-il une raison pour cela?
(Je me rends compte que vous pourriez faire relu6(x*6)/6, mais si le TF gars mettre la 6 là pour une bonne raison, j'aimerais bien le savoir.)
Aussi, j'aimerais savoir si d'autres personnes ont d'explosion des problèmes avec ReLU en avance filets (je suis conscient de la RNN des questions).