L'interprétation d'un test en C, Clojure, Python, Ruby, Scala et les autres

Avertissement

Je sais que les indices de référence sont le mal. Ils peuvent afficher uniquement les résultats pour des cas très particuliers étroit de la situation. Je ne suppose pas qu'une langue est mieux que les autres en raison de la certains stupide banc. Cependant je me demande pourquoi les résultats sont si différents. Veuillez voir mes questions au fond.

Math référence description

Indice de référence des calculs mathématiques simples pour trouver des paires de nombres premiers qui diffèrent par 6 (dite sexy nombres premiers)
E. g. sexy nombres premiers inférieurs à 100 serait: (5 11) (7 13) (11 17) (13 19) (17 23) (23 29) (31 37) (37 43) (41 47) (47 53) (53 59) (61 67) (67 73) (73 79) (83 89) (97 103)

Tableau des résultats de la

Dans le tableau: temps de calcul en secondes
En cours d'exécution: tous sauf le Facteur était en cours d'exécution dans VirtualBox (la version unstable de Debian amd64 invité, Windows 7 x64 accueil)
PROCESSEUR: AMD A4-3305M

  Sexy primes up to:        10k      20k      30k      100k               

  Bash                    58.00   200.00     [*1]      [*1]

  C                        0.20     0.65     1.42     15.00

  Clojure1.4               4.12     8.32    16.00    137.93

  Clojure1.4 (optimized)   0.95     1.82     2.30     16.00

  Factor                    n/a      n/a    15.00    180.00

  Python2.7                1.49     5.20    11.00       119     

  Ruby1.8                  5.10    18.32    40.48    377.00

  Ruby1.9.3                1.36     5.73    10.48    106.00

  Scala2.9.2               0.93     1.41     2.73     20.84

  Scala2.9.2 (optimized)   0.32     0.79     1.46     12.01

[*1] - j'ai peur d'imaginer combien de temps cela prend-il

Listes de Code

int isprime(int x) {
  int i;
  for (i = 2; i < x; ++i)
    if (x%i == 0) return 0;
  return 1;
}

void findprimes(int m) {
  int i;
  for ( i = 11; i < m; ++i)
    if (isprime(i) && isprime(i-6))
      printf("%d %d\n", i-6, i);
}

main() {
    findprimes(10*1000);
}

Ruby:

def is_prime?(n)
  (2...n).all?{|m| n%m != 0 }
end

def sexy_primes(x)
  (9..x).map do |i|
    [i-6, i]
  end.select do |j|
    j.all?{|j| is_prime? j}
  end
end

a = Time.now
p sexy_primes(10*1000)
b = Time.now
puts "#{(b-a)*1000} mils"

Scala:

def isPrime(n: Int) =
  (2 until n) forall { n % _ != 0 }

def sexyPrimes(n: Int) = 
  (11 to n) map { i => List(i-6, i) } filter { _ forall(isPrime(_)) }

val a = System.currentTimeMillis()
println(sexyPrimes(100*1000))
val b = System.currentTimeMillis()
println((b-a).toString + " mils")

Scala opimized isPrime (la même idée comme en Clojure optimisation):

import scala.annotation.tailrec

@tailrec //Not required, but will warn if optimization doesn't work
def isPrime(n: Int, i: Int = 2): Boolean = 
  if (i == n) true 
  else if (n % i != 0) isPrime(n, i + 1)
  else false

Clojure:

(defn is-prime? [n]
  (every? #(> (mod n %) 0)
    (range 2 n)))

(defn sexy-primes [m]
  (for [x (range 11 (inc m))
        :let [z (list (- x 6) x)]
        :when (every? #(is-prime? %) z)]
      z))

(let [a (System/currentTimeMillis)]
  (println (sexy-primes (* 10 1000)))
  (let [b (System/currentTimeMillis)]
    (println (- b a) "mils")))

Clojure optimisé is-prime?:

(defn ^:static is-prime? [^long n]
  (loop [i (long 2)] 
    (if (= (rem n i) 0)
      false
      (if (>= (inc i) n) true (recur (inc i))))))

Python

import time as time_

def is_prime(n):
  return all((n%j > 0) for j in xrange(2, n))

def primes_below(x):
  return [[j-6, j] for j in xrange(9, x+1) if is_prime(j) and is_prime(j-6)]

a = int(round(time_.time() * 1000))
print(primes_below(10*1000))
b = int(round(time_.time() * 1000))
print(str((b-a)) + " mils")

Facteur

MEMO:: prime? ( n -- ? )
n 1 - 2 [a,b] [ n swap mod 0 > ] all? ;

MEMO: sexyprimes ( n n -- r r )
[a,b] [ prime? ] filter [ 6 + ] map [ prime? ] filter dup [ 6 - ] map ;

5 10 1000 * sexyprimes . .

Bash(zsh):

#!/usr/bin/zsh
function prime {
  for (( i = 2; i < $1; i++ )); do
    if [[ $[$1%i] == 0 ]]; then
      echo 1
      exit
    fi
  done
  echo 0
}

function sexy-primes {
  for (( i = 9; i <= $1; i++ )); do
    j=$[i-6]
    if [[ $(prime $i) == 0 && $(prime $j) == 0 ]]; then
      echo $j $i
    fi
  done
}

sexy-primes 10000

Questions

Pourquoi Scala est si vite? C'est à cause de le typage statique? Ou c'est juste à l'aide de la JVM de manière très efficace?
~~Pourquoi une telle différence entre Ruby et Python? Je pensais que ces deux ne sont pas un peu complètement différent. Peut-être que mon code est faux. Merci de m'éclairer! Merci.~~ UPD Oui, c'était une erreur dans mon code. Python et Ruby 1.9 sont assez égale.
Vraiment impressionnant saut de productivité entre les versions Rubis.
Puis-je optimiser Clojure code par adjonction de ce type de déclarations? Il va les aider?

1) Votre question n'est pas un bon ajustement pour DONC, à mon humble avis. 2) Pourquoi vous n'avez pas fourni Clojure et Scala versions?
Je veux dire que les versions linguistiques, comme 2.8, 2.9, ...
Pourriez-vous ajouter vos options de compilation pour chaque langue?
Non pas qu'il n'a rien à voir avec vos contrôles de performances, mais à partir d'un algorithme de point de vue, vous avez vraiment besoin de vérifier quelque chose comme n/2 de savoir s'il est premier ou non (bien qu'il ne sera probablement pas faire une énorme différence).
Si vous jetez un oeil à shootout.alioth.debian.org vous trouverez que vos résultats sont tous dans le typique par rapport plages
en fait jusqu'à sqrt(n) mais qui peut prendre un certain temps à calculer. Aussi votre code C imprime les primes comme il les trouve, alors que vos autres langues de calcul dans les listes et les imprime ensuite les sortir. Alors que C est sans surprise le plus rapide, vous pourriez être en mesure de l'obtenir plus rapidement.
vraiment, sqrt(n)? Je suppose que le sens ... Génial. Je souhaite que je pourrais préféré commentaire, donc je me souviendrai toujours (ou au moins être en mesure de le trouver). Je pensais naïvement c'est pourquoi j'ai dit n/2 (qui est juste un peu de décalage, donc ça devrait être rapide à calculer).
(Et bien sûr, le Crible d'Eratosthène .. mais ce micro-benchmark est un peu un test de stress de l'itération et des opérations mathématiques. Cependant, ils ne sont toujours pas "juste" comme dans certains sont plus paresseux.)
Pourrais-je vous envoyer un Aller à la source pour que vous exécutez sur votre VirtualBox? Je suis très rapide sur mon ordinateur portable, mais il est évidemment très différente de la configuration et je voudrais savoir comment il se compare à d'autres langues, sous votre configuration.
J'ai juste couru mon Go version et votre version de C (qui ressemblent beaucoup aussi) et j'ai pratiquement eu la même vitesse dans les deux d'entre eux. J'ai seulement essayé le 100k version: C: 2.723s Go: 2.743s.
Avec 1000*1000 (1M au lieu de 100K): C: 3m35.458s Go: 3m36.259s
Ajout d'une version de PHP. 100K: PHP: 1m3.766s Vraiment lent par rapport à C et.
sqrt() est généralement un bien optimisé fonction de la bibliothèque. Je pense que le coût d'un seul sqrt() sur un seul flotteur valeur sera beaucoup moins cher que de le faire répétées module d'opérations qui ne sont pas nécessaires, et plus les chiffres en cours de vérification obtenir, plus les économies. Je viens d'essayer le code de ma réponse, et changé le vérifier sqrt() juste n - 1 et des temps d'exécution plus que doublé (de 19 secondes).
J'ai essayé votre optimisation (case à n/2), et de réduire le temps de moitié dans tous les cas. Évidemment, proportionnellement, le taux de rendement entre les langues est le même qu'avant, mais je pense que vous s'est avéré un point: en terme de performance, écriture intelligente code est plus important que de choisir un rapide de la langue.
attendez jusqu'à ce que vous entendez à propos de déterministe variantes de Miller-Rabin test de primalité. Ils sont relativement simples à mettre en œuvre par exemple, Francky du code Python dans la discussion du problème 387 sur projecteuler.net.
Pour le Facteur, veuillez jeter un oeil à math.primes vocabulaire. Il a déjà un très bien optimisé prime? mot.
Vous n'avez pas besoin de calculer sqrt pour cette case. Vous pouvez calculer le carré de i comme dans for (i = 2; i * i <= x; ++i) ...
pourrait se déplacer vers le codegolf.pile... et d'essayer de voir quelle langue est plus rapide, ou qui peut mettre en œuvre le plus rapide pour chaque langue, etc. Je pense qu'il serait intéressant de mieux voir les suggestions, il y
Comparaisons de performances sont amusants, mais celui-ci, en particulier, s'appuyer sur une mise en application arbitraire des détails qui ne sont spécifiques à ce problème.
Je vous suggère de les annoter Scala optimisé isPrime avec @tailrec, pour vous assurer que vous êtes à l'aide de la queue de la récursivité. Il est facile, à tort, faire quelque chose qui empêche la queue de la récursivité, et cette annotation doit vous avertir si cela arrive.
Bon point! Pour le faire j'ai devrait import scala.annotation.tailrec
code Python qui utilise unoptimized Crible d'Eratosthène fonctionne en 0.03 secondes (30 millisecondes) pour 100K c'est à dire, 500 fois plus rapide que la version C ci-dessus.
Ouais, c'est génial. Mais vous utilisez du meilleur algorithme. Le but était de comprendre comment bien peut-on optimiser le simple (stupide) de l'algorithme dans des langues différentes.
Je comprends que. C'est pourquoi le commentaire de @ pst qui a fait état de cet algorithme.
btw, tapé version de Python explicite pour la boucle est 15 à 20 fois plus rapide (accepté réponse pour Clojure utilise également des types). Cette version utilise exactement le même algorithme.
J'ai posté résultats de l'exécution de l'indice de référence sur RPython, Pypy, Cython, Jython, Disponible 2.x, Disponible 3.
Dans la version 11 qui pastebin d'erreur indique que vous devez avoir enlevé le : Boolean type de l'annotation de la isPrime méthode (requis sur les méthodes récursives en raison de limitations dans l'inférence de type). Le site d'appel { _ forall isPrime } devrait être OK avec tout Scala version
J'ai ajouté un pur code C référence. Cython base de la variante a presque les mêmes performances que la C. Remarque: la seule différence entre le pur Python et Cython variantes est @cython.locals(n=int, j=int) décorateur qui raconte Cython sur les types statiques c'est à dire, il est semblable à l'optimisation de Clojure code à cet égard (mais plus rapide).

InformationsquelleAutor defhlt | 2012-07-25

30

Rugueux réponses:
1. Scala du typage statique est de l'aider un peu ici - ce qui signifie qu'il utilise la JVM assez efficacement sans trop d'effort supplémentaire.
2. Je ne suis pas sûr de savoir exactement sur le Ruby/Python différence, mais je pense que (2...n).all? dans la fonction is-prime? est susceptible d'être assez bien optimisé en Ruby (EDIT: on dirait que c'est effectivement le cas, voir Julian réponse pour plus de détails...)
3. Ruby 1.9.3 est juste beaucoup mieux optimisé
4. Clojure code peut certainement être accéléré beaucoup! Tout en Clojure est dynamique par défaut, vous pouvez utiliser le type de conseils, primitif maths etc. pour obtenir près de Scala /Java pur vitesse dans de nombreux cas, lorsque vous en avez besoin.
Plus important de l'optimisation dans le Clojure code serait d'utiliser tapé primitives mathématiques dans is-prime?, quelque chose comme:
```
(set! *unchecked-math* true) ;; at top of file to avoid using BigIntegers

(defn ^:static is-prime? [^long n]
  (loop [i (long 2)] 
    (if (zero? (mod n i))
      false
      (if (>= (inc i) n) true (recur (inc i))))))
```
Avec cette amélioration, je reçois Clojure remplir 10k en 0.635 secondes (c'est à dire le deuxième plus rapide sur votre liste, en battant la Scala)

P. S. note que vous avez l'impression de code à l'intérieur de votre point de repère dans certains cas - pas une bonne idée car il va fausser les résultats, en particulier si vous utilisez une fonction comme print pour la première fois les causes de l'initialisation de IO sous-systèmes ou quelque chose comme ça!
- Je ne pense pas que le peu sur Ruby et Python est forcément vrai, mais +1 dans le cas contraire ..
- Tapant à ne pas montrer mesurables résultat stable, mais votre nouveau is-prime? montre 2x amélioration. 😉
- ne pourrait-ce pas être effectuée plus rapidement que s'il y a décoché-mod ?
- sans doute! pas sûr que cela est optimisée par l'actuel Clojure compilateur, il y a probablement de la place pour l'amélioration. Clojure 1.4 aide vraiment beaucoup, en général, pour ce genre de trucs, 1.5 va probablement être encore mieux.
- (zero? (mod n i)) devrait être plus rapide que (= (mod n i) 0)
InformationsquelleAutor mikera

Voici un rapide Clojure version, en utilisant les mêmes algorithmes de base:

(set! *unchecked-math* true)

(defn is-prime? [^long n]
  (loop [i 2]
    (if (zero? (unchecked-remainder-int n i))
      false
      (if (>= (inc i) n)
        true
        (recur (inc i))))))

(defn sexy-primes [m]
  (for [x (range 11 (inc m))
        :when (and (is-prime? x) (is-prime? (- x 6)))]
    [(- x 6) x]))

Il fonctionne environ 20x plus vite que votre original sur ma machine. Et voici une version qui s'appuie sur les nouveaux réducteurs de la bibliothèque en 1.5 (nécessite Java 7 ou JSR 166):

(require '[clojure.core.reducers :as r]) ;'

(defn sexy-primes [m]
  (->> (vec (range 11 (inc m)))
       (r/filter #(and (is-prime? %) (is-prime? (- % 6))))
       (r/map #(list (- % 6) %))
       (r/fold (fn ([] []) ([a b] (into a b))) conj)))

Cela fonctionne environ 40x plus rapide que celui de votre originaux. Sur ma machine, c'est 100k en 1,5 secondes.

À l'aide de unchecked-remainder-int ou tout simplement rem au lieu de mod avec le typage statique résultats à 4x augmentation de la performance. Nice!

InformationsquelleAutor Justin Kramer

22

Je vais répondre simplement #2, car c'est le seul que j'ai quelque chose à distance intelligent à dire, mais pour votre code Python, vous êtes en train de créer un intermédiaire de liste dans is_prime, alors que vous êtes en utilisant .map dans votre all en Ruby, qui est juste de l'itération.

Si vous modifiez votre is_prime à:
```
def is_prime(n):
    return all((n%j > 0) for j in range(2, n))
```
ils sont à égalité.

J'ai pu optimiser le Python, mais mon Ruby n'est pas assez bon à savoir quand j'ai donné plus d'un avantage (par exemple, à l'aide de xrange rend Python gagner sur ma machine, mais je ne me souviens pas si la chaîne Ruby vous avez utilisé crée une gamme complète dans la mémoire ou pas).

EDIT: Sans être trop ridicule, rendant le code Python ressembler à:
```
import time

def is_prime(n):
    return all(n % j for j in xrange(2, n))

def primes_below(x):
    return [(j-6, j) for j in xrange(9, x + 1) if is_prime(j) and is_prime(j-6)]

a = int(round(time.time() * 1000))
print(primes_below(10*1000))
b = int(round(time.time() * 1000))
print(str((b-a)) + " mils")
```
qui ne change pas beaucoup plus, il met à 1,5 s pour moi, et, avec en étant encore plus ridicule, de l'exécution avec PyPy, il met à .3s pour 10K, et de 21 ans pour 100K.
- Le générateur fait une grande différence ici, car il permet à la fonction de la caution sur la première False (bonne prise).
- Je suis vraiment impatient de les obtenir numpy dans PyPy ... ça va être génial.
- Voulez-vous s'il vous plaît exécuter ma réponse dans PyPy? Je suis curieux de voir comment beaucoup plus rapide que ce serait.
- Vous avez entièrement raison sur les deux itération chose et xrange! J'ai corrigé et maintenant, Python et Ruby montrer l'égalité des résultats.
- Je vais le faire uniquement si vous vous engagez à maintenant sortir et télécharger PyPy vous-même :)! pypy.org/download.html a des binaires pour tous les Systèmes d'exploitation, et votre gestionnaire de paquet est sans aucun doute d'elle. De toute façon, comme pour votre référence, avec un nombre aléatoire lru_cache mise en œuvre pour 2,7 trouvé sur COMME, 100K s'exécute dans 2.3.s.
- J'ai déjà téléchargé PyPy, mais je n'ai pas réussi à obtenir de bootstrap, et je me suis occupé et ne revint jamais. Je devrais essayer de nouveau... PyPy est vraiment cool.
- (n%j != 0) ou tout simplement n % j peut être plus lisible que (n%j > 0)
- une très petite optimisation: commutateur is_prime(j) et is_prime(j-6) dans primes_below .)
- J'ai posté résultats de l'exécution de l'indice de référence sur RPython, Pypy, Cython, Jython, Disponible 2.x, Disponible 3. Tapé Cython version est 15 à 20 fois plus rapide.
InformationsquelleAutor Julian
16

Vous pouvez faire de la Scala beaucoup plus vite en modifiant votre isPrime méthode pour
```
  def isPrime(n: Int, i: Int = 2): Boolean = 
    if (i == n) true 
    else if (n % i != 0) isPrime(n, i + 1)
    else false
```
Pas tout à fait aussi concis mais le programme s'exécute à 40% du temps!

Nous couper le superflu Range et anonyme Function des objets, de la Scala compilateur reconnaît la queue-la récursivité et la transforme en un moment, en boucle, que la JVM peut se transformer en un plus ou moins optimal de code machine, de sorte qu'il ne devrait pas être trop loin de la version de C.

Voir aussi: Comment optimiser pour des inclusions et des boucles en Scala?
- 2x amélioration. Et lien sympa!
- btw, ce corps de la méthode est identique à i == n || n % i != 0 && isPrime(n, i + 1), qui est plus court, quoique un peu plus difficile à lire
- Vous devriez avoir ajouté le @tailrec annotation, pour s'assurer qu'il va faire de cette optimisation.
InformationsquelleAutor Luigi Plinge

Voici mon scala version à la fois parallèles et non parallèles, juste pour le fun:
(Dans mon dual core de calcul, la version parallèle prend 335ms tandis que le no-version parallèle prend 655ms)

object SexyPrimes {
  def isPrime(n: Int): Boolean = 
    (2 to math.sqrt(n).toInt).forall{ n%_ != 0 }

  def isSexyPrime(n: Int): Boolean = isPrime(n) && isPrime(n-6)

  def findPrimesPar(n: Int) {
    for(k <- (11 to n).par)
      if(isSexyPrime(k)) printf("%d %d\n",k-6,k)
  }

  def findPrimes(n: Int) {
    for(k <- 11 to n)
      if(isSexyPrime(k)) printf("%d %d\n",k-6,k)
  }


  def timeOf(call : =>Unit) {
    val start = System.currentTimeMillis
    call
    val end = System.currentTimeMillis
    println((end-start)+" mils")
  }

  def main(args: Array[String]) {
    timeOf(findPrimes(100*1000))
    println("------------------------")
    timeOf(findPrimesPar(100*1000))
  }
}

EDIT: Selon Emil Hla suggestion, j'ai modifié mon code pour éviter les effets de IO et de la jvm de chauffe:

Le résultat montre que dans mon calcul:

Liste(3432, 1934, 3261, 1716, 3229, 1654, 3214, 1700)

object SexyPrimes {
  def isPrime(n: Int): Boolean = 
    (2 to math.sqrt(n).toInt).forall{ n%_ != 0 }

  def isSexyPrime(n: Int): Boolean = isPrime(n) && isPrime(n-6)

  def findPrimesPar(n: Int) {
    for(k <- (11 to n).par)
      if(isSexyPrime(k)) ()//printf("%d %d\n",k-6,k)
  }

  def findPrimes(n: Int) {
    for(k <- 11 to n)
      if(isSexyPrime(k)) ()//printf("%d %d\n",k-6,k)
  }


  def timeOf(call : =>Unit): Long = {
    val start = System.currentTimeMillis
    call
    val end = System.currentTimeMillis
    end - start 
  }

  def main(args: Array[String]) {
    val xs = timeOf(findPrimes(1000*1000))::timeOf(findPrimesPar(1000*1000))::
             timeOf(findPrimes(1000*1000))::timeOf(findPrimesPar(1000*1000))::
             timeOf(findPrimes(1000*1000))::timeOf(findPrimesPar(1000*1000))::
             timeOf(findPrimes(1000*1000))::timeOf(findPrimesPar(1000*1000))::Nil
    println(xs)
  }
}

Le code est-il affecté par la jvm de chauffe? E. g. isSexyPrime peut-être (plus) optimisé lorsqu'il est appelé à partir de findPrimesPar et pas tellement lorsqu'il est appelé à partir de findPrimes
Juste assez. J'ai modifié mon code pour éviter l'effet de l'oi et de la jvm de chauffe.
Seulement aller jusqu'à sqrt(n) est une bonne optimisation, mais vous êtes maintenant à l'analyse comparative à un algorithme différent.

InformationsquelleAutor Eastsun

7

Jamais l'esprit les critères de référence; le problème m'a intéressé et j'ai fait un rapide réglages. Il utilise la lru_cache décorateur, qui memoizes une fonction; ainsi, lorsque nous appelons is_prime(i-6) essentiellement, nous obtenons que le premier contrôle de la liberté. Ce changement coupes le travail à peu près à la moitié. Aussi, nous pouvons faire la range() appels étape à travers tout le nombres impairs, la réduction du travail à peu près de moitié à nouveau.

http://en.wikipedia.org/wiki/Memoization

http://docs.python.org/dev/library/functools.html

Cela nécessite Python 3.2 ou plus récent pour obtenir lru_cache, mais pourrait fonctionner avec un plus vieux Python si vous installez un Python recette qui fournit lru_cache. Si vous utilisez Python 2.x vous devriez vraiment utiliser xrange() au lieu de range().

http://code.activestate.com/recipes/577479-simple-caching-decorator/
```
from functools import lru_cache
import time as time_

@lru_cache()
def is_prime(n):
    return n%2 and all(n%i for i in range(3, n, 2))

def primes_below(x):
    return [(i-6, i) for i in range(9, x+1, 2) if is_prime(i) and is_prime(i-6)]

correct100 = [(5, 11), (7, 13), (11, 17), (13, 19), (17, 23), (23, 29),
        (31, 37), (37, 43), (41, 47), (47, 53), (53, 59), (61, 67), (67, 73),
        (73, 79), (83, 89)]
assert(primes_below(100) == correct100)

a = time_.time()
print(primes_below(30*1000))
b = time_.time()

elapsed = b - a
print("{} msec".format(round(elapsed * 1000)))
```
Ci-dessus n'a pris que très peu de temps à modifier. J'ai décidé de prendre une nouvelle étape, et de faire les premiers test seulement essayer de diviseurs premiers, et seulement jusqu'à la racine carrée du nombre d'être testé. Je l'ai fait ne fonctionne que si vous vérifiez les numéros dans l'ordre, de sorte qu'il peut cumuler tous les nombres premiers comme il va; mais ce problème a déjà été cochant les numéros dans l'ordre, donc c'était bon.

Sur mon portable (rien de spécial; processeur est un processeur de 1,5 GHz AMD Turion II "K625"), cette version apporte une réponse à 100 en moins de 8 secondes.
```
from functools import lru_cache
import math
import time as time_

known_primes = set([2, 3, 5, 7])

@lru_cache(maxsize=128)
def is_prime(n):
    last = math.ceil(math.sqrt(n))
    flag = n%2 and all(n%x for x in known_primes if x <= last)
    if flag:
        known_primes.add(n)
    return flag

def primes_below(x):
    return [(i-6, i) for i in range(9, x+1, 2) if is_prime(i) and is_prime(i-6)]

correct100 = [(5, 11), (7, 13), (11, 17), (13, 19), (17, 23), (23, 29),
        (31, 37), (37, 43), (41, 47), (47, 53), (53, 59), (61, 67), (67, 73),
        (73, 79), (83, 89)]
assert(primes_below(100) == correct100)

a = time_.time()
print(primes_below(100*1000))
b = time_.time()

elapsed = b - a
print("{} msec".format(round(elapsed * 1000)))
```
Le code ci-dessus est assez facile d'écrire en Python, Ruby, etc. mais serait plus d'une douleur dans C.

Vous ne pouvez pas comparer les chiffres sur cette version à l'encontre de l'un des numéros de l'autre des versions sans avoir à réécrire les autres à utiliser des astuces similaires. Je ne cherche pas à prouver quoi que ce soit ici; j'ai juste pensé que le problème était amusant et j'ai voulu voir ce genre de représentation facile améliorations que j'ai pu glaner.
- lru_cache est certainement intéressante. Pour certaines classes de problèmes, tels que la génération de nombres de Fibonacci successifs, il peut donner une énorme accélération par le simple ajout d'une ligne décorateur sur la la fonction! Voici un lien vers un Raymond Hettinger parler qui couvre lru_cache environ 26 minutes en. blip.tv/pycon-us-videos-2009-2010-2011/...
- En utilisant lru_cache, vous avez fait d'utiliser un autre algorithme plutôt que le code brut. De sorte que la performance est à propos de l'algorithme, mais pas le langage lui-même.
- Je ne comprends pas ce que tu veux dire. lru_cache évite la répétition d'un calcul qui a été déjà fait récemment, et c'est tout; je ne vois pas en quoi c'est "en fait, nous[ing], un algorithme". Et Python souffre peut-être lent, mais les avantages d'avoir des trucs sympas comme lru_cache; je ne vois rien de mal avec l'aide de véritables pièces d'une langue. Et je dit que l'on ne doit pas comparer le temps d'exécution de ma réponse contre les autres langues sans faire des changements similaires pour les autres. Donc, je ne comprends pas ce que tu veux dire.
- est droit, mais d'un autre côté la commodité de langage de plus haut niveau devrait être autorisé à moins que des contraintes supplémentaires sont donnés. lru_cache sacrifice de la mémoire pour la vitesse et ajuste la complexité algorithmique.
- J'ai copié le script final, téléchargé un lru_cache mise en œuvre à partir de code.activestate.com/recipes/... et a couru votre script dans PyPy 1.8.0 et il terminé dans 1.213 secondes. Pas trop mal!
- si vous utilisez un autre algorithme, vous pourriez essayer de le Crible d'Eratosthène. version de Python produit une réponse pour 100K en vertu de 0.03 secondes (30 ms).
InformationsquelleAutor steveha

N'oubliez pas de Fortran! (Surtout plaisanter, mais je m'attends à des performances similaires à C). Les énoncés avec des points d'exclamation sont facultatifs, mais un bon style. (! est un caractère de commentaire en fortran 90)

logical function isprime(n)
IMPLICIT NONE !
integer :: n,i
do i=2,n
   if(mod(n,i).eq.0)) return .false.
enddo
return .true.
end

subroutine findprimes(m)
IMPLICIT NONE !
integer :: m,i
logical, external :: isprime

do i=11,m
   if(isprime(i) .and. isprime(i-6))then
      write(*,*) i-6,i
   endif
enddo
end

program main
findprimes(10*1000)
end

InformationsquelleAutor mgilson

6

Je ne pouvais pas résister à faire un peu de la plus évidente des optimisations pour la version C qui a fait le test 100k maintenant prendre 0,3 s sur ma machine (5 fois plus rapide que la version C de la question, à la fois compilé avec MSVC 2010 /Ox).
```
int isprime( int x )
{
    int i, n;
    for( i = 3, n = x >> 1; i <= n; i += 2 )
        if( x % i == 0 )
            return 0;
    return 1;
}

void findprimes( int m )
{
    int i, s = 3; //s is bitmask of primes in last 3 odd numbers
    for( i = 11; i < m; i += 2, s >>= 1 ) {
        if( isprime( i ) ) {
            if( s & 1 )
                printf( "%d %d\n", i - 6, i );
            s |= 1 << 3;
        }
    }
}

main() {
    findprimes( 10 * 1000 );
}
```
Ici est l'identique de la mise en œuvre en Java:
```
public class prime
{
private static boolean isprime( final int x )
{
for( int i = 3, n = x >> 1; i <= n; i += 2 )
if( x % i == 0 )
return false;
return true;
}
private static void findprimes( final int m )
{
int s = 3; //s is bitmask of primes in last 3 odd numbers
for( int i = 11; i < m; i += 2, s >>= 1 ) {
if( isprime( i ) ) {
if( ( s & 1 ) != 0 )
print( i );
s |= 1 << 3;
}
}
}
private static void print( int i )
{
System.out.println( ( i - 6 ) + " " + i );
}
public static void main( String[] args )
{
//findprimes( 300 * 1000 ); //for some JIT training
long time = System.nanoTime();
findprimes( 10 * 1000 );
time = System.nanoTime() - time;
System.err.println( "time: " + ( time / 10000 ) / 100.0 + "ms" );
}
}
```
Avec Java 1.7.0_04 cela fonctionne presque aussi rapide que le C de la version. Le Client ou le serveur VM ne montre pas beaucoup de différence, sauf que JIT de la formation semble aider le serveur VM un peu (~3%) alors qu'il a presque pas d'effet avec le client VM. La sortie en Java semble être plus lent que dans C. Si la sortie est remplacé par un compteur statique dans les deux versions, la version Java tourne un peu plus vite que la version de C.

Ce sont mes temps pour le 100k exécuter:
- 319ms C compilé avec /Ox et de sortie >NUL:
- 312ms C compilé avec /Ox et statique contre
- 324ms client Java VM avec sortie >NUL:
- 299ms client Java VM avec statique contre
et la 1M run (16386 résultats):
- 24.95 s C compilé avec /Ox et statique contre
- 25.08 s client Java VM avec statique contre
- 24.86 s Java server VM avec statique contre
Alors que ce n'est pas vraiment répondre à vos questions, il montre que de petites modifications peuvent avoir un impact notable sur les performances. Donc, pour être en mesure de vraiment comparer les langues que vous devriez essayer d'éviter tous algorithmique différences autant que possible.

Il donne également un aperçu pourquoi Scala semble plutôt rapide. Il s'exécute sur la machine virtuelle Java, et donc des avantages à partir de ses performances impressionnantes.
- Il est plus rapide d'aller à sqrt(x) au lieu de x>>1 pour le premier de la fonction de contrôle.
InformationsquelleAutor x4u
4

En Scala essayez d'utiliser Tuple2 au lieu de la Liste, cela devrait aller plus vite. Il suffit de retirer le mot "Liste" puisque (x, y) est un Tuple2.

Tuple2 est spécialisé pour les Int, Long et Double sens, il n'aura pas de zone/unbox ces types de données brutes. Tuple2 source. La liste n'est pas spécialisé. Liste source.
- Ensuite, vous ne pouvez pas appeler forall sur elle. J'ai aussi pensé que ce ne serait pas le code le plus efficace (plus parce que un grand stricte de la collection est créé pour les grandes n au lieu de simplement en utilisant un point de vue), mais il est certainement court + élégant, et j'ai été surpris de voir comment il est effectué en dépit de l'aide de beaucoup de style fonctionnel.
- Vous avez raison, j'ai pensé 'forAll' était là. Encore il devrait y avoir une grande amélioration sur la Liste et il ne serait pas mauvais d'avoir ces 2 appels.
- il est en effet plus rapide, avec def sexyPrimes(n: Int) = (11 to n).map(i => (i-6, i)).filter({ case (i, j) => isPrime(i) && isPrime(j) }) c'est environ 60% plus rapide ici, devrait donc battre le code C 🙂
- Hmm, je seulement obtenir une augmentation de performance de 4 ou 5 %
- Oui, j'ai également obtenir d'énormes fluctuations quant à l'origine du test lorsqu'il est exécuté à plusieurs reprises (j'ai vu de la vitesse de 0% à 100% maintenant 🙂
- Pourquoi as-tu mis le contenu de filtre dans une affaire? filter((i, j) => isPrime(i) && isPrime(j)) est assez. Je voudrais aussi essayer (11 to n) collect { case i if isPrime(i-6) && isPrime(i) => (i-6, i) }
- Parce que filter reçoit un Function1 dont l'argument est une Tuple2 qui doivent être extraites, vous ne pouvez pas utiliser un Function2. J'ai créé le tuple de la première, de sorte que le i-6 n'apparaît pas deux fois, mais certainement votre exemple avec collect fonctionne aussi bien.
- Bien sûr, vous avez raison. filter(p => isPrime(p._1) && isPrime(p._2)) doit avoir été est un peu laid.
- Je trouve collect sensiblement plus lent. Plus c'est rapide, si vous faites d'abord le filtre et ensuite la carte. withFilter est légèrement plus rapide, car il ne fait pas de créer intermédiaire des collections. (11 to n) withFilter (i => isPrime(i - 6) && isPrime(i)) map (i => (i - 6, i))
InformationsquelleAutor Tomas Lazaro
4

Voici le code pour l'Aller (golang.org version:
```
package main
import (
"fmt"
)
func main(){
findprimes(10*1000)
}
func isprime(x int) bool {
for i := 2; i < x; i++ {
if x%i == 0 {
return false
}
}
return true
}
func findprimes(m int){
for i := 11; i < m; i++ {
if isprime(i) && isprime(i-6) {
fmt.Printf("%d %d\n", i-6, i)
}
}
}
```
Il a couru aussi vite que la version de C.

À l'aide d'un Asus u81a
Intel Core 2 Duo T6500 2.1 GHz, 2MB L2 cache, 800 mhz FSB.
4 GO DE RAM

Les 100k version: C: 2.723s Go: 2.743s

Avec 1000000 (1M au lieu de 100K): C: 3m35.458s Go: 3m36.259s

Mais je pense qu'il serait juste d'utiliser Go construit dans les capacités de multithreading et de comparer cette version à la version C (sans le multithreading), juste parce que c'est presque trop facile de faire du multithreading avec Go.

Mise à jour: j'ai fait une version parallèle à l'aide de Goroutines en Aller:
```
package main
import (
"fmt"
"runtime"
)
func main(){
runtime.GOMAXPROCS(4)
printer := make(chan string)
printer2 := make(chan string)
printer3 := make(chan string)
printer4 := make(chan string)
finished := make(chan int)
var buffer, buffer2, buffer3 string
running := 4
go findprimes(11, 30000, printer, finished)
go findprimes(30001, 60000, printer2, finished)
go findprimes(60001, 85000, printer3, finished)
go findprimes(85001, 100000, printer4, finished)
for {
select {
case i := <-printer:
//batch of sexy primes received from printer channel 1, print them
fmt.Printf(i)
case i := <-printer2:
//sexy prime list received from channel, store it
buffer = i
case i := <-printer3:
//sexy prime list received from channel, store it
buffer2 = i
case i := <-printer4:
//sexy prime list received from channel, store it
buffer3 = i
case <-finished:
running--
if running == 0 {
//all goroutines ended
//dump buffer to stdout
fmt.Printf(buffer)
fmt.Printf(buffer2)
fmt.Printf(buffer3)
return
}
}
}
}
func isprime(x int) bool {
for i := 2; i < x; i++ {
if x%i == 0 {
return false
}
}
return true
}
func findprimes(from int, to int, printer chan string, finished chan int){
str := ""
for i := from; i <= to; i++ {
if isprime(i) && isprime(i-6) {
str = str + fmt.Sprintf("%d %d\n", i-6, i)
}
}
printer <- str
//fmt.Printf("Finished %d to %d\n", from, to)
finished <- 1
}
```
~~La version parallélisée utilisé en moyenne 2.743 secondes, exactement le même temps que la version normale utilisé.~~

La version parallélisée achevé en 1.706 secondes. Il a utilisé moins de 1,5 Mo de RAM.

~~Une chose étrange: Mon dual core kubuntu 64 bits jamais atteint un sommet dans les deux noyaux. Il semblait Aller a l'aide d'une seule base.~~ le Fixe avec un appel à runtime.GOMAXPROCS(4)

Mise à jour: j'ai couru le paralellized version 1M numéros. ~~l'Un de Mes coeurs de CPU est à 100% tout le temps, tandis que l'autre n'était pas utilisé à tous (impair). Il a fallu toute une minute de plus que le C et le régulier d'Aller les versions. 🙁~~

Avec 1000000 (1M au lieu de 100K):

C: 3m35.458s Go: 3m36.259s Go using goroutines:~~3m27.137s~~2m16.125s

Les 100k version:

C: 2.723s Go: 2.743s Go using goroutines: 1.706s
- Combien de coeurs que vous avez utilisé btw?
- J'ai un Asus u81a Intel Core 2 Duo T6500 2.1 GHz, 2MB L2 cache, 800 mhz FSB. 4 GO DE RAM
- Avez-vous fait de compiler la version de C avec les optimisations activées? La valeur par défaut Aller compilateur n'est pas en ligne, et en général subissent une énorme performance contre C optimisés dans ces sortes de comparaisons. Ajouter -O3 ou mieux.
- Je viens de le faire, pas avant, et le 100K version a pris la même quantité de temps, avec ou sans l'option-O3
- Même chose pour la 1M version. Peut-être que cela opérations particulières (nous testons un très petit sous-ensemble) sont bien optimisés par défaut.
InformationsquelleAutor Sebastián Grignoli

Juste pour le fun, voici, en parallèle, une version de Ruby.

require 'benchmark'
num = ARGV[0].to_i
def is_prime?(n)
(2...n).all?{|m| n%m != 0 }
end
def sexy_primes_default(x)
(9..x).map do |i|
[i-6, i]
end.select do |j|
j.all?{|j| is_prime? j}
end
end
def sexy_primes_threads(x)
partition = (9..x).map do |i|
[i-6, i]
end.group_by do |x|
x[0].to_s[-1]
end
threads = Array.new
partition.each_key do |k|
threads << Thread.new do
partition[k].select do |j|
j.all?{|j| is_prime? j}
end
end
end
threads.each {|t| t.join}
threads.map{|t| t.value}.reject{|x| x.empty?}
end
puts "Running up to num #{num}"
Benchmark.bm(10) do |x|
x.report("default") {a = sexy_primes_default(num)}
x.report("threads") {a = sexy_primes_threads(num)}
end

Sur mon 1.8 GHz Core i5 MacBook Air, les résultats de performance sont:

# Ruby 1.9.3
$ ./sexyprimes.rb 100000
Running up to num 100000
user     system      total        real
default     68.840000   0.060000  68.900000 ( 68.922703)
threads     71.730000   0.090000  71.820000 ( 71.847346)
# JRuby 1.6.7.2 on JVM 1.7.0_05
$ jruby --1.9 --server sexyprimes.rb 100000
Running up to num 100000
user     system      total        real
default    56.709000   0.000000  56.709000 ( 56.708000)
threads    36.396000   0.000000  36.396000 ( 36.396000)
# JRuby 1.7.0.preview1 on JVM 1.7.0_05
$ jruby --server sexyprimes.rb 100000
Running up to num 100000
user     system      total        real
default     52.640000   0.270000  52.910000 ( 51.393000)
threads    105.700000   0.290000 105.990000 ( 30.298000)

Il ressemble à la JVM JIT est de donner des Rubis d'une belle amélioration des performances dans le cas par défaut, tandis que le vrai multithreading aide JRuby effectuer 50% plus rapide dans la partie filetée du cas. Ce qui est plus intéressant, c'est que JRuby 1.7 améliore la JRuby 1.6 score par une saine 17%!

InformationsquelleAutor Georgios Gousios

Basé sur x4u réponse, j'ai écrit un scala version en utilisant la récursivité, et j'ai amélioré par seulement aller à la racine carrée à la place de x/2 pour le premier de la fonction de contrôle. Je reçois ~250ms pour 100k, et ~600ms pour 1M. Je suis allé de l'avant et est allé à 10M de ~6s.

import scala.annotation.tailrec
var count = 0;
def print(i:Int) = {
println((i - 6) + " " + i)
count += 1
}
@tailrec def isPrime(n:Int, i:Int = 3):Boolean = {
if(n % i == 0) return false;
else if(i * i > n) return true;
else isPrime(n = n, i = i + 2)
}      
@tailrec def findPrimes(max:Int, bitMask:Int = 3, i:Int = 11):Unit = {
if (isPrime(i)) {
if((bitMask & 1) != 0) print(i)
if(i + 2 < max) findPrimes(max = max, bitMask = (bitMask | (1 << 3)) >> 1, i = i + 2)
} else if(i + 2 < max) {
findPrimes(max = max, bitMask = bitMask >> 1, i = i + 2)
}
}
val a = System.currentTimeMillis()
findPrimes(max=10000000)
println(count)
val b = System.currentTimeMillis()
println((b - a).toString + " mils")

Je suis aussi rentré et a écrit un CoffeeScript (JavaScript V8) version, qui obtient ~15ms pour 100k, 250ms pour 1M, et 6 sur 10 m, à l'aide d'un compteur (en ignorant I/O). Si j'allume la sortie il faut ~150ms pour 100k, 1s pour 1M, et 12 pour 10M. Ne pouvait pas utiliser la récursivité tail ici, malheureusement, j'ai donc eu à convertir en boucles.

count = 0;
print = (i) ->
console.log("#{i - 6} #{i}")
count += 1
return
isPrime = (n) ->
i = 3
while i * i < n
if n % i == 0
return false
i += 2
return true
findPrimes = (max) ->
bitMask = 3
for i in [11..max] by 2
prime = isPrime(i)
if prime
if (bitMask & 1) != 0
print(i)
bitMask |= (1 << 3)
bitMask >>= 1
return
a = new Date()
findPrimes(1000000)
console.log(count)
b = new Date()
console.log((b - a) + " ms")

InformationsquelleAutor Eve Freeman

2

La réponse à votre question n ° 1 est que, Oui, le JVM est incredably rapide et oui le typage statique permet de.

La JVM doit être plus rapide que C dans le long terme, peut-être même plus rapide que le "Normal" de l'assemblée de la langue--bien sûr, vous pouvez toujours la main d'optimiser l'assemblée à battre de rien en faisant manuel d'exécution du profilage et de la création d'une version distincte pour chaque PROCESSEUR, vous avez juste à être incroyablement bon et bien informé.

Les raisons pour Java de vitesse sont:

La JVM peut analyser votre code alors qu'il s'exécute, et la main de l'optimiser, par exemple, si vous aviez une méthode qui pourrait être analysé de manière statique au moment de la compilation pour être une vraie fonction et la JVM remarqué que vous avez été souvent à l'appeler avec les mêmes paramètres, il POURRAIT en fait d'éliminer l'appel complètement et simplement injecter les résultats du dernier appel (je ne suis pas sûr si Java en fait cela exactement, mais il fais beaucoup de trucs de ce genre).

En raison de typage statique, la JVM peut savoir beaucoup de choses sur votre code au moment de la compilation, ce qui permet le pré-optimiser mal de trucs un peu. Cela permet également au compilateur d'optimiser chaque classe individuellement, sans la connaissance de la façon dont une autre classe est pour l'utiliser. Aussi Java n'est pas arbitraire des pointeurs à l'emplacement de la mémoire, il SAIT ce que les valeurs en mémoire peut et ne peut pas être modifié et peut optimiser en conséquence.

Tas de répartition est BEAUCOUP plus efficace que le C, le Java, le tas de l'allocation est plus comme C est pile l'allocation de vitesse--encore plus polyvalent. Beaucoup de temps est passé dans les différents algroithims utilisé ici, c'est un art--par exemple, tous les objets avec une courte durée de vie (comme C est pile variables) sont attribuées à une "connu" emplacement libre (pas de recherche d'une place libre, avec suffisamment d'espace) et sont tous libérés ensemble en une seule étape (comme une pile pop).

La JVM peut savoir bizarreries sur votre PROCESSEUR de l'architecture et de générer du code machine spécifiquement pour un CPU donnée.

La JVM peut accélérer votre code de temps après que vous avez envoyé. Un peu comme le déplacement d'un programme à un nouveau PROCESSEUR peut l'accélérer, de le déplacer vers une nouvelle version de la JVM peuvent également vous donner d'énormes records de vitesse taylored de Processeurs qui n'existait même pas lors de la première de compiler votre code, quelque chose c physiquement ne peut pas faire sans un recomiple.

Par la façon dont, plus de la mauvaise réputation de java vitesse vient le temps de démarrage long à charger la JVM (un Jour quelqu'un va construire la JVM dans l'OS, et cela ira loin!) et le fait que de nombreux développeurs sont vraiment mauvais à l'écriture de code de la GUI (surtout filetée), qui a causé Java Gui souvent insensible et glitch. Simple à l'utilisation des langues comme Java et VB ont leurs défauts amplifié par le fait que le capibilities de la programmeur moyen tend à être inférieure à la plus compliquée langues.
- En disant JVM des tas de répartition est beaucoup plus efficace que C est un non-sens, compte tenu de la JVM est écrit en C++.
- la langue n'est pas aussi important que impelemntation--Java "en Tas", la mise en œuvre du code n'en est rien, comme C est. Java est un remplaçables système multi-stade très optomizable pour des cibles différentes avec de nombreuses années d'efforts dans la recherche, y compris les techniques de pointe développée aujourd'hui, C utilise un tas--Une simple structure de données développé il y a des siècles. Java du système est impossible à mettre en œuvre pour C, étant donné que C permet de pointeurs de sorte qu'il ne peut jamais garantir la "Sécurité" se déplace de l'arbitraire de la mémoire allouée morceaux sans les changements de langue (le rendant plus C)
- Solidité n'est pas pertinent; vous ne prétend pas que c'était sûr, on a prétendu que c'était plus efficace. En outre, vous description dans le commentaire de la façon dont C "en tas", œuvres n'a aucun rapport avec la réalité.
- Vous devez avoir mal compris mon sens de "Coffre-fort"--Java est capable de se déplacer ant arbitraire bloc de mémoire tout le temps parce qu'il sait qu'il peut, C est pas en mesure de optomize mémoire allcoation car il y a peut être un pointeur qui peut faire référence à elle. Aussi Un C tas est généralement mis en œuvre comme un tas qui est une structure de données. C++ tas utilisé pour être mis en œuvre avec des tas de structures comme C était (d'Où le nom de "Tas"), je n'ai pas vérifié en C++ pour quelques années de sorte que cela peut ne plus être vrai, mais il est toujours limitée par ne pas être en mesure de ré-arranger des petits morceaux de l'utilisateur de la mémoire allouée à volonté.
InformationsquelleAutor Bill K

Vous devez vous connecter pour publier un commentaire.