Swift Bêta de la performance: tableaux de tri

J'ai été la mise en œuvre d'un algorithme rapide de la Bêta et a remarqué que la performance était très pauvre. Après pour aller plus loin, j'ai réalisé que l'un des goulots d'étranglement a été quelque chose d'aussi simple que le tri des tableaux. La partie pertinente est ici:

let n = 1000000
var x =  [Int](repeating: 0, count: n)
for i in 0..<n {
    x[i] = random()
}
//start clock here
let y = sort(x)
// stop clock here

En C++, une opération similaire prend 0.06 s sur mon ordinateur.

En Python, il faut 0,6 s (pas de trucs, juste y = sorted(x) pour une liste d'entiers).

Dans Swift prend 6s si je compile avec la commande suivante:

xcrun swift -O3 -sdk `xcrun --show-sdk-path --sdk macosx`

Et il faut autant que 88s si je compile avec la commande suivante:

xcrun swift -O0 -sdk `xcrun --show-sdk-path --sdk macosx`

Timings dans Xcode avec "Libération" et "Debug" versions sont similaires.

Quel est le problème ici? J'ai pu comprendre certaines pertes de performances en comparaison avec le C++, mais pas 10 fois de ralentissement en comparaison avec pur Python.

Edit: météo remarqué que le changement de -O3 à -Ofast fait ce code exécuté presque aussi rapide que la version C++! Cependant, -Ofast la sémantique de la langue beaucoup dans mes tests, il désactivé le vérifie les débordements d'entiers et le tableau d'indexation des débordements. Par exemple, avec -Ofast suivantes Swift code s'exécute en mode silencieux sans s'écraser (et imprime des ordures):

let n = 10000000
print(n*n*n*n*n)
let x =  [Int](repeating: 10, count: n)
print(x[n])

Donc -Ofast n'est pas ce que nous voulons; le point de l'ensemble de Swift est que nous avons les filets de sécurité en place. Bien sûr, les filets de sécurité qui ont une incidence sur les performances, mais ils ne devraient pas faire les programmes 100 fois plus lent. Rappelez-vous que Java est déjà vérifie les limites du tableau, et dans les cas typiques, le ralentissement de l'activité par un facteur inférieur à 2. Et dans le Bruit et la GCC, nous avons obtenu -ftrapv pour le contrôle (signé) des débordements d'entiers, et il n'est pas lent, soit.

D'où la question: comment pouvons-nous obtenir des performances acceptables en Swift sans perdre les filets de sécurité?

Edit 2: j'ai fait un peu plus d'analyse comparative, très simples boucles le long de la lignes de

for i in 0..<n {
    x[i] = x[i] ^ 12345678
}

(Ici l'opération xor est là juste pour que je puisse plus facilement s'y retrouver boucle dans le code assembleur. J'ai essayé de chercher une opération qui est facile à repérer, mais aussi "inoffensif" dans le sens où il ne devrait pas exiger des vérifications liées à des débordements d'entiers.)

Encore une fois, il y avait une énorme différence dans les performances entre les -O3 et -Ofast. J'ai donc eu un coup d'oeil à l'assemblée de code:

Avec -Ofast je obtenir à peu près ce que je m'attends. La partie pertinente est une boucle avec 5 instructions en langage machine.
Avec -O3 je reçois quelque chose qui était au-delà de mon imagination la plus folle. La boucle interne s'étend sur 88 lignes de code assembleur. Je n'ai pas essayer de tout comprendre, mais la plupart des suspects pièces sont 13 invocations de "callq _swift_retain" et l'autre de 13 invocations de "callq _swift_release". C'est, 26 sous-routine appels dans la boucle interne!

Edit 3: Dans les commentaires, Ferruccio demandé pour les points de référence qui sont juste dans le sens où ils ne reposent pas sur des fonctions intégrées (par exemple, tri). Je pense que le programme suivant est un assez bon exemple:

let n = 10000
var x = [Int](repeating: 1, count: n)
for i in 0..<n {
    for j in 0..<n {
        x[i] = x[j]
    }
}

Il n'est pas de l'arithmétique, de sorte que nous n'avons pas besoin de s'inquiéter au sujet des débordements d'entiers. La seule chose que nous faisons est juste beaucoup de références de tableau. Et les résultats sont ici—Swift -O3 perd par un facteur de près de 500 en comparaison avec d'-Ofast:

C++ -O3: 0,05 s
C++ -O0: 0,4 s
Java: 0,2 s
Python avec PyPy: 0,5 s
Python: 12 s
Swift -Ofast: 0,05 s
Swift -O3: 23 s
Swift -O0: 443 s

(Si vous craignez que le compilateur peut optimiser l'inutile boucles entièrement, vous pouvez la changer par exemple x[i] ^= x[j], et ajouter une instruction d'impression que les sorties x[0]. Cela ne change rien; les horaires sont très similaires.)

Et oui, ici, le Python de la mise en œuvre a été un stupide pur Python de mise en œuvre avec une liste d'entiers et des boucles for imbriquées. Il devrait être beaucoup plus lent que unoptimized Swift. Quelque chose semble être brisé avec Swift et tableau d'indexation.

Edit 4: Ces questions (ainsi que certains autres problèmes de performances) semble avoir été corrigé dans Xcode 6 beta 5.

Pour le tri, j'ai maintenant le minutage suivant:

clang++ -O3: 0.06 s
swiftc -Ofast: 0,1 s
swiftc -O: 0,1 s
swiftc: 4 s

Pour les boucles imbriquées:

clang++ -O3: 0.06 s
swiftc -Ofast: 0,3 s
swiftc -O: 0,4 s
swiftc: 540 s

Il semble qu'il n'y a aucune raison de plus pour utiliser le dangereux -Ofast (un.k.un. -Ounchecked); plaine -O produit d'aussi bons code.

Voici un autre "Swift 100 fois plus lent que C" question: stackoverflow.com/questions/24102609/...
Et voici la discussion sur l'Apple matériel de marketing liées à la Swift est une bonne performance dans le tri: programmers.stackexchange.com/q/242816/913
Il serait plus intéressant et instructif de voir une comparaison à une fonction de tri mis en œuvre en Python. Python sorted() fonction est une partie de son exécution, ce qui (je crois) est écrit en C.
Voir modifier 3. (Ce n'est pas une fonction de tri, mais je pense que cela montre très bien ce genre de code fonctionne mal dans Swift en comparaison avec tout le reste, y compris Python.)
Pouvez-vous le comparer Java trop?
Fait. (En passant, un naïf compilateur Java devrait produire plus lent que le code naïf Swift compilateur. En Java pour calculer x[i] vous devez d'abord vérifier que x != null et alors que x.length > i. En Swift, nous pouvons ignorer la première case. Néanmoins, comme nous le voyons dans les indices de référence, Java gagne Swift -O3 par un facteur env. 100.)
Avez-vous vu la pièce de la "La Swift en Langage de Programmation" iBook sur les boucles for? Il est dit que "[i] est une constante dont la valeur est automatiquement définie au début de chaque itération de la boucle.". Peut-être déclarer comme var i: Int avant la boucle va changer les choses?
Dépend de la plate-forme. Null check pas nécessaire si la plate-forme virtuelle de la mémoire et de ne pas utiliser le peu de mémoire que les adresses valides emplacements de mémoire (par exemple, Windows et je pense que d'autres Systèmes d'exploitation de trop); la MMU les poignées de la valeur null est à vérifier dans ce cas. Pas surprenant du tout que une nouvelle marque de front-end pour une nouvelle langue n'est pire qu'un vieux de 6 ans, mature, front-end. Je soupçonne Apple va corriger cela avant de Swift est sortie de la bêta.
Vous pouvez compiler avec: xcrun --sdk macosx swift -O3. C'est plus court.
Ceci lien montre quelques autres opérations de base de comparaison Objective-C.
Rappelez-vous que Java est déjà vérifie les limites du tableau, lié contrôles sont très susceptibles d'être retirés que lorsque le compilateur peut prouver que. Java devrait fonctionner à peu près comme C (une fois bien réchauffé) dans ce cas simple. Null contrôles ne sont généralement pas effectuées directement, mais pris au piège par le matériel et le compilateur peut prouver x[i] n'est pas nul, bien sûr, le compilateur doit être au-delà de stupide pour vérifier pour x null.
quel est le problème avec l'aide de swift "filets de sécurité" dans le développement et l'épargne-Ofast pour la libération?
vous avez besoin de la "filet de sécurité" au cours de la production que l'entrée varie. C'est différent pour traiter les valeurs entre 1 et 10 et de les multiplier par rapport à la multiplication des valeurs de l'ordre de 2^31. Par exemple, l'infâme heartbleed bug a été causé par un manque de contrôle de portée.
bien sûr, mais si vous êtes conscient des risques alors sûrement, vous pouvez désinfecter vos entrées si nécessaire, afin de garantir que le trop-plein ne se produira pas
pas dire que c'est l'idéal, mais si la performance est la priorité, puis les risques au moins semblent gérables
pour le dire simplement, nous ne vivons pas dans un monde parfait, et en essayant de faire ce que vous suggérez dans 1M LoC projets est beaucoup plus difficile alors que vous ne l'imaginez. Les Bugs ne le exis, de débordement de pile (nom du site) a été l'un des plus répandus (et est toujours) et devant le non-exécution de bits utilisés pour permettre l'exécution de code arbitraire très souvent. Java fonctionne avec la gamme complète des vérifications de tous les temps et il n'a pas vraiment d'incidence sur la performance, ayant les contrôles et à défaut gracieusement est un grand exploit pour la langue. Au cours des dernières années, il y a une énorme faille de sécurité en raison de contournement via Dangereux en apparence bien fait le code.
Tout le monde sait que tout itération sur iOS ou OS X qui a plus de 10000 itérations doit être fait en C ou C++. Où est la surprise? Est-ce un rethorical question?
Par la voie, -Ofast désactive également des contrôles pour déballer nils; vous pouvez compiler et exécuter ce "succès": let s: Double? = nil; println(s!)
Avec la version Beta 5 il y a eu une amélioration substantielle de Swift vitesse -- voir ce post par Jesse Squires pour plus de détails.
Serez-vous également de mettre à jour cette Swift 2.0 comme il le prétend augmentation des performances. Dans mes tests, j'ai découvert que si vous compilez avec -Ounchecked c'est 100 000 plus lent, même pour une simple boucle de tests. Avec -Ounchecked il est "seulement" 50 fois plus lent. Encore, il souffle en Python hors de l'eau dans les deux cas.
La java chiffre semble élevé, de sorte que j'ai testé moi-même et a obtenu de temps de 50-60 ms pour exécuter le code pour le "=" et 60-80 ms si j'utilise le "^=". Avez-vous d'inclure le temps de démarrage de la VM dans ces chiffres, ou peut-être vous avez voulu dire .02? Java est généralement aussi vite que C pour ce type d'opération. Aussi java installe sur .04(=) et .06(^=) quand je lance la boucle (permettant de Java le temps de les compiler en une machine optimisée de la langue). Le .04 peut inclure d'essai-rupture des optimisations bien.

InformationsquelleAutor Jukka Suomela | 2014-06-07

448

tl;dr Swift 1.0 est maintenant aussi vite que C par ce repère à l'aide de la version par défaut de l'optimisation du niveau de [-O].

Ici est un lieu de quicksort dans Swift Beta:
```
func quicksort_swift(inout a:CInt[], start:Int, end:Int) {
    if (end - start < 2){
        return
    }
    var p = a[start + (end - start)/2]
    var l = start
    var r = end - 1
    while (l <= r){
        if (a[l] < p){
            l += 1
            continue
        }
        if (a[r] > p){
            r -= 1
            continue
        }
        var t = a[l]
        a[l] = a[r]
        a[r] = t
        l += 1
        r -= 1
    }
    quicksort_swift(&a, start, r + 1)
    quicksort_swift(&a, r + 1, end)
}
```
Et la même en C:
```
void quicksort_c(int *a, int n) {
    if (n < 2)
        return;
    int p = a[n / 2];
    int *l = a;
    int *r = a + n - 1;
    while (l <= r) {
        if (*l < p) {
            l++;
            continue;
        }
        if (*r > p) {
            r--;
            continue;
        }
        int t = *l;
        *l++ = *r;
        *r-- = t;
    }
    quicksort_c(a, r - a + 1);
    quicksort_c(l, a + n - l);
}
```
À la fois le travail:
```
var a_swift:CInt[] = [0,5,2,8,1234,-1,2]
var a_c:CInt[] = [0,5,2,8,1234,-1,2]

quicksort_swift(&a_swift, 0, a_swift.count)
quicksort_c(&a_c, CInt(a_c.count))

//[-1, 0, 2, 2, 5, 8, 1234]
// [-1, 0, 2, 2, 5, 8, 1234]
```
Les deux sont appelés dans le même programme qu'à l'écrit.
```
var x_swift = CInt[](count: n, repeatedValue: 0)
var x_c = CInt[](count: n, repeatedValue: 0)
for var i = 0; i < n; ++i {
    x_swift[i] = CInt(random())
    x_c[i] = CInt(random())
}

let swift_start:UInt64 = mach_absolute_time();
quicksort_swift(&x_swift, 0, x_swift.count)
let swift_stop:UInt64 = mach_absolute_time();

let c_start:UInt64 = mach_absolute_time();
quicksort_c(&x_c, CInt(x_c.count))
let c_stop:UInt64 = mach_absolute_time();
```
Cette fonction convertit l'absolu fois de secondes:
```
static const uint64_t NANOS_PER_USEC = 1000ULL;
static const uint64_t NANOS_PER_MSEC = 1000ULL * NANOS_PER_USEC;
static const uint64_t NANOS_PER_SEC = 1000ULL * NANOS_PER_MSEC;

mach_timebase_info_data_t timebase_info;

uint64_t abs_to_nanos(uint64_t abs) {
    if ( timebase_info.denom == 0 ) {
        (void)mach_timebase_info(&timebase_info);
    }
    return abs * timebase_info.numer  / timebase_info.denom;
}

double abs_to_seconds(uint64_t abs) {
    return abs_to_nanos(abs) / (double)NANOS_PER_SEC;
}
```
Voici, en résumé, le compilateur optimazation niveaux:
```
[-Onone] no optimizations, the default for debug.
[-O]     perform optimizations, the default for release.
[-Ofast] perform optimizations and disable runtime overflow checks and runtime type checks.
```
Temps en secondes avec [Individualisé] pour n=10_000:
```
Swift:            0.895296452
C:                0.001223848
```
Ici est de Swift builtin sort() pour n=10_000:
```
Swift_builtin:    0.77865783
```
Ici est [-O] pour n=10_000:
```
Swift:            0.045478346
C:                0.000784666
Swift_builtin:    0.032513488
```
Comme vous pouvez le voir, de Swift, de l'amélioration du rendement d'un facteur 20.

Comme par mweathers réponse, réglage [-Ofast] fait la véritable différence, résultant en ces temps de n=10_000:
```
Swift:            0.000706745
C:                0.000742374
Swift_builtin:    0.000603576
```
Et pour n=1_000_000:
```
Swift:            0.107111846
C:                0.114957179
Swift_sort:       0.092688548
```
À des fins de comparaison, c'est avec [Individualisé] pour n=1_000_000:
```
Swift:            142.659763258
C:                0.162065333
Swift_sort:       114.095478272
```
Tellement rapide avec aucun des optimisations était presque 1000x plus lent que C dans ce repère, à ce stade de son développement. D'autre part, avec les deux compilateurs définie sur [-Ofast] Swift effectivement accompli au moins aussi bien, si pas un peu mieux que les C.

Il a été souligné que [-Ofast] la sémantique de la langue, ce qui en fait potentiellement dangereux. C'est ce que Apple états dans Xcode 5.0 notes de version:

Un nouveau niveau d'optimisation -Ofast, disponible dans LLVM, permet des optimisations agressives. -Ofast détend de certains conservateurs, les restrictions, surtout pour les opérations à virgule flottante, qui sont sans danger pour la plupart de code. Il peut apporter d'importants haute performance gagne du compilateur.

Ils ont tous, mais l'avocat il. Si c'est judicieux ou pas, je ne pouvais pas le dire, mais de ce que je peux dire, il semble assez raisonnable d'utiliser [-Ofast] dans un communiqué de presse si vous ne faites pas de haute précision en arithmétique à virgule flottante et que vous en êtes sûr pas de nombre entier ou un tableau des débordements sont possibles dans votre programme. Si vous avez besoin de haute performance et dépassement de contrôles /précis d'arithmétique, puis choisir une autre langue pour le moment.

BETA 3 MISE À JOUR:

n=10_000 avec [-O]:
```
Swift:            0.019697268
C:                0.000718064
Swift_sort:       0.002094721
```
Swift en général est un peu plus rapide et il semble que Swift intégré de sorte a bien changé de manière significative.

DERNIÈRE MISE À JOUR:

[Individualisé]:
```
Swift:   0.678056695
C:       0.000973914
```
[-O]:
```
Swift:   0.001158492
C:       0.001192406
```
[-Ounchecked]:
```
Swift:   0.000827764
C:       0.001078914
```
- Aide -émettre-sil à la sortie de l'intermédiaire SIL code montre ce qui est conservé (argh, stack overflow est de rendre cela impossible à formater). C'est une mémoire tampon interne de l'objet dans le Tableau. Cela semble certainement comme un optimiseur de bug, l'ARC optimiseur doit être en mesure de retirer le conserve sans -Ofast.
- 'll tout à fait en désaccord que nous avons d'utiliser une autre langue si vous voulez l'utiliser Ofast optimisations. Il aura à traiter de la même façon avec la question des limites de contrôles et d'autres problèmes mineurs si choisir une autre langue comme le C. La swift est cool, précisément parce qu'il est sécurisé par défaut et éventuellement rapide et en sécurité si nécessaire. Cela permet au programmeur de déboguer votre code ainsi, pour s'assurer que tout est ok et compiler à l'aide de Ofast. La possibilité d'utiliser les normes modernes et qui ont pourtant le pouvoir d'un "dangereux" des langages comme le C est très cool.
- il est semble pas être un problème, d'abord parce que C n'a pas de vérifications de type et n'est pas un problème. Dans le fait, d'appliquer à l'entrepreneur utiliser une vérification de version de tout énoncé est mauvais, le développeur a besoin de prendre le contrôle. Et oui, c'est une BÊTA de la langue, il existe quelques bugs. Et Java et C# est très, très plus lent que le C, mais swift n'est pas, il existe quelques problèmes avec l'option-O3, mais sera ajusté pour sûr, je exécuter le même code Objective-C e fonctionne très bien avec -O3, dans swift mai, aura réalisé une performance sur -O3 similaire à Ofast comme ObjC obtenu, de sorte swift sera très étroitement à C.
- À propos de l'ARC: j'ai de l'application multimédia écrire sur Objective-C et de l'utilisation de la moyenne de 350 threads en même temps, tous les plus de l'ARC. C'est une très bonne idée, en fait, sur une version précédente à l'aide de GC je n'ai jamais eu plus de 150 fils sans quelques problèmes. Le problème n'est pas de l'ARC, le problème est la mise en œuvre actuelle de la swift compilateur, l'ObjC version de l'ARC fonctionne très bien sur Individualisé, sans mettre le conserver/libération à l'intérieur de simple pour comme ça, doent sens après tout. Só ce bug est peut-être réglé rapidement, parce que sur ObjC le compilateur de faire du travail correct.
- Ne pensez-vous pas qu'une accélération de 800x est très suspect? Votre référence est probablement pas valide. Peut-être que tout le code en cours de test a été supprimé par une optimisation.
- si vous pouvez me dire comment il peut ne pas être valide s'il vous plaît. j'aime toujours pour en savoir plus
- Joseph, je peux pot-de-vin vous avec une petite prime pour exécuter ce test avec la Swift version qui est fourni avec Xcode 6 Beta 3?
- J'ai fait une modification rapide avec la beta 3 fois. quand j'ai une chance, je vais sans doute le regarder un peu plus profond. le changement de construire-dans le tri est intrigante.
- b5 devrait améliorer cette un tas ainsi
- fait une mise à jour finale, Swift est maintenant aussi vite que C par ce benchmark, en utilisant la norme d'optimisations.
- Astuce: à la Fois rapide et des implémentations C quicksort peut être améliorée si votre recurse sur le petit partition premier! (Au lieu de recursing sur la partition gauche toujours en premier.) Quicksort mis en œuvre avec un simple pivot de la sélection, dans le pire des cas prend O(n^2), mais même dans ce pire des cas, vous avez seulement besoin de O(log n) l'espace de pile par recursing sur la partition plus petite en premier.
- Ne pas supposer queue appel d'optimisation? Je doute que Swift ne TCO, car il utilise le comptage de référence.
- Comment avez-vous compiler le C (compilateur et les paramètres)?
- Il semble que les résultats de la comparaison dépend de CE que vous êtes en train de faire avec les tableaux. Jetez un oeil à ma réponse.
- ne peut pas se souvenir, mais c'était llvm et aurait été par défaut xcode paramètres en dehors de niveau d'optimisation, car les deux ont le même projet.
- quelle est la commande que vous êtes en cours d'exécution? xcrun -sdk -O macosx swiftc Fichier.swift ne fonctionne pas pour moi
- vérifiez ces timings avec les opérations ultérieures fait avec le tableau trié. Même l'écriture de tableau de fichier après le réglage de l'allumage ne peut pas fonctionner, parce que le dernier niveau de l'optimisation peut en fait sauter une partie du processus de tri, de réorganisation au point passé le point de contrôle. Si le tableau a pas utilisé? tout genre peuvent être ignorés complètement. Pas sûr au sujet de C, mais le C++ et rapide\C# compilateurs ont tendance à le faire.. c'est pourquoi aliasing violation effet en C++ apparaît habituellement seulement dans le programme optimisé.
InformationsquelleAutor Joseph Mark
107

TL;DR: Oui, la seule Swift de la langue mise en œuvre est lente, maintenant. Si vous avez besoin rapide, numérique (et d'autres types de code, sans doute) du code, il suffit d'aller avec un autre. Dans l'avenir, vous devez réévaluer votre choix. Il pourrait être assez bon pour la plupart des applications de code est écrit à un niveau plus élevé, cependant.

De ce que je vois dans SIL et IR LLVM, il semble comme ils ont besoin d'un tas d'optimisations pour le retrait de conserve et restitue, qui pourrait être mise en œuvre dans Clang (Objective-C), mais ils n'ont pas porté encore. C'est la théorie, je vais avec (pour l'instant... j'ai encore besoin de confirmer que Clang fait quelque chose à ce sujet), depuis un profileur de fonctionner sur le dernier test de cette question, les rendements de cette “jolie” résultat:

Comme cela a été dit par beaucoup d'autres, -Ofast est totalement dangereux et change la langue de la sémantique. Pour moi, c'est à la “Si vous allez l'utiliser, il suffit d'utiliser une autre langue” de la scène. Je vais re-évaluer ce choix plus tard, si elle change.

-O3 nous permet d'obtenir un tas de swift_retain et swift_release appels qui, honnêtement, ne me regardez pas comme ils devraient être là pour cet exemple. L'optimiseur doit avoir élidés (la plupart de) leur AFAICT, car il sait que la plupart des informations sur le tableau, et il sait qu'il a (au moins) une référence forte pour elle.

Il ne devrait pas émettre plus de conserve quand il n'est même pas à appeler des fonctions qui pourraient libérer les objets. Je ne pense pas qu'un constructeur array peut retourner un tableau qui est plus petit que ce qui était demandé, ce qui signifie que beaucoup de vérifications qui ont été émises sont inutiles. Il sait aussi que l'entier ne sera jamais au-dessus de 10k, de sorte que le dépassement de contrôles peut être optimisé (pas à cause de -Ofast étrangeté, mais à cause de la sémantique de la langue (rien d'autre est en train de changer que la var ne peut y accéder, et en ajoutant jusqu'à 10k est sans danger pour le type Int).

Le compilateur pourrait ne pas être en mesure de unbox le tableau ou le tableau des éléments, bien que, depuis qu'ils sont passé à sort(), qui est une fonction externe et dispose pour obtenir les arguments qu'il attend. Cela va nous faire utiliser le Int valeurs indirectement, ce qui serait aller un peu plus lent. Cela pourrait changer si le sort() fonction générique (pas dans le multi-way méthode) était disponible pour le compilateur et a obtenu inline.

C'est un très nouveau (publiquement) de la langue, et il va par ce que je suppose que beaucoup de changements, car il y a des gens (très) impliqués avec la Swift de la langue pour obtenir des commentaires et ils disent tous la langue n'est pas fini et sera changement.

Code utilisé:
```
import Cocoa

let swift_start = NSDate.timeIntervalSinceReferenceDate();
let n: Int = 10000
let x = Int[](count: n, repeatedValue: 1)
for i in 0..n {
    for j in 0..n {
        let tmp: Int = x[j]
        x[i] = tmp
    }
}
let y: Int[] = sort(x)
let swift_stop = NSDate.timeIntervalSinceReferenceDate();

println("\(swift_stop - swift_start)s")
```
P. S: je ne suis pas un expert sur Objective-C, ni de toutes les installations de Cacao, Objective-C, ou la Swift runtimes. Je pourrais aussi être en supposant que certaines choses que je n'ai pas écrit.
- Le compilateur pourrait ne pas être en mesure de unbox le tableau ou le tableau des éléments, bien que, depuis qu'ils sont passé à trier(), qui est une fonction externe et dispose pour obtenir les arguments qu'il attend. Qui ne devrait pas question pour un relativement bon compilateur. En passant de métadonnées (dans le pointeur - 64bits offrent beaucoup de digue) sur les données réelles et la ramification dans la fonction appelée.
- Que fait exactement -Ofast "totalement" dangereux"? En supposant que vous savez comment faire pour tester votre code et d'écarter les débordements.
- C'est effectivement supposer beaucoup 🙂 Vérification du code et écarter les débordements est difficile à faire. De mon expérience (je ne compilateur de travail et d'avoir coché quelques grandes bases de code), et ce que j'ai entendu des personnes qui ne compilateur de travail sur les grandes entreprises, l'obtention des débordements et des autres un comportement indéfini droit est dur. Même Apple conseils (juste un exemple) sur la fixation de l'AC est mauvais, parfois (randomascii.wordpress.com/2014/04/17/... ). -Ofast aussi change la langue de la sémantique, mais je ne peut pas financer tous les docs pour elle. Comment pouvez-vous être sûr que vous savez ce qu'elle fait?
- C'est possible, mais il pourrait ne pas être utile. Il ajoute des vérifications sur chaque accès à un Int[]. Cela dépend si les tableaux de Int et de quelques autres types de primitives (vous ont, au plus, 3 bits) sont beaucoup utilisés (surtout quand vous pouvez inférieur à C si vous avez besoin). Il utilise également quelques morceaux qu'ils veulent utiliser si, finalement, ils veulent ajouter des non-ARC GC. Il n'a pas d'échelle pour les génériques avec plus d'un argument, soit. Depuis ils ont tous les types, il serait beaucoup plus facile de se spécialiser tout le code qui a touché Int[] (mais pas Int?[]) pour utiliser inline Int. Mais alors vous avez Obj-C interop à s'inquiéter.
- non-ARC (c'est à dire réel) GC serait effectivement utile, mais ils ont besoin de quelque chose qui n'est pas C compatible si ils veulent vraiment en concurrence, non-STW GC. Je n'avais pas de soucis au sujet de "tous les accès à Int[]" depuis que dépend le niveau le compilateur en ligne et il devrait être en mesure de l'inclure des boucles serrées avec/après quelques conseils.
InformationsquelleAutor filcab

J'ai décidé de prendre un coup d'oeil à cela pour le plaisir, et voici les horaires que je reçois:

Swift 4.0.2           :   0.83s (0.74s with `-Ounchecked`)
C++ (Apple LLVM 8.0.0):   0.74s

Swift

//Swift 4.0 code
import Foundation

func doTest() -> Void {
    let arraySize = 10000000
    var randomNumbers = [UInt32]()

    for _ in 0..<arraySize {
        randomNumbers.append(arc4random_uniform(UInt32(arraySize)))
    }

    let start = Date()
    randomNumbers.sort()
    let end = Date()

    print(randomNumbers[0])
    print("Elapsed time: \(end.timeIntervalSince(start))")
}

doTest()

Résultats:

Swift 1.1

xcrun swiftc --version
Swift version 1.1 (swift-600.0.54.20)
Target: x86_64-apple-darwin14.0.0

xcrun swiftc -O SwiftSort.swift
./SwiftSort     
Elapsed time: 1.02204304933548

Swift 1.2

xcrun swiftc --version
Apple Swift version 1.2 (swiftlang-602.0.49.6 clang-602.0.49)
Target: x86_64-apple-darwin14.3.0

xcrun -sdk macosx swiftc -O SwiftSort.swift
./SwiftSort     
Elapsed time: 0.738763988018036

Swift 2.0

xcrun swiftc --version
Apple Swift version 2.0 (swiftlang-700.0.59 clang-700.0.72)
Target: x86_64-apple-darwin15.0.0

xcrun -sdk macosx swiftc -O SwiftSort.swift
./SwiftSort     
Elapsed time: 0.767306983470917

Il semble être le même rendement que si je compile avec -Ounchecked.

Swift 3.0

xcrun swiftc --version
Apple Swift version 3.0 (swiftlang-800.0.46.2 clang-800.0.38)
Target: x86_64-apple-macosx10.9

xcrun -sdk macosx swiftc -O SwiftSort.swift
./SwiftSort     
Elapsed time: 0.939633965492249

xcrun -sdk macosx swiftc -Ounchecked SwiftSort.swift
./SwiftSort     
Elapsed time: 0.866258025169373

Il semble y avoir eu une régression de la performance de Swift 2.0 Swift 3.0, et je vois aussi une différence entre -O et -Ounchecked pour la première fois.

Swift 4.0

xcrun swiftc --version
Apple Swift version 4.0.2 (swiftlang-900.0.69.2 clang-900.0.38)
Target: x86_64-apple-macosx10.9

xcrun -sdk macosx swiftc -O SwiftSort.swift
./SwiftSort     
Elapsed time: 0.834299981594086

xcrun -sdk macosx swiftc -Ounchecked SwiftSort.swift
./SwiftSort     
Elapsed time: 0.742045998573303

Swift 4 améliore la performance de nouveau, tout en conservant un écart entre -O et -Ounchecked. -O -whole-module-optimization ne semble pas faire une différence.

C++

#include <chrono>
#include <iostream>
#include <vector>
#include <cstdint>
#include <stdlib.h>

using namespace std;
using namespace std::chrono;

int main(int argc, const char * argv[]) {
    const auto arraySize = 10000000;
    vector<uint32_t> randomNumbers;

    for (int i = 0; i < arraySize; ++i) {
        randomNumbers.emplace_back(arc4random_uniform(arraySize));
    }

    const auto start = high_resolution_clock::now();
    sort(begin(randomNumbers), end(randomNumbers));
    const auto end = high_resolution_clock::now();

    cout << randomNumbers[0] << "\n";
    cout << "Elapsed time: " << duration_cast<duration<double>>(end - start).count() << "\n";

    return 0;
}

Résultats:

Apple Clang 6.0

clang++ --version
Apple LLVM version 6.0 (clang-600.0.54) (based on LLVM 3.5svn)
Target: x86_64-apple-darwin14.0.0
Thread model: posix

clang++ -O3 -std=c++11 CppSort.cpp -o CppSort
./CppSort     
Elapsed time: 0.688969

Apple Clang 6.1.0

clang++ --version
Apple LLVM version 6.1.0 (clang-602.0.49) (based on LLVM 3.6.0svn)
Target: x86_64-apple-darwin14.3.0
Thread model: posix

clang++ -O3 -std=c++11 CppSort.cpp -o CppSort
./CppSort     
Elapsed time: 0.670652

Apple Clang 7.0.0

clang++ --version
Apple LLVM version 7.0.0 (clang-700.0.72)
Target: x86_64-apple-darwin15.0.0
Thread model: posix

clang++ -O3 -std=c++11 CppSort.cpp -o CppSort
./CppSort     
Elapsed time: 0.690152

Apple Clang 8.0.0

clang++ --version
Apple LLVM version 8.0.0 (clang-800.0.38)
Target: x86_64-apple-darwin15.6.0
Thread model: posix

clang++ -O3 -std=c++11 CppSort.cpp -o CppSort
./CppSort     
Elapsed time: 0.68253

Apple Clang 9.0.0

clang++ --version
Apple LLVM version 9.0.0 (clang-900.0.38)
Target: x86_64-apple-darwin16.7.0
Thread model: posix

clang++ -O3 -std=c++11 CppSort.cpp -o CppSort
./CppSort     
Elapsed time: 0.736784

Verdict

Que de la rédaction de ce document, Swift est un peu rapide, mais pas encore aussi rapide que du C++de tri lors de la compilation avec -O, avec les compilateurs & les bibliothèques. Avec -Ounchecked, il semble être aussi rapide que du C++ dans Swift 4.0.2 et Apple LLVM 9.0.0.

En réalité, vous ne devriez jamais ce n'est pas vecteur d'appel::reserve() avant d'insérer dix millions d'éléments.
Peut-être! Seul le tri est cadencée à l'heure actuelle.

InformationsquelleAutor Learn OpenGL ES

33

De Le Langage de Programmation Swift:

La Fonction de Tri de Swift, la bibliothèque standard fournit une fonction appelée
trier, qui trie un tableau de valeurs d'un type connu, basé sur la
sortie de tri de fermeture que vous fournissez. Une fois terminé, l'
le processus de tri, le tri de la fonction renvoie un nouveau tableau de la même
le type et la taille que l'ancien, avec ses éléments dans le bon triés
ordre.

La sort fonction a deux déclarations.

La déclaration par défaut qui vous permet de spécifier une comparaison de fermeture:
```
func sort<T>(array: T[], pred: (T, T) -> Bool) -> T[]
```
Et une seconde déclaration qui ne font qu'un seul paramètre (le tableau) et est "codé en dur pour utiliser le moins de point de comparaison."
```
func sort<T : Comparable>(array: T[]) -> T[]

Example:
sort( _arrayToSort_ ) { $0 > $1 }
```
J'ai testé une version modifiée de votre code dans une aire de jeux avec la fermeture ajouté sur afin que je puisse contrôler la fonction d'un peu plus près, et j'ai trouvé que, avec n fixé à 1000, la fermeture a été appelé à environ 11 000 fois.
```
let n = 1000
let x = Int[](count: n, repeatedValue: 0)
for i in 0..n {
    x[i] = random()
}
let y = sort(x) { $0 > $1 }
```
Il n'est pas un fonctionnement efficace, je vous conseille d'utiliser un meilleur tri fonction de mise en œuvre.

EDIT:

J'ai pris un coup d'oeil à la Quicksort page de wikipédia et a écrit une mise en œuvre rapide pour elle. Voici le programme complet j'ai utilisé (dans une aire de jeux)
```
import Foundation
func quickSort(inout array: Int[], begin: Int, end: Int) {
if (begin < end) {
let p = partition(&array, begin, end)
quickSort(&array, begin, p - 1)
quickSort(&array, p + 1, end)
}
}
func partition(inout array: Int[], left: Int, right: Int) -> Int {
let numElements = right - left + 1
let pivotIndex = left + numElements / 2
let pivotValue = array[pivotIndex]
swap(&array[pivotIndex], &array[right])
var storeIndex = left
for i in left..right {
let a = 1 //<- Used to see how many comparisons are made
        if array[i] <= pivotValue {
swap(&array[i], &array[storeIndex])
storeIndex++
}
}
swap(&array[storeIndex], &array[right]) //Move pivot to its final place
    return storeIndex
}
let n = 1000
var x = Int[](count: n, repeatedValue: 0)
for i in 0..n {
x[i] = Int(arc4random())
}
quickSort(&x, 0, x.count - 1) //<- Does the sorting

for i in 0..n {
x[i] //<- Used by the playground to display the results
}
```
À l'aide de ce avec n=1000, j'ai trouvé que
1. quickSort() m'a appelé environ 650 fois,
2. environ 6000 swaps ont été faites,
3. et il y a environ 10 000 comparaisons
Il semble que le haut-méthode de tri est (ou à proximité) tri rapide, et il est vraiment lent...
- Peut-être que je suis complètement faux, mais selon en.wikipedia.org/wiki/Quicksort, le nombre moyen de comparaisons dans le Quicksort est 2*n*log(n). C'est 13815 comparaisons pour trier n = 1000 éléments, de sorte que si la fonction de comparaison est appelé environ 11000 temps qui ne semble pas si mauvais.
- Aussi Apple prétend qu'un "objet complexe de tri" (quelle qu'elle soit) est de 3,9 fois plus rapide qu'en Python. Par conséquent, il ne devrait pas être nécessaire de trouver une "meilleure fonction de tri". - Mais Swift est encore en développement ...
- 2*n*log(n) pour n=1000 à 6000. (à moins que log désigne le logarithme népérien, mais je suis habitué à ln() utilisé pour cela). Je vais mettre à jour ma réponse avec quelques nouveaux à trouver.
- t consulter le logarithme naturel.
- log(n) de la complexité algorithmique désigne classiquement à log en base 2. La raison pour ne pas en déclarant la base est que la modification de la loi de base pour les logarithmes seulement introduit une constante multiplicateur, qui est rejetée pour l'application de l'O-notation.
- REMARQUE: Cette documentation ne correspond pas à la mise en œuvre. trier les trie et renvoie alors que très tableau comme valeur de retour. Vérifiez auprès === ou modifier une valeur dans le tableau retourné et vérifier le résultat dans le tableau retourné. Il ne renvoie pas un nouveau tableau comme il le dit il le fera.
- Concernant la discussion sur le logarithme naturel vs logarithme en base 2: L'énoncé précis de la page de Wikipedia est que le nombre moyen de comparaisons nécessaires pour n éléments est C(n) = 2n ln n ≈ 1.39n log₂ n. Pour n = 1000 cela donne C(n) = 13815, et c'est pas un "big-O de notation".
InformationsquelleAutor David Skrundz
18

De Xcode 7, vous pouvez activer Fast, Whole Module Optimization. Cela devrait accroître vos performances immédiatement.

InformationsquelleAutor Antoine
11

Swift performances de l'ensemble revisité:

J'ai écrit ma propre référence de la comparaison de Swift avec C/Objective-C. Ma référence en matière calcule les nombres premiers. Il utilise le tableau de la précédente nombres premiers à rechercher les facteurs premiers de chaque nouveau candidat, donc c'est assez rapide. Cependant, il n'TONNES de tableau de lecture, et moins de l'écriture à des tableaux.

L'origine, j'avais fait cette référence à l'encontre de Swift 1.2. J'ai décidé de mettre à jour le projet et l'exécuter à l'encontre de Swift 2.0.

Le projet permet de choisir entre l'utilisation normale swift tableaux et l'utilisation de Swift dangereux de la mémoire tampon à l'aide du tableau de la sémantique.

Pour C/Objective-C, vous pouvez soit opter pour l'utilisation NSArrays, ou C malloc ed tableaux.

Les résultats des tests semblent assez similaires avec le plus rapide, le plus petit d'optimisation de code ([-0]) ou plus rapide, agressif ([-0fast]) l'optimisation.

Swift 2.0 performance est toujours horrible avec l'optimisation du code éteint, alors que C/Objective-C rendement n'est que modérément plus lent.

La ligne de fond est que C malloc avais tableau basé sur les calculs sont les plus rapides, par une modeste marge

Swift à l'insécurité des tampons prend environ 1.19 X 1.20 X plus de C malloc avais tableaux lors de l'utilisation la plus rapide, le plus petit d'optimisation de code. la différence semble un peu moins rapide, agressif optimisation (Swift prend plus de 1,18 x à 1,16 x plus longtemps que C.

Si vous utilisez régulièrement Swift tableaux, la différence avec C est légèrement plus. (Swift prend ~1.22 à 1,23 plus.)

Régulière Swift tableaux sont DRAMATICALLY plus vite qu'ils ne l'étaient dans Swift 1.2/Xcode 6. Leur performance est si près de Swift dangereux tampon de base de tableaux que l'utilisation dangereuse de la mémoire tampon ne semble pas vraiment la peine plus, ce qui est grand.

BTW, Objective-C NSArray performance pue. Si vous allez utiliser le conteneur natif des objets dans les deux langues, Swift est CONSIDÉRABLEMENT plus rapide.

Vous pouvez consulter mon projet sur github à SwiftPerformanceBenchmark

Il a une INTERFACE utilisateur simple qui rend la collecte de statistiques assez facile.

Il est intéressant de noter que le tri semble être légèrement plus rapide qu'en C maintenant, mais que ce nombre premier algorithme est encore plus rapide en Swift.

InformationsquelleAutor Duncan C
8

La question principale qui est mentionné par d'autres, mais ne l'appelle pas assez, c'est que -O3 ne fait rien du tout dans Swift (et n'a jamais) donc lorsqu'il est compilé avec qui il est effectivement non-optimisés (-Onone).

Option noms ont changé au fil du temps de sorte que certains autres réponses ont obsolètes drapeaux pour les options de compilation. Corriger les options actuelles (Swift 2.2) sont:
```
-Onone //Debug - slow
-O     //Optimised
-O -whole-module-optimization //Optimised across files
```
Ensemble de module d'optimisation a un ralentissement de la compilation, mais la possibilité d'en optimiser tous les fichiers dans le module, c'est à dire à l'intérieur de chaque cadre et dans le code de l'application, mais pas entre eux. Vous devriez l'utiliser pour quoi que ce soit critique pour les performances)

Vous pouvez également désactiver les contrôles de sécurité pour encore plus de vitesse, mais avec toutes les affirmations et les conditions préalables et pas seulement les personnes à mobilité réduite optimisée sur la base qu'ils sont corrects. Si vous avez jamais touché à une assertion cela signifie que vous êtes dans un comportement indéterminé. Utiliser avec une extrême prudence et seulement si vous déterminez que le gain de vitesse est intéressant pour vous (par des tests). Si vous trouvez qu'il est précieux pour le code, je vous recommandons de séparer ce code dans un cadre distinct et seulement désactiver les contrôles de sécurité pour ce module.
- Cette réponse est aujourd'hui obsolète. Comme de Swift 4.1 l'ensemble du module d'optimisation option est séparé de type boolean qui peuvent être combinés avec d'autres paramètres et il est maintenant un Os à optimiser pour la taille. Je peux mettre à jour quand j'ai le temps de vérifier l'exacte indicateurs d'option.
InformationsquelleAutor Joseph Lord

func partition(inout list : [Int], low: Int, high : Int) -> Int {
let pivot = list[high]
var j = low
var i = j - 1
while j < high {
if list[j] <= pivot{
i += 1
(list[i], list[j]) = (list[j], list[i])
}
j += 1
}
(list[i+1], list[high]) = (list[high], list[i+1])
return i+1
}
func quikcSort(inout list : [Int] , low : Int , high : Int) {
if low < high {
let pIndex = partition(&list, low: low, high: high)
quikcSort(&list, low: low, high: pIndex-1)
quikcSort(&list, low: pIndex + 1, high: high)
}
}
var list = [7,3,15,10,0,8,2,4]
quikcSort(&list, low: 0, high: list.count-1)
var list2 = [ 10, 0, 3, 9, 2, 14, 26, 27, 1, 5, 8, -1, 8 ]
quikcSort(&list2, low: 0, high: list2.count-1)
var list3 = [1,3,9,8,2,7,5]
quikcSort(&list3, low: 0, high: list3.count-1)

C'est mon Blog à propos de la fonction de Tri Rapide- Github échantillon de Tri Rapide

Vous pouvez prendre un coup d'oeil sur Lomuto de partitionnement de l'algorithme de Partitionnement de la liste. Écrit en Swift

InformationsquelleAutor Abo3atef

4

Swift 4.1 introduit de nouvelles -Osize optimisation de la mode.

Dans Swift 4.1 le compilateur prend en charge un nouveau mode optimisation
permet de dédié des optimisations pour réduire la taille du code.

La Swift compilateur est livré avec un puissant optimisations. Lors de la compilation
avec -O, le compilateur essaie de transformer le code de sorte qu'il s'exécute
avec des performances maximales. Cependant, cette amélioration dans l'exécution
les performances peuvent parfois venir avec un compromis de l'augmentation de la taille du code.
Avec le nouveau -Osize optimisation de la mode, l'utilisateur a le choix de
compiler pour un minimum de taille de code, plutôt que pour une vitesse maximale.

Pour permettre l'optimisation de la taille du mode sur la ligne de commande, utilisez -Osize
au lieu de O.

Pour en savoir plus : https://swift.org/blog/osize/

InformationsquelleAutor casillas

Vous devez vous connecter pour publier un commentaire.