Approches spatiales géodésique latitude longitude de clustering dans R avec géodésique ou grand cercle distances

Je voudrais appliquer un peu de base des techniques de regroupement de certains latitude et longitude coordonnées. Quelque chose le long des lignes de clustering (ou de certains d'apprentissage non supervisé) les coordonnées dans des groupes déterminés, soit par leur grand cercle de distance ou de leur géodésique distance. REMARQUE: ce pourrait être une mauvaise approche, veuillez en informer.

Idéalement, je voudrais aborder ce dans R.

J'ai fait quelques recherches, mais j'ai peut-être raté une solide approche? Je suis venu à travers les paquets: flexclust et pam -- cependant, je n'ai pas trouver un clair exemple(s) concernant le suivant:

Définir ma propre fonction de distance.
Ne soit flexclut (via kcca ou cclust) ou pam prendre en compte aléatoire redémarre?
Cerise sur le gâteau = personne ne sait d'approches/packages qui permettent de spécifier le nombre minimum d'éléments dans chaque cluster?

OriginalL'auteur JasonAizkalns | 2014-01-13

cluster-analysis r

17

Concernant votre première question: Puisque les données sont long/lat, une approche consiste à utiliser earth.dist(...) dans le paquet fossil (calcule grand cercle dist):
```
library(fossil)
d = earth.dist(df)    # distance object
```
Une autre approche utilise distHaversine(...) dans le geosphere package:
```
geo.dist = function(df) {
  require(geosphere)
  d <- function(i,z){         # z[1:2] contain long, lat
    dist <- rep(0,nrow(z))
    dist[i:nrow(z)] <- distHaversine(z[i:nrow(z),1:2],z[i,1:2])
    return(dist)
  }
  dm <- do.call(cbind,lapply(1:nrow(df),d,df))
  return(as.dist(dm))
}
```
L'avantage ici est que vous pouvez utiliser l'une de l'autre distance algorithmes geosphere, ou vous pouvez définir votre propre fonction de distance et utiliser à la place de distHaversine(...). Puis, appliquez de la base de R les techniques de regroupement (par exemple, kmeans, hclust):
```
km <- kmeans(geo.dist(df),centers=3)  # k-means, 3 clusters
hc <- hclust(geo.dist(df))            # hierarchical clustering, dendrogram
clust <- cutree(hc, k=3)              # cut the dendrogram to generate 3 clusters
```
Enfin, un exemple réel:
```
setwd("<directory with all files...>")
cities <- read.csv("GeoLiteCity-Location.csv",header=T,skip=1)
set.seed(123)
CA     <- cities[cities$country=="US" & cities$region=="CA",]
CA     <- CA[sample(1:nrow(CA),100),]   # 100 random cities in California
df     <- data.frame(long=CA$long, lat=CA$lat, city=CA$city)

d      <- geo.dist(df)   # distance matrix
hc     <- hclust(d)      # hierarchical clustering
plot(hc)                 # dendrogram suggests 4 clusters
df$clust <- cutree(hc,k=4)

library(ggplot2)
library(rgdal)
map.US  <- readOGR(dsn=".", layer="tl_2013_us_state")
map.CA  <- map.US[map.US$NAME=="California",]
map.df  <- fortify(map.CA)
ggplot(map.df)+
  geom_path(aes(x=long, y=lat, group=group))+
  geom_point(data=df, aes(x=long, y=lat, color=factor(clust)), size=4)+
  scale_color_discrete("Cluster")+
  coord_fixed()
```
La ville données est de GeoLite. Aux Etats-unis shapefile est à partir de la Bureau De Recensement.

Modifier en réponse à @Anony-Mousse commentaire:

Il peut sembler étrange que "LA" est divisé entre les deux groupes, cependant, l'expansion de la carte montre que, pour cette sélection aléatoire des villes, il y a un écart entre le cluster 3 cluster et 4. Groupe 4 est essentiellement de Santa Monica et de Burbank; groupe 3 est Pasadena, dans le Sud de los angeles, Long Beach, et tout le sud de l'.

De clustering K-means (4 groupes) ne gardez la zone autour de los angeles/Santa Monica/Burbank/Long Beach dans un cluster (voir ci-dessous). Cela vient à travers les différents algorithmes utilisés par kmeans(...) et hclust(...).
```
km <- kmeans(d, centers=4)
df$clust <- km$cluster
```
Il est intéressant de noter que ces méthodes exigent que tous les points doivent aller dans un cluster. Si vous il suffit de demander les points qui sont proches les uns, et de permettre que certaines villes ne pas aller dans un cluster, vous obtenez des résultats très différents.

Hmm... LA scindé en deux par l'algorithme de clustering? regarde comme il ya quelque chose de mal.
ne serait-ce pas causer un problème si vous êtes en cours d'exécution sur une taille de données > 2 millions de dollars enregistrements

OriginalL'auteur jlhoward
0

J'ai parfois cluster de données spatiales avec ELKI.

Il n'est pas R (je n'aime pas les R, et l'a trouvé pour être vraiment lent dans de nombreuses situations. En fait, quelque chose au-delà de la simple matrice de multiplications et d'appels simples en C ou Fortran code est lent.)

De toute façon, ELKI a prise en charge de distances géodésiques, et de même indice de l'accélération de ces distances (à la fois via le M-arbre et le R*-tree; en vrac chargés R*-arbres fonctionnera le mieux pour moi, et les rendements d'une importante accélération); et de nombreux algorithmes de clustering comme DBSCAN et OPTIQUES peuvent être utilisés avec ces fonctions de distance.

Voici un exemple de ce que j'ai obtenu avec ELKI de clustering: https://stackoverflow.com/a/14702758/1060350

Je n'ai pas garder le code. Pas sûr que j'ai utilisé Python pour le fichier KML de sortie, ou si j'ai mis en place un ELKI module de sortie.

OriginalL'auteur Anony-Mousse

Vous devez vous connecter pour publier un commentaire.