En Java, il y a quelques URL de l'analyseur?
Je sais il y a une URL de classe en Java, mais j'ai besoin de méthodes pour obtenir l'extension de fichier de la page (html, php, asp, etc), le pays du domaine (ca, au, br, jp, fr, etc), le type de la page(.net, .org, .gov, etc) et d'autres.
Certaines de ces méthodes, je l'ai fait avec de la Ficelle de la manipulation, mais je pense qu'une classe fait uniquement pour cela peut être plus confiable.
- Vous pouvez faire votre propre algorithme pour déterminer l'url de pièces.
- La rédaction de votre propre classe de vous donner tout ce que vous voulez
- Il y a un site appelé le public à liste de suffixes (publicsuffix.org) qui détaille les Tld. La liste est longue et fait l'analyse pour la bonne TLD complexe. Si vous n'êtes pas d'essayer de valider le TLD, il peut être plus simple.
Vous devez vous connecter pour publier un commentaire.
Je ne suis pas sûr qu'il y est une classe spécifique pour faire ce que vous demandez. Jetez un oeil à l'URL de la classe de première, et le post ci-dessous.
Pourriez-vous partager un lien vers une URL de l'analyse de la mise en œuvre?
Je pense que vous aurez besoin de combiner les données renvoyées par l'URL de la classe, et votre propre algorithme d'analyse pour obtenir des petits morceaux de données qui ne sont pas disponibles. Cela devrait être assez simple à faire si, comme il semble que cela est tout ce qui est après le dernier index d'un point pour l'hôte et le chemin d'accès (si elles existent réellement, ce qui n'est pas garanti).
J'ai créé une simple classe Java qui permet l'analyse d'URL en Java beaucoup plus facile.
https://github.com/juliuss/urlplus
Il peut être utilisé pour construire des url et de les modifier par programmation. Il gère également les url relatives.
Vous pouvez le voir à partir de l'unité de test, il est très complet:
Non, il n'y a pas de classe. Certaines de ces choses (code du pays) sont mal posés et ambigu, et souvent ne peut pas être déterminé à partir de l'URL à lui seul. Ils ne sont pas d'analyse autant que la recherche et l'inférence. D'autres choses (extension de fichier) ne sont pas définis pour la plupart des pages.