Par programmation de la lecture d'une page web

Je veux écrire un programme en C/C++ qui sera dynamiquement lire une page web et d'en extraire les informations. Comme un exemple, imaginez si vous voulais écrire une application pour suivre et enregistrer une vente aux enchères ebay. Est-il un moyen facile de saisir la page web? Une bibliothèque qui fournit cette fonctionnalité? Et est-il un moyen facile de parser la page pour obtenir les données spécifiques?

TRÈS difficile en C/C++. Son assez ennuyeux, même dans les langues qui ont étendu le support des expressions régulières, d'analyse XML, HTTP, etc (par exemple Java). Comme pour Ebay, il a une API que vous devez utiliser.

InformationsquelleAutor Howard May | 2008-12-23

c c++http

41

Ont un look à la cURL bibliothèque:
```
 #include <stdio.h>
 #include <curl/curl.h>

 int main(void)
 {
   CURL *curl;
   CURLcode res;

   curl = curl_easy_init();
   if(curl) {
     curl_easy_setopt(curl, CURLOPT_URL, "curl.haxx.se");
     res = curl_easy_perform(curl);
      /* always cleanup */
    curl_easy_cleanup(curl);
   }
   return 0;
 }
```
BTW, si le C++ n'est pas strictement nécessaire. Je vous encourage à l'essayer C# ou Java. Il est beaucoup plus facile et il y a un moyen intégré.
- +1 pour cURL - j'ai utilisé de la tuile dans une de mes applications C++ et il fonctionne très bien, même avec les proxys et tous les autres obstacles que vous pourriez rencontrer.
- Il est bon de conseiller à l'aide de l'outil adéquat pour le travail!
- Il serait préférable de renvoyer une erreur si curl est nulle (dans l'exemple ci-dessus).
- Découvrez curlpp - wrapper C++ pour la bibliothèque cURL
- Thumbs up pour suggérant C# ou Java. Python est encore plus facile, surtout si vous avez la Belle Soupe paquet installé pour aider à l'analyse.
- Semble comme if (!curl) return 1; aurait plus de sens, mais je suppose que c'est un nit
InformationsquelleAutor Gant

Windows code:

#include <winsock2.h>
#include <windows.h>
#include <iostream>
#pragma comment(lib,"ws2_32.lib")
using namespace std;
int main (){
WSADATA wsaData;
if (WSAStartup(MAKEWORD(2,2), &wsaData) != 0) {
cout << "WSAStartup failed.\n";
system("pause");
return 1;
}
SOCKET Socket=socket(AF_INET,SOCK_STREAM,IPPROTO_TCP);
struct hostent *host;
host = gethostbyname("www.google.com");
SOCKADDR_IN SockAddr;
SockAddr.sin_port=htons(80);
SockAddr.sin_family=AF_INET;
SockAddr.sin_addr.s_addr = *((unsigned long*)host->h_addr);
cout << "Connecting...\n";
if(connect(Socket,(SOCKADDR*)(&SockAddr),sizeof(SockAddr)) != 0){
cout << "Could not connect";
system("pause");
return 1;
}
cout << "Connected.\n";
send(Socket,"GET /HTTP/1.1\r\nHost: www.google.com\r\nConnection: close\r\n\r\n", strlen("GET /HTTP/1.1\r\nHost: www.google.com\r\nConnection: close\r\n\r\n"),0);
char buffer[10000];
int nDataLength;
while ((nDataLength = recv(Socket,buffer,10000,0)) > 0){        
int i = 0;
while (buffer[i] >= 32 || buffer[i] == '\n' || buffer[i] == '\r') {
cout << buffer[i];
i += 1;
}
}
closesocket(Socket);
WSACleanup();
system("pause");
return 0;
}

Être prudent lors de l'affichage de copier et coller du texte standard/verbatim des réponses à de multiples questions, celles-ci ont tendance à être marqué comme "spam" par la communauté. Si vous faites cela, alors cela signifie généralement les questions sont des doublons, donc le drapeau comme tel à la place: stackoverflow.com/a/12374407/419
Ce code a de graves lacunes: 1) la page est plus de 10 000 octets sans les caractères non-imprimables, il lira au-delà de la fin de tampon et seg-faute. 2) Si la page web a un caractère de TABULATION dans (ou d'autres caractères non-imprimables), ce code permettra d'avancer jusqu'à 10 000 octets. 3) le Nouveau code ne doit pas utiliser gethostbyname(). Il doit utiliser getaddrinfo() et de la prise en charge d'IPv4 et IPv6.
L'intérieur tandis que la boucle peut être remplacé par printf("%.*s", nDataLength, buffer); qui est plus facile, plus rapide et plus sûre.

InformationsquelleAutor Software_Designer

4

Il y a une bibliothèque TCP/IP disponible pour Windows prend en charge les protocoles HTTP et HTTPS - son utilisation est très simple.

Ultime TCP/IP
```
CUT_HTTPClient http;
http.GET("http://folder/file.htm", "c:/tmp/process_me.htm");    
```
Vous pouvez également OBTENIR les fichiers et de les stocker dans une mémoire tampon (via CUT_DataSource les classes dérivées). Tous les habituels HTTP est là - MIS, TÊTE, etc. Support pour les serveurs proxy est un jeu d'enfant, comme le secure sockets.

InformationsquelleAutor Rob
3

Vous n'êtes pas mentionner toute plate-forme, je vous donne donc une réponse pour Win32.

Un moyen simple de télécharger quoi que ce soit à partir de l'Internet est le URLDownloadToFile avec le IBindStatusCallback paramètre NULL. Pour rendre la fonction plus utile, l'interface de rappel doit être mis en œuvre.

InformationsquelleAutor Johann Gerell
2

Vous pouvez le faire avec la programmation socket, mais c'est difficile de mettre en œuvre les parties du protocole nécessaire de façon fiable chercher une page web. Mieux vaut utiliser une bibliothèque, comme néon. Cela est susceptible d'être installé dans la plupart des distributions Linux. Sous FreeBSD utiliser le chercher à la bibliothèque.

Pour l'analyse des données, parce que le nombre de pages ne pas utiliser XML valide, vous avez besoin pour mettre en œuvre des heuristiques, pas un réel yacc d'analyseur. Vous pouvez mettre en œuvre à l'aide d'expressions régulières ou d'un état de transition de la machine. Que ce que vous essayez de faire implique beaucoup d'essais et d'erreur, vous êtes mieux d'utiliser un langage de script comme Perl. En raison de la forte latence du réseau, vous ne verrez pas de différence dans la performance.
- Alors qu'ils ne sont pas valide XML, de nombreuses langues ont des bibliothèques qui ont les analyseurs HTML, ce qui vous permettra d'utiliser une interface DOM pour analyser un document HTML.
- Oui, le néon est sympa aussi (mais la plupart de mon expérience avec curl, comme mentionné dans m3rLinEz de réponse. Toute comparaison quelque part?
InformationsquelleAutor Diomidis Spinellis
2

Essayez d'utiliser une bibliothèque, comme Qt, qui peut lire les données à partir de l'ensemble d'un réseau et d'obtenir des données d'un document xml. Cette est un exemple de comment lire un flux xml. Vous pouvez utiliser le ebay nourrir par exemple.

InformationsquelleAutor Marius

Vous devez vous connecter pour publier un commentaire.