Comment gratter un site qui requiert une connexion abord avec Python

Tout d'abord, je pense que c'est important de dire que, je sais qu'il y a un tas de questions similaires, mais AUCUN d'entre eux travaille pour moi...

Je suis un newbie sur le langage Python, html et web grattoir. Je vais essayer de glaner des informations de l'utilisateur à partir d'un site web qui a besoin de se connecter en premier. Dans mes tests, j'ai utiliser le grattoir mes paramètres de courrier électronique à partir de github à titre d'exemples. La page principale est " https://github.com/login "et la page cible est"https://github.com/settings/emails'

Voici une liste de méthodes que j'ai essayé

##################################### Method 1
import mechanize
import cookielib
from BeautifulSoup import BeautifulSoup
import html2text
br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar(cj)
# Browser options
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
br.addheaders = [('User-agent', 'Chrome')]
# The site we will navigate into, handling it's session
br.open('https://github.com/login')
for f in br.forms():
print f
br.select_form(nr=0)
# User credentials
br.form['login'] = 'myusername'
br.form['password'] = 'mypwd'
# Login
br.submit()
br.open('github.com/settings/emails').read()
################ Method 2
import urllib, urllib2, cookielib
username = 'myusername'
password = 'mypwd'
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
login_data = urllib.urlencode({'username' : username, 'j_password' : password})
opener.open('https://github.com/login', login_data)
resp = opener.open('https://github.com/settings/emails')
print resp.read()
############# Method 3
import urllib
opener = urllib.FancyURLopener()
print opener.open('http://myusername:[email protected]/settings/emails').read()
########## Method 4
import mechanize
import cookielib
br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar(cj)
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
#br.set_debug_http(True)
#br.set_debug_redirects(True)
#br.set_debug_responses(True)
br.addheaders = [('User-agent', 'Chrome')]
br.add_password('https://github.com/settings/emails', 'myusername', 'mypwd')
br.open('https://github.com/settings/emails')
print br.response().read()
############ Methods 5
from requests import session
payload = {
'action': 'login',
'username': 'myusername',
'password': 'mypwd'
}
with session() as c:
c.post('https://github.com/login', data=payload)
request = c.get('https://github.com/settings/emails')
print request.headers
print request.text
########### Method 6
import requests
from requests.packages.urllib3 import add_stderr_logger
import sys
from bs4 import BeautifulSoup as bs
add_stderr_logger()
s = requests.Session()
s.headers['User-Agent'] = 'Chrome'
username = 'myusername'
password = 'mypwd'
url = 'https://github.com/login'
# after examining the HTML of the website you're trying to log into
# set name_form to the name of the form element that contains the name and
# set password_form to the name of the form element that will contain the password
login = {'login': username, 'password': password}
login_response = s.post(url, data=login)
for r in login_response.history:
if r.status_code == 401:  # 401 means authentication failed
print 'error!'
sys.exit(1)  # abort
pdf_response = s.get('https://github.com/settings/emails')  # Your cookies and headers are automatically included
soup = bs(pdf_response.content)

Aussi j'ai lu quelques discussions sur les différences entre l'Authentification HTTP et les cookies. Toujours aucun d'entre eux travaillaient.

S'il vous plaît aider et de toute aide serait appréciée. Je vous remercie beaucoup.

InformationsquelleAutor user2830451 | 2013-11-18

31

Cela fonctionne pour moi:
```
##################################### Method 1
import mechanize
import cookielib
from BeautifulSoup import BeautifulSoup
import html2text
# Browser
br = mechanize.Browser()
# Cookie Jar
cj = cookielib.LWPCookieJar()
br.set_cookiejar(cj)
# Browser options
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
br.addheaders = [('User-agent', 'Chrome')]
# The site we will navigate into, handling it's session
br.open('https://github.com/login')
# View available forms
for f in br.forms():
print f
# Select the second (index one) form (the first form is a search query box)
br.select_form(nr=1)
# User credentials
br.form['login'] = 'mylogin'
br.form['password'] = 'mypass'
# Login
br.submit()
print(br.open('https://github.com/settings/emails').read())
```
Vous n'étiez pas loin du tout!
- Pourriez-vous me donner plus de détail? Je n'ai regarder les scripts, mais ne voit pas mon nom d'utilisateur et mot de passe. Aussi j'ai eu ce dans les formes à partir de la première méthode: br.open('github.com/login') de f en br.les formulaires(): print f et j'ai obtenu les informations suivantes: <GET github.com/search application/x-www-form-urlencoded <TextControl(q=)> <HiddenControl(ref=cmdform) (readonly)>> <POST github.com/session application/x-www-form-urlencoded <HiddenControl(authenticity_token=dJrtaPu6AXWjB1jXA5i5V1qUyQ32CgLUksnfmvhazv4=) (readonly)><TextControl(login=)><PasswordControl(mot de passe=)>
- Qui sera à partir de deux formes, la première (GET) est un formulaire de recherche, vous êtes intéressé dans la seconde (la POSTE) qui en a la les champs "login" et "mot de passe", et le caché "authenticity_token", qui a une valeur. De sorte que vous aurez besoin de présenter ce domaine et de la valeur avec les deux autres champs (dont vous aurez besoin afin de fournir des valeurs pour votre nom d'utilisateur et mot de passe)
- Dans la tentative 1 vous aurez besoin de changer br.select_form(nr=0) à la br.select_form(nr=1). Aussi, merci de supprimer votre commentaire ci-dessus, si c'est votre vrai mot de passe, ce n'est pas une bonne idée de faire en public!
- Qui fonctionne, merci beaucoup! Une question supplémentaire: comment puis-je savoir si je dois sélectionner le premier ou le deuxième? Si je gratter pour mon gmail puis-je faire comme ceci: br.open('github.com/login') puis br.select_form(nr=0) puis br.open('github.com/login').read() il a travaillé. (Le seul site que j'ai utilisé pour réussi). C'est pourquoi je n'ai pas même pensé que c'est à cause de la forme que j'ai sélectionnés. D'ailleurs je vous remercie pour préciser que le mot de passe problème pour moi!
- Dans votre premier commentaire ci-dessus, vous verrez que lorsque vous avez imprimé les formulaires que vous avez eu deux formes, la première <OBTENIR github.com/search...> et le second <POST github.com/session...> Vous pouvez voir la deuxième formulaire contient des champs login et mot de passe de sorte que c'est ce qui indique que le deuxième formulaire est un formulaire de connexion. Elle sera différente pour différentes pages web.
- Aha! Maintenant, je comprends. Je vous remercie beaucoup pour m'avoir aidé!
- Je suis en train d'essayer de reproduire ce code mais je n'arrive pas à trouver une version de cookielib pour python 2.7.13... je reçois la réponse "impossible de trouver une version qui satisfait à l'exigence cookielib (à partir des versions: ). Aucune correspondance, distribution trouvé pour cookielib"
InformationsquelleAutor Holy Mackerel
3

aimerais ajouter ma solution côtés . cette réponse suit principalement le hacky /paresseux approche je suis toujours dans tout ce que je fais. sont allés sur principalement parce que j'étais trop paresseux pour gérer les cookies, les données de session etc .

cette solution est des plus utiles si vous voulez gratter plusieurs pages d'un site web une fois connecté avec un compte unique d'identification (par exemple, tous vos conseils pinterest) . pas si tu veux automatiser l'authentification à l'aide de plusieurs comptes

donc ma solution est de sélénium avec firefox profils.
- Créer un nouveau profil firefox vous créer un nouveau profil firefox, note de l'endroit où il est stocké, ouvrez firefox dans le profil correspondant. et connectez-vous au site web manuellement . détails sur les profils de firefox
- maintenant utiliser le sélénium avec ce profil sélénium session permettra d'utiliser les cookies et les données de session à partir de firefox profil afin d'authentification reste.
j'ai conçu ce mécanisme quand je suis tombé sur besoin de gratter quelques pages pinterest, j'ai ajouté quelques lignes de code à partir de l'exemple montrant comment utiliser le profil. adapter le code en fonction de vos besoins.
```
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import Select
from selenium.webdriver.support.ui import WebDriverWait
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import NoSuchElementException
from selenium.common.exceptions import NoAlertPresentException
#replace with your firefox profile
fp=webdriver.FirefoxProfile('C:/Users/SJ/AppData/Roaming/Mozilla/Firefox/Profiles/hlsfrs2o.scrape')
#enter your url here
url=""
driver = webdriver.Firefox(fp)
driver.get(url)
html_source = driver.page_source
```
InformationsquelleAutor Sojan V Jose

De la façon classique à l'approche de ce problème est:

lancer un navigateur, accédez au site et la recherche de la page de connexion
inspecter le code source de la page, à savoir:
I. qui est le formulaire de connexion (une page peut avoir de nombreuses formes, mais généralement l'un d'eux est le formulaire de connexion)
II. qui sont les noms de champ utilisé pour le nom d'utilisateur et le mot de passe (ceux-ci pourraient varier d'un lot)
III. si il y a d'autres domaines qui doivent être soumis (comme un jeton d'authentification)
écrire le Scrapy araignée à reproduire la soumission du formulaire à l'aide de FormRequest

D'être fans de l'automatisation, nous avons pensé que nous pourrions écrire un peu de code pour automatiser le point 2 (qui est en fait le plus de temps) et le résultat est le formulaire de connexion, une bibliothèque pour remplir automatiquement les formulaires de connexion donné à la page de connexion, nom d'utilisateur et mot de passe.
Voici le code d'une simple araignée qui l'utilisent loginform pour vous connecter à des sites automatiquement.

githubloginspider.py

from scrapy.spider import BaseSpider
from scrapy.http import FormRequest
from scrapy.http.request import Request
from loginform import fill_login_form
from scrapy import log
from scraping.articles import ArticleItem
class GitHubLogin(BaseSpider):
name = 'GitHubLogin'
allowed_domains = ['github.com']
start_urls = ['http://github.com/login']
login_user = 'ranvijay5686'
login_pass = ''
def parse(self, response):
(args, url, method) = fill_login_form(response.url,
response.body, self.login_user, self.login_pass)
return FormRequest(url, method=method, formdata=args,
callback=self.after_login)
def after_login(self, response):
# for link in response.xpath("//*[@id='site-container']/div[2]/div[4]/p/a/@href").extract():
item = ArticleItem()
item['title'] = 'ranvijay'
log.msg('***************    :   '
+ str(response.xpath("//form[@class='subnav-search left']/input/@value"
).extract()))
item['url'] = \
response.xpath("//*[@id='site-container']/div[1]/div/div/span/span/text()"
).extract()
yield item

items.py

from scrapy.item import Item, Field
class ArticleItem(Item):
title = Field()
url = Field()

loginform.py

import sys
from argparse import ArgumentParser
from collections import defaultdict
from lxml import html
__version__ = '1.0'  # also update setup.py
def _form_score(form):
score = 0
# In case of user/pass or user/pass/remember-me
if len(form.inputs.keys()) in (2, 3):
score += 10
typecount = defaultdict(int)
for x in form.inputs:
type_ = (x.type if isinstance(x, html.InputElement) else 'other'
)
typecount[type_] += 1
if typecount['text'] > 1:
score += 10
if not typecount['text']:
score -= 10
if typecount['password'] == 1:
score += 10
if not typecount['password']:
score -= 10
if typecount['checkbox'] > 1:
score -= 10
if typecount['radio']:
score -= 10
return score
def _pick_form(forms):
"""Return the form most likely to be a login form"""
return sorted(forms, key=_form_score, reverse=True)[0]
def _pick_fields(form):
"""Return the most likely field names for username and password"""
userfield = passfield = emailfield = None
for x in form.inputs:
if not isinstance(x, html.InputElement):
continue
type_ = x.type
if type_ == 'password' and passfield is None:
passfield = x.name
elif type_ == 'text' and userfield is None:
userfield = x.name
elif type_ == 'email' and emailfield is None:
emailfield = x.name
return (userfield or emailfield, passfield)
def submit_value(form):
"""Returns the value for the submit input, if any"""
for x in form.inputs:
if x.type == 'submit' and x.name:
return [(x.name, x.value)]
else:
return []
def fill_login_form(
url,
body,
username,
password,
):
doc = html.document_fromstring(body, base_url=url)
form = _pick_form(doc.xpath('//form'))
(userfield, passfield) = _pick_fields(form)
form.fields[userfield] = username
form.fields[passfield] = password
form_values = form.form_values() + submit_value(form)
return (form_values, form.action or form.base_url, form.method)
def main():
ap = ArgumentParser()
ap.add_argument('-u', '--username', default='username')
ap.add_argument('-p', '--password', default='secret')
ap.add_argument('url')
args = ap.parse_args()
try:
import requests
except ImportError:
print 'requests library is required to use loginform as a tool'
r = requests.get(args.url)
(values, action, method) = fill_login_form(args.url, r.text,
args.username, args.password)
print '''url: {0}
method: {1}
payload:'''.format(action, method)
for (k, v) in values:
print '- {0}: {1}'.format(k, v)
if __name__ == '__main__':
sys.exit(main())

InformationsquelleAutor Ranvijay Sachan

Vous devez vous connecter pour publier un commentaire.