Les Pandas dataframe de susciter dataframe “ne Peut pas fusionner erreur de type”

J'ai données au format csv, et créé des Pandas dataframe à l'aide de read_csv et en forçant toutes les colonnes comme une chaîne de caractères.
Puis, quand j'essaie de créer l'Étincelle dataframe de l'Pandas dataframe, j'obtiens le message d'erreur ci-dessous.

from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql.types import *
z=pd.read_csv("mydata.csv", dtype=str)
z.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 74044003 entries, 0 to 74044002
Data columns (total 12 columns):
primaryid       object
event_dt        object
age             object
age_cod         object
age_grp         object
sex             object
occr_country    object
drug_seq        object
drugname        object
route           object
outc_cod        object
pt              object

q= sqlContext.createDataFrame(z)

File "<stdin>", line 1, in <module>
File "/usr/hdp/2.4.2.0-258/spark/python/pyspark/sql/context.py", line 425, in createDataFrame
rdd, schema = self._createFromLocal(data, schema)
 File "/usr/hdp/2.4.2.0-258/spark/python/pyspark/sql/context.py", line 341, in _createFromLocal
struct = self._inferSchemaFromList(data)
 File "/usr/hdp/2.4.2.0-258/spark/python/pyspark/sql/context.py", line 241, in _inferSchemaFromList
schema = reduce(_merge_type, map(_infer_schema, data))
 File "/usr/hdp/2.4.2.0-258/spark/python/pyspark/sql/types.py", line 862, in _merge_type
for f in a.fields]
 File "/usr/hdp/2.4.2.0-258/spark/python/pyspark/sql/types.py", line 856, in _merge_type
raise TypeError("Can not merge type %s and %s" % (type(a), type(b)))
TypeError: Can not merge type <class 'pyspark.sql.types.DoubleType'> and <class 'pyspark.sql.types.StringType'>

Ici est un exemple. Je suis le téléchargement de données publiques et la création de pandas dataframe mais l'étincelle ne crée pas d'étincelle dataframe de l'pandas dataframe.

import pandas as pd
from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql.types import *

url ="http://www.nber.org/fda/faers/2016/demo2016q1.csv.zip"

import requests, zipfile, StringIO
r = requests.get(url, stream=True)
z = zipfile.ZipFile(StringIO.StringIO(r.content))
z.extractall()


z=pd.read_csv("demo2016q1.csv") # creates pandas dataframe

Data_Frame = sqlContext.createDataFrame(z)

a) pourquoi avez-vous de lire les données en local juste à paralléliser. C'est l'anti-modèle. b) toutes les colonnes soient marqués comme object suggérer quelques données hétérogènes qui n'est pas pris en charge par Spark DataFrames.
Vous avez raison, ce n'est pas la bonne façon de lire localement, mais depuis d'autres options ont échoué, j'ai espéré un dataframe de pandas sera facile pour étincelle à la poignée. Comme vous l'avez dit, les colonnes sont hétérogènes. Est-il une solution que je puisse essayer?
Pouvez-vous fournir une un minimum de reproductibles exemple? Certains jouets échantillon qui illustrent ce qui se passe là-bas...
J'ai ajouté un exemple de code avec les données publiques.

InformationsquelleAutor Fisseha Berhane | 2016-08-05

Longue histoire courte ne dépendent pas de schéma d'inférence. Il est coûteux et difficile en général. En particulier, certaines colonnes (par exemple event_dt_num) dans vos données ont des valeurs manquantes qui pousse les Pandas à les représenter comme un mélange de types (chaîne pour ne pas manquer, NaN pour les valeurs manquantes).

Si vous êtes dans le doute il est préférable de lire toutes les données sous forme de chaînes et jeté par la suite. Si vous avez accès au code livre, vous devez toujours fournir le schéma pour éviter les problèmes et de réduire le coût global.

Enfin le passage des données à partir du pilote est anti-modèle. Vous devez être capable de lire directement ces données à l'aide de csv format (Étincelle 2.0.0+) ou spark-csv bibliothèque (Étincelle 1.6 et ci-dessous):

df = (spark.read.format("csv").options(header="true")
    .load("/path/tp/demo2016q1.csv"))

## root
##  |-- primaryid: string (nullable = true)
##  |-- caseid: string (nullable = true)
##  |-- caseversion: string (nullable = true)
##  |-- i_f_code: string (nullable = true)
##  |-- i_f_code_num: string (nullable = true)
##   ...
##  |-- to_mfr: string (nullable = true)
##  |-- occp_cod: string (nullable = true)
##  |-- reporter_country: string (nullable = true)
##  |-- occr_country: string (nullable = true)
##  |-- occp_cod_num: string (nullable = true)

Dans ce cas particulier, l'ajout de inferSchema="true" option devrait fonctionner aussi bien, mais il est encore mieux de l'éviter. Vous pouvez également fournir le schéma comme suit:

from pyspark.sql.types import StructType
schema = StructType.fromJson({'fields': [{'metadata': {},
'name': 'primaryid',
'nullable': True,
'type': 'integer'},
{'metadata': {}, 'name': 'caseid', 'nullable': True, 'type': 'integer'},
{'metadata': {}, 'name': 'caseversion', 'nullable': True, 'type': 'integer'},
{'metadata': {}, 'name': 'i_f_code', 'nullable': True, 'type': 'string'},
{'metadata': {},
'name': 'i_f_code_num',
'nullable': True,
'type': 'integer'},
{'metadata': {}, 'name': 'event_dt', 'nullable': True, 'type': 'integer'},
{'metadata': {}, 'name': 'event_dt_num', 'nullable': True, 'type': 'string'},
{'metadata': {}, 'name': 'mfr_dt', 'nullable': True, 'type': 'integer'},
{'metadata': {}, 'name': 'mfr_dt_num', 'nullable': True, 'type': 'string'},
{'metadata': {}, 'name': 'init_fda_dt', 'nullable': True, 'type': 'integer'},
{'metadata': {},
'name': 'init_fda_dt_num',
'nullable': True,
'type': 'string'},
{'metadata': {}, 'name': 'fda_dt', 'nullable': True, 'type': 'integer'},
{'metadata': {}, 'name': 'fda_dt_num', 'nullable': True, 'type': 'string'},
{'metadata': {}, 'name': 'rept_cod', 'nullable': True, 'type': 'string'},
{'metadata': {},
'name': 'rept_cod_num',
'nullable': True,
'type': 'integer'},
{'metadata': {}, 'name': 'auth_num', 'nullable': True, 'type': 'string'},
{'metadata': {}, 'name': 'mfr_num', 'nullable': True, 'type': 'string'},
{'metadata': {}, 'name': 'mfr_sndr', 'nullable': True, 'type': 'string'},
{'metadata': {}, 'name': 'lit_ref', 'nullable': True, 'type': 'string'},
{'metadata': {}, 'name': 'age', 'nullable': True, 'type': 'double'},
{'metadata': {}, 'name': 'age_cod', 'nullable': True, 'type': 'string'},
{'metadata': {}, 'name': 'age_grp', 'nullable': True, 'type': 'string'},
{'metadata': {}, 'name': 'age_grp_num', 'nullable': True, 'type': 'string'},
{'metadata': {}, 'name': 'sex', 'nullable': True, 'type': 'string'},
{'metadata': {}, 'name': 'e_sub', 'nullable': True, 'type': 'string'},
{'metadata': {}, 'name': 'wt', 'nullable': True, 'type': 'double'},
{'metadata': {}, 'name': 'wt_cod', 'nullable': True, 'type': 'string'},
{'metadata': {}, 'name': 'rept_dt', 'nullable': True, 'type': 'integer'},
{'metadata': {}, 'name': 'rept_dt_num', 'nullable': True, 'type': 'string'},
{'metadata': {}, 'name': 'to_mfr', 'nullable': True, 'type': 'string'},
{'metadata': {}, 'name': 'occp_cod', 'nullable': True, 'type': 'string'},
{'metadata': {},
'name': 'reporter_country',
'nullable': True,
'type': 'string'},
{'metadata': {}, 'name': 'occr_country', 'nullable': True, 'type': 'string'},
{'metadata': {},
'name': 'occp_cod_num',
'nullable': True,
'type': 'integer'}],
'type': 'struct'})

directement au lecteur:

(spark.read.schema(schema).format("csv").options(header="true")
.load("/path/to/demo2016q1.csv"))

Je vous remercie pour la grande explication. En fait, je suis passé aux Pandas parce que je ne pouvais pas réussi à ajouter l'étincelle csv bibliothèque de Jupyter. Je suis à l'aide de HDP 2.4 (Étincelle 1.6) et j'ai installé Jupyter. J'ai téléchargé l'étincelle-csv et les communes-csv et spécifié le chemin d'accès à ces pots dans le Jupyter notebook starter mais quand j'essaie de lire des données au format csv, il omet de dire qu'il ne pouvait pas obtenir les bibliothèques. Maintenant, j'ai essayé de l'étincelle shell et tout est Ok. Avez-vous déjà utilisé l'étincelle csv bibliothèque dans Jupyter (ipython) ordinateur portable?
Bien sûr, cette méthode devrait fonctionner très bien stackoverflow.com/a/35762809/1560062
Il fonctionne comme un charme! Merci un million de dollars. J'ai essayé de nombreuses autres options et passé beaucoup de temps. Le lien que vous avez fourni m'a aidé à remplir en quelques minutes.
grande réponse. j'ai passé des heures à trouver le présent parfait

InformationsquelleAutor zero323

Vous devez vous connecter pour publier un commentaire.