employee.json - 將此文件放在當前scala>指針所在的目錄中。
{ {"id" : "1201", "name" : "satish", "age" : "25"} {"id" : "1202", "name" : "krishna", "age" : "28"} {"id" : "1203", "name" : "amith", "age" : "39"} {"id" : "1204", "name" : "javed", "age" : "23"} {"id" : "1205", "name" : "prudvi", "age" : "23"} }讓我們對給定的數(shù)據(jù)執(zhí)行一些數(shù)據(jù)幀操作。
scala> val dfs = sqlContext.read.json("employee.json")輸出: 字段名稱自動從employee.json中獲取。
dfs: org.apache.spark.sql.DataFrame = [age: string, id: string, name: string]使用printSchema方法
如果要查看DataFrame的Structure(Schema),請使用以下命令。
scala> dfs.printSchema()
輸出
root |-- age: string (nullable = true) |-- id: string (nullable = true) |-- name: string (nullable = true)顯示數(shù)據(jù)
如果要在DataFrame中顯示數(shù)據(jù),請使用以下命令。
scala> dfs.show()
輸出:您可以以表格格式查看員工數(shù)據(jù)。
<console>:22, took 0.052610 s +----+------+--------+ |age | id | name | +----+------+--------+ | 25 | 1201 | satish | | 28 | 1202 | krishna| | 39 | 1203 | amith | | 23 | 1204 | javed | | 23 | 1205 | prudvi | +----+------+--------+
然后我們可以運行不同的SQL語句。用戶可以以最小的努力將數(shù)據(jù)遷移到JSON格式,而不管數(shù)據(jù)源的來源。
更多建議: