@lori_jast
Для подключения PySpark к базе данных существует несколько способов, ниже приведены два популярных варианта:
Например, следующий код может использоваться для чтения данных из таблицы «employees» в базе данных MySQL:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 |
from pyspark.sql import SparkSession # Создаем сессию Spark spark = SparkSession.builder.appName("Read from MySQL").getOrCreate() # Указываем параметры для подключения к базе данных MySQL url = "jdbc:mysql://hostname:port/dbname" user = "username" password = "password" table_name = "employees" # Чтение данных из таблицы в DataFrame df = spark.read.format("jdbc").option("url", url) .option("dbtable", table_name) .option("user", user) .option("password", password).load() # Просмотр данных DataFrame df.show() |
Аналогично можно использовать API PySpark для записи DataFrame в базу данных.
Например, следующий код может использоваться для чтения данных из таблицы «employees» в базе данных MySQL:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 |
import pymysql from pyspark.sql import SparkSession # Создаем сессию Spark spark = SparkSession.builder.appName("Read from MySQL").getOrCreate() # Указываем параметры для подключения к базе данных MySQL host = 'hostname' user = 'username' password = 'password' database = 'dbname' # Устанавливаем соединение с базой данных connection = pymysql.connect(host=host, user=user, password=password, db=database) # Выполняем запрос на чтение данных из таблицы query = "SELECT * FROM employees" df = spark.read.jdbc(url=connection, table=query) # Просмотр данных DataFrame df.show() |
Аналогично можно использовать библиотеку PyMySQL для записи данных в базу данных.