Thao tác dữ liệu với SQL Server bằng Python: Tạo bảng SQL Server tự động từ schema trong Pandas

Giới thiệu

Trong quá trình phân tích dữ liệu và xây dựng hệ thống ETL (Extract, Transform, Load), việc tạo và quản lý cấu trúc bảng trong cơ sở dữ liệu là một công việc thường xuyên và đôi khi tốn thời gian. Với Python và thư viện Pandas, chúng ta có thể tự động hóa quá trình này bằng cách tạo bảng SQL Server trực tiếp từ schema của DataFrame.

Lợi ích của việc tự động tạo bảng từ schema Pandas

Tiết kiệm thời gian khi làm việc với nhiều bảng dữ liệu
Giảm thiểu lỗi do thao tác thủ công
Đảm bảo tính nhất quán giữa dữ liệu nguồn và đích
Dễ dàng cập nhật cấu trúc bảng khi dữ liệu nguồn thay đổi
Tự động hóa quy trình ETL end-to-end

Các thư viện cần thiết

Để thực hiện việc tự động tạo bảng SQL Server từ schema Pandas, chúng ta cần các thư viện sau:

import pandas as pd
import pyodbc
import sqlalchemy
from sqlalchemy import create_engine
import urllib

Kết nối đến SQL Server

Đầu tiên, chúng ta cần thiết lập kết nối đến SQL Server. Có hai cách phổ biến:

Cách 1: Sử dụng pyodbc

# Thông tin kết nối
server = 'your_server_name'
database = 'your_database_name'
username = 'your_username'
password = 'your_password'

# Tạo chuỗi kết nối
conn_str = f'DRIVER={{SQL Server}};SERVER={server};DATABASE={database};UID={username};PWD={password}'

# Kết nối đến SQL Server
conn = pyodbc.connect(conn_str)
cursor = conn.cursor()

Cách 2: Sử dụng SQLAlchemy (Khuyến nghị)

# Thông tin kết nối
server = 'your_server_name'
database = 'your_database_name'
username = 'your_username'
password = 'your_password'

# Tạo chuỗi kết nối cho SQLAlchemy
params = urllib.parse.quote_plus(f'DRIVER={{SQL Server}};SERVER={server};DATABASE={database};UID={username};PWD={password}')
engine = create_engine(f'mssql+pyodbc:///?odbc_connect={params}')

Ánh xạ kiểu dữ liệu từ Pandas sang SQL Server

Một trong những thách thức khi tự động tạo bảng là ánh xạ chính xác kiểu dữ liệu từ Pandas sang SQL Server. Dưới đây là hàm để thực hiện việc này:

def pandas_dtype_to_sql(dtype):
    """Chuyển đổi kiểu dữ liệu Pandas sang kiểu dữ liệu SQL Server"""
    dtype_str = str(dtype)
    
    if 'int' in dtype_str:
        if 'int64' in dtype_str:
            return 'BIGINT'
        return 'INT'
    elif 'float' in dtype_str:
        return 'FLOAT'
    elif 'datetime' in dtype_str:
        return 'DATETIME2'
    elif 'bool' in dtype_str:
        return 'BIT'
    else:
        # Mặc định cho các kiểu chuỗi và kiểu khác
        return 'NVARCHAR(255)'

Tạo bảng SQL Server từ DataFrame

Bây giờ, chúng ta sẽ tạo một hàm để tự động tạo bảng SQL Server từ schema của DataFrame:

def create_table_from_dataframe(df, table_name, engine, schema='dbo', if_exists='replace'):
    """
    Tạo bảng SQL Server từ DataFrame
    
    Tham số:
    - df: DataFrame cần tạo bảng
    - table_name: Tên bảng cần tạo
    - engine: SQLAlchemy engine
    - schema: Schema của bảng (mặc định là 'dbo')
    - if_exists: Hành động khi bảng đã tồn tại ('fail', 'replace', 'append')
    """
    # Tạo danh sách các cột và kiểu dữ liệu
    columns = []
    for col_name, dtype in df.dtypes.items():
        sql_type = pandas_dtype_to_sql(dtype)
        columns.append(f"[{col_name}] {sql_type}")
    
    # Tạo câu lệnh CREATE TABLE
    columns_str = ",
    ".join(columns)
    create_table_sql = f"""
    IF OBJECT_ID('{schema}.{table_name}', 'U') IS NOT NULL AND '{if_exists}' = 'replace'
        DROP TABLE [{schema}].[{table_name}];
    
    IF OBJECT_ID('{schema}.{table_name}', 'U') IS NULL
    BEGIN
        CREATE TABLE [{schema}].[{table_name}] (
            {columns_str}
        );
        PRINT 'Table {schema}.{table_name} created successfully.';
    END
    ELSE
        PRINT 'Table {schema}.{table_name} already exists.';
    """
    
    # Thực thi câu lệnh SQL
    with engine.connect() as conn:
        conn.execute(create_table_sql)
        
    print(f"Table [{schema}].[{table_name}] has been processed according to '{if_exists}' option.")

Ví dụ hoàn chỉnh

Dưới đây là một ví dụ hoàn chỉnh về cách sử dụng các hàm trên để tự động tạo bảng từ DataFrame:

import pandas as pd
import pyodbc
import urllib
from sqlalchemy import create_engine

# Tạo DataFrame mẫu
data = {
    'ID': [1, 2, 3, 4, 5],
    'Name': ['John', 'Jane', 'Bob', 'Alice', 'Mike'],
    'Age': [25, 30, 22, 28, 35],
    'Salary': [50000.0, 60000.0, 45000.0, 55000.0, 65000.0],
    'JoinDate': pd.to_datetime(['2020-01-15', '2019-05-20', '2021-02-10', '2018-11-05', '2017-08-30']),
    'IsActive': [True, True, False, True, False]
}

df = pd.DataFrame(data)

# Thông tin kết nối
server = 'your_server_name'
database = 'your_database_name'
username = 'your_username'
password = 'your_password'

# Tạo SQLAlchemy engine
params = urllib.parse.quote_plus(f'DRIVER={{SQL Server}};SERVER={server};DATABASE={database};UID={username};PWD={password}')
engine = create_engine(f'mssql+pyodbc:///?odbc_connect={params}')

# Tạo bảng từ DataFrame
create_table_from_dataframe(df, 'Employees', engine)

# Kiểm tra bảng đã được tạo
with engine.connect() as conn:
    result = conn.execute("SELECT * FROM INFORMATION_SCHEMA.TABLES WHERE TABLE_NAME = 'Employees'")
    for row in result:
        print(row)

# Lưu dữ liệu vào bảng
df.to_sql('Employees', engine, if_exists='replace', index=False, schema='dbo')

Xử lý các trường hợp đặc biệt

1. Xử lý kiểu dữ liệu phức tạp

Đối với các kiểu dữ liệu phức tạp như JSON, Array, hoặc các kiểu tùy chỉnh, bạn cần mở rộng hàm ánh xạ kiểu dữ liệu:

def pandas_dtype_to_sql_advanced(dtype, col_name, df):
    """Ánh xạ kiểu dữ liệu nâng cao"""
    dtype_str = str(dtype)
    
    # Kiểm tra kiểu dữ liệu cơ bản
    if 'int' in dtype_str:
        if 'int64' in dtype_str:
            return 'BIGINT'
        return 'INT'
    elif 'float' in dtype_str:
        return 'FLOAT'
    elif 'datetime' in dtype_str:
        return 'DATETIME2'
    elif 'bool' in dtype_str:
        return 'BIT'
    elif 'object' in dtype_str:
        # Kiểm tra nội dung cột để xác định kiểu dữ liệu chính xác hơn
        sample = df[col_name].dropna().iloc[0] if not df[col_name].dropna().empty else None
        
        if sample is None:
            return 'NVARCHAR(255)'
        
        if isinstance(sample, dict) or isinstance(sample, list):
            return 'NVARCHAR(MAX)'  # Cho JSON
        
        # Kiểm tra độ dài chuỗi để xác định kích thước NVARCHAR
        if isinstance(sample, str):
            max_length = df[col_name].str.len().max()
            if max_length > 4000:
                return 'NVARCHAR(MAX)'
            else:
                return f'NVARCHAR({max(255, max_length * 2)})'  # Nhân 2 để dự phòng
    
    # Mặc định
    return 'NVARCHAR(255)'

2. Xử lý khóa chính và ràng buộc

Để thêm khóa chính và các ràng buộc khác, bạn có thể mở rộng hàm tạo bảng:

def create_table_with_constraints(df, table_name, engine, primary_key=None, schema='dbo'):
    """
    Tạo bảng với khóa chính và các ràng buộc
    
    Tham số:
    - primary_key: Tên cột làm khóa chính
    """
    # Tạo danh sách các cột và kiểu dữ liệu
    columns = []
    for col_name, dtype in df.dtypes.items():
        sql_type = pandas_dtype_to_sql_advanced(dtype, col_name, df)
        
        # Thêm ràng buộc khóa chính nếu cần
        if primary_key and col_name == primary_key:
            columns.append(f"[{col_name}] {sql_type} PRIMARY KEY")
        else:
            columns.append(f"[{col_name}] {sql_type}")
    
    # Tạo câu lệnh CREATE TABLE
    columns_str = ",
    ".join(columns)
    create_table_sql = f"""
    IF OBJECT_ID('{schema}.{table_name}', 'U') IS NOT NULL
        DROP TABLE [{schema}].[{table_name}];
    
    CREATE TABLE [{schema}].[{table_name}] (
        {columns_str}
    );
    """
    
    # Thực thi câu lệnh SQL
    with engine.connect() as conn:
        conn.execute(create_table_sql)
        
    print(f"Table [{schema}].[{table_name}] created with constraints.")

Tự động hóa quy trình ETL hoàn chỉnh

Cuối cùng, chúng ta có thể kết hợp tất cả các bước để tạo một quy trình ETL hoàn chỉnh:

def etl_process(source_data, table_name, engine, schema='dbo', primary_key=None):
    """
    Quy trình ETL hoàn chỉnh
    
    Tham số:
    - source_data: DataFrame hoặc đường dẫn đến file dữ liệu
    - table_name: Tên bảng đích
    - engine: SQLAlchemy engine
    - schema: Schema của bảng
    - primary_key: Tên cột làm khóa chính
    """
    # Đọc dữ liệu nếu cần
    if isinstance(source_data, str):
        # Xác định loại file và đọc dữ liệu
        if source_data.endswith('.csv'):
            df = pd.read_csv(source_data)
        elif source_data.endswith('.xlsx') or source_data.endswith('.xls'):
            df = pd.read_excel(source_data)
        elif source_data.endswith('.json'):
            df = pd.read_json(source_data)
        else:
            raise ValueError("Unsupported file format")
    else:
        df = source_data
    
    # Tiền xử lý dữ liệu nếu cần
    # df = preprocess_data(df)
    
    # Tạo bảng với ràng buộc
    if primary_key:
        create_table_with_constraints(df, table_name, engine, primary_key, schema)
    else:
        create_table_from_dataframe(df, table_name, engine, schema)
    
    # Lưu dữ liệu vào bảng
    df.to_sql(table_name, engine, if_exists='append', index=False, schema=schema)
    
    print(f"ETL process completed. {len(df)} rows inserted into [{schema}].[{table_name}].")

Kết luận

Việc tự động tạo bảng SQL Server từ schema Pandas giúp đơn giản hóa và tự động hóa quy trình ETL, đặc biệt khi làm việc với nhiều nguồn dữ liệu khác nhau. Bằng cách sử dụng các hàm được trình bày trong bài viết này, bạn có thể dễ dàng tạo và cập nhật cấu trúc bảng trong SQL Server mà không cần viết các câu lệnh SQL thủ công.

Phương pháp này đặc biệt hữu ích trong các tình huống sau:

Xây dựng data pipeline tự động
Làm việc với dữ liệu có cấu trúc thay đổi thường xuyên
Triển khai các giải pháp ETL trong môi trường sản xuất
Tạo prototype nhanh cho các dự án phân tích dữ liệu

Hãy thử áp dụng các kỹ thuật này vào quy trình làm việc của bạn để tăng hiệu quả và giảm thiểu lỗi trong quá trình phát triển các ứng dụng phân tích dữ liệu.