使用指导

前提条件

首先需要保证用户提供的历史日志及待预测负载格式符合要求,其次为保证预测准确率,用户提供的历史语句日志应尽可能全面并具有代表性。

背景信息

工具目录下提供了示例数据集及演示代码,更加详细的说明与工具所需依赖请参考工具根目录下的Readme文件。

操作步骤

  1. 如果这是您第一次使用本工具,您应该提供历史日志以供模型训练,类型为:

    执行开始时间    |   执行结束时间   |   锁时间   |   执行等待时间   |   语句文本 
    

    历史日志中每一行的格式如上,其中每两列之间的分隔符为'\t|\t',如果某列无法提供,请将其置0。

  2. 执行训练命令进行训练:

    python src/main.py train [--train LOG_FILE] [--model MODEL_DIR] 
    
    • LOG_FILE: 供训练用历史日志的路径。

    • MODEL_DIR: 训练生成的模型及中间文件存储路径。

  3. 在进行预测之前,请确保训练过程已经顺利完成。待预测负载需要为文件格式,格式为每行为一条语句。

    执行预测命令进行预测:

    python src/main.py predict [--model MODEL_DIR] [--predict WORKLOAD_FILE] [--ratio RETRAIN_RATIO] 
    
    • MODEL_DIR: 模型路径,应与训练过程所指定的同名参数值一致。

    • WORKLOAD_FILE: 待预测负载文件路径。

    • RETRAIN_RATIO: 推荐模型重训的阈值。 默认值为0.5,代表如果未训练元素数量达到已训练元素数量的0.5倍时,工具会提示您建议重新训练模型,使您的预测结果更加精准。在出现此提示时,不会影响该次预测。

    • 预测结果为一个float类型的列表 ,其中第n个值代表了待预测负载第n行语句的预测执行时间。该结果会显示在您的屏幕上,且被返回。

说明:
如果您希望同时训练并预测,工具提供了快速启动方式命令:

python src/main.py all [--train LOG_FILE] [--model MODEL_DIR] [--predict WORKLOAD_FILE] [--ratio RETRAIN_RATIO]   

各个参数含义与分别执行时一致。

示例

使用工具提供的demo数据进行训练:

python src/main.py train --train test/data/train.csv --model test/data/

使用工具提供的demo数据进行预测:

python src/main.py predict --model test/data/ --predict test/data/test.csv --ratio 0.2

快速启动:

python src/main.py all --train test/data/train.csv --model test/data/ --predict test/data/test.csv --ratio 0.2
意见反馈
编组 3备份
    openGauss 2025-01-20 22:55:18
    取消