131 lines
4.8 KiB
YAML
131 lines
4.8 KiB
YAML
# 文件路径和一般配置选项
|
||
path: data/kanghui # 输入数据的路径
|
||
workspace: model/trial_kanghui # 存储中间和最终结果的目录
|
||
seed: 0 # 随机种子以实现可重复性
|
||
|
||
# 测试模式
|
||
test: False # 使用测试集进行测试模式
|
||
test_train: true # 使用训练集进行测试模式
|
||
|
||
# 数据范围
|
||
data_range: [0, -1] # 要使用的数据索引范围[start, end)
|
||
|
||
# 训练选项
|
||
iters: 200000 # 训练迭代次数
|
||
lr: 1e-2 # 主网络的初始学习率
|
||
lr_net: 1e-3 # 其他网络的初始学习率
|
||
|
||
# 检查点管理
|
||
ckpt: latest # 要加载或保存的检查点
|
||
|
||
# 射线采样设置
|
||
num_rays: 65536 # 每张图像每步训练中采样的射线数
|
||
cuda_ray: false # 使用CUDA raymarching而不是PyTorch
|
||
max_steps: 16 # 使用--cuda_ray时,每条射线最大采样步骤数
|
||
num_steps: 16 # 不使用--cuda_ray时,每条射线的采样步骤数
|
||
upsample_steps: 0 # 不使用--cuda_ray时,每条射线上采样的步骤数
|
||
update_extra_interval: 16 # 使用--cuda_ray时,更新额外状态的迭代间隔
|
||
max_ray_batch: 4096 # 推理中每次处理的最大射线批次以避免内存溢出
|
||
|
||
# 损失设置
|
||
warmup_step: 10000 # 预热步骤数
|
||
amb_aud_loss: false # 使用环境音频损失
|
||
amb_eye_loss: false # 使用环境眼睛损失
|
||
unc_loss: false # 使用不确定性损失
|
||
lambda_amb: 1e-4 # 环境损失的Lambda值
|
||
pyramid_loss: false # 使用感知损失
|
||
|
||
# 网络骨干选项
|
||
fp16: false # 使用AMP混合精度训练
|
||
bg_img: '' # 背景图像路径
|
||
fbg: false # 框逐帧背景
|
||
exp_eye: false # 显式控制眼睛
|
||
fix_eye: -1 # 固定眼睛区域(负数以禁用)
|
||
smooth_eye: false # 平滑眼睛区域序列
|
||
bs_area: upper # 背景减除的区域('upper'或'eye')
|
||
au45: false # 使用OpenFace AU45
|
||
torso_shrink: 0.8 # 收缩背景坐标以允许更多的变形
|
||
|
||
# 数据集选项
|
||
color_space: srgb # 颜色空间(支持linear或srgb)
|
||
preload: 2 # 预加载数据(0:disk, 1:CPU, 2:GPU)
|
||
bound: 1 # 假设场景在box[-bound, bound]^3内
|
||
scale: 4 # 将相机位置缩放到box[-bound, bound]^3
|
||
offset: [0, 0, 0] # 相机位置的偏移[x, y, z]
|
||
dt_gamma: 0.00390625 # 自适应光线投射中的Dt_gamma
|
||
min_near: 0.05 # 摄像头的最小近距离
|
||
density_thresh: 10 # 密度网格被占用的阈值(sigma)
|
||
density_thresh_torso: 0.01 # 密度网格被占用的阈值(alpha)
|
||
patch_size: 1 # 训练中渲染补丁以LPIPS损失
|
||
|
||
# 特定训练选项
|
||
init_lips: false # 初始化嘴唇区域
|
||
finetune_lips: false # 使用LPIPS和地标微调嘴唇区域
|
||
smooth_lips: false # 指数衰减方式平滑enc_a
|
||
torso: false # 固定头部并训练躯干
|
||
head_ckpt: '' # 预训练头部模型的路径
|
||
|
||
# GUI选项
|
||
gui: false # 启动GUI界面
|
||
W: 450 # GUI宽度(像素)
|
||
H: 450 # GUI高度(像素)
|
||
radius: 3.35 # 默认GUI摄像机从中心的距离
|
||
fovy: 21.24 # 默认GUI摄像机视场角(度)
|
||
max_spp: 1 # GUI渲染的最大每像素样本数
|
||
|
||
# 其他选项
|
||
fullbody: true # 启用全身模式
|
||
att: 2 # 音频注意力模式(0 = 关闭, 1 = 左方向, 2 = 双向)
|
||
aud: assets/weilaishi.wav # 音频源路径(为空使用默认)
|
||
emb: false # 使用音频类别+嵌入而不是logits
|
||
portrait: true # 仅渲染面部
|
||
cache: true
|
||
|
||
# 其他选项(继续)
|
||
ind_dim: 4 # 个体代码的维度(0关闭)
|
||
ind_num: 20000 # 个体代码的数量(应大于训练数据集大小)
|
||
ind_dim_torso: 8 # 躯干个体代码的维度(0关闭)
|
||
amb_dim: 2 # 环境维度
|
||
part: false # 使用部分训练数据(1/10)
|
||
part2: true # 使用部分训练数据(前15秒)
|
||
train_camera: false # 优化相机姿态
|
||
smooth_path: false # 使用窗口大小平滑相机路径轨迹
|
||
smooth_path_window: 7 # 平滑路径的窗口大小
|
||
|
||
# ASR设置
|
||
asr: false # 加载ASR进行实时应用
|
||
asr_wav: '' # 输入WAV文件的路径
|
||
asr_play: false # 实时播放音频
|
||
asr_model: hubert # 使用的ASR模型
|
||
asr_save_feats: false # 保存ASR模型提取的特征
|
||
|
||
# 音频处理设置
|
||
fps: 50 # 每秒音频帧数
|
||
l: 10 # 滑动窗口长度(左)以20毫秒为单位
|
||
m: 50 # 滑动窗口长度(中)以20毫秒为单位
|
||
r: 10 # 滑动窗口长度(右)以20毫秒为单位
|
||
|
||
# 快捷选项
|
||
O: true # 快捷方式:--fp16 --cuda_ray --exp_eye
|
||
|
||
logging:
|
||
level: "INFO"
|
||
format: "%(asctime)s - %(levelname)s - %(message)s"
|
||
file: "app.log"
|
||
max_size: 10485760 # 10 MB
|
||
backup_count: 5
|
||
encoding: "utf-8"
|
||
|
||
aliyuntts:
|
||
default_voice: "知冰_多情感" # 默认使用的语音模型
|
||
default_rate: 0 # 默认语速 (-100 到 100)
|
||
default_volume: 0 # 默认音量 (-100 到 100)
|
||
cosyvoice:
|
||
host: "http://localhost:8000"
|
||
endpoint: "/inference/tts"
|
||
default_voice: "康辉" # 默认使用的语音模型
|
||
|
||
server:
|
||
host: "0.0.0.0"
|
||
port: 8001
|