digitalhumantalk/default_config.yaml
2024-12-10 17:05:37 +08:00

131 lines
4.8 KiB
YAML
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 文件路径和一般配置选项
path: data/kanghui # 输入数据的路径
workspace: model/trial_kanghui # 存储中间和最终结果的目录
seed: 0 # 随机种子以实现可重复性
# 测试模式
test: False # 使用测试集进行测试模式
test_train: true # 使用训练集进行测试模式
# 数据范围
data_range: [0, -1] # 要使用的数据索引范围[start, end)
# 训练选项
iters: 200000 # 训练迭代次数
lr: 1e-2 # 主网络的初始学习率
lr_net: 1e-3 # 其他网络的初始学习率
# 检查点管理
ckpt: latest # 要加载或保存的检查点
# 射线采样设置
num_rays: 65536 # 每张图像每步训练中采样的射线数
cuda_ray: false # 使用CUDA raymarching而不是PyTorch
max_steps: 16 # 使用--cuda_ray时每条射线最大采样步骤数
num_steps: 16 # 不使用--cuda_ray时每条射线的采样步骤数
upsample_steps: 0 # 不使用--cuda_ray时每条射线上采样的步骤数
update_extra_interval: 16 # 使用--cuda_ray时更新额外状态的迭代间隔
max_ray_batch: 4096 # 推理中每次处理的最大射线批次以避免内存溢出
# 损失设置
warmup_step: 10000 # 预热步骤数
amb_aud_loss: false # 使用环境音频损失
amb_eye_loss: false # 使用环境眼睛损失
unc_loss: false # 使用不确定性损失
lambda_amb: 1e-4 # 环境损失的Lambda值
pyramid_loss: false # 使用感知损失
# 网络骨干选项
fp16: false # 使用AMP混合精度训练
bg_img: '' # 背景图像路径
fbg: false # 框逐帧背景
exp_eye: false # 显式控制眼睛
fix_eye: -1 # 固定眼睛区域(负数以禁用)
smooth_eye: false # 平滑眼睛区域序列
bs_area: upper # 背景减除的区域('upper'或'eye')
au45: false # 使用OpenFace AU45
torso_shrink: 0.8 # 收缩背景坐标以允许更多的变形
# 数据集选项
color_space: srgb # 颜色空间支持linear或srgb
preload: 2 # 预加载数据(0:disk, 1:CPU, 2:GPU)
bound: 1 # 假设场景在box[-bound, bound]^3内
scale: 4 # 将相机位置缩放到box[-bound, bound]^3
offset: [0, 0, 0] # 相机位置的偏移[x, y, z]
dt_gamma: 0.00390625 # 自适应光线投射中的Dt_gamma
min_near: 0.05 # 摄像头的最小近距离
density_thresh: 10 # 密度网格被占用的阈值sigma
density_thresh_torso: 0.01 # 密度网格被占用的阈值alpha
patch_size: 1 # 训练中渲染补丁以LPIPS损失
# 特定训练选项
init_lips: false # 初始化嘴唇区域
finetune_lips: false # 使用LPIPS和地标微调嘴唇区域
smooth_lips: false # 指数衰减方式平滑enc_a
torso: false # 固定头部并训练躯干
head_ckpt: '' # 预训练头部模型的路径
# GUI选项
gui: false # 启动GUI界面
W: 450 # GUI宽度像素
H: 450 # GUI高度像素
radius: 3.35 # 默认GUI摄像机从中心的距离
fovy: 21.24 # 默认GUI摄像机视场角
max_spp: 1 # GUI渲染的最大每像素样本数
# 其他选项
fullbody: true # 启用全身模式
att: 2 # 音频注意力模式(0 = 关闭, 1 = 左方向, 2 = 双向)
aud: assets/weilaishi.wav # 音频源路径(为空使用默认)
emb: false # 使用音频类别+嵌入而不是logits
portrait: true # 仅渲染面部
cache: true
# 其他选项(继续)
ind_dim: 4 # 个体代码的维度0关闭
ind_num: 20000 # 个体代码的数量(应大于训练数据集大小)
ind_dim_torso: 8 # 躯干个体代码的维度0关闭
amb_dim: 2 # 环境维度
part: false # 使用部分训练数据1/10
part2: true # 使用部分训练数据前15秒
train_camera: false # 优化相机姿态
smooth_path: false # 使用窗口大小平滑相机路径轨迹
smooth_path_window: 7 # 平滑路径的窗口大小
# ASR设置
asr: false # 加载ASR进行实时应用
asr_wav: '' # 输入WAV文件的路径
asr_play: false # 实时播放音频
asr_model: hubert # 使用的ASR模型
asr_save_feats: false # 保存ASR模型提取的特征
# 音频处理设置
fps: 50 # 每秒音频帧数
l: 10 # 滑动窗口长度以20毫秒为单位
m: 50 # 滑动窗口长度以20毫秒为单位
r: 10 # 滑动窗口长度以20毫秒为单位
# 快捷选项
O: true # 快捷方式:--fp16 --cuda_ray --exp_eye
logging:
level: "INFO"
format: "%(asctime)s - %(levelname)s - %(message)s"
file: "app.log"
max_size: 10485760 # 10 MB
backup_count: 5
encoding: "utf-8"
aliyuntts:
default_voice: "知冰_多情感" # 默认使用的语音模型
default_rate: 0 # 默认语速 (-100 到 100)
default_volume: 0 # 默认音量 (-100 到 100)
cosyvoice:
host: "http://localhost:8000"
endpoint: "/inference/tts"
default_voice: "康辉" # 默认使用的语音模型
server:
host: "0.0.0.0"
port: 8001