digitalhumantalk/default_config.yaml

# 文件路径和一般配置选项
path: data/kanghui # 输入数据的路径
workspace: model/trial_kanghui  # 存储中间和最终结果的目录
seed: 0  # 随机种子以实现可重复性

# 测试模式
test: False  # 使用测试集进行测试模式
test_train: true  # 使用训练集进行测试模式

# 数据范围
data_range: [0, -1]  # 要使用的数据索引范围[start, end)

# 训练选项
iters: 200000  # 训练迭代次数
lr: 1e-2  # 主网络的初始学习率
lr_net: 1e-3  # 其他网络的初始学习率

# 检查点管理
ckpt: latest  # 要加载或保存的检查点

# 射线采样设置
num_rays: 65536  # 每张图像每步训练中采样的射线数
cuda_ray: false  # 使用CUDA raymarching而不是PyTorch
max_steps: 16  # 使用--cuda_ray时，每条射线最大采样步骤数
num_steps: 16  # 不使用--cuda_ray时，每条射线的采样步骤数
upsample_steps: 0  # 不使用--cuda_ray时，每条射线上采样的步骤数
update_extra_interval: 16  # 使用--cuda_ray时，更新额外状态的迭代间隔
max_ray_batch: 4096  # 推理中每次处理的最大射线批次以避免内存溢出

# 损失设置
warmup_step: 10000  # 预热步骤数
amb_aud_loss: false  # 使用环境音频损失
amb_eye_loss: false  # 使用环境眼睛损失
unc_loss: false  # 使用不确定性损失
lambda_amb: 1e-4  # 环境损失的Lambda值
pyramid_loss: false  # 使用感知损失

# 网络骨干选项
fp16: false  # 使用AMP混合精度训练
bg_img: ''  # 背景图像路径
fbg: false  # 框逐帧背景
exp_eye: false  # 显式控制眼睛
fix_eye: -1  # 固定眼睛区域（负数以禁用）
smooth_eye: false  # 平滑眼睛区域序列
bs_area: upper  # 背景减除的区域('upper'或'eye')
au45: false  # 使用OpenFace AU45
torso_shrink: 0.8  # 收缩背景坐标以允许更多的变形

# 数据集选项
color_space: srgb  # 颜色空间（支持linear或srgb）
preload: 2 # 预加载数据(0:disk, 1:CPU, 2:GPU)
bound: 1  # 假设场景在box[-bound, bound]^3内
scale: 4  # 将相机位置缩放到box[-bound, bound]^3
offset: [0, 0, 0]  # 相机位置的偏移[x, y, z]
dt_gamma: 0.00390625  # 自适应光线投射中的Dt_gamma
min_near: 0.05  # 摄像头的最小近距离
density_thresh: 10  # 密度网格被占用的阈值（sigma）
density_thresh_torso: 0.01  # 密度网格被占用的阈值（alpha）
patch_size: 1  # 训练中渲染补丁以LPIPS损失

# 特定训练选项
init_lips: false  # 初始化嘴唇区域
finetune_lips: false  # 使用LPIPS和地标微调嘴唇区域
smooth_lips: false  # 指数衰减方式平滑enc_a
torso: false  # 固定头部并训练躯干
head_ckpt: ''  # 预训练头部模型的路径

# GUI选项
gui: false  # 启动GUI界面
W: 450  # GUI宽度（像素）
H: 450  # GUI高度（像素）
radius: 3.35  # 默认GUI摄像机从中心的距离
fovy: 21.24  # 默认GUI摄像机视场角（度）
max_spp: 1  # GUI渲染的最大每像素样本数

# 其他选项
fullbody: true  # 启用全身模式
att: 2  # 音频注意力模式(0 = 关闭, 1 = 左方向, 2 = 双向)
aud: assets/weilaishi.wav # 音频源路径（为空使用默认）
emb: false  # 使用音频类别+嵌入而不是logits
portrait: true  # 仅渲染面部
cache: true

# 其他选项(继续)
ind_dim: 4  # 个体代码的维度（0关闭）
ind_num: 20000  # 个体代码的数量（应大于训练数据集大小）
ind_dim_torso: 8  # 躯干个体代码的维度（0关闭）
amb_dim: 2  # 环境维度
part: false  # 使用部分训练数据（1/10）
part2: true  # 使用部分训练数据（前15秒）
train_camera: false  # 优化相机姿态
smooth_path: false  # 使用窗口大小平滑相机路径轨迹
smooth_path_window: 7  # 平滑路径的窗口大小

# ASR设置
asr: false  # 加载ASR进行实时应用
asr_wav: ''  # 输入WAV文件的路径
asr_play: false  # 实时播放音频
asr_model: hubert  # 使用的ASR模型
asr_save_feats: false  # 保存ASR模型提取的特征

# 音频处理设置
fps: 50  # 每秒音频帧数
l: 10  # 滑动窗口长度（左）以20毫秒为单位
m: 50  # 滑动窗口长度（中）以20毫秒为单位
r: 10  # 滑动窗口长度（右）以20毫秒为单位

# 快捷选项
O: true  # 快捷方式：--fp16 --cuda_ray --exp_eye

logging:
  level: "INFO"
  format: "%(asctime)s - %(levelname)s - %(message)s"
  file: "app.log"
  max_size: 10485760  # 10 MB
  backup_count: 5
  encoding: "utf-8"

aliyuntts:
  default_voice: "知冰_多情感"  # 默认使用的语音模型
  default_rate: 0  # 默认语速 (-100 到 100)
  default_volume: 0  # 默认音量 (-100 到 100)
cosyvoice:
  host: "http://localhost:8000"
  endpoint: "/inference/tts"
  default_voice: "康辉"  # 默认使用的语音模型

server:
  host: "0.0.0.0"
  port: 8001