# 文件路径和一般配置选项 path: data/kanghui # 输入数据的路径 workspace: model/trial_kanghui # 存储中间和最终结果的目录 seed: 0 # 随机种子以实现可重复性 # 测试模式 test: False # 使用测试集进行测试模式 test_train: true # 使用训练集进行测试模式 # 数据范围 data_range: [0, -1] # 要使用的数据索引范围[start, end) # 训练选项 iters: 200000 # 训练迭代次数 lr: 1e-2 # 主网络的初始学习率 lr_net: 1e-3 # 其他网络的初始学习率 # 检查点管理 ckpt: latest # 要加载或保存的检查点 # 射线采样设置 num_rays: 65536 # 每张图像每步训练中采样的射线数 cuda_ray: false # 使用CUDA raymarching而不是PyTorch max_steps: 16 # 使用--cuda_ray时,每条射线最大采样步骤数 num_steps: 16 # 不使用--cuda_ray时,每条射线的采样步骤数 upsample_steps: 0 # 不使用--cuda_ray时,每条射线上采样的步骤数 update_extra_interval: 16 # 使用--cuda_ray时,更新额外状态的迭代间隔 max_ray_batch: 4096 # 推理中每次处理的最大射线批次以避免内存溢出 # 损失设置 warmup_step: 10000 # 预热步骤数 amb_aud_loss: false # 使用环境音频损失 amb_eye_loss: false # 使用环境眼睛损失 unc_loss: false # 使用不确定性损失 lambda_amb: 1e-4 # 环境损失的Lambda值 pyramid_loss: false # 使用感知损失 # 网络骨干选项 fp16: false # 使用AMP混合精度训练 bg_img: '' # 背景图像路径 fbg: false # 框逐帧背景 exp_eye: false # 显式控制眼睛 fix_eye: -1 # 固定眼睛区域(负数以禁用) smooth_eye: false # 平滑眼睛区域序列 bs_area: upper # 背景减除的区域('upper'或'eye') au45: false # 使用OpenFace AU45 torso_shrink: 0.8 # 收缩背景坐标以允许更多的变形 # 数据集选项 color_space: srgb # 颜色空间(支持linear或srgb) preload: 2 # 预加载数据(0:disk, 1:CPU, 2:GPU) bound: 1 # 假设场景在box[-bound, bound]^3内 scale: 4 # 将相机位置缩放到box[-bound, bound]^3 offset: [0, 0, 0] # 相机位置的偏移[x, y, z] dt_gamma: 0.00390625 # 自适应光线投射中的Dt_gamma min_near: 0.05 # 摄像头的最小近距离 density_thresh: 10 # 密度网格被占用的阈值(sigma) density_thresh_torso: 0.01 # 密度网格被占用的阈值(alpha) patch_size: 1 # 训练中渲染补丁以LPIPS损失 # 特定训练选项 init_lips: false # 初始化嘴唇区域 finetune_lips: false # 使用LPIPS和地标微调嘴唇区域 smooth_lips: false # 指数衰减方式平滑enc_a torso: false # 固定头部并训练躯干 head_ckpt: '' # 预训练头部模型的路径 # GUI选项 gui: false # 启动GUI界面 W: 450 # GUI宽度(像素) H: 450 # GUI高度(像素) radius: 3.35 # 默认GUI摄像机从中心的距离 fovy: 21.24 # 默认GUI摄像机视场角(度) max_spp: 1 # GUI渲染的最大每像素样本数 # 其他选项 fullbody: true # 启用全身模式 att: 2 # 音频注意力模式(0 = 关闭, 1 = 左方向, 2 = 双向) aud: assets/weilaishi.wav # 音频源路径(为空使用默认) emb: false # 使用音频类别+嵌入而不是logits portrait: true # 仅渲染面部 cache: true # 其他选项(继续) ind_dim: 4 # 个体代码的维度(0关闭) ind_num: 20000 # 个体代码的数量(应大于训练数据集大小) ind_dim_torso: 8 # 躯干个体代码的维度(0关闭) amb_dim: 2 # 环境维度 part: false # 使用部分训练数据(1/10) part2: true # 使用部分训练数据(前15秒) train_camera: false # 优化相机姿态 smooth_path: false # 使用窗口大小平滑相机路径轨迹 smooth_path_window: 7 # 平滑路径的窗口大小 # ASR设置 asr: false # 加载ASR进行实时应用 asr_wav: '' # 输入WAV文件的路径 asr_play: false # 实时播放音频 asr_model: hubert # 使用的ASR模型 asr_save_feats: false # 保存ASR模型提取的特征 # 音频处理设置 fps: 50 # 每秒音频帧数 l: 10 # 滑动窗口长度(左)以20毫秒为单位 m: 50 # 滑动窗口长度(中)以20毫秒为单位 r: 10 # 滑动窗口长度(右)以20毫秒为单位 # 快捷选项 O: true # 快捷方式:--fp16 --cuda_ray --exp_eye logging: level: "INFO" format: "%(asctime)s - %(levelname)s - %(message)s" file: "app.log" max_size: 10485760 # 10 MB backup_count: 5 encoding: "utf-8" aliyuntts: default_voice: "知冰_多情感" # 默认使用的语音模型 default_rate: 0 # 默认语速 (-100 到 100) default_volume: 0 # 默认音量 (-100 到 100) cosyvoice: host: "http://localhost:8000" endpoint: "/inference/tts" default_voice: "康辉" # 默认使用的语音模型 server: host: "0.0.0.0" port: 8001