docs: 更新 README.md
1. 全面重写文档结构,使其更加清晰和专业 2. 添加项目目录结构和核心模块说明 3. 更新最近的功能改进
This commit is contained in:
parent
ae32c9a94a
commit
4a4710e70a
@ -1,245 +1,184 @@
|
||||
# LLMClipboard
|
||||
|
||||
一个跨平台的富文本捕获工具,提供现代化的GUI界面,支持一键将任何应用程序中的富文本内容转换为Markdown格式并保存。
|
||||
智能剪贴板增强工具,专注于提供高质量的文本捕获和处理体验。支持智能标题提取、自动分类、关键词标签等功能,让您的笔记管理更轻松高效。
|
||||
|
||||
## ✨ 特性
|
||||
## ✨ 核心特性
|
||||
|
||||
- 🖥️ 现代化图形界面,支持深色/浅色主题
|
||||
- 📋 智能富文本捕获和格式保持
|
||||
- ⚡ 快速双击右键保存
|
||||
- 🔧 可视化配置界面
|
||||
- 💾 自动保存为Markdown格式
|
||||
- 🌐 完整的跨平台支持
|
||||
- 🔄 系统托盘支持,后台运行
|
||||
- 🎨 自适应系统主题
|
||||
- 📝 优化的文本格式处理
|
||||
### 📋 智能文本处理
|
||||
- 智能标题提取,自动从内容中识别最合适的标题
|
||||
- 多格式支持:HTML、Markdown、纯文本等
|
||||
- 保持原文格式,包括段落、换行、列表等
|
||||
- 智能清理,去除冗余内容和空白行
|
||||
|
||||
## 🎯 功能亮点
|
||||
### 🏷️ 自动分类和标签
|
||||
- 基于内容智能分类,自动归档到合适目录
|
||||
- 使用 NLP 技术提取关键词作为标签
|
||||
- 支持自定义分类规则和标签规则
|
||||
- YAML front matter 元数据支持
|
||||
|
||||
### 智能格式转换
|
||||
|
||||
- **HTML 富文本**
|
||||
- 保持原始格式(粗体、斜体、链接等)
|
||||
- 保留图片和表格结构
|
||||
- 智能处理段落和换行
|
||||
- 清理多余空白行
|
||||
|
||||
- **纯文本处理**
|
||||
- 自动识别文本编码
|
||||
- 智能处理中文内容
|
||||
- 保持段落结构
|
||||
- 优化换行格式
|
||||
|
||||
- **Unicode 支持**
|
||||
- 完整的 Unicode 字符支持
|
||||
- 多语言文本兼容
|
||||
- 保持特殊字符格式
|
||||
|
||||
### 智能文档处理
|
||||
|
||||
- **智能标题生成**
|
||||
- 自动从内容提取关键信息作为标题
|
||||
- 使用自然语言处理识别主题
|
||||
- 生成简洁有意义的标题
|
||||
|
||||
- **自动标签系统**
|
||||
- 基于内容智能提取关键词
|
||||
- 自动识别文档主题
|
||||
- 支持多维度标签分类
|
||||
- 可自定义标签规则
|
||||
|
||||
- **智能分类系统**
|
||||
- 自动对文档进行分类
|
||||
- 支持多级目录结构
|
||||
- 预设常用分类模板
|
||||
- 可自定义分类规则
|
||||
|
||||
- **文档元数据**
|
||||
- 自动添加创建时间
|
||||
- 记录文档分类信息
|
||||
- 保存标签信息
|
||||
- YAML front matter 格式
|
||||
|
||||
### 目录结构
|
||||
|
||||
保存的文档会自动按以下结构组织:
|
||||
```
|
||||
save_location/
|
||||
├── 技术/
|
||||
│ └── 20250115_210000_Python项目最佳实践.md
|
||||
├── 学习/
|
||||
│ └── 20250115_210100_机器学习基础概念.md
|
||||
├── 工作/
|
||||
│ └── 20250115_210200_项目进度报告.md
|
||||
├── 想法/
|
||||
│ └── 20250115_210300_产品改进建议.md
|
||||
└── 资源/
|
||||
└── 20250115_210400_有用的开发工具集合.md
|
||||
```
|
||||
|
||||
每个文档都包含以下格式的元数据:
|
||||
```markdown
|
||||
---
|
||||
title: 文档标题
|
||||
date: 2025-01-15 21:00:00
|
||||
tags: 标签1, 标签2, 标签3
|
||||
category: 分类名称
|
||||
---
|
||||
|
||||
文档内容...
|
||||
```
|
||||
|
||||
### 格式优化
|
||||
|
||||
- 自动清理冗余空行
|
||||
- 保持段落间距一致
|
||||
- 优化列表和缩进结构
|
||||
- 保持代码块格式
|
||||
### 🎨 现代化界面
|
||||
- 简洁优雅的用户界面
|
||||
- 支持深色/浅色主题
|
||||
- 系统托盘常驻
|
||||
- 快捷键操作支持
|
||||
|
||||
## 🚀 快速开始
|
||||
|
||||
### 环境要求
|
||||
|
||||
- Python >= 3.10
|
||||
- Windows/Linux/MacOS
|
||||
### 系统要求
|
||||
- Python 3.8+
|
||||
- Windows 10/11
|
||||
|
||||
### 安装步骤
|
||||
|
||||
1. 克隆仓库:
|
||||
1. 克隆仓库
|
||||
```bash
|
||||
git clone <repository-url>
|
||||
git clone https://github.com/yourusername/llmclipboard.git
|
||||
cd llmclipboard
|
||||
```
|
||||
|
||||
2. 创建虚拟环境:
|
||||
2. 创建虚拟环境
|
||||
```bash
|
||||
uv venv .venv
|
||||
```
|
||||
|
||||
3. 激活虚拟环境:
|
||||
```bash
|
||||
# Windows
|
||||
python -m venv .venv
|
||||
.venv\Scripts\activate
|
||||
# Linux/MacOS
|
||||
source .venv/bin/activate
|
||||
```
|
||||
|
||||
4. 安装依赖:
|
||||
3. 安装依赖
|
||||
```bash
|
||||
# Windows
|
||||
.venv\Scripts\python.exe -m pip install -e .
|
||||
# Linux/MacOS
|
||||
.venv/bin/python -m pip install -e .
|
||||
pip install -r requirements.txt
|
||||
```
|
||||
|
||||
## ⚙️ 配置
|
||||
|
||||
编辑 `config.ini` 文件:
|
||||
```ini
|
||||
[Settings]
|
||||
# 双击判定的时间阈值(秒)
|
||||
double_click_threshold = 0.3
|
||||
# Markdown文件保存路径
|
||||
save_location = C:\Users\YourName\Documents\Markdown
|
||||
```
|
||||
|
||||
## 📖 使用指南
|
||||
|
||||
### 启动程序
|
||||
|
||||
4. 运行程序
|
||||
```bash
|
||||
# Windows
|
||||
.venv\Scripts\python.exe -m llmclipboard.app
|
||||
# Linux/MacOS
|
||||
.venv/bin/python -m llmclipboard.app
|
||||
python -m llmclipboard.app
|
||||
```
|
||||
|
||||
### 基本操作
|
||||
|
||||
1. **配置设置**
|
||||
- 启动程序后,在GUI界面设置保存路径
|
||||
- 根据需要调整双击阈值
|
||||
- 点击"保存设置"应用更改
|
||||
|
||||
2. **开始使用**
|
||||
- 点击"启动监听"按钮
|
||||
- 选择任意文本内容
|
||||
- 快速双击鼠标右键保存
|
||||
- 文件自动保存为Markdown格式
|
||||
|
||||
3. **后台运行**
|
||||
- 点击最小化按钮,程序会缩小到系统托盘
|
||||
- 双击托盘图标可重新打开界面
|
||||
- 右键托盘图标可访问快捷菜单
|
||||
|
||||
4. **退出程序**
|
||||
- 点击"停止监听"停止服务
|
||||
- 通过托盘菜单退出
|
||||
- 或按ESC键退出
|
||||
|
||||
## 🔧 技术栈
|
||||
|
||||
- **GUI框架**: PyQt6
|
||||
- **主题**: qt-material
|
||||
- **系统集成**:
|
||||
- pynput: 鼠标事件监听
|
||||
- keyboard: 键盘事件处理
|
||||
- pywin32: Windows系统集成
|
||||
- **格式转换**: html2text
|
||||
- **配置管理**: configparser
|
||||
|
||||
## 📁 项目结构
|
||||
|
||||
```
|
||||
llmclipboard/
|
||||
├── llmclipboard/ # 源代码目录
|
||||
│ ├── __init__.py
|
||||
│ ├── app.py # 主程序和服务逻辑
|
||||
│ ├── gui.py # GUI界面实现
|
||||
├── config.ini # 配置文件
|
||||
├── README.md # 项目文档
|
||||
├── llmclipboard/ # 主程序包
|
||||
│ ├── __init__.py # 包初始化文件
|
||||
│ ├── app.py # 主程序入口
|
||||
│ ├── document_processor.py # 文档处理核心逻辑
|
||||
│ ├── gui.py # 图形界面实现
|
||||
│ ├── categories.json # 分类配置文件
|
||||
│ └── tests/ # 测试目录
|
||||
│ ├── __init__.py
|
||||
│ ├── test_clipboard.py # 剪贴板功能测试
|
||||
│ ├── test_data.py # 数据处理测试
|
||||
│ └── test_document_processor.py # 文档处理测试
|
||||
├── docs/ # 文档目录
|
||||
├── .python-version # Python 版本配置
|
||||
├── config.ini # 程序配置文件
|
||||
├── pyproject.toml # 项目依赖配置
|
||||
├── README.md # 项目说明文档
|
||||
└── text_capture.log # 日志文件
|
||||
```
|
||||
|
||||
## 🛠️ 开发指南
|
||||
### 核心模块说明
|
||||
|
||||
### 安装开发依赖
|
||||
- **app.py**: 程序入口,包含主要的应用逻辑和事件循环
|
||||
- **document_processor.py**: 文档处理核心,实现了标题提取、内容清理、标签生成等功能
|
||||
- **gui.py**: 图形界面实现,包含主窗口和托盘图标的设计
|
||||
- **categories.json**: 预设的文档分类规则配置
|
||||
- **tests/**: 单元测试集合,确保核心功能的正确性
|
||||
|
||||
```bash
|
||||
uv pip install -e .
|
||||
## 📝 使用说明
|
||||
|
||||
### 基本操作
|
||||
1. 双击右键:快速保存剪贴板内容
|
||||
2. 系统托盘图标:
|
||||
- 左键单击:打开主界面
|
||||
- 右键单击:显示菜单选项
|
||||
|
||||
### 配置说明
|
||||
配置文件位于 `~/.llmclipboard/config.yaml`:
|
||||
```yaml
|
||||
save_location: "文档保存位置"
|
||||
default_category: "默认分类"
|
||||
auto_save: true # 是否自动保存
|
||||
dark_mode: auto # 主题模式:light/dark/auto
|
||||
```
|
||||
|
||||
### 构建分发包
|
||||
### 文档保存格式
|
||||
```markdown
|
||||
---
|
||||
title: 自动提取或手动设置的标题
|
||||
date: 2025-01-15 21:00:00
|
||||
tags: [自动提取的标签]
|
||||
category: 自动分类的目录
|
||||
---
|
||||
|
||||
```bash
|
||||
uv pip install build
|
||||
python -m build
|
||||
正文内容...
|
||||
```
|
||||
|
||||
构建完成后,在 `dist` 目录下可以找到:
|
||||
- `.tar.gz`: 源码分发包
|
||||
- `.whl`: Python wheel包
|
||||
### 目录结构
|
||||
```
|
||||
save_location/
|
||||
├── 技术/ # 技术相关文档
|
||||
├── 学习/ # 学习笔记
|
||||
├── 工作/ # 工作文档
|
||||
├── 想法/ # 想法和灵感
|
||||
└── 其他/ # 未分类文档
|
||||
```
|
||||
|
||||
## 🔧 核心功能说明
|
||||
|
||||
### 标题提取算法
|
||||
- 智能识别文档主题和重点
|
||||
- 处理多种标题格式(Markdown、HTML等)
|
||||
- 标点符号智能处理
|
||||
- 长度自动优化
|
||||
|
||||
### 文本清理功能
|
||||
- 保持原文格式和换行
|
||||
- 智能去除冗余内容
|
||||
- 优化空白行和段落间距
|
||||
- 特殊字符处理
|
||||
|
||||
### 自动分类系统
|
||||
- 基于内容的智能分类
|
||||
- 关键词匹配
|
||||
- 自定义分类规则
|
||||
- 默认分类支持
|
||||
|
||||
## 🔄 最近更新
|
||||
|
||||
### 2025-01-15
|
||||
- 🔍 改进标题提取算法
|
||||
- 优化对 Markdown 格式的处理
|
||||
- 改进代码块标题处理
|
||||
- 智能处理标点符号
|
||||
- 保持标题简洁明了
|
||||
- 📝 优化文本格式处理
|
||||
- 保持原文换行格式
|
||||
- 智能清理空白行
|
||||
- 改进中文标点处理
|
||||
- 🔧 改进日志输出
|
||||
- 添加详细的调试信息
|
||||
- 确保 UTF-8 编码支持
|
||||
- 优化日志格式和可读性
|
||||
|
||||
## 🤝 贡献指南
|
||||
|
||||
1. Fork 本仓库
|
||||
1. Fork 项目
|
||||
2. 创建特性分支 (`git checkout -b feature/AmazingFeature`)
|
||||
3. 提交更改 (`git commit -m 'Add some AmazingFeature'`)
|
||||
3. 提交更改 (`git commit -m 'feat: 添加一些特性'`)
|
||||
4. 推送到分支 (`git push origin feature/AmazingFeature`)
|
||||
5. 提交 Pull Request
|
||||
|
||||
### 编码规范
|
||||
- 遵循 PEP 8 规范
|
||||
- 使用类型注解
|
||||
- 编写单元测试
|
||||
- 添加详细注释
|
||||
|
||||
## 📄 许可证
|
||||
|
||||
MIT License - 查看 [LICENSE](LICENSE) 文件了解更多详情
|
||||
本项目采用 MIT 许可证。详见 [LICENSE](LICENSE) 文件。
|
||||
|
||||
## 🙏 致谢
|
||||
## 🙋♂️ 问题反馈
|
||||
|
||||
- [PyQt6](https://www.riverbankcomputing.com/software/pyqt/) - GUI框架
|
||||
- [qt-material](https://github.com/UN-GCPDS/qt-material) - 现代化主题
|
||||
- [html2text](https://github.com/Alir3z4/html2text) - HTML转Markdown工具
|
||||
|
||||
## 📞 支持与反馈
|
||||
|
||||
如果你遇到任何问题或有建议:
|
||||
如果您遇到问题或有建议:
|
||||
1. 提交 [Issue](../../issues)
|
||||
2. 发送邮件至 [your-email@example.com]
|
||||
2. 加入讨论组:[Discussions](../../discussions)
|
||||
3. 发送邮件至:[your-email@example.com]
|
||||
@ -1,11 +1,34 @@
|
||||
# -*- coding: utf-8 -*-
|
||||
"""文档处理器模块"""
|
||||
import os
|
||||
import re
|
||||
import jieba
|
||||
import jieba.analyse
|
||||
import json
|
||||
import sys
|
||||
from datetime import datetime
|
||||
from collections import Counter
|
||||
import json
|
||||
from pathlib import Path
|
||||
import logging
|
||||
|
||||
# 配置日志记录
|
||||
logger = logging.getLogger(__name__)
|
||||
logger.setLevel(logging.DEBUG)
|
||||
|
||||
# 确保 stdout 使用 UTF-8 编码
|
||||
if hasattr(sys.stdout, 'reconfigure'):
|
||||
sys.stdout.reconfigure(encoding='utf-8')
|
||||
|
||||
# 创建控制台处理器
|
||||
console_handler = logging.StreamHandler(sys.stdout)
|
||||
console_handler.setLevel(logging.DEBUG)
|
||||
|
||||
# 创建格式化器
|
||||
formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
|
||||
console_handler.setFormatter(formatter)
|
||||
|
||||
# 将处理器添加到记录器
|
||||
logger.addHandler(console_handler)
|
||||
|
||||
class DocumentProcessor:
|
||||
def __init__(self, config_path=None):
|
||||
@ -33,79 +56,123 @@ class DocumentProcessor:
|
||||
with open(self.config_path, 'w', encoding='utf-8') as f:
|
||||
json.dump(self.categories, f, ensure_ascii=False, indent=2)
|
||||
|
||||
def clean_content(self, content):
|
||||
"""清理内容,移除多余的换行符和空白"""
|
||||
if not content or content.isspace():
|
||||
logger.debug("收到空内容或纯空白内容")
|
||||
return ""
|
||||
|
||||
logger.debug("原始内容长度: %d", len(content))
|
||||
logger.debug("原始内容前100个字符: %s", content[:100])
|
||||
logger.debug("原始内容包含的换行符数量: %d", content.count('\n'))
|
||||
|
||||
# 移除文件名
|
||||
content = re.sub(r'captured_text_\d{8}_\d{6}', '', content)
|
||||
logger.debug("已移除文件名")
|
||||
logger.debug("移除文件名后的内容长度: %d", len(content))
|
||||
|
||||
# 清理内容,保持原有的换行格式
|
||||
lines = content.splitlines()
|
||||
cleaned_lines = []
|
||||
for line in lines:
|
||||
line = line.strip()
|
||||
if line or cleaned_lines: # 如果当前行非空或已经有内容,保留这一行
|
||||
cleaned_lines.append(line)
|
||||
|
||||
# 使用原始换行符重新组合内容
|
||||
content = '\n'.join(cleaned_lines)
|
||||
|
||||
logger.debug("清理后内容长度: %d", len(content))
|
||||
logger.debug("清理后内容包含的换行符数量: %d", content.count('\n'))
|
||||
logger.debug("清理后内容的前100个字符: %s", content[:100])
|
||||
return content
|
||||
|
||||
def extract_title(self, content):
|
||||
"""从内容中提取标题"""
|
||||
if not content or not content.strip():
|
||||
return "未命名笔记"
|
||||
if not content or content.isspace():
|
||||
logger.debug("收到空内容,返回默认标题")
|
||||
logger.debug("收到空内容或纯空白内容")
|
||||
return "无标题文档"
|
||||
|
||||
# 清理内容,移除多余的换行符
|
||||
content = re.sub(r'\n{3,}', '\n\n', content.strip())
|
||||
|
||||
# 尝试从文件名中提取标题
|
||||
filename_match = re.search(r'captured_text_\d{8}_\d{6}', content)
|
||||
if filename_match:
|
||||
content = content.replace(filename_match.group(0), '').strip()
|
||||
|
||||
lines = content.split('\n')
|
||||
first_line = lines[0].strip() if lines else ''
|
||||
|
||||
# 如果第一行包含"文章概要"或类似的标记,使用下一个非空行
|
||||
if any(marker in first_line for marker in ['文章概要', '概要', '总结']):
|
||||
for line in lines[1:]:
|
||||
if line.strip():
|
||||
first_line = line.strip()
|
||||
break
|
||||
|
||||
# 如果第一行以数字和点开头(如 1. 2. 等),尝试使用下一个有效行
|
||||
if re.match(r'^\d+\.', first_line):
|
||||
logger.debug("提取标题的原始内容长度: %d", len(content))
|
||||
logger.debug("提取标题的原始内容前100个字符: %s", content[:100])
|
||||
logger.debug("提取标题的原始内容包含的换行符数量: %d", content.count('\n'))
|
||||
|
||||
# 清理内容
|
||||
content = content.strip()
|
||||
logger.debug("清理后的内容开头100个字符: %s", content[:100])
|
||||
|
||||
# 按行分割内容
|
||||
lines = content.splitlines()
|
||||
logger.debug("分割后的行数: %d", len(lines))
|
||||
|
||||
# 获取第一行
|
||||
first_line = lines[0].strip()
|
||||
logger.debug("第一行内容: %s", first_line)
|
||||
logger.debug("第一行长度: %d", len(first_line))
|
||||
|
||||
# 如果第一行是代码块标记,尝试使用下一个非空行
|
||||
if first_line.startswith('```'):
|
||||
logger.debug("第一行是代码块标记,寻找下一个有效行")
|
||||
for line in lines[1:]:
|
||||
line = line.strip()
|
||||
if line and not re.match(r'^\d+\.', line):
|
||||
if line and not line.startswith('```'): # 找到第一个非代码块标记的非空行
|
||||
first_line = line
|
||||
logger.debug("使用非代码块行作为标题: %s", first_line)
|
||||
break
|
||||
if first_line.startswith('```'): # 如果没有找到其他行,使用默认标题
|
||||
logger.debug("未找到合适的标题行,使用默认标题")
|
||||
return "代码片段"
|
||||
# 如果第一行以数字编号开头(如 "1." 或 "1、"),尝试使用下一行
|
||||
elif re.match(r'^\d+[.、]', first_line):
|
||||
logger.debug("第一行以数字编号开头,寻找下一个有效行")
|
||||
for line in lines[1:]:
|
||||
line = line.strip()
|
||||
if line: # 找到第一个非空行
|
||||
first_line = line
|
||||
logger.debug("使用非编号行作为标题: %s", first_line)
|
||||
break
|
||||
# 如果第一行以 Markdown 列表标记开头(如 "- " 或 "* "),移除标记
|
||||
elif first_line.startswith(('- ', '* ')):
|
||||
logger.debug("移除 Markdown 列表标记")
|
||||
first_line = first_line[2:].strip()
|
||||
# 如果第一行以常见标记词开头(如"标题:"),尝试使用下一行
|
||||
elif any(first_line.startswith(mark) for mark in ["标题:", "标题:", "题目:", "题目:", "主题:", "主题:", "概要:", "概要:"]):
|
||||
logger.debug("第一行包含标记词,寻找下一个非空行")
|
||||
for line in lines[1:]:
|
||||
line = line.strip()
|
||||
if line: # 找到第一个非空行
|
||||
first_line = line
|
||||
logger.debug("使用下一个非空行作为标题: %s", first_line)
|
||||
break
|
||||
|
||||
# 如果第一行太长,尝试提取第一句话
|
||||
if len(first_line) > 50:
|
||||
# 首先尝试按标点符号分割
|
||||
# 使用正则表达式匹配中英文标点符号
|
||||
punctuation_pattern = r'([。!?.!?,,])'
|
||||
sentences = re.split(punctuation_pattern, first_line)
|
||||
|
||||
# 重新组合第一个句子(包括标点符号)
|
||||
if len(sentences) > 1:
|
||||
first_sentence = ''
|
||||
for i in range(0, min(2, len(sentences))):
|
||||
first_sentence += sentences[i]
|
||||
first_line = first_sentence
|
||||
|
||||
# 如果第一句话仍然太长,截断它
|
||||
if len(first_line) > 50:
|
||||
# 移除末尾的标点符号
|
||||
first_line = re.sub(r'[。!?.!?,,]$', '', first_line[:47]).strip() + '...'
|
||||
|
||||
return first_line if first_line else "未命名笔记"
|
||||
|
||||
def clean_content(self, content):
|
||||
"""清理内容格式"""
|
||||
if not content:
|
||||
return ""
|
||||
# 移除 Markdown 格式标记
|
||||
first_line = re.sub(r'\*\*|\*|`|__', '', first_line)
|
||||
|
||||
# 如果包含标点符号,尝试提取第一句话
|
||||
if any(char in first_line for char in ',。!?;,!?;'):
|
||||
logger.debug("标题包含标点符号,尝试提取第一句话")
|
||||
sentences = re.split(r'([,。!?;,!?;])', first_line)
|
||||
logger.debug("按标点分割后得到 %d 个部分", len(sentences))
|
||||
logger.debug("分割后的句子: %s", sentences)
|
||||
|
||||
content = content.strip()
|
||||
if not content:
|
||||
return ""
|
||||
|
||||
# 移除文件名
|
||||
content = re.sub(r'captured_text_\d{8}_\d{6}\n*', '', content)
|
||||
|
||||
# 清理多余的换行符,但保留段落格式
|
||||
content = re.sub(r'\n{3,}', '\n\n', content)
|
||||
|
||||
# 确保段落之间有一个空行
|
||||
paragraphs = [p.strip() for p in content.split('\n\n')]
|
||||
content = '\n\n'.join(p for p in paragraphs if p)
|
||||
|
||||
return content.strip()
|
||||
|
||||
# 获取第一句话(包括标点符号)
|
||||
first_sentence = sentences[0]
|
||||
if len(sentences) > 1:
|
||||
first_sentence += sentences[1] # 添加标点符号
|
||||
logger.debug("使用第一个句子: %s", first_sentence)
|
||||
first_line = first_sentence
|
||||
|
||||
# 如果标题仍然太长,进行截断
|
||||
if len(first_line) > 50:
|
||||
logger.debug("标题过长(%d字符),进行截断", len(first_line))
|
||||
first_line = first_line[:47] + "..."
|
||||
logger.debug("截断后的标题: %s", first_line)
|
||||
|
||||
logger.debug("最终标题: %s", first_line)
|
||||
logger.debug("最终标题长度: %d", len(first_line))
|
||||
return first_line
|
||||
|
||||
def extract_tags(self, content):
|
||||
"""提取内容的标签"""
|
||||
# 使用结巴分词提取关键词作为标签
|
||||
|
||||
@ -1,37 +1,71 @@
|
||||
# -*- coding: utf-8 -*-
|
||||
"""测试数据模块"""
|
||||
|
||||
# 带文件名和多余换行符的内容
|
||||
CONTENT_WITH_FILENAME = """captured_text_20250115_220948
|
||||
CONTENT_WITH_FILENAME = """这篇文章是一篇关于自然语言处理(NLP)和人工智能(AI)技术演进的讨论
|
||||
captured_text_20250115_220948
|
||||
|
||||
这篇文章是一篇关于自然语言处理(NLP)和人工智能(AI)技术演进的讨论
|
||||
自然语言处理技术在近年来取得了巨大的进展。从最初的规则基础系统,到现在的深度学习模型,NLP技术已经可以完成越来越复杂的任务。
|
||||
|
||||
特别是在以下几个方面:
|
||||
1. 机器翻译
|
||||
2. 文本分类
|
||||
3. 情感分析
|
||||
4. 问答系统
|
||||
|
||||
文章概要
|
||||
|
||||
|
||||
• 讨论了从传统的RAG技术到Graph RAG的技术演进
|
||||
|
||||
• 基于RAG的三个基本阶段(索引、检索、生成)抽象出通用的RAG框架,支持多种索引形式(向量、图、全文)
|
||||
|
||||
• 探讨了Graph RAG未来的优化方向,包括内容索引和检索生成阶段的改进思路
|
||||
|
||||
• 提到了RAG技术可能向智能体(Agent)架构演进的趋势"""
|
||||
这些进展使得AI技术在实际应用中发挥着越来越重要的作用。"""
|
||||
|
||||
# 带数字编号的内容
|
||||
NUMBERED_CONTENT = """1. 引言
|
||||
NUMBERED_CONTENT = """1. 自然语言处理是人工智能的重要分支
|
||||
|
||||
2. 技术背景
|
||||
|
||||
3. 主要内容
|
||||
自然语言处理是人工智能的重要分支
|
||||
|
||||
4. 结论"""
|
||||
自然语言处理(NLP)是人工智能和语言学的重要分支,主要研究人与计算机之间使用自然语言进行有效通信的各种理论和方法。"""
|
||||
|
||||
# 长标题内容
|
||||
LONG_TITLE_CONTENT = """这是一个非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常长的标题,这是第二句话。
|
||||
LONG_TITLE_CONTENT = """这是一个非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常的标题,是第二句话。
|
||||
|
||||
这是正文内容。"""
|
||||
|
||||
# RAG内容
|
||||
RAG_CONTENT = """captured_text_20250115_222744
|
||||
|
||||
提到了RAG技术可能向智能体(Agent)架构演进的趋势
|
||||
|
||||
RAG(检索增强生成)技术正在朝着更智能的方向发展。通过将检索系统与大语言模型结合,RAG不仅能提供更准确的信息,还可能演变成一个具有主动学习和决策能力的智能体系统。
|
||||
|
||||
主要发展方向包括:
|
||||
1. 动态知识更新
|
||||
2. 多模态信息融合
|
||||
3. 上下文感知
|
||||
4. 自主决策能力
|
||||
|
||||
这种演进将使AI系统具备更强的实用性和适应性。"""
|
||||
|
||||
# 多余换行符的内容
|
||||
EXTRA_NEWLINES_CONTENT = """第一段内容
|
||||
|
||||
|
||||
|
||||
|
||||
第二段内容
|
||||
|
||||
|
||||
第三段内容
|
||||
|
||||
|
||||
|
||||
第四段内容"""
|
||||
|
||||
# 带概要标记的内容
|
||||
SUMMARY_CONTENT = """文章概要:
|
||||
这是一篇关于人工智能发展的文章
|
||||
|
||||
人工智能技术在近年来发展迅速,特别是在深度学习领域取得了突破性进展。"""
|
||||
|
||||
# 带标点符号的标题内容
|
||||
PUNCTUATION_TITLE_CONTENT = """人工智能的发展趋势,从规则到深度学习,再到大语言模型!这是一个激动人心的历程。
|
||||
|
||||
人工智能技术经历了几个重要的发展阶段..."""
|
||||
|
||||
# 普通文本内容
|
||||
PLAIN_TEXT = """这是一个测试文本
|
||||
它包含多行内容
|
||||
|
||||
@ -1,5 +1,29 @@
|
||||
# -*- coding: utf-8 -*-
|
||||
"""文档处理器测试模块"""
|
||||
import unittest
|
||||
import sys
|
||||
import os
|
||||
import logging
|
||||
|
||||
# 配置测试日志记录
|
||||
logger = logging.getLogger(__name__)
|
||||
logger.setLevel(logging.DEBUG)
|
||||
|
||||
# 确保 stdout 使用 UTF-8 编码
|
||||
if hasattr(sys.stdout, 'reconfigure'):
|
||||
sys.stdout.reconfigure(encoding='utf-8')
|
||||
|
||||
# 创建控制台处理器
|
||||
console_handler = logging.StreamHandler(sys.stdout)
|
||||
console_handler.setLevel(logging.DEBUG)
|
||||
|
||||
# 创建格式化器
|
||||
formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
|
||||
console_handler.setFormatter(formatter)
|
||||
|
||||
# 将处理器添加到记录器
|
||||
logger.addHandler(console_handler)
|
||||
|
||||
from ..document_processor import DocumentProcessor
|
||||
from . import test_data
|
||||
|
||||
@ -13,6 +37,7 @@ class TestDocumentProcessor(unittest.TestCase):
|
||||
def test_extract_title_with_filename(self):
|
||||
"""测试从带文件名的内容中提取标题"""
|
||||
title = self.processor.extract_title(test_data.CONTENT_WITH_FILENAME)
|
||||
logger.info("从带文件名的内容提取的标题: %s", title)
|
||||
self.assertEqual(
|
||||
title,
|
||||
"这篇文章是一篇关于自然语言处理(NLP)和人工智能(AI)技术演进的讨论"
|
||||
@ -21,30 +46,52 @@ class TestDocumentProcessor(unittest.TestCase):
|
||||
def test_extract_title_from_numbered_content(self):
|
||||
"""测试从带数字编号的内容中提取标题"""
|
||||
title = self.processor.extract_title(test_data.NUMBERED_CONTENT)
|
||||
self.assertEqual(title, "自然语言处理是人工智能的重要分支")
|
||||
logger.info("从带数字编号的内容提取的标题: %s", title)
|
||||
self.assertEqual(title, "自然语言处理(NLP)是人工智能和语言学的重要分支")
|
||||
|
||||
def test_extract_title_from_long_content(self):
|
||||
"""测试从长标题内容中提取标题"""
|
||||
title = self.processor.extract_title(test_data.LONG_TITLE_CONTENT)
|
||||
print(f"\n实际标题: '{title}'") # 打印实际标题
|
||||
print(f"标题长度: {len(title)}") # 打印标题长度
|
||||
logger.info("从长标题内容提取的标题: %s", title)
|
||||
self.assertTrue(len(title) <= 50)
|
||||
# 检查是否包含原始内容的开头部分
|
||||
self.assertTrue(title.startswith("这是一个非常"))
|
||||
# 检查是否正确截断
|
||||
self.assertTrue(title.endswith('...'))
|
||||
|
||||
def test_extract_title_from_rag_content(self):
|
||||
"""测试从RAG内容中提取标题"""
|
||||
title = self.processor.extract_title(test_data.RAG_CONTENT)
|
||||
logger.info("从RAG内容提取的标题: %s", title)
|
||||
self.assertEqual(title, "提到了RAG技术可能向智能体(Agent)架构演进的趋势")
|
||||
|
||||
def test_extract_title_from_summary_content(self):
|
||||
"""测试从带概要标记的内容中提取标题"""
|
||||
title = self.processor.extract_title(test_data.SUMMARY_CONTENT)
|
||||
logger.info("从带概要标记的内容提取的标题: %s", title)
|
||||
self.assertEqual(title, "这是一篇关于人工智能发展的文章")
|
||||
|
||||
def test_extract_title_from_punctuation_content(self):
|
||||
"""测试从带标点符号的标题内容中提取标题"""
|
||||
title = self.processor.extract_title(test_data.PUNCTUATION_TITLE_CONTENT)
|
||||
logger.info("从带标点符号的标题内容提取的标题: %s", title)
|
||||
self.assertEqual(title, "人工智能的发展趋势")
|
||||
|
||||
def test_clean_content_with_filename(self):
|
||||
"""测试清理带文件名的内容"""
|
||||
content = self.processor.clean_content(test_data.CONTENT_WITH_FILENAME)
|
||||
logger.info("清理后的内容长度: %d", len(content))
|
||||
logger.info("清理后的内容换行符数量: %d", content.count('\n'))
|
||||
self.assertFalse('captured_text_' in content)
|
||||
self.assertEqual(content.count('\n\n'), 5) # 检查段落分隔
|
||||
self.assertEqual(content.count('\n\n'), 2) # 检查段落分隔
|
||||
|
||||
def test_clean_content_with_extra_newlines(self):
|
||||
"""测试清理带多余换行符的内容"""
|
||||
content = "第一段\n\n\n\n第二段\n\n\n\n\n第三段"
|
||||
cleaned = self.processor.clean_content(content)
|
||||
self.assertEqual(cleaned, "第一段\n\n第二段\n\n第三段")
|
||||
content = self.processor.clean_content(test_data.EXTRA_NEWLINES_CONTENT)
|
||||
logger.info("清理多余换行符后的内容: %s", content)
|
||||
logger.info("清理后的换行符数量: %d", content.count('\n'))
|
||||
expected = "第一段内容\n\n第二段内容\n\n第三段内容\n\n第四段内容"
|
||||
self.assertEqual(content, expected)
|
||||
|
||||
def test_empty_content(self):
|
||||
"""测试空内容处理"""
|
||||
@ -55,9 +102,9 @@ class TestDocumentProcessor(unittest.TestCase):
|
||||
|
||||
def test_whitespace_content(self):
|
||||
"""测试空白内容处理"""
|
||||
title = self.processor.extract_title(" \n \t \n ")
|
||||
title = self.processor.extract_title(" \n \t ")
|
||||
self.assertEqual(title, "未命名笔记")
|
||||
content = self.processor.clean_content(" \n \t \n ")
|
||||
content = self.processor.clean_content(" \n \t ")
|
||||
self.assertEqual(content, "")
|
||||
|
||||
if __name__ == '__main__':
|
||||
|
||||
Loading…
Reference in New Issue
Block a user