Markdown SEO Frontmatter 批量生成器

📖 脚本介绍#

此时此刻，Astro 框架 正受到广泛关注，此脚本正是为那些 Obsidian、Typera 及本地 Markdown 文档 用户设计的批量 SEO Frontmatter 生成与文章分类整理工具的增强版本。它能够将本地笔记批量转换为适配 Astro 静态网站 并兼容 Firefly 主题 的标准格式，实现从笔记到博客的无缝迁移。

脚本通过本地 AI 服务（支持 Ollama、LM Studio 等 OpenAI API 兼容服务）实现智能化文章分类和 SEO 属性生成，大幅提升内容整理效率。

✨ 核心功能特性#

1. 智能文章分类#

自动分类模式：使用本地 AI 模型分析文章内容，自动归类到预定义目录
严谨分类逻辑：采用专用的低温度配置（0.01）确保分类结果准确一致
格式严格校验：增强提示词确保 AI 输出标准分类名称

2. SEO Frontmatter 自动生成#

完整属性生成：自动生成 title、description、tags、slug、image、published、updated 等必要字段。（image 作为Astro Firefly 主题的封面变量，可按需配置使用二次元随机API或自定义封面图片地址）
SEO 优化规则：
- 标题：基于爆款标题公式，包含相关 Emoji
- 描述：疑问句式 + 解决方案，80-100字，包含核心关键词
- 标签：三层标签法（赛道/行业 + 内容深度/方法论 + 核心术语/SEO关键词）
- Slug：英文小写单词连接，14个单词以内，无中文字符

3. 灵活的更新模式#

全局更新模式：重写所有文件的 Frontmatter
增量更新模式：仅补全缺失的 Frontmatter 字段
字段保留规则：
- 智能保留有效的 published 日期
- 强制更新 updated 字段为当前日期
- 符合格式要求的 slug 字段默认保留（避免 URL 变化）

4. 目录管理功能#

自动文件整理：按分类移动文件到对应目录
空目录清理：自动清理移动后产生的空目录
跨平台兼容：支持 macOS、Windows、Linux 系统文件忽略

5. 高度可配置#

支持自定义分类列表
可调节 AI 温度参数（分类与 SEO 生成使用不同温度）
多种日期模式选择
灵活的更新策略配置

⚙️ 环境要求#

此脚本仅需 Python 标准库，无需额外安装任何第三方包！

基础环境#

Python 3.7+
网络连接（用于访问本地 AI 服务）

AI 服务要求#

本地 AI 服务：Ollama、LM Studio 或其他兼容 OpenAI API 的服务
模型建议：支持中文的模型，如 qwen3-vl-30b-a3b-instruct-mlx （思考推理模型效果更好，但速度较慢。请按需配置模型，若笔记不敏感强烈建议还是使用平台的API 是更高效的方式。）
服务地址：http://localhost:1234/v1/chat/completions（可自定义）

操作系统#

✅ macOS
✅ Windows
✅ Linux

💻 脚本源码#

完整复制下方代码，并保存命名为 obsdian-seo-plus-enhanced.py 文件

1
#!/usr/bin/env python3
2
"""
3
增强版 Obsidian SEO Frontmatter 生成与文章分类整理脚本
4

5
功能：
6
1. 扫描指定目录下的所有Markdown文件
7
2. 可选模式：自动分类整理（使用AI分类并移动文件）或默认模式（使用目录名作为分类）
8
3. 为文章生成SEO优化的Frontmatter属性（title, description, tags, slug, image, published等）
9
4. 支持全局更新和增量更新模式
10
5. 自动清理空目录
11

12
配置说明：
13
- 根据需求修改下面的配置区域
14
- ORGANIZE_MODE 控制目录整理模式：'auto'（自动分类整理）或 'default'（使用目录名作为分类）
15
- UPDATE_MODE 控制Frontmatter更新模式：'global'（全局重写）或 'incremental'（增量补全）
16

17
重要说明：
18
- updated字段强制更新：不管是增量更新还是全局更新，updated字段都会被更新为当前日期
19
- slug字段默认保留：如果slug符合格式要求（只包含英文小写字母、数字和连字符），则保留原值
20
"""
21

22
import argparse
23
import json
24
import os
25
import random
26
import re
27
import shutil
28
import urllib.error
29
import urllib.request
30
from datetime import datetime, timedelta
31

32
# ==================== 配置区域 ====================
33
# 注意：以下配置项需要根据你的实际情况进行修改
34

35
# --- AI API 配置 ---
36
API_URL = "http://localhost:1234/v1/chat/completions"  # 本地AI服务地址，支持Ollama、LM Studio等兼容OpenAI API的服务
37
MODEL_NAME = "qwen3-vl-30b-a3b-instruct-mlx"  # 模型名称，根据你的本地模型修改
38
TEMPERATURE = 0.3  # SEO生成温度配置 (0.0 - 1.0)，值越高输出越随机，值越低输出越确定
39
CLASSIFY_TEMPERATURE = 0.01  # 分类专用温度配置，较低的值使分类更确定
40

41
# --- 目录路径配置 ---
42
SOURCE_DIR = "./WEBNOTE"  # 请确认你的笔记根目录，支持相对路径或绝对路径
43

44
# --- 目录整理模式配置 ---
45
# 可选模式：
46
# 1. "auto": 自动分类整理模式 - 使用AI对文章进行分类，并移动到对应分类目录
47
# 2. "default": 默认模式 - 使用文件所在目录名作为分类，不移动文件
48
ORGANIZE_MODE = "auto"  # 可切换为 "auto" 或 "default"
49

50
# 当 ORGANIZE_MODE 为 "auto" 时，需要配置以下分类列表
51
CATEGORIES = [
52
    "Astro教程",
53
    "AI实验室",
54
    "NAS私有云",
55
    "私有化部署",
56
    "虚拟化与运维",
57
    "网络与安全",
58
    "硬件教程",
59
    "增长与SEO",
60
    "认知与成长",
61
    "光影与生活",
62
    "未分类",
63
]
64

65
# 系统提示词：指导AI进行分类
66
# 提示词质量直接影响分类准确性
67
# 可以调整提示词以更好地适应你的分类需求
68
SYSTEM_PROMPT = f"""你是一位专业的数字内容管理专家（博客整理专家）。请分析文章内容，从下列分类列表中选出最匹配的一个目录。
69

70
**核心原则**：根据文章的主体、目的和最终交付物三个维度最终确定分类列表中最匹配的分类。
71

72
**模糊判断**：当有疑问时，问自己：“这篇文章让读者学到什么？”
73
- 想教会读者**做一件事** → 技术/工具类目录。
74
- 想启发读者**思考一件事** → 内容/认知类目录。
75

76
**格式要求（严格遵守）**：
77
1. 输出必须完全匹配分类列表中的完整名称，不能添加、删除或修改任何字符
78
2. 输出前后不能有任何空格、标点、引号、括号或其他字符
79
3. 只能输出单个分类名称，不能有"分类："、"目录："等前缀
80
4. 如果文章内容无法匹配下列任何分类，必须严格输出"未分类"三个字
81

82
**输出示例（正确格式）**：
83
AI实验室
84
光影与生活
85
Astro教程
86

87
**错误格式示例（避免）**：
88
分类：AI实验室 （错误：包含前缀）
89
AI实验室。 （错误：包含标点）
90
  AI实验室   （错误：包含空格）
91
AI实验室, 虚拟化与运维 （错误：多个分类）
92

93
**分类决策流程**：
94
1. 阅读文章标题和内容
95
2. 对照分类列表，思考每个分类的定义
96
3. 选择最匹配的分类（即使不完全匹配，也选择最接近的）
97
4. 如果完全无法匹配，输出"未分类"
98

99
分类列表：{", ".join(CATEGORIES)}"""
100

101
# --- 日期模式配置 ---
102
# 可选模式：
103
# 1. "fixed": 使用固定的自定义日期（格式如2026-01-10）
104
# 2. "random_year": 使用当前日期近一年的随机任意一天（格式如2025-02-10）
105
# 3. "current": 使用当前日期
106
DATE_MODE = "current"  # 可切换为 "fixed" 或 "random_year"
107
FIXED_DATE = "2026-01-10"  # 当 DATE_MODE 为 "fixed" 时使用
108

109
# --- 更新模式配置 ---
110
UPDATE_MODE = "global"  # 可切换为 "global" 或 "incremental"
111

112
# --- 清理配置 ---
113
# 忽略的文件模式：这些文件不会被计入目录是否为空的条件
114
# 当清理空目录时，这些文件将被忽略，不会阻止目录被删除
115
IGNORE_PATTERNS = [
116
    # macOS 系统文件（访达自动生成）
117
    ".DS_Store",
118
    "._.DS_Store",
119
    ".localized",
120
    ".Spotlight-V100",
121
    ".Trashes",
122
    ".fseventsd",
123
    "._*",
124
    # Windows 系统文件（资源管理器自动生成）
125
    "Thumbs.db",
126
    "ehthumbs.db",
127
    "desktop.ini",
128
    # Linux 系统文件（某些桌面环境自动生成）
129
    ".directory",
130
    ".Trash-*",
131
    # 通用临时文件
132
    "*~",
133
    "*.tmp",
134
    "*.temp",
135
    "~*",
136
    "*.bak",
137
    # 版本控制文件
138
    ".gitkeep",
139
    ".gitignore",
140
]
141

142
# 忽略的目录列表：这些目录及其子目录将被跳过，不进行处理
143
IGNORE_DIRS = [
144
    # Windows 系统目录
145
    "$RECYCLE.BIN",
146
    "System Volume Information",
147
    # macOS 系统目录
148
    ".TemporaryItems",
149
    ".DocumentRevisions-V100",
150
    ".fseventsd",
151
    ".Spotlight-V100",
152
    ".Trashes",
153
    # Linux 系统目录
154
    ".lost+found",
155
    ".Trash-*",
156
]
157

158
# 调试模式：控制清理过程中的详细输出
159
DEBUG_MODE = False
160

161
# ==================== 工具函数 ====================
162

163

164
def should_ignore_file(filename):
165
    """检查文件是否应该被忽略（不参与空目录判断）"""
166
    import fnmatch
167

168
    # 转换为小写以进行不区分大小写的匹配
169
    filename_lower = filename.lower()
170

171
    for pattern in IGNORE_PATTERNS:
172
        # 将模式转换为小写（保留通配符）
173
        pattern_lower = pattern.lower()
174

175
        # 支持通配符匹配（不区分大小写）
176
        if fnmatch.fnmatch(filename_lower, pattern_lower):
177
            return True
178
        # 向后兼容：如果模式没有通配符，检查开头或结尾
179
        if "*" not in pattern:
180
            if filename_lower.startswith(pattern_lower) or filename_lower.endswith(
181
                pattern_lower
182
            ):
183
                return True
184
    return False
185

186

187
def should_ignore_directory(dir_path):
188
    """
189
    检查目录是否应该被忽略
190

191
    参数:
192
        dir_path: 目录路径
193

194
    返回:
195
        True如果目录在忽略列表中，否则False
196
    """
197
    import fnmatch
198
    import os.path
199

200
    if not IGNORE_DIRS:
201
        return False
202

203
    # 获取目录的绝对路径
204
    abs_dir = os.path.abspath(dir_path)
205
    # 规范化路径大小写（Windows不区分大小写）
206
    abs_dir_norm = os.path.normcase(abs_dir)
207

208
    for ignore_pattern in IGNORE_DIRS:
209
        # 处理绝对路径模式
210
        if os.path.isabs(ignore_pattern):
211
            abs_ignore = ignore_pattern
212
        else:
213
            # 相对路径是相对于SOURCE_DIR
214
            abs_ignore = os.path.abspath(os.path.join(SOURCE_DIR, ignore_pattern))
215

216
        # 规范化忽略路径大小写
217
        abs_ignore_norm = os.path.normcase(abs_ignore)
218

219
        # 检查模式是否包含通配符
220
        if "*" in ignore_pattern or "?" in ignore_pattern or "[" in ignore_pattern:
221
            # 使用通配符匹配
222
            if fnmatch.fnmatch(abs_dir_norm, abs_ignore_norm):
223
                return True
224
            # 也检查目录是否以模式开头（对于目录通配符）
225
            if abs_ignore_norm.endswith("*"):
226
                pattern_base = abs_ignore_norm.rstrip("*")
227
                if abs_dir_norm.startswith(pattern_base):
228
                    return True
229
        else:
230
            # 无通配符，使用前缀匹配
231
            if abs_dir_norm.startswith(abs_ignore_norm):
232
                return True
233

234
    return False
235

236

237
def get_current_date():
238
    """根据 DATE_MODE 配置获取当前日期"""
239
    if DATE_MODE == "fixed":
240
        return FIXED_DATE
241
    elif DATE_MODE == "random_year":
242
        # 生成当前日期近一年内的随机日期
243
        end_date = datetime.now()
244
        start_date = end_date - timedelta(days=365)
245

246
        # 计算两个日期之间的天数差
247
        days_diff = (end_date - start_date).days
248

249
        # 生成随机天数偏移
250
        random_days = random.randint(0, days_diff)
251

252
        # 计算随机日期
253
        random_date = start_date + timedelta(days=random_days)
254

255
        # 格式化为 YYYY-MM-DD
256
        return random_date.strftime("%Y-%m-%d")
257
    elif DATE_MODE == "current":
258
        # 返回当前日期
259
        return datetime.now().strftime("%Y-%m-%d")
260
    else:
261
        # 默认返回当前日期（兼容旧配置）
262
        return datetime.now().strftime("%Y-%m-%d")
263

264

265
def validate_published(published_str):
266
    """验证published字段格式是否符合YYYY-MM-DD规范"""
267
    if not published_str:
268
        return False
269
    # 正则匹配YYYY-MM-DD格式
270
    pattern = r"^\d{4}-\d{2}-\d{2}$"
271
    return bool(re.match(pattern, published_str))
272

273

274
def clean_slug_text(slug_value):
275
    """清理slug值，移除所有非字母数字字符，只保留英文、数字和连字符"""
276
    if not slug_value:
277
        return slug_value
278

279
    import re
280

281
    # 转换为小写
282
    cleaned = slug_value.lower()
283

284
    # 将所有非字母数字字符（a-z0-9）替换为连字符
285
    cleaned = re.sub(r"[^a-z0-9]+", "-", cleaned)
286

287
    # 移除重复的连字符
288
    cleaned = re.sub(r"-+", "-", cleaned)
289

290
    # 移除开头和结尾的连字符
291
    cleaned = cleaned.strip("-")
292

293
    return cleaned
294

295

296
def extract_and_clean_slug(frontmatter_text, filename=None):
297
    """从Frontmatter文本中提取并清理slug值，如果清理后的slug不理想则基于文件名生成后备slug"""
298
    if not frontmatter_text:
299
        return frontmatter_text
300

301
    import re
302

303
    # 查找slug: "value" 或 slug: value 格式
304
    pattern = r'(slug:\s*["\']?)([^"\'\n]+)(["\']?)'
305
    match = re.search(pattern, frontmatter_text, re.IGNORECASE)
306

307
    if not match:
308
        return frontmatter_text
309

310
    full_match = match.group(0)
311
    prefix = match.group(1)
312
    slug_value = match.group(2)
313
    suffix = match.group(3)
314

315
    # 清理slug值
316
    cleaned_slug = clean_slug_text(slug_value)
317

318
    # 检查清理后的slug质量
319
    # 如果slug太短（少于3个字符）或者不包含字母，则使用后备方案
320
    if (
321
        not cleaned_slug
322
        or len(cleaned_slug) < 3
323
        or not re.search(r"[a-z]", cleaned_slug)
324
    ):
325
        # 基于文件名生成后备slug
326
        if filename:
327
            base_name = os.path.splitext(filename)[0]
328
            cleaned_slug = clean_slug_text(base_name)
329
            # 如果文件名清理后仍然不理想，使用通用后备
330
            if (
331
                not cleaned_slug
332
                or len(cleaned_slug) < 3
333
                or not re.search(r"[a-z]", cleaned_slug)
334
            ):
335
                cleaned_slug = "article-" + clean_slug_text(base_name)
336
        else:
337
            cleaned_slug = "article-slug"
338

339
    # 如果清理后的slug与原始相同，返回原始文本
340
    if cleaned_slug == slug_value:
341
        return frontmatter_text
342

343
    new_slug_line = f'slug: "{cleaned_slug}"'
344
    cleaned_frontmatter = frontmatter_text.replace(full_match, new_slug_line)
345

346
    return cleaned_frontmatter
347

348

349
def extract_published_from_frontmatter(fm_text):
350
    """从Frontmatter文本中提取published值"""
351
    if not fm_text:
352
        return None
353
    # 匹配 published: YYYY-MM-DD 格式，支持前后空格和不同大小写
354
    pattern = r"published:\s*([^\s\n]+)"
355
    match = re.search(pattern, fm_text, re.IGNORECASE)
356
    if match:
357
        return match.group(1).strip()
358
    return None
359

360

361
def extract_slug_from_frontmatter(fm_text):
362
    """从Frontmatter文本中提取slug值"""
363
    if not fm_text:
364
        return None
365
    # 匹配 slug: value 格式，支持引号
366
    pattern = r'slug:\s*["\']?([^"\'\n]+)["\']?'
367
    match = re.search(pattern, fm_text, re.IGNORECASE)
368
    if match:
369
        return match.group(1).strip()
370
    return None
371

372

373
def validate_slug(slug_value):
374
    """验证slug是否符合格式要求：只包含英文小写字母、数字和连字符"""
375
    if not slug_value:
376
        return False
377
    # 正则匹配：只允许小写字母、数字和连字符
378
    # 格式要求：不能为空，不能以连字符开头或结尾，不能有连续连字符
379
    pattern = r"^[a-z0-9]+(?:-[a-z0-9]+)*$"
380
    return bool(re.match(pattern, slug_value))
381

382

383
def call_classify_ai(title, content):
384
    """
385
    调用本地AI API获取文章分类（用于自动分类模式）
386

387
    参数:
388
        title: 文章标题
389
        content: 文章内容
390

391
    返回:
392
        分类名称或None（调用失败时）
393
    """
394
    payload = {
395
        "model": MODEL_NAME,
396
        "messages": [
397
            {"role": "system", "content": SYSTEM_PROMPT},
398
            {"role": "user", "content": f"标题：{title}\n内容片段：{content[:800]}"},
399
        ],
400
        "temperature": CLASSIFY_TEMPERATURE,
401
    }
402
    try:
403
        req = urllib.request.Request(
404
            API_URL,
405
            data=json.dumps(payload).encode("utf-8"),
406
            headers={"Content-Type": "application/json"},
407
        )
408
        with urllib.request.urlopen(req, timeout=300) as response:
409
            res = json.loads(response.read().decode("utf-8"))
410
            ans = res["choices"][0]["message"]["content"].strip()
411
            # 确保返回的分类在预定义列表中
412
            for c in CATEGORIES:
413
                if c in ans:
414
                    return c
415
            # 如果返回的分类不在列表中，返回None
416
            return None
417
    except Exception as e:
418
        print(f"⚠️  分类AI调用失败: {e}")
419
        return None
420

421

422
def get_seo_frontmatter_ai(filename, category, content):
423
    """调用 AI 生成符合新规则的 Frontmatter"""
424
    clean_filename = filename.replace(".md", "")
425
    current_date = get_current_date()
426

427
    # 构造强化后的 Prompt
428
    prompt = f"""请为这篇文章生成 YAML Frontmatter 属性。
429

430
 【属性生成规则】
431
 1. title:
432
    - 基于"爆款标题公式"生成。
433
    - 要求更吸引人、符合 SEO，30字以内。
434
    - 标题禁止包含 Emoji。
435
 2. description:
436
    - 基于"用户关注点（疑问句式+解决方案）"生成。
437
    - 长度在 80-100 字左右，单行文本。
438
    - 必须包含文章核心关键词（即下方的 tags）。
439
3. tags:
440
    - 请阅读文章内容，并严格按照“三层标签法”生成 3 个准确、简洁且具备高检索权重的标签。
441
    - 第一层：所属赛道/行业（指明文章的宏观归属，如：自媒体运营、职场干货）。
442
    - 第二层：内容深度/方法论（提炼文章的交付属性，如：实战复盘、避坑指南、底层逻辑）。
443
    - 第三层：核心术语/SEO关键词（锁定高频搜索的专有名词，如：SEO优化、私域引流、AI绘画）。
444
    - 分析文章的核心受众和搜索意图，最终提取最符合上述三层定义的标签。
445
    - 每个标签必须确保有且只有一个唯一的标签词。
446
    - 每个标签的长度需控制在 **2-6个汉字** 或 **3个英文单词以内**。
447
    - 标签可以使用纯中文、纯英文或中英混合。
448
    - **命名规则**：字符串内绝对禁止使用空格。所有特殊字符（包括空格）均用连字符“-”替换。
449
    - **输出格式**：必须严格按照 YAML 列表格式输出。
450
        - 每个标签单独一行，并以“- ”开头。
451
        - 禁止：逗号分隔列表（如 "标签1, 标签2"）或井号标签（如 #标签 ）格式。
452
 4. slug:
453
    - 先读取文章标题，然后严格按要求使用14个以内的小写英文单词，来概括优化后的title（标题），词间用"-"连接，不允许空格。
454
    - slug值必须只包含英文小写字母(a-z)、数字(0-9)和连字符(-)，绝对禁止使用任何中文字符、特殊字符或其他语言字符。
455
    - 绝对禁止使用中文字符，任何非英文字符都必须被转换为连字符或完全移除。
456
    - slug必须描述文章核心内容，让读者从slug就能理解文章主题。
457
    - 示例：对于中文标题"电影《垫底辣妹》的励志教育启示"，slug应为："bottom-girl-movie-inspirational-education-insights"
458
    - 示例：对于标题"0基础注册公众号避坑指南"，slug应为："wechat-official-account-registration-beginner-guide-avoid-pitfalls"
459
 5. image:
460
    - 固定值为"api"。
461
 6. published:
462
    - 格式为 YYYY-MM-DD（例如：2025-01-14）。
463

464
 【格式示例】
465
title: "独立开发者英文 SEO 站 0-1 变现全流程 SOP"
466
description: "如何通过SEO小站实现被动收入？本文详细拆解独立开发者Leo在9个月内从0赚到4万美金的实战SOP，提供从关键词挖掘到外链建设的全流程方案，助你快速跑通变现闭环。"
467
category: {category}
468
tags:
469
  - 自媒体运营
470
  - 实战复盘
471
  - SEO优化
472
slug: "leo-seo-site-0-to-40k-in-9-months"
473
注意：这是正确的slug格式示例，必须严格遵守。
474
注意：tags必须严格按照上述YAML列表格式输出，每个标签以"- "开头，禁止使用逗号分隔或井号标签格式。
475
image: "api"
476
published: 2025-01-14
477

478
 【当前任务】
479
文件名: {clean_filename}
480
所属分类: {category}
481
文章摘要: {content[:1500]}
482

483
请严格按照属性生成规则和示例的顺序（title, description, category, tags, slug, image, published）只输出 YAML 键值对，严禁包含 ```yaml 或 ``` 等标记。"""
484

485
    payload = {
486
        "model": MODEL_NAME,
487
        "messages": [{"role": "user", "content": prompt}],
488
        "temperature": TEMPERATURE,
489
    }
490

491
    data = json.dumps(payload).encode("utf-8")
492
    req = urllib.request.Request(API_URL, data=data)
493
    req.add_header("Content-Type", "application/json")
494

495
    try:
496
        with urllib.request.urlopen(req, timeout=300) as response:
497
            result = json.loads(response.read().decode("utf-8"))
498
            raw_content = result["choices"][0]["message"]["content"].strip()
499
            # 过滤掉可能出现的 Markdown 包裹符
500
            return raw_content.replace("```yaml", "").replace("```", "").strip()
501
    except Exception as e:
502
        print(f"❌ SEO Frontmatter AI请求失败 ({filename}): {e}")
503
        return None
504

505

506
# ==================== 目录整理相关函数 ====================
507

508

509
def delete_ignore_files(dir_path, remove_empty_subdirs=True):
510
    """
511
    删除目录中的忽略文件
512

513
    参数:
514
        dir_path: 目录路径
515
        remove_empty_subdirs: 是否删除删除忽略文件后变成空的子目录
516

517
    返回:
518
        删除的文件数量
519
    """
520
    if not os.path.isdir(dir_path):
521
        return 0
522

523
    # 检查目录是否在忽略列表中
524
    if should_ignore_directory(dir_path):
525
        return 0
526

527
    deleted_count = 0
528
    try:
529
        items = os.listdir(dir_path)
530
        for item in items:
531
            if should_ignore_file(item):
532
                item_path = os.path.join(dir_path, item)
533
                try:
534
                    if os.path.isfile(item_path):
535
                        os.remove(item_path)
536
                        if DEBUG_MODE:
537
                            print(f"🗑️  删除忽略文件: {item_path}")
538
                        deleted_count += 1
539
                    elif os.path.isdir(item_path):
540
                        # 如果是目录，递归处理忽略文件
541
                        deleted_count += delete_ignore_files(
542
                            item_path, remove_empty_subdirs
543
                        )
544
                        # 删除空目录（如果删除忽略文件后目录变空）
545
                        if remove_empty_subdirs and is_directory_empty(item_path):
546
                            try:
547
                                os.rmdir(item_path)
548
                                if DEBUG_MODE:
549
                                    print(f"🗑️  删除空子目录: {item_path}")
550
                            except Exception as e:
551
                                print(f"⚠️  无法删除空子目录 {item_path}: {e}")
552
                except Exception as e:
553
                    print(f"⚠️  无法删除 {item_path}: {e}")
554
    except Exception as e:
555
        print(f"⚠️  无法访问目录 {dir_path}: {e}")
556

557
    return deleted_count
558

559

560
def is_directory_empty(dir_path):
561
    """
562
    检查目录是否为空（包括只包含忽略文件的目录）
563

564
    参数:
565
        dir_path: 目录路径
566

567
    返回:
568
        True如果目录为空或只包含忽略的文件/空子目录，否则False
569
    """
570
    if not os.path.isdir(dir_path):
571
        return False
572

573
    try:
574
        items = os.listdir(dir_path)
575
        # 调试日志
576
        if DEBUG_MODE:
577
            print(f"🔍 检查目录: {dir_path}")
578
            print(f"   目录内容: {items}")
579

580
        # 过滤忽略的文件
581
        filtered_items = [item for item in items if not should_ignore_file(item)]
582
        if DEBUG_MODE:
583
            print(f"   过滤后内容: {filtered_items}")
584

585
        # 递归检查每个项目
586
        for item in items:
587
            if should_ignore_file(item):
588
                if DEBUG_MODE:
589
                    print(f"   忽略文件: {item}")
590
                continue
591

592
            item_path = os.path.join(dir_path, item)
593
            if os.path.isdir(item_path):
594
                # 递归检查子目录是否为空
595
                if not is_directory_empty(item_path):
596
                    return False
597
            else:
598
                # 发现非忽略文件
599
                if DEBUG_MODE:
600
                    print(f"   发现非忽略文件: {item}")
601
                return False
602
        return True
603
    except OSError:
604
        return False
605

606

607
def remove_empty_dirs(root_path):
608
    """
609
    深度优先递归清理空目录（包括只包含忽略文件的目录）
610

611
    参数:
612
        root_path: 起始目录路径
613
    """
614
    if DEBUG_MODE:
615
        print(f"\n🧹 开始递归清理空目录树: {root_path}")
616

617
    # 首先删除所有忽略文件
618
    if DEBUG_MODE:
619
        print("🔍 搜索并删除忽略文件...")
620
    total_ignored_files = delete_ignore_files(root_path, True)
621
    if total_ignored_files > 0:
622
        print(f"🗑️  删除了 {total_ignored_files} 个系统文件")
623

624
    cleaned_dirs = 0
625
    errors = []
626

627
    # 使用后序遍历（深度优先）确保先处理子目录
628
    for dirpath, dirnames, filenames in os.walk(root_path, topdown=False):
629
        # 检查目录是否在忽略列表中
630
        if should_ignore_directory(dirpath):
631
            continue
632

633
        # 再次删除该目录中的忽略文件（处理可能新发现的）
634
        deleted = delete_ignore_files(dirpath, False)
635
        if DEBUG_MODE and deleted > 0:
636
            print(f"   在 {dirpath} 中删除了 {deleted} 个忽略文件")
637

638
        if DEBUG_MODE:
639
            # 调试日志
640
            print(f"\n📁 处理目录: {dirpath}")
641
            print(f"   子目录: {dirnames}")
642
            print(f"   文件: {filenames}")
643

644
        # 检查当前目录是否为空（考虑忽略的文件）
645
        if is_directory_empty(dirpath):
646
            # 确保不是源目录本身
647
            if os.path.abspath(dirpath) != os.path.abspath(root_path):
648
                # 重试机制：最多尝试3次
649
                max_retries = 3
650
                for attempt in range(max_retries):
651
                    try:
652
                        os.rmdir(dirpath)
653
                        print(f"🗑️  清理空目录: {dirpath}")
654
                        cleaned_dirs += 1
655
                        break  # 成功则跳出重试循环
656
                    except OSError as e:
657
                        if attempt < max_retries - 1:
658
                            # 不是最后一次尝试，等待后重试
659
                            import time
660

661
                            wait_time = 0.5 * (attempt + 1)  # 递增等待时间
662
                            if DEBUG_MODE:
663
                                print(
664
                                    f"   重试 {attempt + 1}/{max_retries} - 等待 {wait_time}秒..."
665
                                )
666
                            time.sleep(wait_time)
667
                            # 再次检查目录是否仍然为空
668
                            if not is_directory_empty(dirpath):
669
                                # 目录不再为空，可能是新文件出现
670
                                if DEBUG_MODE:
671
                                    print(f"   目录 {dirpath} 在重试期间不再为空，跳过")
672
                                break
673
                        else:
674
                            # 最后一次尝试失败
675
                            error_msg = f"⚠️  无法删除目录 {dirpath}: {e} (尝试 {max_retries} 次)"
676
                            if DEBUG_MODE:
677
                                print(error_msg)
678
                            errors.append(error_msg)
679
        elif DEBUG_MODE:
680
            print(f"   目录非空，跳过删除")
681

682
    # 二次清理：再次扫描整个目录树，确保没有遗漏
683
    if cleaned_dirs > 0:
684
        print("\n🔍 二次检查目录树...")
685
        additional_cleaned = 0
686
        for dirpath, dirnames, filenames in os.walk(root_path, topdown=False):
687
            if should_ignore_directory(dirpath):
688
                continue
689
            if is_directory_empty(dirpath):
690
                if os.path.abspath(dirpath) != os.path.abspath(root_path):
691
                    try:
692
                        os.rmdir(dirpath)
693
                        print(f"🗑️  二次清理空目录: {dirpath}")
694
                        additional_cleaned += 1
695
                        cleaned_dirs += 1
696
                    except OSError as e:
697
                        # 二次清理中的错误可以更宽容
698
                        if DEBUG_MODE:
699
                            print(f"   二次清理跳过: {dirpath} - {e}")
700
        if additional_cleaned > 0:
701
            print(f"   📁  二次清理额外清除了 {additional_cleaned} 个目录")
702

703
    # 显示清理摘要
704
    summary = []
705
    if total_ignored_files > 0:
706
        summary.append(f"🗑️  删除系统文件: {total_ignored_files} 个")
707
    if cleaned_dirs > 0:
708
        summary.append(f"📁  清理空目录: {cleaned_dirs} 个")
709
    if errors:
710
        summary.append(f"⚠️  遇到 {len(errors)} 个错误")
711

712
    if summary:
713
        print("\n🧹 清理摘要:")
714
        for line in summary:
715
            print(f"   {line}")
716

717
    if DEBUG_MODE:
718
        print("✅ 空目录清理完成")
719

720

721
def organize_posts_by_ai():
722
    """
723
    自动分类整理模式：使用AI对文章进行分类，并移动到对应分类目录
724
    同时更新Frontmatter中的category字段
725
    """
726
    if not os.path.exists(SOURCE_DIR):
727
        print(f"❌ 目录不存在: {SOURCE_DIR}")
728
        return
729

730
    # 1. 预存文件列表，避免移动导致遍历混乱
731
    all_files = []
732
    for root, _, files in os.walk(SOURCE_DIR):
733
        # 检查目录是否在忽略列表中
734
        if should_ignore_directory(root):
735
            print(f"⏭️  跳过忽略目录: {root}")
736
            continue
737

738
        for file in files:
739
            # 修复：不区分大小写匹配 .md 扩展名
740
            if file.lower().endswith(".md"):
741
                all_files.append(os.path.join(root, file))
742

743
    print(f"🚀 开始自动分类处理 {len(all_files)} 个文件...")
744

745
    processed_count = 0
746
    skipped_count = 0
747
    error_count = 0
748

749
    for old_path in all_files:
750
        try:
751
            with open(old_path, "r", encoding="utf-8") as f:
752
                raw_text = f.read()
753

754
            # 提取标题
755
            title_match = re.search(r"^title:\s*(.*)$", raw_text, re.MULTILINE)
756
            title = (
757
                title_match.group(1).strip("'\" ")
758
                if title_match
759
                else os.path.basename(old_path)
760
            )
761

762
            # 获取分类
763
            category = call_classify_ai(title, raw_text)
764
            if not category:
765
                print(f"⏭️  跳过（无法分类）: {title}")
766
                skipped_count += 1
767
                continue
768

769
            fm_match = re.match(r"^---\s*\n.*?\n---\s*\n", raw_text, re.DOTALL)
770

771
            if fm_match:
772
                fm_text = fm_match.group(0)
773
                body_text = raw_text[fm_match.end() :]
774

775
                if re.search(r"^category:", fm_text, re.MULTILINE):
776
                    new_fm_text = re.sub(
777
                        r"^category:.*$",
778
                        f"category: {category}",
779
                        fm_text,
780
                        flags=re.MULTILINE,
781
                        count=1,
782
                    )
783
                else:
784
                    first_field_match = re.search(r"^\w+:", fm_text, re.MULTILINE)
785
                    if first_field_match:
786
                        insert_pos = first_field_match.end()
787
                        line_end = fm_text.find("\n", insert_pos)
788
                        if line_end != -1:
789
                            new_fm_text = (
790
                                fm_text[:line_end]
791
                                + f"\ncategory: {category}"
792
                                + fm_text[line_end:]
793
                            )
794
                        else:
795
                            new_fm_text = (
796
                                fm_text.rstrip("\n-") + f"\ncategory: {category}\n---\n"
797
                            )
798
                    else:
799
                        new_fm_text = (
800
                            fm_text.rstrip("-") + f"category: {category}\n---\n"
801
                        )
802

803
                new_text = new_fm_text + body_text
804
            else:
805
                new_text = f"---\ncategory: {category}\n---\n\n{raw_text}"
806

807
            with open(old_path, "w", encoding="utf-8") as f:
808
                f.write(new_text)
809

810
            # 准备目标目录
811
            target_dir = os.path.join(SOURCE_DIR, category)
812
            if not os.path.exists(target_dir):
813
                os.makedirs(target_dir)
814

815
            # 移动文件到分类目录
816
            new_path = os.path.join(target_dir, os.path.basename(old_path))
817
            if os.path.abspath(old_path) != os.path.abspath(new_path):
818
                shutil.move(old_path, new_path)
819
                print(f"✅ 分类移动: {title} -> {category}")
820
                processed_count += 1
821
            else:
822
                print(f"ℹ️ 文件已在目标目录: {title}")
823
                processed_count += 1
824

825
        except Exception as e:
826
            print(f"❌ 出错: {old_path} -> {e}")
827
            error_count += 1
828

829
    # 打印处理统计
830
    print(f"\n📊 自动分类处理统计:")
831
    print(f"   ✅ 成功处理: {processed_count}")
832
    print(f"   ⏭️ 跳过: {skipped_count}")
833
    print(f"   ❌ 失败: {error_count}")
834

835
    return processed_count + skipped_count + error_count > 0  # 返回是否有文件被处理
836

837

838
# ==================== 主处理函数 ====================
839

840

841
def process_files():
842
    """主处理函数：根据配置模式处理所有文件"""
843
    if not os.path.exists(SOURCE_DIR):
844
        print(f"❌ 路径不存在: {SOURCE_DIR}")
845
        return
846

847
    # 显示配置信息
848
    print("=" * 60)
849
    print("📝 增强版 Obsidian SEO Frontmatter 生成器 - 配置信息")
850
    print("=" * 60)
851
    print(f"📁 源目录: {SOURCE_DIR}")
852
    print(f"📂 目录整理模式: {ORGANIZE_MODE}")
853
    if ORGANIZE_MODE == "auto":
854
        print(f"📊 分类数量: {len(CATEGORIES)}")
855
    print(f"📅 日期模式: {DATE_MODE}")
856
    if DATE_MODE == "fixed":
857
        print(f"📅 固定日期: {FIXED_DATE}")
858
    elif DATE_MODE == "random_year":
859
        print(f"📅 模式: 近一年内的随机日期")
860
    elif DATE_MODE == "current":
861
        print(f"📅 模式: 当前日期")
862
    print(f"🔄 更新模式: {UPDATE_MODE}")
863
    print(f"🌡️ 温度配置: {TEMPERATURE}")
864
    print(f"🤖 模型名称: {MODEL_NAME}")
865
    print("=" * 60)
866
    print()
867

868
    # 步骤1: 如果启用自动分类模式，先进行文章分类和移动
869
    files_organized = False
870
    if ORGANIZE_MODE == "auto":
871
        print("📂 开始自动分类整理...")
872
        files_organized = organize_posts_by_ai()
873
        print("✅ 自动分类整理完成")
874
        print()
875

876
    # 步骤2: 处理所有文件的SEO Frontmatter
877
    print("🚀 开始生成/更新SEO Frontmatter...")
878

879
    # 正则：匹配文件开头的 YAML Frontmatter 块
880
    fm_pattern = re.compile(r"^---\s*\n.*?\n---\s*\n", re.DOTALL)
881
    count = 0
882

883
    for root, dirs, files in os.walk(SOURCE_DIR):
884
        # 检查目录是否在忽略列表中
885
        if should_ignore_directory(root):
886
            print(f"⏭️  跳过忽略目录: {root}")
887
            continue
888

889
        for file in files:
890
            if file.lower().endswith(".md"):
891
                file_path = os.path.join(root, file)
892

893
                # 1. 确定分类：根据整理模式选择
894
                if ORGANIZE_MODE == "auto":
895
                    # 自动模式：使用文件所在目录名（可能已经被移动）
896
                    category = os.path.basename(root)
897
                else:
898
                    # 默认模式：使用文件所在目录名作为分类
899
                    category = os.path.basename(root)
900

901
                with open(file_path, "r", encoding="utf-8") as f:
902
                    full_text = f.read()
903

904
                # 2. 提取现有Frontmatter、published和slug（如果存在）
905
                existing_published = None
906
                existing_slug = None
907
                match_fm = fm_pattern.match(full_text)
908
                if match_fm:
909
                    fm_text = match_fm.group(0)
910
                    published_val = extract_published_from_frontmatter(fm_text)
911
                    if published_val and validate_published(published_val):
912
                        existing_published = published_val
913
                    # 提取并验证现有slug
914
                    slug_val = extract_slug_from_frontmatter(fm_text)
915
                    if slug_val and validate_slug(slug_val):
916
                        existing_slug = slug_val
917

918
                # 3. 根据更新模式处理
919
                if UPDATE_MODE == "global":
920
                    # 全局模式：完全重写所有Frontmatter
921
                    # - 保留策略：published（如符合格式）和slug（如符合格式要求：只包含英文小写字母、数字和连字符）字段会保留原值
922
                    # - 强制更新：updated字段必定更新为当前日期，不管该字段是否已存在
923
                    body_content = fm_pattern.sub("", full_text).strip()
924
                    print(f"🚀 全局模式处理: {file} (分类: {category})")
925
                    new_fm_text = get_seo_frontmatter_ai(file, category, body_content)
926
                    if new_fm_text:
927
                        # 如果存在有效的published，替换新生成的published
928
                        if existing_published:
929
                            # 将新Frontmatter中的published替换为existing_published
930
                            # 使用正则替换 published: 后面的值
931
                            new_fm_text = re.sub(
932
                                r"(published:\s*)[^\n]+",
933
                                f"\\g<1>{existing_published}",
934
                                new_fm_text,
935
                                flags=re.IGNORECASE,
936
                            )
937
                            print(f"📅 保留原published: {existing_published}")
938

939
                        # 如果存在有效的slug，替换新生成的slug
940
                        if existing_slug:
941
                            new_fm_text = re.sub(
942
                                r"(slug:\s*)[^\n]+",
943
                                f'\\g<1>"{existing_slug}"',
944
                                new_fm_text,
945
                                flags=re.IGNORECASE,
946
                            )
947
                            print(f'🔗 保留原slug: "{existing_slug}"')
948
                        else:
949
                            # 没有有效的slug，清理slug值，确保没有中文字符
950
                            new_fm_text = extract_and_clean_slug(new_fm_text, file)
951

952
                        # 强制添加或更新updated属性为当前日期
953
                        current_date = get_current_date()
954
                        if re.search(r"updated:\s*\S+", new_fm_text, re.IGNORECASE):
955
                            new_fm_text = re.sub(
956
                                r"(updated:\s*)[^\n]+",
957
                                f"\\g<1>{current_date}",
958
                                new_fm_text,
959
                                flags=re.IGNORECASE,
960
                            )
961
                        else:
962
                            # 在published后添加updated
963
                            new_fm_text = re.sub(
964
                                r"(published:\s*\S+)",
965
                                f"\\g<1>\nupdated: {current_date}",
966
                                new_fm_text,
967
                                flags=re.IGNORECASE,
968
                            )
969
                        print(f"📅 更新updated: {current_date}")
970

971
                        final_content = f"---\n{new_fm_text}\n---\n\n{body_content}"
972
                        with open(file_path, "w", encoding="utf-8") as f:
973
                            f.write(final_content)
974
                        print(f"✅ 属性已更新: {file}")
975
                        count += 1
976
                elif UPDATE_MODE == "incremental":
977
                    # 增量补全模式：只补充缺失的Frontmatter字段
978
                    # - 保留策略：published（如符合格式）和slug（如符合格式要求：只包含英文小写字母、数字和连字符）字段会保留原值
979
                    # - 强制更新：updated字段必定更新为当前日期，即使Frontmatter已完整
980
                    if match_fm:
981
                        # 有 Frontmatter，检查是否包含必需字段
982
                        fm_text = match_fm.group(0)
983
                        # 简单检查是否存在关键字段（这里简化，实际应解析YAML）
984
                        required_keys = [
985
                            "title",
986
                            "description",
987
                            "tags",
988
                            "slug",
989
                            "image",
990
                            "published",
991
                        ]
992
                        missing_keys = []
993
                        for key in required_keys:
994
                            if key + ":" not in fm_text:
995
                                missing_keys.append(key)
996

997
                        if missing_keys:
998
                            print(
999
                                f"🔍 增量模式处理: {file} (分类: {category}) - 缺失字段: {missing_keys}"
1000
                            )
1001
                            body_content = fm_pattern.sub("", full_text).strip()
1002
                            new_fm_text = get_seo_frontmatter_ai(
1003
                                file, category, body_content
1004
                            )
1005
                            if new_fm_text:
1006
                                # 如果存在有效的published，替换新生成的published
1007
                                if existing_published:
1008
                                    # 替换published
1009
                                    new_fm_text = re.sub(
1010
                                        r"(published:\s*)[^\n]+",
1011
                                        f"\\g<1>{existing_published}",
1012
                                        new_fm_text,
1013
                                        flags=re.IGNORECASE,
1014
                                    )
1015
                                    print(f"📅 保留原published: {existing_published}")
1016

1017
                                # 如果存在有效的slug，替换新生成的slug
1018
                                if existing_slug:
1019
                                    new_fm_text = re.sub(
1020
                                        r"(slug:\s*)[^\n]+",
1021
                                        f'\\g<1>"{existing_slug}"',
1022
                                        new_fm_text,
1023
                                        flags=re.IGNORECASE,
1024
                                    )
1025
                                    print(f'🔗 保留原slug: "{existing_slug}"')
1026
                                else:
1027
                                    # 没有有效的slug，清理slug值，确保没有中文字符
1028
                                    new_fm_text = extract_and_clean_slug(
1029
                                        new_fm_text, file
1030
                                    )
1031

1032
                                # 强制添加或更新updated属性为当前日期
1033
                                current_date = get_current_date()
1034
                                if re.search(
1035
                                    r"updated:\s*\S+", new_fm_text, re.IGNORECASE
1036
                                ):
1037
                                    new_fm_text = re.sub(
1038
                                        r"(updated:\s*)[^\n]+",
1039
                                        f"\\g<1>{current_date}",
1040
                                        new_fm_text,
1041
                                        flags=re.IGNORECASE,
1042
                                    )
1043
                                else:
1044
                                    # 在published后添加updated
1045
                                    new_fm_text = re.sub(
1046
                                        r"(published:\s*\S+)",
1047
                                        f"\\g<1>\nupdated: {current_date}",
1048
                                        new_fm_text,
1049
                                        flags=re.IGNORECASE,
1050
                                    )
1051
                                print(f"📅 更新updated: {current_date}")
1052

1053
                                final_content = (
1054
                                    f"---\n{new_fm_text}\n---\n\n{body_content}"
1055
                                )
1056
                                with open(file_path, "w", encoding="utf-8") as f:
1057
                                    f.write(final_content)
1058
                                print(f"✅ 属性已补全: {file}")
1059
                                count += 1
1060
                        else:
1061
                            # Frontmatter 已完整，但仍然需要强制更新updated
1062
                            print(
1063
                                f"🔍 增量模式处理: {file} (分类: {category}) - Frontmatter 已完整，强制更新updated"
1064
                            )
1065
                            current_date = get_current_date()
1066

1067
                            # 检查是否存在updated属性
1068
                            if re.search(r"updated:\s*\S+", fm_text, re.IGNORECASE):
1069
                                # 替换existing updated
1070
                                updated_fm_text = re.sub(
1071
                                    r"(updated:\s*)[^\n]+",
1072
                                    f"\\g<1>{current_date}",
1073
                                    fm_text,
1074
                                    flags=re.IGNORECASE,
1075
                                )
1076
                                final_content = updated_fm_text + fm_pattern.sub(
1077
                                    "", full_text
1078
                                )
1079
                            else:
1080
                                # 在published后添加updated
1081
                                updated_fm_text = re.sub(
1082
                                    r"(published:\s*\S+)",
1083
                                    f"\\g<1>\nupdated: {current_date}",
1084
                                    fm_text,
1085
                                    flags=re.IGNORECASE,
1086
                                )
1087
                                final_content = updated_fm_text + fm_pattern.sub(
1088
                                    "", full_text
1089
                                )
1090

1091
                            with open(file_path, "w", encoding="utf-8") as f:
1092
                                f.write(final_content)
1093
                            print(f"📅 更新updated: {current_date}")
1094
                            print(f"✅ 属性已更新: {file}")
1095
                            count += 1
1096
                    else:
1097
                        # 没有 Frontmatter，生成完整属性
1098
                        print(
1099
                            f"🔍 增量模式处理: {file} (分类: {category}) - 无Frontmatter，生成完整属性"
1100
                        )
1101
                        new_fm_text = get_seo_frontmatter_ai(
1102
                            file, category, full_text.strip()
1103
                        )
1104
                        if new_fm_text:
1105
                            # 无Frontmatter时直接清理slug，不检查existing_slug
1106
                            new_fm_text = extract_and_clean_slug(new_fm_text, file)
1107
                            print(f"✨ 生成新slug（基于AI）")
1108

1109
                            # 强制添加或更新updated属性为当前日期
1110
                            current_date = get_current_date()
1111
                            if re.search(r"updated:\s*\S+", new_fm_text, re.IGNORECASE):
1112
                                new_fm_text = re.sub(
1113
                                    r"(updated:\s*)[^\n]+",
1114
                                    f"\\g<1>{current_date}",
1115
                                    new_fm_text,
1116
                                    flags=re.IGNORECASE,
1117
                                )
1118
                            else:
1119
                                # 在published后添加updated
1120
                                new_fm_text = re.sub(
1121
                                    r"(published:\s*\S+)",
1122
                                    f"\\g<1>\nupdated: {current_date}",
1123
                                    new_fm_text,
1124
                                    flags=re.IGNORECASE,
1125
                                )
1126
                            print(f"📅 更新updated: {current_date}")
1127

1128
                            final_content = (
1129
                                f"---\n{new_fm_text}\n---\n\n{full_text.strip()}"
1130
                            )
1131
                            with open(file_path, "w", encoding="utf-8") as f:
1132
                                f.write(final_content)
1133
                            print(f"✅ 属性已生成: {file}")
1134
                            count += 1
1135
                else:
1136
                    print(f"❌ 未知更新模式: {UPDATE_MODE}")
1137
                    return
1138

1139
    print(f"\n✨ SEO Frontmatter 处理完成！共覆盖更新 {count} 个文件。")
1140

1141
    # 步骤3: 清理空目录（如果进行了文件移动或希望保持整洁）
1142
    if files_organized or DEBUG_MODE:
1143
        print("\n🧹 开始清理空目录...")
1144
        remove_empty_dirs(SOURCE_DIR)
1145
        print("✅ 目录清理完成")
1146
    else:
1147
        print("\nℹ️  未进行文件移动，跳过空目录清理")
1148

1149

1150
# ==================== 主程序入口 ====================
1151
if __name__ == "__main__":
1152
    process_files()

📋 配置引导#

关键配置项\场景	AI分类+SEO	侧重AI分类	保留原分类
ORGANIZE_MODE 配置	`"auto"`	`"auto"`	`"default"`
UPDATE_MODE 配置	`"global"`	`"incremental"`	`"incremental"`
CATEGORIES 列表配置	需完整配置	需完整配置	无需配置

🎯 场景说明

AI分类+SEO：智能分类 + SEO优化，适合新博客建立
侧重AI分类：优先确保分类准确，适合内容整理需求
保留当前分类：保持现有目录结构，适合日常维护

🧠 关于预定义的分类列表的思路分享： 将你尽可能多的文章名称以列表形式提交给 DeepSeek 让 AI 大模型帮你设计一个分类目录框架结构，此时可将分类目录填入到配置项中，使用脚本调用模型自动对文章进行分类匹配，这是一个有比较高目标导向的方案和思路，供大家参考。

🚀 使用指南#

⚠️ 重要安全提示#

⚠️ 数据备份：首次运行前请务必备份原始笔记数据 ⚠️ 测试运行：建议先在小型测试目录中运行，验证效果 ⚠️ AI 服务稳定性：确保本地 AI 服务稳定运行，避免处理中断

第一步：环境准备#

确保 Python 3.7+ 已安装
启动本地 AI 服务（如 Ollama/LMStudio 等兼容OpenAI API的服务）
确认 AI 服务地址与脚本配置一致

第二步：配置调整#

打开 obsdian-seo-plus-enhanced.py
根据你的需求参考配置说明修改配置项
特别关注：
- SOURCE_DIR：设置正确的笔记目录路径
- CATEGORIES：调整分类列表匹配你的内容领域
- ORGANIZE_MODE：选择合适的整理模式
- UPDATE_MODE：选择适合的更新策略
- API_URL：正确填写本地AI服务地址，支持Ollama、LM Studio等兼容OpenAI API的服务
- MODEL_NAME：正确填写模型名称

第三步：脚本运行#

1
# 直接运行
2
python3 obsdian-seo-plus-enhanced.py
3

4
# 或添加执行权限后运行
5
chmod +x obsdian-seo-plus-enhanced.py
6
./obsdian-seo-plus-enhanced.py

第四步：处理流程#

脚本执行后将显示：

1
============================================================
2
📝 增强版 Obsidian SEO Frontmatter 生成器 - 配置信息
3
============================================================
4
📁 源目录: ./WEBNOTE
5
📂 目录整理模式: auto
6
📊 分类数量: 11
7
📅 日期模式: current
8
📅 模式: 当前日期
9
🔄 更新模式: global
10
🌡️ 温度配置: 0.3
11
🤖 模型名称: qwen3-vl-30b-a3b-instruct-mlx
12
============================================================
13

14
📂 开始自动分类整理...
15
🚀 开始自动分类处理 1 个文件...

第五步：结果验证#

以下是导出的 Markdown 文件中的 Frontmatter 示例：

1
---
2
title: "Markdown SEO Frontmatter 批量生成器"
3
description: "如何高效将Obsidian笔记转换为Astro博客？本文提供自动化工具，支持AI智能分类与SEO属性生成，一键批量处理Markdown文件并适配Firefly主题，解决内容迁移痛点。"
4
category: Astro教程
5
tags:
6
  - 自媒体运营
7
  - 实战复盘
8
  - SEO优化
9
slug: "markdown-seo-frontmatter-batch-generator"
10
image: "api"
11
published: 2026-01-13
12
updated: 2026-01-15
13
---

检查文件是否按分类移动到正确目录
验证 Frontmatter 是否完整生成
查看生成的 SEO 属性是否符合预期

🔍 常见问题#

🛠️ 使用与优化类#

🏷️ 如何提高文章分类的准确性？
- 工具默认使用极低的AI温度参数（0.01），以保障分类结果稳定。若效果不佳，建议尝试优化 SYSTEM_PROMPT 中的指令，并确保分类列表能覆盖所有文章类型，避免产生过多的“未分类”结果。
🛠️ 如何优化生成的文章元数据（Frontmatter）？
- 工具采用三层标签法生成标签，有助于提升SEO效果。同时，在增量更新文章时，工具会智能保留已有的有效发布日期。
⚡ 如何处理大量文件？工具的性能如何？
- 工具支持数百个文件的批量处理。为提高效率，AI接口调用的超时时间设置为300秒，并且单个文件的处理失败不会影响其他文件的正常处理。

📄 文件与格式类#

📝 工具支持什么样的文件格式？
- 支持处理标准语法的Markdown文件，并会生成YAML格式的Frontmatter，确保与Astro等静态站点生成器完美兼容。
🔤 生成的文件路径（Slug）和编码格式有要求吗？
- 工具会自动清理Slug中的中文字符，确保其符合Astro的路径规范。所有文件均使用UTF-8编码，以保证中文及其他语言字符的正常显示。

🐛 故障排除类#

🤖 AI服务调用失败或超时怎么办？
- 请首先检查您本地的AI服务（如Ollama）是否正在运行，并确认脚本中配置的API地址和端口是否正确。
🔒 脚本运行时提示文件权限或编码错误？
- 权限问题：请确保运行脚本的用户对需要读取的源目录和写入的目标目录均具备相应的读写权限。
- 编码问题：如果遇到乱码或编码错误，请检查您的原始Markdown文件是否采用UTF-8编码格式保存。

🌟 写在最后#

这个脚本的设计初衷是为了解决从个人笔记到公开博客迁移过程中的繁琐工作。通过 AI 自动化 和 智能分类，大幅减少了手动整理的时间成本，让你更专注于内容创作本身。