Typecho文章批量导出到Astro Markdown工具

引言#

作为站长，当你的网站拥有较庞大的文章及页面体量时，网站搬家总会遇到各类困惑。我们总希望原站点的数据“应搬尽搬”，但事实上很多文章本身可能并没有获得多少阅读与共鸣。

基于流量二八原则，支撑一个网站流量的几乎都来自那 20% 的页面。通过 Google Search Console 等平台拉取近一年的数据，可以佐证这个铁铮铮的事实：

“大部分人写的文章没价值，网站的大多数文章没流量。”

因此，当你的网站拥有较庞大的文章及页面体量时，可以通过 Google Search Console 的数据获取占比 80% 流量的页面列表(流量 TOP 20 的页面) + 近半年产生的新页面清单，合并得到的页面 URL 清单，单独创建一个包含这些页面 URL 列表的 links.txt 文件。这一部分才是整个网站的核心价值（当然，重要的笔记等内容另当别论）。

我想从 Typecho 导出有用的文章（包含站内图片和附件），同时希望导出的 md 文章页面能直接适配 Astro 静态博客框架并兼容 Firefly 主题，该怎么办呢？

这个工具正是面向这个需求而定制的。基于 links.txt 清单，批量导出文章 md 文件，并同时下载页面的图片和附件进行存储，在 md 文档中自动替换为相对地址重新引用。

功能介绍#

按需导出：从 links.txt 读取指定文章链接进行导出，只导出清单内的文章。
分类组织：按 Typecho 文章分类目录导出到对应的子目录，保持原有分类结构。
Astro 5.0 标准 Frontmatter：生成符合 Astro 5.0 标准的 YAML Frontmatter，包含标题、日期、作者、标签、分类、摘要等字段。
智能图片处理：
- 自动处理引用式图片（![alt][id]）和直接链接图片（![alt](url)），转换为直接链接格式并下载到本地。
- 清理图片 URL 中的查询参数（保留片段标识，避免误匹配 Markdown 标题）。
文章摘要生成：自动从内容中提取前 100 字作为描述（description）。
自定义封面图片：支持通过配置为文章添加封面图片（image 属性），可使用 Firefly 主题内置的随机二次元图片 API 或自定义 URL。
媒体资源下载：
- 可选下载图片和附件到本地。
- 媒体文件按 images/[年份]/[文章ID]/ 和 attachments/[年份]/[文章ID]/ 组织。
- Markdown 中的媒体链接自动替换为相对路径。
忽略头图：可选跳过第一张图片（头图）的下载，并删除其在正文中的引用标记。
安全文件名：自动清理文件名中的非法字符，限制长度，避免隐藏文件或非法文件。

注意事项#

运行环境：需要 PHP 7.4+，并启用 MySQL PDO 扩展。建议开启 cURL 扩展以获得更好的下载性能。
网站备份：使用前请务必全量备份 Typecho 数据库和网站文件，防止误操作！！！
文件权限：确保 PHP 有权限在当前目录创建文件夹和写入文件。
网络连接：下载图片和附件需要能访问原站点的域名（可通过 siteDomain 配置）。
链接文件格式：links.txt 每行一个完整的文章 URL，如 https://www.moewah.com/archives/123.html，程序会自动提取文章 ID（123）。
导出目录：程序会在运行目录下创建 astro_posts（可配置）文件夹，所有导出的文章和媒体文件将存放在其中。

源代码#

1
<?php
2
/**
3
 * Typecho 文章导出工具 (适配 Astro 5.0 + Firefly 主题)
4
 *
5
 * 功能特性：
6
 * 1. 从链接文件读取指定文章链接进行导出（默认 links.txt）
7
 * 2. 按分类目录导出文章到对应的子目录
8
 * 3. 构建符合 Astro 5.0 标准的 YAML Frontmatter
9
 * 4. 自动处理引用式图片，转换为直接链接格式并下载到本地
10
 * 5. 清理图片 URL 中的查询参数（保留片段标识，避免误匹配Markdown标题）
11
 * 6. 生成文章摘要（自动截取前100字）
12
 * 7. 支持自定义文章封面图片配置
13
 * 8. 可选下载媒体资源（图片/附件）到本地
14
 * 9. 媒体文件按年份/文章ID组织：images/[年份]/[文章ID]/ 和 attachments/[年份]/[文章ID]/
15
 * 10. Markdown 中媒体链接替换为相对路径
16
 * 11. 可选忽略头图（跳过下载且删除引用标记）
17
 *
18
 * 使用前请先配置数据库连接信息和导出选项
19
 * 运行后会在指定目录生成按分类组织的 Markdown 文件
20
 */
21

22
// 1. 基础配置
23
error_reporting(E_ALL);
24
ini_set('display_errors', 1);
25

26
$dbConfig = [
27
    'host' => 'localhost',      // 数据库主机地址
28
    'name' => '数据库名',       // 数据库名称
29
    'user' => '数据库用户名',   // 数据库用户名
30
    'pass' => '数据库密码',     // 数据库密码
31
    'baseDir' => 'astro_posts', // 导出文件存放的目录
32
    'image' => 'api',           // 文章封面图片配置：默认值为 'api'，将使用 Firefly 主题内置的随机二次元图片 API
33
                                // 可自定义为其他图片 URL，例如：'https://example.com/image.jpg'
34
                                // 或者保留为空字符串 '' 则不生成 image 属性
35

36
    // 媒体下载配置
37
    'downloadMedia' => true,           // 是否下载媒体资源到本地
38
    'ignoreFirstImage' => true,        // 是否忽略第一张图片（头图）：跳过下载且删除引用标记
39
    'maxFileSize' => 10 * 1024 * 1024, // 10MB限制
40
    'timeout' => 30,                   // 下载超时(秒)
41
    'retryCount' => 2,                 // 失败重试次数
42
    'skipFailed' => true,              // 跳过失败的下载（保留原URL）
43
    'userAgent' => 'Mozilla/5.0 (Typecho Exporter)',
44
    'linksFile' => 'links.txt',        // 文章链接列表文件路径
45
    'siteDomain' => 'https://www.moewah.com', // 网站域名，用于构建完整图片URL
46
];
47

48
try {
49
    // 创建数据库连接
50
    $dsn = "mysql:host={$dbConfig['host']};dbname={$dbConfig['name']};charset=utf8mb4";
51
    $pdo = new PDO($dsn, $dbConfig['user'], $dbConfig['pass'], [
52
        PDO::ATTR_ERRMODE => PDO::ERRMODE_EXCEPTION,
53
        PDO::ATTR_DEFAULT_FETCH_MODE => PDO::FETCH_ASSOC
54
    ]);
55
    // 1.1 从链接文件提取文章ID
56
    $articleIds = extractArticleIdsFromLinks($dbConfig['linksFile']);
57
    if (empty($articleIds)) {
58
        die("❌ " . $dbConfig['linksFile'] . "中没有有效的文章ID\n");
59
    }
60

61
    // 2. 执行 SQL 查询
62
    $placeholders = implode(',', array_fill(0, count($articleIds), '?'));
63
    $sql = "
64
    SELECT
65
        c.cid, c.title, c.text, c.slug, c.created, c.modified,
66
        u.name as author,
67
        (SELECT GROUP_CONCAT(m.name) FROM typecho_relationships r
68
         JOIN typecho_metas m ON r.mid = m.mid
69
         WHERE r.cid = c.cid AND m.type = 'tag') as tags,
70
        (SELECT m.name FROM typecho_relationships r
71
         JOIN typecho_metas m ON r.mid = m.mid
72
         WHERE r.cid = c.cid AND m.type = 'category' LIMIT 1) as category
73
    FROM typecho_contents c
74
    LEFT JOIN typecho_users u ON c.authorId = u.uid
75
    WHERE c.type = 'post' AND c.status = 'publish' AND c.cid IN ($placeholders)
76
    ORDER BY c.created DESC
77
    ";
78

79
    // 执行查询获取所有已发布的文章
80
    $stmt = $pdo->prepare($sql);
81
    $stmt->execute($articleIds);
82
    $posts = $stmt->fetchAll();
83

84
    if (!$posts) die("❌ 没有找到文章\n");
85

86
    foreach ($posts as $index => $post) {
87
        echo "\n[" . ($index + 1) . "/" . count($posts) . "] 处理文章: {$post['title']} (ID: {$post['cid']})\n";
88

89
        // 3. 处理分类目录：根据文章分类创建对应的导出目录
90
        $categoryName = !empty($post['category']) ? $post['category'] : 'Uncategorized';
91
        $targetFolder = $dbConfig['baseDir'] . DIRECTORY_SEPARATOR . sanitize_filename($categoryName);
92
        if (!is_dir($targetFolder)) {
93
            mkdir($targetFolder, 0755, true);
94
        }
95

96
        // 4. 处理文件名：移除非法字符，确保文件名安全
97
        $fileName = sanitize_filename($post['title']);
98
        $exportPath = $targetFolder . DIRECTORY_SEPARATOR . $fileName . ".md";
99
        // Windows 系统需要转换编码
100
        if (strpos(PHP_OS, "WIN") !== false) {
101
            $exportPath = iconv("UTF-8", "GBK//IGNORE", $exportPath);
102
        }
103

104
        // 5. 处理文章内容：移除 Typecho 的 Markdown 注释标记
105
        $rawContent = $post['text'];
106

107
        $content = str_replace('<!--markdown-->', '', $rawContent);
108

109
        // 6. 生成文章摘要：从内容中提取前100字作为描述
110
        // 6.1 清理文本：移除所有 HTML 和 Markdown 标记
111
        $cleanText = strip_tags($content); // 去除 HTML 标签
112
        $cleanText = preg_replace('/!\[.*?\]\(.*?\)/s', '', $cleanText); // 去除图片标记
113
        $cleanText = preg_replace('/!\[.*?\]\[.*?\]/s', '', $cleanText); // 去除引用式图片标记
114
        $cleanText = preg_replace('/\[(.*?)\]\(.*?\)/s', '$1', $cleanText); // 去除链接标记但保留文字
115
        $cleanText = preg_replace('/#+\s*/', '', $cleanText); // 去除标题标记
116
        $cleanText = preg_replace('/\s+/', ' ', $cleanText); // 合并多余空格
117
        $cleanText = trim($cleanText);
118

119
        // 6.2 截取前100字作为摘要
120
        $description = mb_substr($cleanText, 0, 100, 'UTF-8');
121
        if (mb_strlen($cleanText, 'UTF-8') > 100) {
122
            $description .= '...';
123
        }
124

125
        // 7. 准备 Frontmatter（符合 Astro 5.0 标准）
126
        $pubDate = date('Y-m-d', $post['created']);  // 发布日期，格式：YYYY-MM-DD
127
        $upDate  = date('Y-m-d', $post['modified']); // 更新日期，格式：YYYY-MM-DD
128
        $tags    = $post['tags'] ? explode(',', $post['tags']) : []; // 标签字符串转数组
129
        $tags    = array_filter(array_map('trim', $tags)); // 清理标签中的空格
130

131
        $yaml = "---\n";
132
        $yaml .= "title: " . json_encode($post['title'], JSON_UNESCAPED_UNICODE) . "\n";
133
        $yaml .= "published: $pubDate\n";
134
        $yaml .= "updated: $upDate\n";
135
        $yaml .= "author: " . json_encode($post['author'], JSON_UNESCAPED_UNICODE) . "\n";
136
        // 生成 image 属性，如果配置不为空则添加
137
        if (!empty($dbConfig['image'])) {
138
            $yaml .= "image: " . json_encode($dbConfig['image'], JSON_UNESCAPED_UNICODE) . "\n";
139
        }
140
        $yaml .= "description: " . json_encode($description, JSON_UNESCAPED_UNICODE) . "\n";
141
        $yaml .= "category: " . json_encode($categoryName, JSON_UNESCAPED_UNICODE) . "\n";
142

143
        // 7.2 处理标签：生成正确的 YAML 数组格式
144
        if (count($tags) > 0) {
145
            $yaml .= "tags:\n  - " . implode("\n  - ", array_map(fn($t) => json_encode($t, JSON_UNESCAPED_UNICODE), $tags)) . "\n";
146
        } else {
147
            $yaml .= "tags: []\n"; // 空数组，避免生成 `- []` 的错误格式
148
        }
149

150
        $yaml .= "slug: " . json_encode($post['slug'], JSON_UNESCAPED_UNICODE) . "\n";
151
        $yaml .= "draft: false\n";
152
        $yaml .= "toc: true\n";
153
        $yaml .= "---\n\n";
154

155
        // 8. 处理正文内容并下载媒体资源
156
        $createYear = date('Y', $post['created']);
157

158
        // 初始化媒体下载器
159
        $downloader = null;
160
        if ($dbConfig['downloadMedia']) {
161
            $downloader = new MediaDownloader($dbConfig['baseDir'], $dbConfig);
162
        }
163

164
        // 处理内容：下载媒体资源并替换为相对路径
165
        if ($downloader) {
166
            $content = processContentWithMediaDownload($content, $downloader, $post['cid'], $createYear, $dbConfig['ignoreFirstImage']);
167
        }
168

169
        // 9. 合并 Frontmatter 和正文内容
170
        $fullOutput = $yaml . $content;
171

172
        // 10. 写入文件到指定路径
173
        if (file_put_contents($exportPath, $fullOutput)) {
174
            echo "[" . ($index + 1) . "/" . count($posts) . "] {$post['title']}\n";
175
        }
176
    }
177

178
    echo "✅ 完成！共导出 " . count($posts) . " 篇文章\n";
179

180
} catch (Exception $e) {
181
    die("❌ 错误: " . $e->getMessage() . "\n");
182
}
183

184
/**
185
 * 从链接文件提取文章ID
186
 *
187
 * @param string $linksFile 链接文件路径
188
 * @return array 文章ID数组
189
 */
190
function extractArticleIdsFromLinks($linksFile) {
191
    $ids = [];
192
    if (!file_exists($linksFile)) {
193
        die("❌ 找不到链接文件: {$linksFile}\n");
194
    }
195

196
    $lines = file($linksFile, FILE_IGNORE_NEW_LINES | FILE_SKIP_EMPTY_LINES);
197
    foreach ($lines as $url) {
198
        if (preg_match('/\/(\d+)\.html$/', $url, $matches)) {
199
            $ids[] = (int)$matches[1];
200
        }
201
    }
202

203
    return array_unique($ids);
204
}
205

206
/**
207
 * 媒体下载器类
208
 */
209
class MediaDownloader {
210
    // 支持的图片后缀
211
    const IMAGE_EXTS = ['jpg', 'jpeg', 'png', 'gif', 'webp', 'bmp', 'svg', 'avif', 'ico'];
212

213
    // 支持下载的附件后缀（白名单）
214
    const ATTACHMENT_EXTS = [
215
        // 文档类
216
        'pdf', 'doc', 'docx', 'xls', 'xlsx', 'ppt', 'pptx', 'txt', 'rtf', 'odt',
217
        // 压缩包
218
        'zip', 'rar', '7z', 'tar', 'gz', 'bz2', 'xz',
219
        // 群晖相关
220
        'spk',
221
        // 音视频
222
        'mp3', 'mp4', 'avi', 'mkv', 'mov', 'flv', 'wav', 'ogg',
223
        // 其他
224
        'apk', 'exe', 'dmg', 'iso', 'img'
225
    ];
226

227
    private $baseDir;
228
    private $downloaded = []; // URL缓存
229
    private $config;
230
    private $hasCurl;
231
    private $downloadCount = [
232
        'images' => 0,
233
        'attachments' => 0,
234
        'failed' => 0
235
    ];
236

237
    public function __construct($baseDir, $config) {
238
        $this->baseDir = rtrim($baseDir, '/\\');
239
        $this->config = $config;
240

241
        // 检查cURL扩展
242
        $this->hasCurl = function_exists('curl_init');
243
    }
244

245
    /**
246
     * 构建完整URL
247
     */
248
    private function buildFullUrl($url) {
249
        // 如果已经是完整URL，直接返回
250
        if (preg_match('/^https?:\/\//i', $url)) {
251
            return $url;
252
        }
253

254
        // 如果是相对路径，添加域名
255
        $domain = $this->config['siteDomain'] ?? '';
256
        if ($domain && strpos($url, '/') === 0) {
257
            // 移除域名末尾的斜杠
258
            $domain = rtrim($domain, '/');
259
            return $domain . $url;
260
        }
261

262
        // 无法处理的URL
263
        return $url;
264
    }
265

266
    /**
267
     * 下载媒体资源并返回相对路径
268
     */
269
    public function download($url, $articleId, $createYear) {
270
        // 构建完整URL（处理相对路径）
271
        $fullUrl = $this->buildFullUrl($url);
272

273
        // 清理URL参数：移除查询字符串和Typecho特有的片段参数
274
        // 处理格式: https://example.com/image.jpg?width=100#vwid=760&vhei=440
275
        $cleanUrl = preg_replace('/\?[^#\s]+/', '', $fullUrl); // 移除查询参数
276
        $cleanUrl = preg_replace('/#.*/', '', $cleanUrl); // 移除整个片段（Typecho使用片段存储尺寸参数）
277

278
        // 检查缓存
279
        $urlHash = md5($cleanUrl);
280
        if (isset($this->downloaded[$urlHash])) {
281
            return $this->downloaded[$urlHash]['relative_path'];
282
        }
283

284
        // 确定资源类型
285
        $type = $this->getMediaType($cleanUrl);
286
        if (!$type) {
287
            return $url;
288
        }
289

290
        // 创建目标目录
291
        $targetDir = "{$this->baseDir}/{$type}s/{$createYear}/{$articleId}";
292
        if (!is_dir($targetDir)) {
293
            mkdir($targetDir, 0755, true);
294
        }
295

296
        // 生成文件名
297
        $filename = $this->generateFilename($cleanUrl, $articleId, $type);
298
        $fullPath = "{$targetDir}/{$filename}";
299

300
        // 下载文件
301
        $success = $this->downloadFile($cleanUrl, $fullPath);
302

303
        if ($success) {
304
            $relativePath = "../{$type}s/{$createYear}/{$articleId}/{$filename}";
305
            $this->downloaded[$urlHash] = [
306
                'url' => $cleanUrl,
307
                'relative_path' => $relativePath,
308
                'type' => $type,
309
                'full_path' => $fullPath
310
            ];
311
            $this->downloadCount[$type . 's']++;
312

313
            return $relativePath;
314
        } else {
315
            $this->downloadCount['failed']++;
316
            return $url; // 失败返回原URL
317
        }
318
    }
319

320
    /**
321
     * 判断是否为内部域名
322
     */
323
    private function isInternalUrl($url) {
324
        $domain = $this->config['siteDomain'] ?? '';
325
        if (!$domain) return false;
326

327
        $host = parse_url($url, PHP_URL_HOST);
328
        if (!$host) return false;
329

330
        // 移除协议和端口，只比较域名
331
        $cleanConfigDomain = parse_url($domain, PHP_URL_HOST) ?: $domain;
332
        $cleanUrlDomain = parse_url($host, PHP_URL_HOST) ?: $host;
333

334
        return $cleanConfigDomain === $cleanUrlDomain;
335
    }
336

337
    /**
338
     * 判断媒体类型
339
     */
340
    private function getMediaType($url) {
341
        // 1. 检查协议：只支持 http/https
342
        $scheme = parse_url($url, PHP_URL_SCHEME);
343
        if ($scheme && !in_array($scheme, ['http', 'https'])) {
344
            return null;
345
        }
346

347
        // 2. 检查是否为内部域名：外部链接不下载
348
        if (!$this->isInternalUrl($url)) {
349
            return null;
350
        }
351

352
        $path = parse_url($url, PHP_URL_PATH);
353
        if (!$path || $path === '/') {
354
            return null;
355
        }
356

357
        // 3. 提取文件后缀
358
        $ext = strtolower(pathinfo($path, PATHINFO_EXTENSION));
359

360
        // 4. 无后缀URL跳过（内部链接但不带后缀，不处理）
361
        if (!$ext) {
362
            return null;
363
        }
364

365
        // 5. 根据后缀判断类型
366
        if (in_array($ext, self::IMAGE_EXTS)) {
367
            return 'image';
368
        }
369
        if (in_array($ext, self::ATTACHMENT_EXTS)) {
370
            return 'attachment';
371
        }
372

373
        // 6. 其他后缀不下载
374
        return null;
375
    }
376

377
    /**
378
     * 生成安全文件名
379
     */
380
    private function generateFilename($url, $articleId, $type) {
381
        $path = parse_url($url, PHP_URL_PATH);
382
        $ext = strtolower(pathinfo($path, PATHINFO_EXTENSION));
383
        $name = pathinfo($path, PATHINFO_FILENAME);
384

385
        // 生成唯一文件名：文章ID_时间戳_哈希.扩展名
386
        $timestamp = time();
387
        $hash = substr(md5($url), 0, 6);
388
        $safeName = preg_replace('/[^a-zA-Z0-9_-]/', '_', $name);
389

390
        if (empty($safeName)) {
391
            $safeName = "{$type}_{$timestamp}";
392
        }
393

394
        return "{$articleId}_{$safeName}_{$hash}.{$ext}";
395
    }
396

397
    /**
398
     * 文件下载实现
399
     */
400
    private function downloadFile($url, $localPath) {
401
        $timeout = $this->config['timeout'] ?? 30;
402
        $maxSize = $this->config['maxFileSize'] ?? 10 * 1024 * 1024;
403

404
        if ($this->hasCurl) {
405
            // 使用 cURL 下载
406
            $ch = curl_init($url);
407
            curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
408
            curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
409
            curl_setopt($ch, CURLOPT_TIMEOUT, $timeout);
410
            curl_setopt($ch, CURLOPT_MAXFILESIZE, $maxSize);
411
            curl_setopt($ch, CURLOPT_USERAGENT, $this->config['userAgent'] ?? 'Mozilla/5.0 (Typecho Exporter)');
412

413
            $data = curl_exec($ch);
414
            $httpCode = curl_getinfo($ch, CURLINFO_HTTP_CODE);
415
            $error = curl_error($ch);
416
            curl_close($ch);
417

418
            if ($httpCode === 200 && $data && strlen($data) > 0) {
419
                return file_put_contents($localPath, $data) !== false;
420
            }
421
        } else {
422
            // 使用 file_get_contents 作为备选
423
            $context = stream_context_create([
424
                'http' => [
425
                    'timeout' => $timeout,
426
                    'user_agent' => $this->config['userAgent'] ?? 'Mozilla/5.0 (Typecho Exporter)',
427
                ]
428
            ]);
429

430
            $data = @file_get_contents($url, false, $context);
431
            if ($data !== false && strlen($data) > 0 && strlen($data) <= $maxSize) {
432
                return file_put_contents($localPath, $data) !== false;
433
            }
434
        }
435

436
        return false;
437
    }
438

439
    /**
440
     * 获取下载统计
441
     */
442
    public function getStats() {
443
        return $this->downloadCount;
444
    }
445
}
446

447
/**
448
 * 处理内容并下载媒体资源
449
 *
450
 * @param string $content 文章内容
451
 * @param MediaDownloader $downloader 媒体下载器实例
452
 * @param int $articleId 文章ID
453
 * @param int $createYear 文章创建年份
454
 * @param bool $ignoreFirstImage 是否忽略头图（跳过下载且删除引用标记）
455
 * @return string 处理后的内容
456
 */
457
function processContentWithMediaDownload($content, $downloader, $articleId, $createYear, $ignoreFirstImage = true) {
458
    echo "    🔍 开始处理媒体资源 (文章ID: {$articleId}, 年份: {$createYear})\n";
459

460
    // 收集引用定义（需在URL清理之前执行）
461
    $allRefs = [];
462
    if (preg_match_all('/\s*\[([^\]]+)\]:\s*(\S+)/im', $content, $refMatches, PREG_SET_ORDER)) {
463
        foreach ($refMatches as $match) {
464
            $refId = trim($match[1]);
465
            $url = $match[2];
466
            $allRefs[$refId] = $url;
467
        }
468
    }
469

470
    // 下载引用定义中的所有附件（即使未被引用）
471
    foreach ($allRefs as $refId => $url) {
472
        $downloader->download($url, $articleId, $createYear);
473
    }
474

475
    // 忽略头图：删除正文开头直接引用的图片（无任何文本段落的图片）
476
    // 判断标准：内容最开头就是图片标记才算头图，段落后的图片保留
477
    if ($ignoreFirstImage) {
478
        $pattern = '/^!\[([^\]]*)\]\(([^)]*)\)\s*/';
479
        $content = preg_replace($pattern, '', $content, 1);
480
        $pattern = '/^!\[([^\]]*)\]\[([^\]]*)\]\s*/';
481
        $content = preg_replace($pattern, '', $content, 1);
482
    }
483

484
    // 清理URL参数：仅清理直接链接中的查询参数（不清理#，避免误匹配Markdown标题）
485
    $content = preg_replace_callback(
486
        '/!\[([^\]]*)\]\(([^)]*)\)/',
487
        function($matches) {
488
            $altText = $matches[1];
489
            $url = $matches[2];
490
            $cleanUrl = preg_replace('/\?[^)]*/', '', $url);
491
            return "![{$altText}]({$cleanUrl})";
492
        },
493
        $content
494
    );
495

496
    // 处理引用式链接：[text][id]
497
    foreach ($allRefs as $refId => $url) {
498
        $pattern = '/\[([^\]]+)\]\[\s*' . preg_quote($refId, '/') . '\s*\]/';
499
        $content = preg_replace_callback($pattern, function($matches) use ($url, $downloader, $articleId, $createYear) {
500
            $linkText = $matches[1];
501
            $localPath = $downloader->download($url, $articleId, $createYear);
502
            return "[{$linkText}]({$localPath})";
503
        }, $content);
504
    }
505

506
    // 处理引用式图片：![alt][id]
507
    foreach ($allRefs as $refId => $url) {
508
        $pattern = '/!\[([^\]]*)\]\[\s*' . preg_quote($refId, '/') . '\s*\]/';
509
        $content = preg_replace_callback($pattern, function($matches) use ($url, $downloader, $articleId, $createYear) {
510
            $altText = $matches[1];
511
            $localPath = $downloader->download($url, $articleId, $createYear);
512
            return "![{$altText}]({$localPath})";
513
        }, $content);
514
    }
515

516
    // 处理直接链接图片：![alt](url)
517
    $content = preg_replace_callback(
518
        '/!\[(.*?)\]\(([^\s\)]+)\)/i',
519
        function($matches) use ($downloader, $articleId, $createYear) {
520
            $altText = $matches[1];
521
            $imageUrl = $matches[2];
522
            $localPath = $downloader->download($imageUrl, $articleId, $createYear);
523
            return "![{$altText}]({$localPath})";
524
        },
525
        $content
526
    );
527

528
    // 处理附件链接：[文字](url)
529
    $content = preg_replace_callback(
530
        '/\[([^\]]+)\]\(([^\s)]+)\)/',
531
        function($matches) use ($downloader, $articleId, $createYear) {
532
            $linkText = $matches[1];
533
            $fileUrl = $matches[2];
534
            $localPath = $downloader->download($fileUrl, $articleId, $createYear);
535
            if ($localPath !== $fileUrl) {
536
                return "[{$linkText}]({$localPath})";
537
            }
538
            return $matches[0];
539
        },
540
        $content
541
    );
542

543
    // 移除引用定义行
544
    $content = preg_replace('/^\s*\[[^\]]+\]:\s*\S+.*$/m', '', $content);
545

546
    // 清理多余空行
547
    $content = preg_replace('/\n\s*\n\s*\n/', "\n\n", $content);
548

549
    return trim($content);
550
}
551

552
/**
553
 * 文件名清理函数
554
 *
555
 * @param string $filename 原始文件名
556
 * @return string 清理后的安全文件名
557
 *
558
 * 功能：
559
 * 1. 替换非法字符为连字符
560
 * 2. 限制文件名长度不超过80个字符
561
 * 3. 去除文件名两端的点和连字符
562
 */
563
function sanitize_filename($filename) {
564
    // 定义需要替换的非法字符
565
    $invalid = array(" ", "?", "\\", "/", ":", "|", "*", "\"", "<", ">");
566
    $filename = str_replace($invalid, '-', $filename);
567

568
    // 限制文件名长度，避免过长的文件名
569
    $filename = mb_substr($filename, 0, 80, 'utf-8');
570

571
    // 去除文件名两端的点和连字符（避免隐藏文件或非法文件）
572
    return trim($filename, '.-');
573
}
574
?>

👆完整复制上方代码，保存命名为typecho-export-md.php 文件。

使用方法步骤#

第 1 步：准备链接文件#

从 Google Search Console 或其他渠道获取高流量页面 URL 列表，创建一个名为 links.txt 的文件，每行一个完整的文章 URL，例如：

1
https://www.moewah.com/archives/123.html
2
https://www.moewah.com/archives/456.html

第 2 步：配置数据库连接#

用文本编辑器打开 typecho-export-md.php，找到 $dbConfig 数组，修改以下配置：

host：Typecho 数据库主机地址（通常是 localhost）
name：Typecho 数据库名
user：数据库用户名
pass：数据库密码
siteDomain：你的网站域名（用于构建完整的图片/附件 URL）

第 3 步：调整导出选项（可选）#

根据需要调整其他配置项：

baseDir：导出文件存放的目录（默认 astro_posts）
image：文章封面图片配置（默认 'api' 使用 Firefly 主题内置随机二次元图片 API）
downloadMedia：是否下载媒体资源（图片/附件）到本地
ignoreFirstImage：是否忽略第一张图片（头图）

第 4 步：运行导出脚本#

将 typecho-export-md.php 和 links.txt 上传到网站根目录（两文件放在同一目录），通过命令行或浏览器访问该 PHP 文件（确保 PHP 环境支持）。例如在命令行中：

1
php typecho-export-md.php

第 5 步：获取导出结果#

程序运行后，会在当前目录下创建 astro_posts 文件夹（或你指定的目录），其中按分类存放了所有导出的 Markdown 文件，同时图片和附件会按年份/文章ID组织在 images/ 和 attachments/ 子目录中。

第 6 步：导入 Astro 项目#

将导出的 astro_posts 整个文件夹复制到你的 Astro 项目的 src/content/blog/（或你配置的 content 目录）下，即可直接使用。Frontmatter 已适配 Astro 5.0 标准，并兼容 Firefly 主题。

核心配置说明#

配置项	默认值	说明
`host`	`'localhost'`	Typecho 数据库主机地址
`name`	`'数据库名'`	Typecho 数据库名称
`user`	`'数据库用户名'`	数据库用户名
`pass`	`'数据库密码'`	数据库密码
`baseDir`	`'astro_posts'`	导出文件存放的根目录
`image`	`'api'`	文章封面图片配置。`'api'` 表示使用 Firefly 主题内置的随机二次元图片 API；可改为其他图片 URL 或留空 `''` 不生成 image 属性
`downloadMedia`	`true`	是否下载图片和附件到本地
`ignoreFirstImage`	`true`	是否忽略第一张图片（头图），跳过下载且删除引用标记
`maxFileSize`	`10 * 1024 * 1024`	下载文件大小限制（10MB）
`timeout`	`30`	下载超时时间（秒）
`retryCount`	`2`	下载失败重试次数
`skipFailed`	`true`	跳过失败的下载（保留原 URL）
`userAgent`	`'Mozilla/5.0 (Typecho Exporter)'`	下载时使用的 User-Agent
`linksFile`	`'links.txt'`	文章链接列表文件路径（相对于脚本所在目录）
`siteDomain`	`'https://www.moewah.com'`	网站域名，用于构建完整的图片/附件 URL（重要！）

结语#

这个工具帮助你从 Typecho 中精准导出 有价值的文章，并自动处理媒体资源，生成完全适配 Astro 5.0 + Firefly 主题 的 Markdown 文件。通过结合 Google Search Console 的数据，你可以在搬家时专注于保留真正带来流量和价值的页面，避免无谓的数据迁移。

如果你在使用过程中遇到问题，请检查以下几点：

数据库连接信息是否正确
PHP 是否已安装 MySQL PDO 扩展
links.txt 文件是否存在且格式正确
网站域名配置是否与图片/附件的原始域名一致

祝你的博客迁移顺利，在新平台上焕发新生！