Ubuntu下载在线文档并转换为Markdown
开发中经常需要查询文档,在线文档人类使用很方便,给机器人使用可能下载到本地更适合。如果没有LLMs文档,或Markdown文档可供使用,可以使用以下命令批量下载HTML文档:
wget -r -np -k -E -A html https://docs.beizige.com/
安装html2text:
sudo apt install html2text
创建转换脚本html2md.sh:
find . -name "*.html" -exec sh -c '
file="$0"
base=$(basename "$file")
dir=$(dirname "$file")
if [ "$base" = "index.html" ]; then
parent=$(basename "$dir")
if [ "$parent" = "." ] || [ "$parent" = "/" ]; then
out="index.md"
else
out="./${parent}.md"
fi
else
name="${base%.html}"
out="./${name}.md"
fi
html2text "$file" > "$out"
echo "生成: $out"
' {} \;
将脚本放在与文档同一目录,然后开始转换:
sh html2md.sh

