Ubuntu下载在线文档并转换为Markdown

AI大语言模型

开发中经常需要查询文档,在线文档人类使用很方便,给机器人使用可能下载到本地更适合。如果没有LLMs文档,或Markdown文档可供使用,可以使用以下命令批量下载HTML文档:

wget -r -np -k -E -A html https://docs.beizige.com/

安装html2text:

sudo apt install html2text

创建转换脚本html2md.sh:

find . -name "*.html" -exec sh -c '
  file="$0"
  base=$(basename "$file")
  dir=$(dirname "$file")

  if [ "$base" = "index.html" ]; then
    parent=$(basename "$dir")
    if [ "$parent" = "." ] || [ "$parent" = "/" ]; then
      out="index.md"
    else
      out="./${parent}.md"
    fi
  else
    name="${base%.html}"
    out="./${name}.md"
  fi

  html2text "$file" > "$out"
  echo "生成: $out"
' {} \;

将脚本放在与文档同一目录,然后开始转换:

sh html2md.sh
AI大语言模型