Skip to content

Latest commit

 

History

History
129 lines (90 loc) · 5.98 KB

README.md

File metadata and controls

129 lines (90 loc) · 5.98 KB

中医开源医典

Traditional Chinese Medicine Open Classics

中医开源医典希望可以构建一个开源的中医资料库和语料库。目前的重点是收录尽可能多的中医典籍、书籍,并整理出一套元数据结构以及相关工具,并建立开源工作流来帮助资料修订和完善。

分门别类

关于中医古籍分类,可以参考2007年出版的《中国中医古籍总目》,这个总目包括了1949年以前出版的医书13455中。总目对这些古籍进行了顺序编号,并且进行了详细的分类。这基本涵盖了我们可能收录中医古籍的绝大部分,因此我们可以使用这本书的分类为指导,并且使用这本书已有的书籍编号。

经过对比,《中醫笈成》的分类方法是借鉴了《中国中医古籍总目》的,因此直接使用《总目》的分类方法应该更合理。

具体内容可以查看详细分类文件,以下是12个一级分类:

  1. 医经类
  2. 基础理论
  3. 伤寒金匮
  4. 诊法类
  5. 针灸推拿
  6. 本草
  7. 方书
  8. 临证各科
  9. 养生
  10. 医案医话医论
  11. 医史
  12. 综合性著作

文献文件结构

文件名

每一本古籍都应该是一个独立的文件,文件名按照规则撰写,文件名中不应包含空格。文件名可以使用以下规则:

(<编号>).<类别>.《<书名>》[(<卷数>)].<作者>.[朝代/年代].md
  • 编号 包括两部分,第一部分为类别编号,如1.2.2,第二部分为书籍编号,如00169(可包含版本编号),中间用-分隔;
    • 如果「书籍编号」不可用,比如《总目》未收录本书,则以2开头的五位数字进行顺序编号;
  • 类别 为上面提到的总目所属类别,三级都应该包含其中,可以用-分隔,比如: 医经-素问-注释
  • 书名 为该古籍的正式名称;
  • 卷数 对于有卷数的古籍可以标明卷数;
  • 作者 为该古籍的最早的撰写者,如无法考证,则可以使用最早的编辑者;
  • 朝代/年代 有明确出版年份的,可以写公历年份,否则可以写所属朝代,如果时间不详则可省略。
  • .md 文件扩张名为 .md 是标明该文件是 Markdown 文件格式。

例如:

(1.2.2-00168.1).医经-素问-注释.《(新刊)补注释文黄帝内经素问》(十二卷).王冰.唐.md

文件内容

文件分为两部分,头部为文献元数据,其后才是文献正文。

文献元数据

文献元数据使用front-matter的形式在文件开头以YAML的格式标注。

每个文献应该提供一些元数据,用于检索以及整理。如:

  • title: 书名
  • author: 作者
  • era: 朝代。
  • date: 年代可以是精确年代,也可以是一个年代范围,起止年数字间用~间隔
  • version: 版本
  • category: 类别
  • chartype: 繁体 或者 简体
  • tags: 标签

文献正文内容

文献可以考虑使用 Markdown 语法进行不同结构文字的表达,比如标题、段落、序言、列表等。文字不使用换行来对齐,换行仅表示段落结束。

对于汉字繁体简体字的问题,如果文献有繁体字,那么尽量使用繁体字,如果只有简体字版本,可以使用简体字,需要在元数据 chartype 中标识出来。

示例

---
title: 海药本草
author: 李珣
date: 907~930
era: 五代 - 前蜀
version:
category: 本草类
chartype: 简体
tags:
---

# 海药本草

## 玉石部卷第一

### 玉屑

按《异物志》云∶出昆仑。又《淮南子》云∶出钟山。又云蓝田出美玉,燕口出璧玉。味咸,寒,无毒。主消渴,滋养五脏,止烦躁,宜共金银、麦门冬等同煎服之,甚有所益。《仙经》云∶服玉如玉化水法,在《淮南三十六水法》中载。又《别宝经》云∶凡石韫玉,但夜将石映灯看之,内有红光,明如初出日,便知有玉。《楚记》∶卞和三献玉不鉴,所以遭刖足。后有辨者,映灯验之,方知玉在石内,乃为玉玺,价可重连城也。(《大观》卷三页9,《政和》页82,《纲目》页614)

### 车渠

《韵集》云∶生西国,是玉石之类,形似蚌蛤,有文理。大寒,无毒。主安神镇宅,解诸毒药及虫螫。以玳瑁一片、车渠等,同以人乳磨服,极验也。又《西域记》云∶重堂殿梁檐,皆以七宝饰之,此其一也。(《大观》卷三页37,《政和》页96,《纲目》页1647)

语料库工具集

  1. 对于语料库的生成,可以对 Markdown 进行解析,然后按照特定格式生成文本文件。
  2. 对于繁体语料库,需要一个工具进行繁体简体转换;
  3. 生成文献分目、分标签的静态页面,可以考虑实现检索;

当前任务规划

  1. 对从 TCM-Ancient-Books 而来的文献按照文件名标准进行重命名;
  2. 按照文献结构,填写元数据 meta 信息;
  3. 整理文献内容,按照文献格式,根据 Markdown 格式改写文献内容;
  4. 实现语料库工具;

文献资料参考