c# 提取文檔信息的示例
事情時這樣,有用友u8的字典數(shù)據(jù)的幫助文檔一份,同事需要把里面的很多張表的字典信息給提取出來,然后構(gòu)成sql語句,插入數(shù)據(jù)庫。字典就是一張對表里的字段的一個說明,長這樣

同事一開始是手動復(fù)制到excel文檔在改的,他問我有沒有什么簡單的辦法,所以我就決定用代碼去實現(xiàn),把表格、表名等一些有效數(shù)據(jù)構(gòu)成對象,有了一個對象就好寫sql了。
首先,我在百度上搜索,發(fā)現(xiàn)這個chm幫助文檔能被反編譯成html,經(jīng)過一番操作,使用windows自帶的工具 hh.exe 就可以實現(xiàn)幫助文檔的反編譯。運行cmd,直接輸入命令就行,具體命令是這樣:
hh -decompile d:\test\help help.chm
d:\test\help是反編譯后的目錄。
反編譯之后,就會得到具體的html文檔,和js、css,長這樣:

test目錄是我自己建的。
后面就是查看html源碼,分析出關(guān)鍵信息的xPath路徑該怎么寫,因為這里我用到了.net的一款工具專門對html操作的,叫做:HtmlAgilityPack,我的翻譯是:html敏捷開發(fā)包,寫xpath比寫正則來的容易,這個包能很好的操作html的節(jié)點,獲取html、innertext、屬性。
貼上我的關(guān)鍵方法:
public TableInfo GetTableInfo()
{
TableInfo tab = new TableInfo();
HtmlDocument doc = new HtmlDocument();
doc.Load(FullPathName, Encoding.GetEncoding("gb2312"), true);
if (doc == null)
{
throw new NullReferenceException(FullPathName + "\r\n沒有加載出文檔");
}
string pathGetTableName = "/html/head/title";
string pathGetTableDesc = "/div/p";
String pathGetTd = "/div/table/tr";
var nodeTitle=doc.DocumentNode.SelectSingleNode(pathGetTableName);
if (null != nodeTitle)
{
tab.TableName = nodeTitle.InnerText.Split(new char[1] { ' '})[0].Replace("\r", "").Replace("\n", "").Replace("\t", "").Replace("&", "").Replace("nbsp;", "");
}
var nodeBody = doc.GetElementbyId("pagebody");
var str = nodeBody.OuterHtml;
var doc1 = new HtmlDocument();
doc1.LoadHtml(str);
var nodeDesc = doc1.DocumentNode.SelectSingleNode(pathGetTableDesc);
if (null != nodeDesc)
{
tab.tableDescription = nodeDesc.InnerText.Split(new char[1] { ' ' })[0].Replace("\r","").Replace("\n", "").Replace("\t", "").Replace("&", "").Replace("nbsp;", "");
}
var nodesTr = doc1.DocumentNode.SelectNodes(pathGetTd);
if (nodesTr == null)
{
return tab;
}
List<TabFieldInfo> lists = new List<TabFieldInfo>();
for (var i = 1; i < nodesTr.Count(); i++)
{
var childs = nodesTr[i].ChildNodes;
if (childs == null)
{
continue;
}
TabFieldInfo fi = new TabFieldInfo();
if (childs.Count <= 5)
{
continue;
}
fi.ColumnName = childs[1].ChildNodes[1].InnerText.Replace("\r", "").Replace("\n", "").Replace("\t", "").Replace("&", "").Replace("nbsp;", "");
fi.Description = childs[2].InnerText.Replace("\r", "").Replace("\n", "").Replace("\t", "").Replace("&", "").Replace("nbsp;", "");
fi.Datatype = childs[3].InnerText.Replace("\r", "").Replace("\n", "").Replace("\t", "").Replace("&", "").Replace("nbsp;", "");
fi.Length = childs[4].InnerText.Replace("\r", "").Replace("\n", "").Replace("\t", "").Replace("&", "").Replace("nbsp;", "");
fi.AllowNulls = childs[5].InnerText.Replace("\r", "").Replace("\n", "").Replace("\t", "").Replace("&", "").Replace("nbsp;", "");
lists.Add(fi);
}
tab.fields = lists;
return tab;
}
這里還出現(xiàn)一個問題,“指定的路徑不合法”,原因是,我直接點擊文件右鍵-》屬性-》安全 把那里的文件路經(jīng)復(fù)制到代碼上去了,其實這樣復(fù)制,會造成路徑字符串最開始的地方有個特殊字符,在vs里是隱藏的,后來我就復(fù)制地址欄上的路徑,就沒問題了。
最后,需要完善的是,通過讀取目錄,把目錄中的所有html結(jié)尾的文件遍歷,并過濾出需要的表,在構(gòu)建對象。
以上就是c# 提取文檔信息的示例的詳細(xì)內(nèi)容,更多關(guān)于c# 提取文檔信息的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
List轉(zhuǎn)換成DataSet實現(xiàn)代碼
怎樣把List轉(zhuǎn)換成DataSet本人很是疑惑,于是搜集整理一番,需要的朋友可以參考下2012-12-12
C#實現(xiàn)向數(shù)組指定索引位置插入新的元素值
這篇文章給大家介紹了利用C#實現(xiàn)向數(shù)組指定索引位置插入新的元素值,首先需要定義一個一維數(shù)組,然后修改數(shù)組的長度,從而在其中增加一個元素,需要的朋友可以參考下2024-02-02
C#實現(xiàn)批量Word轉(zhuǎn)換Html的示例代碼
這篇文章主要為大家詳細(xì)介紹了如何利用C#批量Word轉(zhuǎn)換Html的功能,文中的示例代碼講解詳細(xì),對我們學(xué)習(xí)C#有一定的幫助,感興趣的小伙伴可以跟隨小編一起了解一下2022-12-12
winform中寫app.config文件時調(diào)試情況下沒有改變的原因
讀取很簡單基本都用過 ConfigurationManager.AppSettings[""].ToString() 寫config不是很常用2013-02-02

