• 2008-12-20

    Blogbus导出日志的XML文件格式分析 - [IT科技]

    版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明
    http://sunnantechnology.blogbus.com/logs/32745724.html

    Blogbus有一个很不错的功能“导出日志”,该功能可以将你所有的博客文章导出为XML格式以便备份和编辑。今天我们就来讲一讲导出日志的XML文件格式。

    首先我们把自己的博客导出,步骤如下:
    1、登录blogbus
    2、选择博客->博客设置->导入导出->点这里导出日志
    3、保存XML文件

    然后我们就可以分析XML文件格式了,用IE,Firefox或Visual Studio将备份文件打开,便可以看到它的结构:

    <BlogBusCom dtype="BlogData" SchemaVersion="1.1" Creator="BlogBus.Com BlogSystem V4.0">
    // 导出文件的数据类型,版本和出处
        <Description> // 博客描述
            <BlogName>博客名称,例如:孙楠的技术讲堂</BlogName>
            <DomainName>博客地址,例如:sunnantechnology.blogbus.com</DomainName>
            <ExportTime>导出的时间,格式为:2008-12-20 15:43:26</ExportTime>
        </Description> // 描述结束
        <Log>
    // 博客日志
            <Title>日志标题,例如:Blogbus导出日志的XML文件格式分析</Title>
            <Status>
    日志状态,控制隐藏和置顶,隐藏为0,正常为1,置顶为2</Status>
            <AllowComment>
    评论,Y为允许,N为不允许</AllowComment>
            <AllowPing>
    引用,Y为允许,N为不允许</AllowPing>
            <AllowLinks>
    自动链接,Y为允许,N为不允许</AllowLinks>
            <Writer>作者姓名,可以为空</Writer>
            <Sort>分类,为什么用Sort,Catalog不是更好?</Sort>
            <Content>日志内容,包括html格式</Content>
            <Excerpt>日志摘要,包括html格式</Excerpt>
            <Tags>关键词,关键词之间用空格分隔</Tags>
            <LogDate>日志时间,格式为:2008-04-17 13:40:00</LogDate>
            <Comments> // 这个标记做什么用?可以省略吗?
                <Comment>
    // 博客评论
                    <Email>评论者的邮件地址</Email>
                    <HomePage>评论者的主页地址</HomePage>
                    <CreateTime>评论时间,格式为:2008-12-19 21:45:48</CreateTime>
                    <NiceName>评论者的姓名</NiceName>
                    <CommentText>评论的内容和回复,无html格式</CommentText>
                </Comment>
    // 评论结束
                <Comment>...</Comment> // 更多评论
            </Comments>
    // 这个标记做什么用?可以省略吗?
        </Log> // 日志结束
        <Log>...</Log> // 更多日志
    </BlogBusCom> // 导出文件结束


    Blogbus的XML导出文件结构简单清晰,易读易维护,设计得不错。但是关于<Comments></Comments>这个标记,真的需要吗?

    1、首先不可能是排序用,日志和评论都以时间排序,而时间都已经有了相应的标记
    2、如果是要把评论按照每篇日志分开,似乎也没有必要,毕竟每个<Comment></Comment>都在<Log></Log>里面

    思来想去,我感觉比较可能的作用是,在批量处理评论的操作中,可以节省时间。操作数可以从评论条数,减少到日志条数。但是从算法来说,都是O(n),真正效果如何,就要实测了。

    另外:
    1、日志的顺序可能与博客上看到的顺序不同,但是不会影响导入后的结果。这是由XML的特性决定的。
    2、有了XML可以批量删除不必要的html标记,比如将>&nbsp;<批量替换为><,也可以把搬家时丢失的评论加进去,当然最重要的功能还是存档啦。


    收藏到:Del.icio.us




    评论

  • 学习来了