因特网特定网址(www.xinhuanet.com)语料采集工具的设计与实现*

孙雄勇

(中国科学院声学研究所 100080

 

摘要:本文以作者的毕业设计为背景。首先介绍了毕业设计的意义,随着网络技术的飞速发展,网络时代的到来已经不可避免。网络已然成为人们生活中越来越重要的一部分。然后介绍了毕业设计的操作步骤以及预期的结果。最后,重点介绍已经完成的部分:语料采集工具的设计与实现。在这里,首先介绍这个工具的基本编写过程以及所依据的具体知识。然后介绍程序执行时的界面设计。界面设计是依照新华网主题新闻页面分类新闻来相应分类的,共做了九个选项:全部,今日热点,中国新闻,国际新闻,财经新闻,体育新闻,科教新闻,文娱新闻,IT新闻。最后介绍实现过程及其结果,文章内容以文本文件形式存入硬盘。



* 本文得到973项目“G1998030506”的支持