博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
科研项目之经验之谈
阅读量:6253 次
发布时间:2019-06-22

本文共 521 字,大约阅读时间需要 1 分钟。

preface:在走着走着的道路上。总会有些想法或者总结的念头,便想要记录下来。以备不时之需。ps:卤主搞自然语言处理相关,仅这块有些想法。

一、学好理论基础

卤主等有想法再些。

二、从数据入手,分析数据,看准须要实现的目标

不管科研还是工作。大同小异:做东西。

在掌握基本方法(SVM, HMM, CRF, RF, LR等分类,聚类,回归工具)与工具(语言工具python,分词工具ictclas, crfsutie, libsvm等)之后,就可開始着手做东西了。

分析数据乃其一比較重要的一步,至少卤主这么认为,尽管没做出几个大的东西。分析数据。了解数据特性,知道其是如何的格式,是否有异常数据,数据是否足够多,是否须要引入外部数据(人名、地名字典,停用词表。疾病名数据库MESH等等)。

对数据进行分析,学会用中间数据,剔除异常数据,在清理后的中间数据開始行动。

三、结合方法取特征

特征分析。重要的一环。

四、优化程序调试參数

从第二步就要開始coding,程序太慢了,跑一遍花了几个小时才看到结果,等你调试完了,改了个參数,又跑,又是几个小时,肯定不行的了。

此为其一:能保证程序较快地跑完。得到结果,不断地调试。

待续。。。。。。

转载地址:http://dnysa.baihongyu.com/

你可能感兴趣的文章
Java规则引擎及JSR-94[转]
查看>>
【c学习-13】
查看>>
转:最全列表: 80 多个 Linux 系统管理员必备的监控工具
查看>>
给报表增加页眉
查看>>
Mysql配置参数说明
查看>>
python ----字符串基础练习题30道
查看>>
K 班1-7,alpha,beta 作业成绩汇总
查看>>
uva-10879-因数分解
查看>>
写了一个bug----使用已经被删除的内存
查看>>
清空表且自增的id重新从0开始
查看>>
[杂记]如何在LaTeX里插入高亮代码
查看>>
解决数据架构难点数据分布的六种策略
查看>>
mysql 存储过程创建
查看>>
centos7 composer安装
查看>>
「常微分方程」(阿諾爾德) Page 6 問題4 經過擴張相空間的每一點有且僅有一條積分曲線...
查看>>
同一个闭区间上有界变差函数的和与积都是有界变差函数
查看>>
java安全证书配置
查看>>
uikit学习
查看>>
使用erlang 建立一个自动化的灌溉系统(1)准备工作
查看>>
python 调用aiohttp
查看>>