Facebook 把自家 NLP 框架 PyText 开源,

2020-05-21 作者: 围观:458 67 评论

如果要在 Machine Learning / Deep Learning 上面应用文字资料,其中一个很麻烦的过程是 Word Embedding ,还有对于 LSTM 的设定、文字资料的清理往往都令 Data Scientist 花很多时间。不少人都希望有一个通用式的框架可以处理 NLP 需求,而 Facebook 亦正式回应这个诉求。早前他们把内部的 NLP 框架 PyText 开源,除了令文字学习更简单,亦可以结合 Caffee2 应用在不同产品上面。

PyText 是基于 PyTorch 的一个 NLP 专用框架,可以用简单的指令进行训练。Facebook AI Research 公布这个开源框架是用于 Facebook 本身的 Portal 语音通话以及 Facebook Messenger 的推荐功能,换句话说这是Facebook 内部亦使用的一个 Machine Learning Model 。

在 PyText 现有的框架内,已经可以实现大量不同的功能例如是资料分类,内容重点抓取等等,同时可以结合现有的 AWS / Google Cloud 平台进行学习,毕竟这是一个很简单的 Python Library ,能在不同的装置上面运作。官方也有利用 Flask + PyText 去设计 Web App 的例子。

如果你是大量使用  ONNX and Caffe2 ,PyText 更支援直接的 API 接口,令你开发更容易,有兴趣的开发者可以到这个 GitHub 直接下载程式码。

Facebook 把自家 NLP 框架 PyText 开源,