百度發佈“千言”計劃 未來3年共建100個NLP數據集

8月25日百度大腦語言與知識技術峰會在線上召開,百度聯合中國計算機學會、中國中文信息學會共同發佈“千言數據共建計劃。同時,百度技術委員會主席吳華髮布了算力共享計劃,希望通過數據集的共建與算力的共享,與學界產業界共同推進技術進步。

據瞭解,“千言”項目第一期已涵蓋7大任務、20餘個中文開源數據集,由百度攜手哈工大清華中科院信息工程研究所等在內的10所頂級高校企業共同建設完成。

截至目前,第一期千言項目已涵蓋了7大任務、20餘個中文開源數據集,包括開放域對話、閱讀理解、機器同傳、情感分析語義解析、信息抽取和文本相似度等。

吳華表示,在未來3年中,千言計劃面向超20個任務,收集和建設不少於100箇中文自然語言處理數據集,覆蓋多個領域