8月25日百度大腦語言與知識技術峰會在線上召開,百度聯合中國計算機學會、中國中文信息學會共同發佈“千言”數據共建計劃。同時,百度技術委員會主席吳華髮布了算力共享計劃,希望通過數據集的共建與算力的共享,與學界、產業界共同推進技術進步。
據瞭解,“千言”項目第一期已涵蓋7大任務、20餘個中文開源數據集,由百度攜手哈工大、清華、中科院信息工程研究所等在內的10所頂級高校、企業共同建設完成。
截至目前,第一期千言項目已涵蓋了7大任務、20餘個中文開源數據集,包括開放域對話、閱讀理解、機器同傳、情感分析、語義解析、信息抽取和文本相似度等。
吳華表示,在未來3年中,千言計劃面向超20個任務,收集和建設不少於100箇中文自然語言處理數據集,覆蓋多個領域。